close

Вход

Забыли?

вход по аккаунту

?

Трансдуктивное обучение логистической регрессии в задаче классификации текстов.

код для вставкиСкачать
Программные продукты и системы
ся для пользователя компьютера стрессоформирующим фактором. Созданный в данной работе
алгоритм позволяет уменьшить стресс пользователя за счет ускорения работы запущенных им
приложений путем необходимого изменения их
приоритетов. Не изменяющиеся в течение достаточно длительного времени приоритеты приложений пользователя могут вызвать как снижение
скорости работы операционной системы с другими пользовательскими приложениями, так и нежелательное замедление выполнения ряда системных операций, обеспечивающих поддержку
работы пользовательских программ. Спокойное
состояние пользователя, которое передается по
каналам связи в систему управления компьютером, разрешает компьютеру выполнять текущие
задачи в режиме по умолчанию. Следовательно,
динамическое изменение приоритетов работающих приложений, исходя из потребностей пользователя, дает возможность гибко подстраиваться
под его требования и снижать психологическую
нагрузку при работе с компьютером.
В заключение отметим, что в настоящей работе
исследуется возможность применения дополнительного канала коммуникации человек–компьютер на основе использования оценки функционального напряжения и/или эмоционального
состояния пользователя для оптимизации управления компьютером. Сделан вывод, что использование предложенного эмоционального канала
управления компьютером в дополнение к уже существующим позволит заметно повысить эффективность его работы, приведет к сокращению времени, в течение которого пользователь вынужден
ожидать выполнения операционной системой своих заданий, к оптимизации функционирования
мультимедийных приложений, появлению новых
возможностей взаимодействия с операционной
системой (в том числе к улучшению вида и состояния интерфейса, включая графический), расширению функционала героя его компьютерных
УДК 004.852
№ 2, 2014 г.
игр и так далее. В дальнейшем это позволит обеспечить внедрение элементов контекстно-ориентированного взаимодействия в системы управления
компьютером или в целом в информационнокоммуникационные технологии.
Литература
1. Основы психофизиологии: учебник; [отв. ред.
Ю.И. Александров]. М.: ИНФРА-М, 1997. 349 с.
2. Физиология человека; [под ред. В.М. Смирнова]. M.:
Медицина, 2002. 608 с.
3. Сороко С.И., Трубачев В.В. Нейрофизиологические и
психофизиологические основы адаптивного биоуправления.
СПб: Политехника-сервис, 2010. 607 с.
4. Kaplan A.Ya., Lim J.J., Jin K.S., Park B.W., Byeon J.G.,
Tarasova S.U. Unconscious operant conditioning in the paradigm of
brain-computer interface based on color perception. Intern. J. Neuroscience. 2005, vol. 115, pp. 781–802.
5. Wolpaw J.R., McFarland D.J. Control of a twodimensional
movement signal by a noninvasive brain-computer interface in humans. Proc. Nat. Acad. Sci. USA, 2004, vol. 101 (51), pp. 17849–
17854.
6. Gao X., Xu D., Cheng M. et al. A BCI-Based Environmental Controller for the Motion- Disabled. IEEE Transactions on Neural Systems and Rehabilitation Engineering. 2003, vol. 11, no. 2,
pp. 137–140.
References
1. Aleksandrov Yu.I., ed. Osnovy psikhofiziologii [The basics
of psychophysiology]. Text book. Moscow, INFRA-M Publ., 1997,
349 p.
2. Smirnov V.M., ed. Fiziologiya cheloveka [Human physiology]. Moscow, Meditsina Publ., 2002, 608 p.
3. Soroko S.I., Trubachev V.V. Neyrofiziologicheskie i psikhofiziologicheskie osnovy adaptivnogo bioupravleniya [Neurophysiological and psychophysiological basics of adaptive
biocontrol]. St. Petersburg, Politekhnika-servis Publ., 2010, 607 p.
4. Kaplan A.Ya., Lim J.J., Jin K.S., Park B.W., Byeon J.G.,
Tarasova S.U. Unconscious operant conditioning in the paradigm of
brain-computer interface based on color perception. Intern. J. Neuroscience. 2005, vol. 115, pp. 781–802.
5. Wolpaw J.R., McFarland D.J. Control of a twodimensional movement signal by a noninvasive brain-computer interface
in humans. Proc. Nat. Acad. Sci. USA. 2004, vol. 101 (51),
pp. 17849–17854.
6. Gao X., Xu D., Cheng M. A BCI-based environmental
controller for the motion-disabled. IEEE Transactions on Neural
Systems and Rehabilitation Engineering. 2003, vol. 11, no. 2,
pp. 137–140.
Дата подачи статьи: 04.03.2014
ТРАНСДУКТИВНОЕ ОБУЧЕНИЕ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ
В ЗАДАЧЕ КЛАССИФИКАЦИИ ТЕКСТОВ
А.Г. Шаграев, аспирант; И.А. Бочаров, магистрант; В.Н. Фальк, д.т.н., профессор
(Национальный исследовательский университет «Московский энергетический институт»,
ул. Красноказарменная, 14, г. Москва, 111250, Россия,
alex-shagraev@yandex.ru bocharovia@gmail.com, falkvn@yandex.ru)
Во многих задачах текстовой классификации возникают проблемы с получением достаточного количества размеченных документов для обучающей выборки. При этом обычно имеется значительное количество доступных не-
114
Программные продукты и системы
№ 2, 2014 г.
размеченных текстов. В данной статье рассматривается метод, используя который, можно значительно улучшить качество классификации, имея довольно малую по сравнению с тестовой выборкой обучающую выборку.
Предложен нестандартный способ формирования признакового описания текстов на естественных языках, учитывающий специфику написания новостных текстов.
Помимо этого, рассматриваются модификации классического линейного метода решения задачи классификации
– логистической регрессии. Для оптимизации параметров логистической регрессии применяется модифицированный
метод стохастического градиентного спуска. При обучении регрессии используется модифицированный функционал
потерь, увеличивающий зазор между классами.
Предлагается также оригинальный метод трансдуктивного обучения логистической регрессии. Для его осуществления вводится специальный функционал качества для неразмеченной коллекции, который позволяет существенно
увеличить полноту классификации. Для проверки применимости разработанных модификаций метода логистической
регрессии используется процедура обратного скользящего контроля. По результатам приведенных в статье вычислительных экспериментов становится очевидным положительное влияние авторских модификаций метода логистической регрессии и трансдуктивного обучения на качество классификации.
Ключевые слова: машинное обучение, классификация текстов, линейные классификаторы, логистическая регрессия, трансдуктивное обучение.
TRANSDUCTIVE LEARNING LOGISTIC REGRESSION FOR THE TEXT CLASSIFICATION PROBLEM
Shagraev A.G., Postgraduate Student; Bocharov I.A., Undergraduate; Falk V.N., Dr.Sc. (Engineering), Professor
(National Research University “MPEI”, Krasnokazarmennaya St. 14, Moscow, 111250, Russian Federation,
alex-shagraev@yandex.ru bocharovia@gmail.com, falkvn@yandex.ru)
Received 04.03.2014
Abstract. In many classification problems there are difficulties with obtaining sufficient amount of labeled documents
for train set. At the same time, usually we have many unlabeled documents. This paper describes how to increase the quality
of classifier predictions when having relatively small train set in comparison with test set.
Non-standard method of forming feature vectors for natural language texts, using peculiar properties of news articles, is
described.
The paper also describes modifications of a classical linear classifier (logistic regression). We use a modification of stochastic gradient descent in order to optimize classifier’s parameters. In addition, we use modified loss functional (enlarging
the margin between classes) to train logistic regression.
Apart from that, we suggest original method of transductive learning for logistic regression classifier. To perform
transductive learning we define quality functional for unlabeled documents which helps to increase classification recall significantly. To test implemented modifications of logistic regression we use “inverse” cross-validation technique. Experimental results from using implemented modifications make the positive impact of authors’ modifications of logistic regression classifier and transductive learning on classification quality obvious.
Keywords: machine learning, text classification, linear classifiers, logistic regression, transductive learning.
Автоматическая классификация текстов– одна
из ключевых современных задач информационного поиска, возникающая при разработке поисковых систем, новостных агрегаторов, спам-фильтров и т.д. [1].
Несмотря на огромное количество публикаций,
посвященных способам решения этой задачи, вопрос применимости линейных классификаторов
до сих пор остается без удовлетворительного ответа: как правило, линейные классификаторы (наивный байесовский классификатор, метод Роккио
и др.) значительно уступают в качестве нелинейным [2].
Вместе с тем использование линейных моделей
во многих ситуациях является более предпочтительным благодаря таким их свойствам, как компактность, интерпретируемость, высокая скорость
применения и т.д.
В настоящей работе исследуются возможности
улучшения показателей качества классического
линейного метода классификации – логистической регрессии [3] для задачи классификации текстов.
Трансдуктивным называется обучение, в процессе которого известно множество объектов, для
которых необходимо получить предсказания. Та-
кое обучение применимо на практике и в ситуациях, когда это множество не фиксировано, но изменяется достаточно медленно для того, чтобы при
каждом изменении можно было подобрать модель
заново. Естественно, что в таких ситуациях может
оказаться оправданным применение именно линейных классификаторов в силу высокой скорости
их обучения.
Кроме того, оказывается, что трансдуктивное
обучение является хорошим способом построения
более качественных моделей в ситуациях, когда
размер обучающей выборки явно недостаточен.
Для подтверждения этого факта будем использовать процедуру обратного скользящего контроля
[4], заключающегося в том, что размеченная коллекция делится на k приблизительно равных по
размеру подмножеств, каждое из которых поочередно является обучающей выборкой, а объединение остальных – тестовой. Такой метод моделирует ситуацию, когда тестовый набор сильно
превосходит по количеству элементов обучающий в отличие от стандартной процедуры скользящего контроля, в которой каждое подмножество поочередно выступает в роли тестовой выборки, а объединение остальных – в качестве
обучающей.
115
Программные продукты и системы
№ 2, 2014 г.
Показатели качества рассматриваемых в настоящей работе методов исследуются на известной новостной коллекции Reuters-21578 [5].
Определения и постановка задачи
бинарной классификации
В данном разделе в основном приняты такие
же терминология и обозначения, как в [6]. Будем
считать, что заданы множество объектов X, множество ответов Y={–1, +1} и существует неизвестная целевая функция y*: X→Y, значения которой измерены на некотором конечном подмножестве X′⊂X. Множество пар Xl={〈x, y〉x∈X′,
y=y*(x)}, будем называть обучающей выборкой.
Множество объектов для простоты будем считать пространством m-мерных вещественных векторов, то есть X=Rm.
Необходимо построить решающую функцию a :
X → Y, принадлежащую некоторому классу функций Θ, которая была бы как можно более качественным приближением к целевой функции. Методом обучения µ будем называть функцию, ставящую в соответствие любой обучающей выборке
некоторую решающую функцию µ(Xl)=a.
Для измерения качества приближения целевой
функции используем стандартные метрики точности и полноты классификации, измеренные для
класса +1:
∑  a ( x ) = y = +1
P ( a, X ') =
x , y ∈X '
 a ( x ) = +1
∑
,
x, y ∈X '
R ( a, X ') =
x, y ∈X '
∑ [ y = +1]
,
x, y ∈X '
а в качестве интегральной меры качества – значение F1-меры:
P ( a, X ' ) ⋅ R ( a , X ' )
.
F1 ( a, X ') = 2 ⋅
P ( a , X ' ) + R ( a, X ' )
Здесь при помощи квадратных скобок обозна
1, P
чается пороговая функция: [ P ] = 
для любого

0, P
условия P.
Метрики будут измеряться методом многократного стратифицированного скользящего контроля.
Задачи мультиклассификации и нечеткой классификации (то есть задачи, в которых |Y|>2, а каждый объект может принадлежать более чем одному классу) будем сводить к нескольким задачам
бинарной классификации – по одной на каждый из
имеющихся классов. Метрики качества для этих
задач вычисляются отдельно по каждому классу, а
затем усредняются.
116
Для решения задач классификации текстов на
естественных языках необходимо разработать
способ представления текста в виде набора вещественных признаков. Другими словами, необходимо иметь возможность составлять признаковое
описание произвольного документа.
Будем считать, что при определении множества документов, для которых решается задача классификации, задаются непустое множество термов
W={w1, w2, …, wm} и множество документов
D={d1, d2, …, dN}, каждый из которых является
вектором
термов:
d i = wi1 , wi 2 , ..., wini
T
, 1≤i≤N
(множество всех различных слов, входящих в документ di, будем обозначать b(di)).
Введем функцию γ: N→[0, 1] и определим с ее
помощью функцию ω: D×W→R, значение которой
для документа di и слова wj равняется сумме значений функции γ по позициям вхождения слова wj
в документ di:
ni
ω ( di , w j ) = ∑ γ ( k ) ⋅ w j = wik  .
k =1
В настоящей работе значения функции γ определяются формулой
1 + exp ( − k1 k2 )
,
γ (i ) =
1 + exp ( − k1 ( k 2 + 1 − i ) )
где k1 и k2 – параметры алгоритма.
Таким образом, всякому документу di ставится
в соответствие последовательность
xi = ω ( d i , w1 ) , ω ( d i , w2 ) ,..., ω ( d i , wm )
 a ( x ) = y = +1
∑
Представление текстов
на естественных языках
T
,
которая и будет являться признаковым описанием
документа di.
Такой способ получения построения признакового пространства оказывается более адекватным
задаче классификации именно новостей, поскольку учитывает специфику их написания: как правило, новости содержат важные для рубрикации
слова именно в начале текстов. Значения параметров k1 и k2 можно выбирать по критерию скользящего контроля [4].
Логистическая регрессия
В методе логистической регрессии для задачи
классификации подбирается вектор коэффициентов b=〈w1, w2, …, wm〉T, который используется для
осуществления предсказаний:
1
f ( x) =
= σ ( x, b ) .
1 + exp ( − x, b )
Значения решающей функции в таком случае
определяются формулой a(x)=sign(f(x)–τ), где τ –
коэффициент, конкретное значение которого выбирается исходя из конкретных требований к по-
Программные продукты и системы
№ 2, 2014 г.
казателям качества решающей функции (как правило, с ростом τ увеличивается точность решения,
но уменьшается полнота). В частности, коэффициент τ можно выбирать таким образом, чтобы
значение F1-меры было максимальным.
В методе логистической регрессии параметры
модели подбираются оптимизацией величины
функционала потерь Q = ∑ L ( − y ⋅ b, x ) , где L
x, y ∈X l
– логит-функция: L(x)=log(1+exp(x)).
Выражение для частной производной функционала потерь по k-му компоненту вектора b запишется следующим образом:
y⋅ xk
∂Q
.
= ∑
∂bk
x , y ∈ X l 1 + exp ( − y ⋅ b, x )
Для нахождения величин bk, 1≤k≤m, используется метод градиентного спуска [2]. Впрочем, непосредственное применение метода градиентного
спуска на практике оказывается слишком трудоемким, поэтому используются стохастические методы градиентного спуска [7]. В настоящей работе
используется модифицированный метод стохастического градиентного спуска, в котором на каждой
итерации модификация производится с учетом
двух случайно выбранных документов, принадлежащих различным классам [8].
Кроме того, для достижения большего зазора
(margin) между классами используется модифицированный функционал потерь [8], в котором аргумент логит-функции смещается на величину o,
являющуюся параметром алгоритма, также определяемым методом скользящего контроля:
Q = ∑ L ( − y ⋅ b, x + o ) .
x, y ∈ X l
Трансдуктивное обучение
Рассмотрим теперь некоторое конечное множество объектов X′′⊂X, на элементах которого
значения целевой функции неизвестны. Оптимизация параметров модели с использованием объ-
ектов из множества X′′ классическим способом,
таким образом, невозможна.
Введем теперь иной функционал потерь, использующий элементы множества X′′:
Q = ∑ L ( − y ⋅ b , x + o ) + λ ∑ σ ( b, x ) ,
x, y ∈ X l
где
x∈ X ''
λ
– параметр алгоритма. Слагаемое
∑ σ ( b, x ) обеспечивает наличие положитель-
x∈ X ''
ных предсказаний на неразмеченной коллекции.
Таким образом, потенциальный эффект заключается в повышении полноты классификации на тестовом множестве, что особенно актуально в ситуации недостаточного размера обучающей выборки. При этом присутствие классического
функционала потерь не позволяет потерять в точности. Выбором величины коэффициента λ можно
регулировать соотношение приобретенной полноты и потерянной точности.
Результаты численных экспериментов
При проведении экспериментов рассмотрены
десять наиболее крупных рубрик. В качестве метрики используется средневзвешенная по рассматриваемым рубрикам величина F1-меры, вычисленная методом многократного стратифицированного
скользящего контроля [4]. При этом для демонстрации полезности предлагаемого метода в случае
чрезвычайно малой длины обучающей выборки
приводятся также результаты «обратного» скользящего контроля, когда только одно из подмножеств выступает в роли обучающего множества,
тогда как объединение всех остальных – в качестве тестового.
На графике приведены результаты измерения
качества классического метода логистической
регрессии (LR), стратифицированного метода логистической регрессии со смещениями (sbLR) и
трансдуктивного стратифицированного метода логистической регрессии (tsbLR). По горизонтальной оси отложена доля объектов выборки, отби-
1,00
0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
LR
sbLR
tsbLR
0,10
0,20
0,25
0,50
0,80
Результаты измерения качества классического метода логистической регрессии
Quality assessment results of logistic regression classical method
117
Программные продукты и системы
раемых в обучающую коллекцию. Например, если
эта доля составляет 0,10, то осуществляется разбиение выборки на десять подмножеств, каждое
из которых по очереди выступает в качестве обучающего множества, а объединение остальных – в
качестве тестового множества. Значение 0,80 соответствует стандартной процедуре скользящего
контроля по пяти подмножествам.
Из графика видно, что модифицированный метод логистической регрессии (sbLR) значительно
превосходит по качеству классический метод (LR)
в ситуациях, когда длина обучающей выборки мала по сравнению с длиной тестовой выборки. В
ситуации, когда обучающая выборка имеет достаточный размер, показатели методов сравниваются.
Таким образом, предлагаемый метод можно
использовать в ситуациях, когда получение достаточной по объему обучающей выборки по тем или
иным причинам невозможно.
Литература
1. Sebastiani F. Machine Learning in Automated Text Categorization. URL: http://nmis.isti.cnr.it/sebastiani/Publications/
ACMCS02.pdf (дата обращения: 05.01.2014).
2. Manning C.D., Raghavan P., Schütze H. Introduction to
Information Retrieval. Cambridge, England: Cambridge Univ.
Press, 2008.
3. Genkin A., Madigan D., Lewis David D. Sparse logistic
regression for text categorization-2005. URL: http://dimacs.rutgers.edu/Research/MMS/loglasso-v3a.pdf
(дата
обращения:
05.01.2014).
4. Воронцов К.В. Обзор современных исследований по
проблеме качества обучения алгоритмов. URL: http://www.
ccas.ru/frc/papers/voron04twim.pdf
(дата
обращения:
05.01.2014).
УДК 621.391.26
№ 2, 2014 г.
5. Lewis David D. Representation and Learning in Information Retrieval. PhD Thesis, Department of Computer Science,
Univ. of Massachusetts, 1992.
6. Воронцов К.В. Комбинаторные оценки качества обучения по прецедентам // Доклады РАН. 2004. Т. 394. № 2.
7. Bottou L. Large-Scale Machine Learning with Stochastic
Gradient Descent. URL: http://leon.bottou.org/publications/pdf/
compstat-2010.pdf (дата обращения: 05.01.2014).
8. Шаграев А.Г., Фальк В.Н. Линейные классификаторы
в задаче классификации текстов // Вестн. МЭИ. 2013. № 4.
C. 204–209.
References
1. Sebastiani F. Machine learning in automated text categorization. Available at: http://nmis.isti.cnr.it/sebastiani/Publications/
ACMCS02.pdf (accessed January 5, 2014).
2. Manning C.D., Raghavan P., Schütze H. Introduction to
information retrieval. Cambridge, England, Cambridge Univ. Press,
2008, 496 p.
3. Genkin A., Madigan D., Lewis David D. Sparse logistic
regression for text categorization-2005. Available at: http://dimacs.rutgers.edu/Research/MMS/loglasso-v3a.pdf (accessed January 5, 2014).
4. Vorontsov K.V. Obzor sovremennykh issledovaniy po
probleme kachestva obucheniya algoritmov [Reviews on modern
researches on learning algorithms quality problem]. Available at:
http://www.ccas.ru/frc/papers/voron04twim.pdf (accessed January
5, 2014)
5. Lewis David D. Representation and learning in information retrieval. PhD thesis, Department of Computer Science,
Univ. of Massachusetts, 1992.
6. Vorontsov K.V. Combinatorical qualitative assessment for
use case lerning. Doklady RАN [RAS reports]. 2004, vol. 394,
no. 2, pp. 75–178.
7. Bottou L. Large-scale machine learning with stochastic
gradient descent. Available at: http://leon.bottou.org/publications/
pdf/compstat-2010.pdf (accessed January 5, 2014).
8. Shagraev A.G., Falk V.N. Linear classifiers for the text
classifying problem. Vestnik MEI [The Bulletin of Moscow Power
Engineering Institute]. 2013, no. 4, pp. 204–209.
Дата подачи статьи: 28.02.2014
МЕТОДИКА ОПРЕДЕЛЕНИЯ ПОКАЗАТЕЛЕЙ КАЧЕСТВА
ОБНАРУЖЕНИЯ РАДИОЛОКАЦИОННЫХ СТАНЦИЙ
А.Ю. Платонов, начальник группы;
О.Н. Помазуев, зам. начальника управления
(Главное управление научно-исследовательской деятельности МО РФ,
ул. Профсоюзная, 84/32, г. Москва, 117997, Россия, romkord@yandex.ru, PLatoN.75@bk.ru);
А.М. Миронов, референт зам. министра обороны РФ
(МО РФ, ул. Знаменка, 19, г. Москва, 119160, Россия, ncuog@mail.ru);
Ф.Н. Абу-Абед, к.т.н., доцент
(Тверской государственный технический университет,
наб. Аф. Никитина, 22, г. Тверь, 170026, Россия, aafares@mail.ru);
А.Р. Рюмшин, к.т.н., с.н.с., старший научный сотрудник
(НИИ «Центрпрограммсистем», просп. 50 лет Октября, 3а, г. Тверь, 170024, Россия,
rvdopira@yandex.ru)
В настоящее время из-за широкого использования технологий снижения заметности излучаемый радиолокационный сигнал существенно отражается и поглощается. Таким образом, значительно уменьшается мощность поступающего на вход приемного устройства РЛС отраженного сигнала, что затрудняет обнаружение самолета либо другого объекта, выполненного по подобной технологии. В этих условиях сложно оценить показатели качества обнаружения малозаметных и малоразмерных целей.
118
Документ
Категория
Без категории
Просмотров
25
Размер файла
363 Кб
Теги
логистических, регрессии, обучения, текстом, трансдуктивном, классификация, задачи
1/--страниц
Пожаловаться на содержимое документа