close

Вход

Забыли?

вход по аккаунту

?

Алгоритмизация процедур включения связанных лексем в структуру информационно-терминологического базиса.

код для вставкиСкачать
Программные продукты и системы
ния системы в заданном состоянии. Показано, что
такая задача сводится к задаче нелинейной оптимизации скалярной функции многих переменных.
Указано на трудность получения как аналитического решения данной задачи, так и прямого использования численных методов ввиду возможной
большой размерности задачи. Предложен метод
приближенного нахождения границ интервала неопределенности для требуемой вероятности, использующий аппарат матричной алгебры, который
с вычислительной точки зрения представляется
более простым, чем прямое решение оптимизационной задачи. Действительно, операции даже с
матрицами размера 10 10 проще, чем поиск экстремума функции 20 и более переменных при наличии ограничений типа неравенств.
№ 4, 2009 г.
Литература
1. Гнеденко Б.В., Коваленко И.Н. Введение в теорию массового обслуживания. М.: Наука, 1987.
2. Куликов Г.Г., Флеминг П.Дж., Брейкин Т.В., Арьков
В.Ю. Марковские модели сложных динамических систем:
идентификация, моделирование и контроль состояния (на примере цифровой САУ ГТД). Уфа: УГАТУ, 1998.
3. Бояринов Ю.Г., Мищенко В.И. Основные направления
повышения эффективности полумарковских моделей производственно-экономических систем // Программные продукты и
системы. 2009. № 2. С. 144–148.
4. Вентцель Е.С., Овчаров Л.А. Теория случайных процессов и ее инженерные приложения. М.: Наука, 1991.
5. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. М.: Наука, 1974.
6. Дьяконов В.П., Круглов В.В. MATLAB 6.5 SP1/7/7
SP1/7 SP2 + Simulink 5/6. Инструменты искусственного интеллекта и биоинформатики. М.: СОЛОН-ПРЕСС, 2006.
АЛГОРИТМИЗАЦИЯ ПРОЦЕДУР ВКЛЮЧЕНИЯ СВЯЗАННЫХ ЛЕКСЕМ
В СТРУКТУРУ ИНФОРМАЦИОННО-ТЕРМИНОЛОГИЧЕСКОГО БАЗИСА
И.В. Ковалев, д.т.н.; М.В. Карасева, к.т.н.; В.О. Лесков
(Сибирский государственный аэрокосмический университет им. академика М.Ф. Решетнева,
г. Красноярск, kovalev.fsu@mail.ru)
В статье рассмотрены вопросы модификации адаптивного алгоритма структурирования базисного информационного компонента мультилингвистической адаптивно-обучающей технологии для применения методики обучения
иностранной лексике посредством построения внутриязыковых ассоциативных полей.
Ключевые слова: мультилингвистическая адаптивно-обучающая технология, информационно-терминологический базис, частотность, лексически связанные компоненты.
Методика обучения иностранной лексике на
основе лексически связанных (ЛС) компонентов
(ЛСК-методика) [1] строится на специально подготовленной информационно-терминологической
базе. Особенность данной методики состоит в том,
что она позволяет искусственно формировать
строго организованные системы внутриязыковых
ассоциативных связей непосредственно в процессе обучения иностранной лексике. Являясь при
этом частью мультилингвистической адаптивнообучающей технологии [2], ЛСК-методика также
учитывает языковые аналоги изучаемых лексем на
всем множестве языков, с которыми работает [3].
Построение информационно-терминологического базиса (ИТБ) [4] как совокупности лексически связанных компонентов (ЛС-компонентов) –
задача сама по себе неоднозначная. Многое зависит от требований, которые предъявляются к базису лингвистами и специалистами предметных
областей, привлеченными к разработке. Такими
требованиями могут быть фиксированное количество основных лексем или связанных лексем в
компоненте, время разработки базиса, его качество, оцениваемое по некоторым критериям, и т.д.
Перед тем как перейти непосредственно к алгоритмам формирования ИТБ ЛСК-методики,
следует кратко описать структуру ЛС-компонентов.
ЛС-компонент
Структура ЛС-компонента схематично представлена на рисунке.
Лексему, связанную со всеми без исключения
лексемами ЛС-компонента ИТБ, принято называть
3:
2:
2
3
12
1:
13
1
15
5:
5
14
4:
4
ЛС-компонент ИТБ
Лексемы: 1 – основная лексема; 2, 3, 4, 5 – связанные лексемы; лексические связи: 1–2, 1–3, 1–4, 1–5; количественные
характеристики: i – абсолютная частота i-й лексемы, ik –
абсолютная частота сочетания i–й и k-й лексем.
91
Программные продукты и системы
№ 4, 2009 г.
основной лексемой, лексемы, имеющие только
одну связь, – связанными лексемами.
Нисходящий алгоритм формирования
ЛС-компонентов
Рассмотрим разработанный ранее [1] нисходящий алгоритм (Н-алгоритм) формирования ЛСкомпонентов.
1. Подготовка ИТБ.
1.1. Для каждой лексемы ИТБ вычисляется
значение Li.
0,7
kk
qk μik
μik
1
Li e k
qi max ,
где ik – относительная частота сочетания i-й и k-й
лексем, отражающая силу ассоциативной связи;
qi – относительная частота, выражающая долю
лексической единицы в тексте, подвергшемся статистической обработке при составлении частотноqmax
i
го словаря, 0<qi<1, qi
, где qimax=max q{qi1,
V
qi2,…, qin} – абсолютная частота появления лексической единицы в тексте; qi1, qi2,…, qin – частоты
из мультилингвистического словаря, если речь
идет о мультилингвистической адаптивно-обучающей технологии [4].
1.2. ИТБ упорядочивается по убыванию значения Li (таким образом, чем меньше будет порядковый номер лексемы, тем выше вероятность
образования на ее основе ЛС-компонента).
1.3. Данные о лексических связях упорядочиваются по убыванию значения qk ik (тем самым
увеличивается вероятность попадания в ЛС-компонент тех из связанных лексем, которые более
всего могут улучшить качество ИТБ).
2. Поиск оптимального количества основных
лексем.
2.1. Осуществляется перебор возможного количества основных лексем k от 1 до значения,
равного объему ИТБ (возможно сужение интервала поиска разработчиком).
2.2. Для текущего значения k определяются
основные лексемы (k первых лексем ИТБ).
2.3. Для выбранных основных лексем определяются связанные лексемы (как правило, задается максимум их количества).
2.4. Подсчитывается значение функции каче0,7
k
ства. L(n)
qi e
k
qk μik
k
μik
Восходящий алгоритм формирования
ЛС-компонентов
В целом данный алгоритм показывает неплохие результаты как по качеству ИТБ, так и по
времени исполнения. Тем не менее, если обратиться к пунктам 2.2 и 2.3, становится очевидным,
что связанные лексемы определяются согласно
порядку основных лексем. Это может быть нерационально: естественно, что связанная лексема,
являясь частью одного ЛС-компонента, уже не
может быть частью другого, даже если она подходит ему больше (речь идет о конечном значении
L(n)). Таким образом, возникает задача о нахождении наиболее подходящих связанных лексем
для ЛС-компонентов в процессе их формирования.
Эту задачу можно решить от обратного, то
есть не подбирая для основных лексем связанные.
Алгоритмы формирования ЛС-компонентов,
реализующие данный принцип, будем называть
«Восходящими» (В-алгоритмы). При этом данные
о лексических связях (п. 1.3 Н-алгоритма) можно
не упорядочивать. Итак, структура В-алгоритма
будет следующей.
1. Подготовка ИТБ.
1.1. Для каждой лексемы ИТБ вычисляется
значение Li.
1.2. ИТБ упорядочивается по убыванию значения Li (таким образом, чем меньше будет порядковый номер лексемы, тем выше вероятность
образования на ее основе ЛС-компонента).
2. Поиск оптимального количества основных
лексем.
2.1. Осуществляется перебор возможного количества основных лексем k от 1 до объема ИТБ
(возможно сужение интервала поиска разработчиком).
2.2. Для текущего значения k определяются
основные лексемы (k первых лексем ИТБ).
2.3. Осуществляется перебор неосновных
(потенциально связанных) лексем, и для каждой
неосновной лексемы выбирается наиболее подходящая основная (из множества, сформированного
в п. 2.2) по критерию:
1
max , L(n) показыва-
i
ет сумму взвешенных вероятностей знания лексем
по всему базису, естественно, чем больше эта
сумма, тем более удачно построен базис.
2.5. Если перебор окончен, переходим к
пункту 2.6, иначе – возврат к пункту 2.1.
2.6. Определяем максимум функции качества
(оптимальное число основных лексем kmax).
92
3. Формирование ИТБ как совокупности ЛСкомпонентов (искомый ИТБ получается при прохождении пунктов 2.2 и 2.3 для kmax основных
лексем).
0,7
qk μik
q jμij
k
(k
ΔLi qi e
k
μik
) 1
Li
max .
Таким образом, вычисляется максимальный
прирост L(n), который обеспечивается вхождением текущей неосновной j-й лексемы как связанной
в ЛС-компонент, образованный i-й лексемой (как
правило, задается максимум количества связанных лексем).
Программные продукты и системы
№ 4, 2009 г.
2.4. Подсчитывается значение функции качества.
2.5. Если перебор окончен, переходим к
пункту 2.6, иначе – возврат к пункту 2.2.
2.6. Определяем максимум функции качества
(оптимальное число основных лексем kmax).
3. Формирование ИТБ как совокупности ЛСкомпонентов.
3.1. Незадействованные в ЛС-компонентах
лексемы из числа основных (kmax) помечаем как
неосновные. Нахождение наиболее подходящих
связанных лексем порождает свободные элементы
из числа потенциально основных лексем, что во
многом ухудшает L(n); поэтому не задействованные в ЛС-компонентах лексемы из числа основных (kmax) помечаем как неосновные.
3.2. Для полученного значения kmax основных
лексем осуществляем шаги 2.2 и 2.3 и тем самым
получаем искомый ИТБ.
Сравнительный анализ
приведенных алгоритмов
Проведем сравнение алгоритмов на трех ИТБ
одинаковой структуры, но различного объема [5].
Настраиваемые параметры базиса:
максимальное количество связей, приходящихся на одну лексему (10);
максимальное значение абсолютной частоты лексем (100/50000);
максимальное значение частоты сочетаний
лексем (20/50000);
объем материала, по которому произведен
частотный анализ (50000);
коэффициент связанности лексем (1).
В таблице 1 приведены результаты теста 1
(объем базиса – 1000 терминов).
В таблице 2 – результаты теста 2 (объем базиса – 2000 терминов).
В таблице 3 – результаты теста 3 (объем базиса – 5000 терминов).
Результаты тестирования для времени исполнения и L(n) приведены в сводной таблице 4.
Таблица 1
Параметры
Н-алгоритм
В-алгоритм
выхода
min L(n)
0,496118513639315 0,496118513639315
max L(n)
Количество:
основных
лексем
свободных
элементов
итераций
0,496118565143325 0,496118569546250
Время исполнения (с)
188
172
320
4981096
324
2000498500
3,41
130,75
Таблица 2
Параметры
выхода
min L(n)
max L(n)
Количество:
основных
лексем
свободных
элементов
итераций
Время исполнения
(ч:м:с:сс)
Н-алгоритм
В-алгоритм
0,994799407656066 0,994799407656066
0,994799517816764 0,994799524607485
410
394
545
19930343
00:00:18:22
538
21542653063
00:23:28:16
Таблица 3
Параметры
выхода
min L(n)
max L(n)
Количество:
основных
лексем
свободных
элементов
итераций
Время исполнения
(ч:м:с:сс)
Н-алгоритм
В-алгоритм
2,47712640220252
2,47712664878646
2,47712640220252
2,47712666142042
845
822
1867
124568303
00:01:17:50
1886
253340376005
04:35:58:57
Таблица 4
Показатели
качества
L(n) (1000)
L(n) (1000), %
L(n) (2000)
L(n) (2000), %
L(n) (5000)
L(n) (5000), %
t (1000), %
t (2000), %
t (5000), %
Н-алгоритм
В-алгоритм
0,00000005150401
100
0,000000110160698
100
0,00000024658394
100
100
100
100
0,000000055906935
108,54
0,000000116951419
106,16
0,0000002592179
105,12
38,34 * 102
76,7 * 102
213,65 * 102
Оценить, насколько улучшает структуру базиса тот или иной алгоритм, невозможно ввиду ограничений и специфики L(n), которая служит для
нахождения оптимального числа основных лексем
и не может использоваться как абсолютный показатель качества ИТБ; но можно, используя экстремальные значения этой функции, сравнить алгоритмы формирования ЛС-компонентов между
собой.
В таблице 4 приведены результаты трех экспериментов ( L(n)=max L(n)–min L(n)), согласно
которым В-алгоритм превосходит Н-алгоритм на
8,54; 6,16; 5,12 %, соответственно. Снижение этого превосходства сложно объяснить, поскольку
проведено всего три эксперимента. Можно предположить, что негативное влияние свободных
элементов из числа основных лексем (которые записаны как связанные) на L(n) становится сильнее
93
Программные продукты и системы
с ростом ИТБ и постепенно подавляет положительное влияние наиболее подходящих связанных
лексем. Поскольку ИТБ, с которыми работает
ЛСК-методика, предметно-ориентированы и их
объем, как правило, не превышает 5000 терминов,
ограничимся тем, что В-алгоритм превосходит
Н-алгоритм по качественным показателям на
5–10 %.
По времени исполнения заметна тенденция:
при увеличении объема ИТБ в n раз время исполнения алгоритмов возрастает в геометрической
прогрессии, причем для В-алгоритма это время
возрастает в n раз быстрее (исключая помехи на
больших объемах ИТБ).
Несмотря на большую негативную разницу по
времени исполнения, В-алгоритм формирует более качественную структуру ИТБ. Поскольку операция формирования ИТБ выполняется только
один раз, показатель качества много важнее времени исполнения алгоритма.
Таким образом, В-алгоритм может успешно
использоваться при формировании ИТБ как совокупности ЛС-компонентов. Единственным его
серьезным недостатком является не время исполнения, а то, что заранее невозможно предугадать,
сколько именно основных лексем будет в ИТБ.
Когда же разработчик выставляет жесткие требования к количеству основных лексем (ЛСкомпонентов) или когда важно время исполнения
(очень большие объемы ИТБ), следует использовать Н-алгоритмы формирования ЛС-компонен-
№ 4, 2009 г.
тов, в противном случае предпочтение следует отдавать В-алгоритмам.
Подытоживая, отметим, что в данной статье
проанализирован нисходящий алгоритм формирования ЛС-компонентов, выявлены его негативные
стороны, сформулирована задача улучшения качества ИТБ. В рамках ее решения разработан конкретный В-алгоритм, а также сформулированы
общие принципы работы восходящих алгоритмов
формирования ЛС-компонентов. Проведен сравнительный анализ алгоритмов формирования ЛСкомпонентов восходящего и нисходящего видов
на базе экспериментов над ИТБ различных размеров.
Литература
1. Ковалев И.В., Лесков В.О., Карасева М.В. Внутриязыковые ассоциативные поля в мультилингвистической адаптивно-обучающей технологии // Системы управления и информационные технологии. 2008. № 3.1 (33). С. 157–160.
2. Ковалев И.В. Системная архитектура мультилингвистической адаптивно-обучающей технологии и современная
структурная методология // Телекоммуникации и информатизация образования. 2002. № 3. С. 83–91.
3. Карасева М.В., Лесков В.О. Автоматизация формирования информационной базы мультилингвистической адаптивно-обучающей технологии // Вестник СибГАУ. 2007. № 4 (17).
С. 117–124.
4. Ковалев И.В., Огнерубов С.С., Лохмаков П.М. Программно-алгоритмические средства персонификации информационно-терминологического базиса в области аэрокосмической техники // Авиакосмическое приборостроение. 2007. № 9.
С. 67–72.
5. Лесков В.О. Комплекс программного моделирования
КПМ v. 1.0 М.: ВНТИЦ, 2008. № 50200802242.
ПРИМЕНЕНИЕ УНИФИЦИРОВАННЫХ ПРОГРАММНЫХ МОДУЛЕЙ
ПРИ РАЗРАБОТКЕ ТРЕНАЖЕРНЫХ СИСТЕМ
А.Н. Привалов, к.т.н.
(Тульский артиллерийский инженерный институт, alexandr_prv@rambler.ru)
Рассмотрена проблема разработки специального программного обеспечения тренажерных систем на основе
унифицированных программных модулей. Сформулированы модели оптимизации специального программного
обеспечения по критерию минимума избыточности программных модулей. Сформулированы математические модели унификации программных модулей.
Ключевые слова: тренажерная система, специальное программное обеспечение, унифицированный программный модуль, синтез оптимальных типовых модулей, задача унификации программных модулей.
Одной из задач при проектировании тренажерных систем (ТС) является разработка специального программного обеспечения (СПО). На основе анализа процессов, протекающих в подсистеме вычислительных средств (ВС) ТС при проведении тренировок, можно выделить следующие
задачи СПО:
математическое моделирование функций
управления специалистов, реакции управляемой
системы, динамики, бортовых систем и условий
функционирования управляемых объектов;
94
организация управления параллельно проводимых тренировок на базе ТС.
К СПО следует отнести программы, обеспечивающие выполнение задач ВС ТС (планирование
ресурсов ТС, реконфигурация вычислительной
системы, организация новых тренировок, ведение
информационной базы ТС и т.д.).
В ТС предъявляются высокие требования к
программной устойчивости при искажениях информации, сбоях и частичных отказах аппаратуры,
возникающих в процессе ее функционирования.
1/--страниц
Пожаловаться на содержимое документа