close

Вход

Забыли?

вход по аккаунту

?

Использование методов

код для вставкиСкачать
МГУ им. М.В.Ломоносова
Научно-исследовательский
вычислительный центр
АНО Центр
информационных
исследований
Университетская информационная система
РОССИЯ
Лукашевич Н.В., Салий А.Д. , Добров Б.В.
Использование компьютерных технологий
для экспертизы терминологического
словаря в области государственного
финансового контроля
Терминологический проект
• Подготовка проекта словаря терминов и
понятий, используемых в осуществлении
государственного финансового контроля
- Договор со Счетной Палатой РФ
• Имеется проект словаря, предоставленный
специалистами СП,
– Род экспертизы
• Срок исполнения – 4 месяца (невозможно
без компьютерных технологий)
Наш опыт
• Работа с терминологией в широкой общественнополитической области: экономическая, правовая,
политическая, общенаучная, социальная и др.
терминология
• Общественно-политический тезаурус для
автоматического концептуального индексирования –
более 70 тысяч терминов
– Не нужно формулировать определения
– Изучая определения, нужно записать их в виде
совокупности отношений
Особенности ПО
«Государственный финансовый контроль»
• Государственный финансовый контроль –
– контроля за своевременным исполнением доходных и
расходных статей федерального бюджета и бюджетов
федеральных внебюджетных фондов;
– определение эффективности и целесообразности
расходов государственных средств и использования
государственной собственности.
• Предметная область - на стыке нескольких
областей: экономика, право, бухгалтерский
учет
• Проблема выделения границ области –
формирование списка терминов словаря
Формирование корпуса
• Бюллетень Счетной палаты РФ: 800 статей
– Загрузка в ИПС
• Поиск по словам
• Поиск по терминам
– Извлечение терминов
• Внутренние документы СП
– Извлечение терминов
Извлечение терминов
• Слова и словосочетания «простой структур»
– Сущ+сущ в род.падеже
– Прилагательное+существительное
– Тройки, составленные из таких выражений
• Длинные словосочетания или словосочетания,
включающие предложные группы
– Отчет о результатах проверки
– Закон о бюджете
– Функциональная классификация расходов бюджета
• Сопоставление с Общественно-политическим
тезаурусом
Самые частотные многословные
выражения, извлеченные по корпусу
•
•
•
•
•
•
•
•
•
•
•
•
•
Федеральный бюджет
Российская Федерация
Счетная палата
Федеральный закон
Общая сумма
Средства федерального бюджета
Областной бюджет
Денежные средства
Использование средств
Заработная плата
Минфин России
Бюджетные средства
Налоговый орган
Соотношение понятие-термин
• Понятие
• Однозначное название = термин в смысле
Теории терминологии – дескриптор в
тезаурусах
• Текстовые термины – аскрипторы
(синонимы) в тезаурусах
Типы терминов и организация словаря
• По возможности: словарная вход, к которому приписана
словарная статья, должен быть сформулирован однозначно
• Словарному входу могут соответствовать несколько
синонимических терминологических выражений
(указываются при словарной статье)
• В словарь вставляются статьи-отсылки от неосновных
терминов к соответствующим статьям словаря
• По возможности, значения многозначных терминов
описываются как отсылки к однозначным словарным
входам
• Ср. со структурой тезауруса
Принципы формирования словаря
• Принцип
1.
Термин
должен
соответствовать
фиксированному набору семантических и тематических
типов, разработанному на основе анализа нормативных
актов, регулирующих деятельность в данной предметной
области.
• Принцип 2. Описание терминов предметной области
должно быть системным.
• Принцип 3.
Важным
фактором, влияющим
на
включение/невключение
термина
в
состав
терминологического
словаря
предметной
области,
является частотность употребления этого термина или
его текстовых вариантов в текстах предметной области.
Основные семантические и
тематические типы единиц словаря
• Термины относящиеся к
– этапам, процедурам, участникам процесса
государственного финансового контроля;
– к бюджетной системе и бюджетному процессу;
– к области приобретения, использования и
распоряжения государственной собственностью;
– проверяемым типам деятельности, и основные типы
проверяемых документов;
– термины, описывающие основные организационноправовые формы организаций в Российской Федерации.
Системность
терминологического состава Словаря
• Набор терминов Словаря должен образовывать
терминологическую систему, то есть термины должны
толковаться либо через общезначимую лексику, либо
содержать только те термины, которые имеют определения
в данном Словаре.
• Термины, используемые в документах предметной области
и принадлежащие одному и тому же классу, должны
трактоваться в рамках терминологической системы схожим
образом. Например, если в Словарь включено определение
для термина внебюджетные средства, то должно быть
включено и определение термина бюджетные средства.
Частотность употребления термина в документах
как фактор его включения или невключения
в Словарь
• если термин не употреблялся в открытых публикациях
Счетной палаты, то он может быть включен в словарь
только, если он необходим для поддержания принципа
системности словаря;
•
включение и описание значений многозначных
терминов в Словаре должны базироваться на реальной
употребимости этих значений в документах Счетной
палаты;
• включение текстовых терминов (текстовых вариантов
терминов) должно базироваться на их реальном
употреблении в документах Счетной палаты РФ.
Проблемы существующей версии:
словарный состав
• Нехватка терминов – отсутствуют
высокочастотные термины ПО:
– федеральный бюджет, бюджетные
средства, , налоговый учет,
государственный контракт
• Включены термины, которые мало
употреблялись или не употреблялись в
текстах ПО:
– варрант (0), верификация (0), дефляция (0),
каникулы налоговые (0), консигнация (0)
•
Проблемы существующей версии:
нарушение системности словаря
• Определения включают термины, которые не
определены в словаре:
– Акциз – косвенный налог, включаемый в цену
товара (продукции). (Термин косвенный налог не
определен)
– Случай страховой – событие, при наступлении
которого в силу закона или договора страховщик
обязан выплатить страховую сумму. (Термины
страховщик, страховая сумма не определены)
Работа со словарным составом:
исключение терминов
• Исходная версия – 339 терминов
• Удалено – 60 терминов, как самостоятельных
словарных единиц
– Слишком общие (баланс, факт) – 13
– Малоупотребительные – 33
– Не соответствуют ПО – 4 (страховой случай)
– Заменены на ссылки к словарным статьям – 10
(счет, мораторий, сальдо)
Работа со значениями:
расщепление словарных статей
• В исходной версии:
Счет – 1. Совокупность записей бухгалтерского
учета, отслеживающих движение денежных
средств по какому-либо конкретному
направлению.
2. Товарный документ (фактура), выписываемый
продавцом на имя покупателя и удостоверяющий
поставку товара или оказание услуг и их
стоимость.
• В результирующей версии:
• Счет – см. Счет бухгалтерского учета; Счетфактура
Работа со значениями:
оставление одного значения
• В исходной версии:
Мораторий –
1. Приостановление исполнения обязательств,
устанавливаемое государством на определенный срок или
до окончания каких-либо чрезвычайных событий.
Распространяется как на все виды обязательств, так и
на некоторые их виды или на отдельные категории
должников.
2. В международном праве – договоренность государств
об отсрочке или воздержании от каких-либо действий
как на определенный, так и на неопределенный срок.
3. Приостановление исполнения должником денежных
обязательств и уплаты обязательных платежей.
Оставление одного значения -2
• Мораторий – 2 первых значения очень похожи, и
не используются в текстах ПО
• Третье значение нужно оставить, но с точной
формулировкой:
• Мораторий на удовлетворение требований
кредиторов - приостановление исполнения
должником денежных обязательств и уплаты
обязательных платежей.
Многозначная словарная статья не является
многозначной
• Исходная версия:
• Тариф таможенный –
1. Инструмент торговой политики и государственного
регулирования внутреннего товарного рынка при его
взаимодействии с мировым рынком, а также правила
обложения товаров пошлинами при их пересечении
через таможенную границу.
2. Свод ставок таможенных пошлин, применяемых к
товарам, перемещаемым через таможенную границу
данной страны.
Добавление словарных статей
• 195 терминов добавлено
• В т.ч. термины, не относящиеся к «расхожим»
экономическим терминам:
– Амортизация долга, бюджетная заявка,
временный кассовый разрыв, движение денежных
средств, перефинансирование, разассигнование,
расчетные документы, платежные документы,
хозяйственный договор
• Нет словаря, который бы содержал все необходимые
определения
• Интернет: много ресурсов недостаточного качества,
отсутствие автора
• Использовано более 60 источников: законы, словари,
интернет-ресурсы, научные публикации
Проблемы добавления словарных статей
• Отсутствие определений
• Множественность определений – нет ли разных
значений, устарелые определения
• Определения одинаковые, но кажется, что они не
соответствуют реальному употреблению
• Определения близких по смыслу терминов не
соответствуют, противоречат друг другу
• !! Серьезная работа с массивом, реальным
употреблением терминов в документах СП и
законодательстве
Приключения термина ссуда
• Словари:
• Ссуда –
По гражданскому законодательству
Российской Федерации – вещь (имущество),
передаваемая в безвозмездное пользование.
• Реальное употребление: бюджетная ссуда, ссуда банка,
средства ссуды, проценты по ссуде
• Что такое ссуда?
• Сухарев А.Я., Крутских В.Е. Большой юридический словарь.
• 2. Вопреки его точному смыслу в ряде подзаконных нормативных
актов РФ и отечественной юридической литературе термин
«ссуда» до сих пор употребляется как синоним займа, кредита.
Словарные статьи для
терминов «ссуда» и «заем»
• Заем –
1. Передача в собственность заемщику от заимодавца
денег или других вещей по договору займа.
2. Денежные средства, предоставленные заемщику по
договору займа.
3. Договор займа.
• Ссуда –
1. По гражданскому законодательству Российской
Федерации – вещь (имущество), передаваемая в
безвозмездное пользование.
2. заем 1,2.
Заключение
• Разработка терминологического словаря в короткие
сроки существенно зависит от
– Наличия программ автоматического извлечения
терминоподобных словосочетаний
– Наличия представительных текстовых коллекций, загруженных
в информационную систему
• Документы Счетной Палаты
• Законодательство РФ
• Интернет
• Некоторые термины для качественного описания
требуют серьезного лингвистического анализа контекстов
употребления, сопоставления существующих словарей
• Анализ текстового материала одинаков для разработки
тезауруса и терминологического словаря.
Документ
Категория
Презентации
Просмотров
10
Размер файла
84 Кб
Теги
1/--страниц
Пожаловаться на содержимое документа