«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
327
УДК 81'322.2
СУЛЕЙМАНОВ Д.Ш., ГАТИАТУЛЛИН А.Р., ГИЛЬМУЛЛИН Р.А.
НИИ «Прикладная семиотика» Академии наук Республики Татарстан Казань, Россия
ЛЕКСИКОГРАФИЧЕСКАЯ БАЗА ДАННЫХ ДЛЯ СИСТЕМ МАШИННОГО ПЕРЕВОДА БЛИЗКОРОДСТВЕННЫХ ЯЗЫКОВ1
Тюркские языки, как известно, обладают большим сходством на всех языковых уровнях, имеют практически идентичную синтаксическую структуру. Это позволяет ставить задачу создания машинных переводчиков для пар языков, входящих в тюркскую группу, на базе «упрощенных» моделей, основанных на общей лексикографической базе и использующих ее, главным образом, для разрешения лексической многозначности и установления соответствия между корневыми и аффиксальными морфемами.
Соответственно, создание лексикографической базы данных (ЛБД) для систем машинного перевода близкородственных языков, таких как тюркские языки, является важной и актуальной задачей.
За последние десять-пятнадцать лет создано значительное количество многофункциональных лексикографических ресурсов для тюркских языков. Среди них можно отметить параллельный онлайн-словарь тюркских языков Турецкого лингвистического общества (Turk Dil Kurumu) [Türk Dil Kurumu, 2012], проект машинного фонда башкирского языка [Машинный, 2012], электронные словари казахского языка [Русско-казахский, 2011]. Для татарского языка еще в 90-х годах прошлого века была разработана концепция машинного фонда [Бухараев, 1995] и разработаны различные электронные словари (электронные словари ABBYY Lingvo, Интернет-словари языка татарских писателей [Казанский, 2012] и др.). Вместе с тем, это составляет несоизмеримо малую долю по сравнению с разработками для индоевропейских языков, и, соответственно, разработка специализированных лексикографических ресурсов для тюркских языков является сверхзадачей в плане их развития, включения их в электронное пространство как языков накопления и передачи информации. Эти ресурсы необходимы также для решения различных теоретических и прикладных целей, таких, как сравнительное изучение тюркских языков, лингвистическое обеспечение систем машинного перевода, многоязычных поисковых систем и других прикладных лингвистических технологий.
Предлагаемая нами лексикографическая база данных состоит из взаимосвязанных языковых компонент для каждого из описываемых языков. Компоненты имеют независимую структуру и объединяются при помощи семантических кодов на уровне лексических эквивалентов.
Каждая из компонент содержит грамматическую, семантическую и словообразовательную информацию. Грамматическая часть компоненты представляется двумя словарями: словарем основ и словарем окончаний. Словарь основ содержит такие параметры, как семантический код, словарная форма основы, морфологическая форма основы, морфологический и морфонологический типы основы. Морфологическая форма используется для порождения поверхностных форм словоформы путем присоединения
1 Исследование выполнено в рамках научно-исследовательского проекта РФФИ («Математические модели, методы, технологии и системы обработки многоязыковых текстов тюркских языков для задач машинного перевода»), проект № 12-07-97015- р_поволжье_а
«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
328
аффиксальных морфем и может быть короче словарной формы основы, если имеются какие- либо внутренние изменения типа чередований символов.
Одно из назначений семантического кода - обеспечение связи различных компонент, что особенно важно при расширении лексикографической базы с включением других языков.
Морфологический и морфонологический типы основы необходимы для связи со словарем окончаний и используются программами морфологического анализа и генерации.
При построении словаря основ главная проблема заключается в том, что практическом не имеется двуязычных словарей татарского языка в паре с другими языками тюркского семейства, за исключением татарско-турецкого и турецко-татарского словарей. Для других языков тюркского семейства также в основном имеются только двуязычные словари перевода на турецкий язык и с турецкого языка.
Для разработки словаря окончаний тюркской компоненты необходима таблица соответствий между аффиксальными морфемами тюркских языков. На основе такой таблицы соответствий разрабатываются морфотактические правила для генерации всех возможных словоформ нового языка с учетом принятых ограничений на количество аффиксальных морфем (в настоящей версии не более 5 морфем).
В докладе раскрываются структуры словарей, модели и таблицы соответствий для разных тюркских языков, включенных в ЛБД на примере ряда результатов, полученных при построении таблицы соответствий татарских и казахских аффиксальных морфем.
Сравнительный анализ показал, что не всегда можно построить взаимно-однозначную таблицу соответствий для аффиксальных морфем татарского и казахского языков. Одной из причин данной ситуации является то, что в казахском языке имеются аффиксальные морфемы, которые переводятся на татарский язык по-разному в зависимости от различного морфологического контекста.
Например морфема –ЙтЫн (алломорфы: -йтын, -йтін, -атын, -етін).
Аффикс -ЙтЫн в казахском языке применяется для образования таких категорий, как временная форма глагола, причастие, имя действия.
При образовании формы причастия эта морфема является последней морфемой в словоформе и за словоформой с этой мофемой в тексте следует определяемое слово.
Казахский вариант Татарский вариант Русский вариант баратын ауыл
бар+ЙтЫн ауыл бара торган авыл
бар+Й тор+ГАн авыл аул в который едут (идут)
Из этого перевода получается следующее морфемное соответствие:
Казахский Татарский
-ЙтЫн -Й тор+ГАн
При образовании временных форм глагола после аффикса –ЙтЫн в словоформе следуют аффиксы предикативности.
Казахский Мен ауылға баратынмын. Мен ауыл+ҒА бар+ЙтЫн+м[Ын]
Татарский Мин авылга бара торган идем. Мин авыл+ГА бар+Й тор+ГАн+иде+м[Ын]
Русский Я бывало ездил (ходил) в аул.
«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
329
Для данного контекста получается следующее соответствие:
Казахский язык Татарский язык
-ЙтЫн -Й тор+ГАн иде
В случае же, если словоформа с морфемой –ЙтЫн представляет собой имя действия, то в словоформе после данной морфемы могут следовать аффиксы притяжательности и падежности.
Казахский Оразбек ауылға баратынын айтты.
Оразбек ауыл+ҒА
бар+ЙтЫн+[с]Ы+н[Ы] айт+ДЫ.
Татарский Уразбәк авылга баруын әйтте. Уразбәк авыл+ГА бар+У+[с]Ы+н[Ы]
әйт+ДЫ.
Русский Оразбек вчера сказал, что поедет (пойдет) в аул.
Для данного контекста получаем следующую таблицу соответствий:
Казахский язык Татарский язык
-ЙтЫн -У
Таким образом получаем, что казахской аффиксальной морфеме –ЙтЫн в зависимости от морфологического контекста может соответствовать 3 варианта морфемных конструкций татарского языка:
Казахский
язык Татарский
язык Правый контекст
-ЙтЫн -Й тор+ГАн []
-ЙтЫн -Й тор+ГАн
иде
Аффиксы предикативности
-ЙтЫн -У Аффиксы множественности,
притяжательности и падежности
В настоящее время в НИИ «Прикладная семиотика» Академии наук Татарстана, кроме татарско-казахского, ведется разработка программ для автоматизированного перевода татарско-турецкой и татарско-чувашской пары языков.
Для решения этих задач используется прагматически-ориентированный подход к разработке лингвистических моделей [Сулейманов, 2000], согласно которому определяется минимальный набор средств для решения определенного круга лингвистических задач, исходя из принципа достаточности. Эффективность системы обработки естественного языка, разрабатываемая по этому принципу, может быть обеспечена еще на уровне формирования лингвистических моделей разного уровня, за счет учета близости структурных и типовых характеристик языков внутри одной языковой группы. Прагматически-ориентированный подход позволяет осуществить более детальную проработку глубины модели определенного языкового уровня в зависимости от целевой ориентированности разрабатываемой системы, а также от степени важности соответствующего языкового уровня в языковой системе.
В соответствии с этой научной концепцией разрабатывается лексикографическая база данных, которая, кроме задач машинного перевода может быть использована в задачах многоязычного информационного поиска, аннотирования корпусов текстов и других приложениях в автоматической обработки текстов. Эта лексикографическая база является специализированным языковым ресурсом с детализированными лингвистическими аннотациями, функциональные особенности которого определяются кругом потенциальных задач, для решения которых они проектируются.
«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
330
Литература
1. [Сулейманов, 2000] Сулейманов Д.Ш. Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей: Дис. … доктора технических наук, Казань, 2000. – 334 с.
2. [Türk Dil Kurumu, 2012] Türk Dil Kurumu [Электронный ресурс]. URL:
http://tdk.org.tr (дата обращения: 10.03.2012).
3. [Машинный, 2012] Машинный фонд башкирского языка [Электронный ресурс].
URL: http://mfbl.ru (дата обращения: 15.02.2012).
4. [Русско-казахский, 2011] Русско-казахский и казахско-русский словарь [Электронный ресурс]. URL: http://sozdik.kz (дата обращения: 21.10.2011).
5. [Бухараев, 1995] Бухараев Р.Г., Сафиуллина Ф.С., Сулейманов Д.Ш. и др. К концепции Машинного Фонда Республики Татарстан // Татарский язык и новые информационные технологии. Серия: Интеллект. Язык. Компьютер. – Вып.2. –Казань: Изд- во Казан. ун-та, 1995. – С. 20-35.
6. [Казанский, 2012] Казанский лингвографический фонд [Электронный ресурс]. URL:
http://klf.ksu.ru (дата обращения: 5.04.2012).