«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
327
УДК 004.432.4:811.512.122
БЕКМАНОВА Г.Т., МАХИМОВ А., КАЛИЕВ А. К.
Евразийский национальный университет им. Л.Н. Гумилева, Астана, Казахстан ТРАНСЛЯТОР КАЗАХСКОГО НЕСТРУКТУРИРОВАННОГО ТЕКСТА В МОРФОЛОГИЧЕСКУЮ СКОБОЧНУЮ ЗАПИСЬ
Одним из способов уменьшения семантического барьера между человеком и компьютером заключается в поиске новых методов обработки естественного языка. Сегодня уже очевидно, что для реализации человеко-машинного взаимодействия на естественном языке, создания лингвистического обеспечения информационных процессов необходимо изучать сам язык. При этом уменьшение затрачиваемых ресурсов может происходить за счет формализации языковых правил, обеспечивающих хранение информации в процедурном, а не декларативном виде, что в случае с казахским языком, морфологические закономерности которого достаточно хорошо поддаются формализации, приносит отличные результаты.
Поскольку в явном виде такие правила отсутствуют, они лишь частично сформулированы лингвистами, то ставится задача использовать формальные методы и модели при анализе морфологических закономерностей казахского языка.
Все языковые уровни характеризуются наличием базовых элементов. Изучение языка может идти с двух позиций — анализа и синтеза, ибо выявленные правила синтеза могут способствовать проведению анализа и наоборот. В данном случае казахский язык изучается с позиций, как анализа, так и синтеза. Именно такой комплексный подход позволяет детально изучить все закономерности и выявить такие нюансы, которые, при использовании только один из подходов остались бы за пределами нашего внимания. Для исследования и максимальной формализации каждой языковой подсистемы необходимо создавать программный инструментарий, реализующий процесс изучения путем выявления и проверки правил анализа и синтеза, тем самым максимально автоматизируя исследовательский процесс, освобождая при этом исследователя как от рутинного процесса накопления и сбора информации, так и снимая вопрос трудоемкости ее обработки.
Морфологическая скобочная запись является промежуточным звеном в представлении неструктурированного казахского текста в семантическую сеть. Для представления неструктурированного казахского текста в морфологическую скобочную запись используется графематический и морфологические анализаторы.
Разработан ряд обозначений семантических категорий, значения которых необходимо хранить в семантической нейронной сети (таблица 1).
«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
328
Таблица 1 – Обозначения семантических категорий
К семантическим категориям относятся: части речи, одушевленность, число, виды прилагательных, залогов, причастий и т.д[74].
При построении нейронной сети также необходимо учитывать закон сингармонизма казахского языка. Для этого введены следующие признаки и обозначения (таблица 2):
Таблица 2 – Обозначения сингармонических признаков
Здесь показан 31 признак, который необходимо учитывать при добавлении окончания или суффикса любой части речи. «с.б.жн.» означает соңғы буын жуан, т.е. последний слог твердый, «с.б.же.» означает соңғы буын жіңішке, т.е. последний слог мягкий. Группы выделены посредством нормализации.
Ниже приводятся фрагмент формальных правил словоизменения на примере глагола с учетом закона сингармонизма, который обуславливает добавления мягких или твердых окончаний в зависимости от мягкости или твердости основы.
«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
329
[(етот01)ок_1][(отыр)жі1_1] ! окжі11 [(етот01)ок_1][(отыр)жі1_2] ! окжі11 [(етот01)ок_1][(отыр)жі2_1] ! окжі22 [(етот01)ок_1][(отыр)жі2_2] ! окжі22 [(етот01)ок_1][(отыр)жі2_1*] ! окжі2*
[(етот01)ок_1][(отыр)жі2_2*] ! окжі2*
[(етот01)ок_1][(отыр)жі3_0] ! окжі33 [(етот01)ок_1][(тұр)жі1_1] ! окжі11 [(етот01)ок_1][(тұр)жі1_2] ! окжі11 [(етот01)ок_1][(тұр)жі2_1] ! окжі22 [(етот01)ок_1][(тұр)жі2_2] ! окжі22 [(етот01)ок_1][(тұр)жі2_1*] ! окжі2*
[(етот01)ок_1][(тұр)жі2_2*] ! окжі2*
[(етот01)ок_1][(тұр)жі3_0] ! окжі33
[(етот01)ок_1][(жатыр)жі1_1] ! окжі11 [(етот01)ок_1][(жатыр)жі1_2] ! окжі11 [(етот01)ок_1][(жатыр)жі2_1] ! окжі22 [(етот01)ок_1][(жатыр)жі2_2] ! окжі22 [(етот01)ок_1][(жатыр)жі2_1*]! окжі2*
[(етот01)ок_1][(жатыр)жі2_2*]! окжі2*
[(етот01)ок_1][(жатыр)жі3_0] ! окжі33 [(етот01)ок_1][(жүр)жі1_3] ! окжі11
[(етот01)ок_1][(жүр)жі1_4] ! окжі11 [(етот01)ок_1][(жүр)жі2_3] ! окжі22 [(етот01)ок_1][(жүр)жі2_4] ! окжі22 [(етот01)ок_1][(жүр)жі2_3*] ! окжі2*
[(етот01)ок_1][(жүр)жі2_4*] ! окжі2*
Данные формальные правила содержат и семантические категории. В квадратные скобки заключены части составного сложного глагола настоящего времени.
Подобные правила загружаются в модуль морфологического анализа, который анализирует казахский неструктурированный текст и заменяет его на морфологическую скобочную запись.
Результат работы данного транслятора:
Исходный абзац:
Қара адырдың қарағанды сайы елсіз. Айналада қабат-қабат шұбар адырлар. Жақын төбелердің барлығын аласа боз қараған, тобылғы басқан.
Результат трансляции:
(қара - қара!сы4л6ш4ө5т7н8е*) (адырдың - SLOVARDA TYBIR ETALONY JOK) (қарағанды - қараған!зежн<> ды та*) (сайы - сай!зежн<> ы тә33*) (елсіз - елсіз!сы4ө5т7н8е0а1д*). (айналада - айнал!етоттұжүажы7<> ада OKONCHANIE BAZADA JOK) (қабатқабат - қабат!зежн<> қабат OKONCHANIE BAZADA JOK) (шұбар - SLOVARDA TYBIR ETALONY JOK) (адырлар - адырлар!зежн*). (жақын - жақын!ус*) (төбелердің - төбеле!етоттұжүажт9<> рдің OKONCHANIE BAZADA JOK) (барлығын - бар!етжпоттұжүажғ5<> лығын OKONCHANIE BAZADA JOK) (аласа - ал!етоттұжүажы1ы7ғ5<> аса OKONCHANIE BAZADA JOK) (боз - SLOVARDA TYBIR ETALONY JOK) (қараған - қараған!зежн*), (тобылғы - тобылғы!зежн*) (басқан - бас!зежн<> қан жөжі33*).
Данный транслятор позволяет перводить текст в морфологическую скобочную запись.
Полученная скобочная запись будет использоваться синтаксического анализатора, который является следующим звеном лингвистического процессора.