• Tidak ada hasil yang ditemukan

ТРАНСЛЯТОР КАЗАХСКОГО НЕСТРУКТУРИРОВАННОГО ТЕКСТА В МОРФОЛОГИЧЕСКУЮ СКОБОЧНУЮ ЗАПИСЬ

N/A
N/A
Protected

Academic year: 2024

Membagikan "ТРАНСЛЯТОР КАЗАХСКОГО НЕСТРУКТУРИРОВАННОГО ТЕКСТА В МОРФОЛОГИЧЕСКУЮ СКОБОЧНУЮ ЗАПИСЬ"

Copied!
3
0
0

Teks penuh

(1)

«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция

327

УДК 004.432.4:811.512.122

БЕКМАНОВА Г.Т., МАХИМОВ А., КАЛИЕВ А. К.

Евразийский национальный университет им. Л.Н. Гумилева, Астана, Казахстан ТРАНСЛЯТОР КАЗАХСКОГО НЕСТРУКТУРИРОВАННОГО ТЕКСТА В МОРФОЛОГИЧЕСКУЮ СКОБОЧНУЮ ЗАПИСЬ

Одним из способов уменьшения семантического барьера между человеком и компьютером заключается в поиске новых методов обработки естественного языка. Сегодня уже очевидно, что для реализации человеко-машинного взаимодействия на естественном языке, создания лингвистического обеспечения информационных процессов необходимо изучать сам язык. При этом уменьшение затрачиваемых ресурсов может происходить за счет формализации языковых правил, обеспечивающих хранение информации в процедурном, а не декларативном виде, что в случае с казахским языком, морфологические закономерности которого достаточно хорошо поддаются формализации, приносит отличные результаты.

Поскольку в явном виде такие правила отсутствуют, они лишь частично сформулированы лингвистами, то ставится задача использовать формальные методы и модели при анализе морфологических закономерностей казахского языка.

Все языковые уровни характеризуются наличием базовых элементов. Изучение языка может идти с двух позиций — анализа и синтеза, ибо выявленные правила синтеза могут способствовать проведению анализа и наоборот. В данном случае казахский язык изучается с позиций, как анализа, так и синтеза. Именно такой комплексный подход позволяет детально изучить все закономерности и выявить такие нюансы, которые, при использовании только один из подходов остались бы за пределами нашего внимания. Для исследования и максимальной формализации каждой языковой подсистемы необходимо создавать программный инструментарий, реализующий процесс изучения путем выявления и проверки правил анализа и синтеза, тем самым максимально автоматизируя исследовательский процесс, освобождая при этом исследователя как от рутинного процесса накопления и сбора информации, так и снимая вопрос трудоемкости ее обработки.

Морфологическая скобочная запись является промежуточным звеном в представлении неструктурированного казахского текста в семантическую сеть. Для представления неструктурированного казахского текста в морфологическую скобочную запись используется графематический и морфологические анализаторы.

Разработан ряд обозначений семантических категорий, значения которых необходимо хранить в семантической нейронной сети (таблица 1).

(2)

«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция

328

Таблица 1 – Обозначения семантических категорий

К семантическим категориям относятся: части речи, одушевленность, число, виды прилагательных, залогов, причастий и т.д[74].

При построении нейронной сети также необходимо учитывать закон сингармонизма казахского языка. Для этого введены следующие признаки и обозначения (таблица 2):

Таблица 2 – Обозначения сингармонических признаков

Здесь показан 31 признак, который необходимо учитывать при добавлении окончания или суффикса любой части речи. «с.б.жн.» означает соңғы буын жуан, т.е. последний слог твердый, «с.б.же.» означает соңғы буын жіңішке, т.е. последний слог мягкий. Группы выделены посредством нормализации.

Ниже приводятся фрагмент формальных правил словоизменения на примере глагола с учетом закона сингармонизма, который обуславливает добавления мягких или твердых окончаний в зависимости от мягкости или твердости основы.

(3)

«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция

329

[(етот01)ок_1][(отыр)жі1_1] ! окжі11 [(етот01)ок_1][(отыр)жі1_2] ! окжі11 [(етот01)ок_1][(отыр)жі2_1] ! окжі22 [(етот01)ок_1][(отыр)жі2_2] ! окжі22 [(етот01)ок_1][(отыр)жі2_1*] ! окжі2*

[(етот01)ок_1][(отыр)жі2_2*] ! окжі2*

[(етот01)ок_1][(отыр)жі3_0] ! окжі33 [(етот01)ок_1][(тұр)жі1_1] ! окжі11 [(етот01)ок_1][(тұр)жі1_2] ! окжі11 [(етот01)ок_1][(тұр)жі2_1] ! окжі22 [(етот01)ок_1][(тұр)жі2_2] ! окжі22 [(етот01)ок_1][(тұр)жі2_1*] ! окжі2*

[(етот01)ок_1][(тұр)жі2_2*] ! окжі2*

[(етот01)ок_1][(тұр)жі3_0] ! окжі33

[(етот01)ок_1][(жатыр)жі1_1] ! окжі11 [(етот01)ок_1][(жатыр)жі1_2] ! окжі11 [(етот01)ок_1][(жатыр)жі2_1] ! окжі22 [(етот01)ок_1][(жатыр)жі2_2] ! окжі22 [(етот01)ок_1][(жатыр)жі2_1*]! окжі2*

[(етот01)ок_1][(жатыр)жі2_2*]! окжі2*

[(етот01)ок_1][(жатыр)жі3_0] ! окжі33 [(етот01)ок_1][(жүр)жі1_3] ! окжі11

[(етот01)ок_1][(жүр)жі1_4] ! окжі11 [(етот01)ок_1][(жүр)жі2_3] ! окжі22 [(етот01)ок_1][(жүр)жі2_4] ! окжі22 [(етот01)ок_1][(жүр)жі2_3*] ! окжі2*

[(етот01)ок_1][(жүр)жі2_4*] ! окжі2*

Данные формальные правила содержат и семантические категории. В квадратные скобки заключены части составного сложного глагола настоящего времени.

Подобные правила загружаются в модуль морфологического анализа, который анализирует казахский неструктурированный текст и заменяет его на морфологическую скобочную запись.

Результат работы данного транслятора:

Исходный абзац:

Қара адырдың қарағанды сайы елсіз. Айналада қабат-қабат шұбар адырлар. Жақын төбелердің барлығын аласа боз қараған, тобылғы басқан.

Результат трансляции:

(қара - қара!сы4л6ш4ө5т7н8е*) (адырдың - SLOVARDA TYBIR ETALONY JOK) (қарағанды - қараған!зежн<> ды та*) (сайы - сай!зежн<> ы тә33*) (елсіз - елсіз!сы4ө5т7н8е0а1д*). (айналада - айнал!етоттұжүажы7<> ада OKONCHANIE BAZADA JOK) (қабатқабат - қабат!зежн<> қабат OKONCHANIE BAZADA JOK) (шұбар - SLOVARDA TYBIR ETALONY JOK) (адырлар - адырлар!зежн*). (жақын - жақын!ус*) (төбелердің - төбеле!етоттұжүажт9<> рдің OKONCHANIE BAZADA JOK) (барлығын - бар!етжпоттұжүажғ5<> лығын OKONCHANIE BAZADA JOK) (аласа - ал!етоттұжүажы1ы7ғ5<> аса OKONCHANIE BAZADA JOK) (боз - SLOVARDA TYBIR ETALONY JOK) (қараған - қараған!зежн*), (тобылғы - тобылғы!зежн*) (басқан - бас!зежн<> қан жөжі33*).

Данный транслятор позволяет перводить текст в морфологическую скобочную запись.

Полученная скобочная запись будет использоваться синтаксического анализатора, который является следующим звеном лингвистического процессора.

Referensi

Dokumen terkait

В настоящей работе выполнен сравнительный анализ корреляции между одним из популярных экономических рейтингов рейтинг по конкурентоспособности IMD и рейтингом THE WORLD UNIVERSITY

314] Одним из доказательств сложности в управлении мировыми процессами является трансформация международных отношений, появление все более весомых акторов на мировой арене, в лице

Гумилева, Астана, Казахстан В данной статье мы рассмотрели обобщенную модель бозонной струны с потенциалом и эквивалентную форму действия с явной координатной зависимостью, где L=−T

В настоящее время одним из приоритетных направлений развития Республики Казахстан является внедрение и разработка системы непрерывного экологического образования; так как под

Гумилева, Астана, Казахстан ПОСТРОЕНИЕ ОНТОЛОГИЧЕСКОЙ МОДЕЛИ ГЕНЕРАЦИИ ИНТЕЛЛЕКТУАЛЬНЫХ ЭЛЕКТРОННЫХ УЧЕБНЫХ ИЗДАНИЙ На сегодняшний день в эру процессов информатизации в нашем

Астана, Казахстан В данной статье дается алгоритм построения комбинированных теоретико-числовых сеток и показано, что построенная по данной сетке квадратурная формула является

Астана, Казахстан it.ibao проведения мониторинга за состоянием контейнерных перевозок в Казахстане является развития ■н jiii in перевозок в условиях развития рыночных отношении и

Нормативно-правовое регулирование учета и отчетности в Республике Казахстан состоит из трех уровней:  первый уровень – это закон Республики Казахстан «О бухгалтерском учете и