Главная

(1)

«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция

327

УДК 004.432.4:811.512.122

БЕКМАНОВА Г.Т., МАХИМОВ А.К.

Евразийский национальный университет им. Л.Н. Гумилева, Астана, Казахстан

ГРАФЕМАТИЧЕСКИЙ АНАЛИЗ КАЗАХСКОГО НЕСТРУКТУРИРОВАННОГО ТЕКСТА

Автоматическая обработка текстов естественного языка является одним из актуальных направлений развития искусственного интеллекта и информатики в целом, так как результаты в этом направлении позволит решить проблему создания средств эффективного речевого взаимодействия человека с компьютером. Исследованием этой проблемы уже более 50 лет занимаются специалисты нескольких научных областей. С развитием современных естественно-языковых технологий появилась принципиальная возможность понимания естественно-языкового текста, то есть смысла текста компьютером. Сегодня можно с уверенностью говорить о том, что в Казахстане развивается компьютерная лингвистика, что позволяет надеяться на то, что в скором времени будут существовать лингвистические процессоры – компоненты, составляющие структуру систем анализа текстов, которые последовательно обрабатывают входной текст. Вход одного процессора является выходом другого[1].

Выделяются следующие компоненты:

• графематический анализ — выделение слов, цифровых комплексов, формул и т.д.;

• морфологический анализ — построение морфологической интерпретации слов входного текста;

• синтаксический анализ — построение дерева зависимостей всего предложения;

• семантический анализ — построение семантического графа текста.

В данной работе рассматривается автоматизация графематического анализа казахского неструктурированного текста для использования его в лингвистическом процессоре казахского неструктурированного текста.

Автоматизация морфологического анализа и синтеза слов производится на основе решения задач по выявлению формальных структур словообразования и словоформ естественного языка, а также по построению его конструктивной теории и компьютерной модели.

Автоматизация синтаксического анализа и синтеза текста производится на основе решения задач по выявлению формальных структур словосочетаний и предложений естественного языка, а также по построению его конструктивной теории и компьютерной модели.

Семантический анализ текста - это оценка текста, позволяющая определить количественный состав отдельных слов в тексте, а также выделить фразы и слова, составляющие его семантическое ядро[2].

Алгоритм графематического анализа можно представить в виде работы конечного автомата, которому соответствует граф, представленный на рисунке 1.

Рисунок 1. Шаги работы автомата:

(2)

«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция

328

1. 1,«\n» -> 2

2. 2,«.», «?»,«!»,«…»,«?!» -> 3 3. 3,«,», «:»,«;»,« - » -> F

Алгоритм работает по простому принципу. На первом шагу из текста выделяем абзацы.

На втором шагу из абзацев выделяем предложения. На последнем шаге из предложения выделяем слова и по ним формируем статистику.

По результатам работы графематического анализатора при анализе повести «Көксерек»

М. Ауезова были получены следующие результаты:

Количество абзацев: 231 Количество предложений: 871 Количество слов: 7396 Предложений длины 1: 4 Предложений длины 2: 32 Предложений длины 3: 58 Предложений длины 4: 75 Предложений длины 5: 92 Предложений длины 6: 80 Предложений длины 7: 85

Предложений длины 8: 76 Предложений длины 9: 72 Предложений длины 10: 50 Предложений длины 11: 55 Предложений длины 12: 45 Предложений длины 13: 27 Предложений длины 14: 26 Предложений длины 15: 22 Предложений длины 16: 11 Предложений длины 17: 14 Предложений длины 18: 11

Предложений длины 19: 10 Предложений длины 20: 11 Предложений длины 21: 6 Предложений длины 22: 2 Предложений длины 23: 1 Предложений длины 24: 1 Предложений длины 25: 1 Предложений длины 26: 1 Предложений длины 27: 2 Предложений длины 29:1

Данная статистика необходима для построения семантической модели текста.

Поскольку можно предположить, что предложения длиной (под длиной предложения понимается количество слов в нем) меньше 4 слов является простым. А предложение длиной больше или равное 4 может не являться простым. Это простейшая проверка позволит не анализировать синтаксическим анализатором короткие предложения, что экономит время работы алгоритма.

Литература

1. А.А. Дунаев. Исследовательская система для анализа текстов на Естественном языке 2. http://wiki.advego.ru/index.php/