«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
327
ОӘК 004.432.4
Н.М. АБДУРАХМАНОВ
Л.Н. Гумилев атындағы Еуразия ұлттық ниверситеті, Астана, Қазақстан ҚАЗАҚ ТІЛІНДЕГІ МӘТІНДЕРДІ ӨҢДЕУДІҢ КЕЙБІР АСПЕКТІЛЕРІ
Мәтіндерді өңдеу мәселесі есептеу техникасының пайда болуынан кейін бірден пайда болды. Қазіргі таңда аталмыш есептерге «компьютерлік лингвистика» деп аталатын информатиканың бiр саласы арналған. Компьютерлік лингвистика - бұл лингвистикалық заңдылықтарды сипаттау үшiн қолданылатын математикалық модельдердi зерттейтін ғылымның бір саласы. Оны екі үлкен бөлімге бөлуге болады. Біріншісі есептеу техникасының лингвистикалық зерттеулерде қолдану әдістерін, яғни заңдылықтарды анықтау үшін белгілі математикалық әдістерді қолданылуын қарастырады. Табылған заңдылықтар басқа бөлімінде қолданылады. Ол қазақ тілінде жазылған мәтіндерді дұрыс ұғыну, лингвистикалық есептерді шешуге арналған математикалық модельдерді ойлап табу және де осы модельдер негізінде жұмыс істейтін бағдарламаларды құру мәселелерін зерттейді. Компьютерлік лингвистиканың бұл бөлімі қазақ тіліндегі мәтіндерді өңдеу жүйелерін құруымен айналысатын жасанды интелекттің тармағымен тығыз байланыста болып отыр.
Мәтiн өңдеуiнiң жалпы сызбасы (1-сурет) табиғи тiлдің таңдауына (мысалы, қазақ тілі) тәуелдi болмауы мүмкiн. Бастапқы мәтін қандай да болмасын тілде жазылғанымен оның талдауы бірдей кезеңдерден өтеді. Бірінші екі кезең (мәтінді дербес сөйлемдер мен сөздерге бөлу) көптеген табиғи тілдер үшін іс жүзінде бірдей болып келеді. Таңдалған тіл үшін ерекше қасиеттерінің білінетіні – сөздердің қысқартуларын өңдеу және тыныс белгілерін өңдеу болып табылады.
1 - сурет. Мәтінді өңдеудің жалпы сызбасы
Келесі екі кезең (дербес сөздердің сипаттамаларын анықтау және синтаксистік талдау), керісінше, таңдалған табиғи тіліне тәуелді болады. Соңғы кезең (семантикалық талдау) таңдалған тілге бағынышты емес, бірақ ол талдау жүргізудің жалпы тәсілдерінде ғана білінеді.
Семантикалық талдау мәтінді өңдеудің ілгері сатыларының өңдеу жұмыстарының нәтижелеріне негізделеді. Олар әрдайым белгілі бір тіл үшін өзгеше болады. Демек, олардың нәтижелерін ұсыну тәсілдері әр түрлі болуы мүмкін. Осылай ол семантикалық талдау әдістеріне үлкен ықпалын тигізеді. Бастапқы кезеңдерде жүргізілген талдау нәтижелері көп мәнді болуы мүмкін: шығу параметрлері үшін бір емес, бірнеше мүмкін болатын мәндер көрсетіледі (бір сөздің түсіндірілуі бірнеше тәсілдер арқылы іске асуы мүмкін). Ондай
«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
328
жағдайда келесі кезеңдер бастапқы кезеңнің талдауы нәтижелерінің ықтимал мәнін таңдау қажет, және олардың негізінде ары қарай мәтін талдауын жүргізеді.
Мәтінді дербес сөйлемдер мен сөздерге бөлуден кейінгі мәтінді талдаудың бірінші кезеңін жеке қарастырайық. Бірінші кезеңге (дербес сөздердің талдауы) морфологиялық талдау жатады (әрбір сөздердің морфологиялық сипаттамасын анықтау – сөз таптары, септік, жіктік және т.б.) және морфемалық талдау (түбір, жұрнақ және жалғау).
Дербес сөздерді талдау
Өңдеудің бұл кезеңіне сөздердің морфологиялық және морфемалық талдауы кіреді.
Кіру параметрі болып бастапқы сөздің мәтіндік көрінісі беріледі. Морфологиялық талдаудың мақсаты мен нәтижесі сөздің морфологиялық сипаттамасын және оның негізгі сөз формасы болып табылады. Барлық сөздердің морфологиялық сипаттары мен олардың ішіндегі әрбірінің ықтимал мағыналарының тізбесі таңдалған табиғи тілге тәуелді болады. Дегенмен, бірқатар сипаттамалар (мысалы, сөз таптарының атауы) көптеген тілдерде бар.
Морфологиялық талдау үш негізгі ұстаным арқылы жүзеге асырылады. Бірінші ұстанымды жиі «анық» морфология деп атайды. Екінші ұстаным морфологиялық сипаттамаларын анықтайтын берілген сөз бойынша белгілі бір ережелер жүйелеріне негізделеді. Бірінші ұстанымға қарама-қарсы оны «анық емес» морфология деп атайды.
Үшінші, ықтимал ұстаным, нақты морфологиялық сипаттамалармен сөздердің тіркесіміне негізделген. Ол сөйлемдегі қатаң белгіленген тәртіп бойынша орналасқан сөздерді өңдеу барысында кеңінен қолданылады.
Мысалы, сөздік қазақ тілінің негізгі сөз формаларын қамтиды. Олардың әр қайсысына белгілі бір код қойылған. Берілген сөздің барлық формасын құруға болатын ережелер жүйесі белгілі, бастапқы сөз формасына және оған сәйкес кодқа сүйенеді. Әрбір сөз формасын құрудан өзге, ережелер жүйесі автоматты түрде оған морфологиялық сипаттамасын сәйкес етіп отырады. Нақты морфологиялық талдауды жүзеге асыру барысында барлық сөздер және барлық сөз формалары сөздігін қолданған жөн. Бұл сөздік кіру кезінде сөз формасында, ал шығу кезінде оның морфологиялық сипаттамаларында байқалады.
2– сурет.Сөздік негізіндегі морфологиялық талдау
Осындай ұстаным барысында берілген сөздің (2-сурет) морфологиялық талдауын жүзеге асыру үшін оның морфологиялық сипаттамаларының барлық дәл, «ақырғы мәлім»
мағыналары сақталған сөздікте табу қажет. Сөздің бірдей кіруі барысында сөздің морфологиялық сипаттамалары мәнінің бірнеше нұсқасы кездесуі мүмкін.
Өкінішке орай, бұл әдіс әрқашан қолданыла бермейді: кіру барысындағы сөздер барлық сөз формасының сөздігіне кірмеуі мүмкін. Мұндай жағдайлар бастапқы мәтінді енгізудегі қателіктерге байланысты, мәтінде жалқы есімдердің болуымен және т.б. байланысты болуы мүмкін. Егер әдіс қажетті нәтижені бермесе, онда нақты емес морфология қолданылады.
«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
329
3 – сурет. Морфемалық талдау
Морфемалық талдаудың мақсаты сөзді түбірлерге, жұрнақтарға және жалғауларға (3-сурет) бөлу болып табылады. Морфемалық сөздікте әрбір сөзді дербес бөліктерге бөлу көрсетілген, бірақ олардың әрқайсысының түрі берілмеген – олардың ішінен қайсы түбір, қайсы жалғау және т.б. Сөздердің түбірінің көптігі әлі де ашық мәселе, бірақ барлық ықтимал жұрнақтар мен жалғаулардың көптігі шектеулі; сонымен бірге, барлығымызға мәлім, кез келген сөз түбірден, жұрнақтан және жалғаудан тұрады. Сол себепті, морфемалық сөздік негізінде басқа сөздік құруға болады. Ол тек қана әрбір сөздің бөліктерге бөлінуінен басқа, олардың әрбірінің түрінен де құралады. Ондай жағдайда, сөздің морфемалық талдауын жүргізу үшін аталмыш сөздікті қолдану қажет.
Морфемалық талдау сөздікті қолданумен шектелмейді. Егер сөздікте берілген сөз болмаған жағдайда, стандарттық құрылым (түбір – жұрнақ - жалғау) және түрлі түбірлер, жұрнақтар мен жалғаулар негізінде талдауды тікелей жүргізуге болады.
Нақты морфологиялық әдіс көмегімен сөздің сипаттамасын анықтауға мүмкіндік болмаған, оны бірнеше бөліктерге бөлуге болатын жағдайға қайта оралайық. Қандай да болмасын лексемалардың болуы сөздің морфологиялық сипаттамаларын анықтай алады:
белгілі бір бөліктердің бар болуы немесе жоқ болуына сүйенетін және морфологиялық параметрлер жайлы бір немесе бірнеше болжамдарды беретін ережелер жүйесін жасауға болады. Мұндай ережелер жиынтығын екі жолмен іске асыруға болады. Біріншісі, барлық сөз формалары сөздігінде болатын сөздердің морфемалық талдауы және олардың морфологиялық сипаттамасына негізделеді. Енді осы тапсырманың құрылысын қарайық:
сөздің морфемалық құрылымынан және морфологиялық сипаттамасынан тұратын бірнеше мәндер мәлім. Бұл «кіріс» және «шығыс» ережелер жүйесі, ол сөздің морфемалық құрылымы бойынша оның морфологиялық сипаттамасын анықтайды. Мұндай ережелер жүйесін құру міндетін өзін-өзі оқыту жүйесі көмегімен жүзеге асыруға болады (4-сурет).
Екінші ұстаным ережелер жиынтығын қолмен құрастыру болып табылады.
Негізінен оның іске асырылуы – диагностикалық түрдегі сараптамалық жүйені жазу ретінде беріледі.
«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
330
4 – сурет. Анық емес морфологиялық талдау
Сөздердің морфологиялық талдауын жүргізудің ықтимал тәсілі келесі болып табылады.
Бір сөз формасы бірнеше грамматикалық кластарға жатуы мүмкін. Әрбір сөз формасы үшін оның барлық грамматикалық кластары, және осы сөздердің әр қайсысына деген қатынасының ықтималдылығы анықталады. Бұл құжаттардың кейбір жиынтығы негізінде іске асырылады. Онда әрбір сөз үшін алдын ала грамматикалық класс берілген. Сонан соң жанында тұрған сөздер – екілік, үштік төрттік және т.б. үшін белгілі бір грамматикалық кластардың ықтимал тіркесін есептеп шығарады. Осы сандар негізінде сөздер талдауы жүзеге асырылады. Бірақ талдау үшін тек сөздің өзі ғана емес, сонымен қатар оның жанындағы сөздер де қажет.
Қорыта келе, екі маңызды ескертпелерді көрсету қажет. Ықтималдық ұстанымы тек сөйлемдерінде нақты орын тәртібі бар тілдер үшін ғана қолданылады. Егер сөйлемдегі орын тәртібін өзгертуге болатын болса, онда барлық грамматикалық кластардың ықтимал тіркестері іс жүзінде тең дәрежеде іске асуы мүмкін. Екіншіден, егер талдаудың бірінші екі тәсілі (анық және анық емес морфология) кіріс барысында бөлек сөздерді қабылдаса, онда ықтимал тәсілі, керісінше, кірісте барлық сөйлемдерді, немесе кем дегенде жанында тұрған бірнеше сөздерді қабылдайды.
Әдебиеттер
1. D. Jurafsky, James H. Martin. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition. Prentice-Hall, 2000Гарант- Парк-Интернет. Технологии анализа и поиска текстовой информации.
2. SRILM - The SRI Language Modeling Toolkit.
3. C. Manning, H. Schutze. Foundations of Statistical Language processing. The MIT Press, 1999.
4. Т.А. Грязнухина, Н.П. Дарчук, В.И. Критская, Н.П. Маловица и др. Синтаксический анализ научного текста на ЭВМ, К.: Научная мысль, 1999.
5. Хант Э. Искусственный интеллект. Пер. с англ. -М.: Мир, 1978 6. WordNet: a lexical database for the English language.
7. Е. Игумнов, Основные концепции и подходы при создании контекстно-поисковых систем на основе реляционных баз данных.
8. U. Nahm, R. Mooney. Mining soft-matching rules from textual data. WA, 2001.