Theorem 2. If the lemma 1, 2 and theory 1 are appropriate and functional gradient is nonzero, then by choosing the value , it is possible to obtain the inequality
3. Сандық шешімдер
Жүргізілген есептеулер нәтижесінде келесі сандық шешімдер алынды.
1-сурет. Екі машиналы жүйе үшін ротордың айналу бұрышы
2-сурет. Екі машиналы жүйе үшін генератор сырғуы
56
3-сурет. Екі машиналы жүйе үшін фазалық айнымалылар
4-сурет. Екі машиналы жүйе үшін басқару
5-сурет. Көп машиналы жүйе үшін ротордың айналу бұрышы
57
6-сурет. Көп машиналы жүйе үшін генератор сырғуы
7-сурет. Көп машиналы жүйе үшін басқару
8-сурет. Көп машиналы жүйе үшін фазалық айнымалылар 4. Қорытынды
Бұл жұмыста электроэнергетикалық жүйе қозғалысының тұрақтылығы қарастырылады. Берілген есептің сандық шешімі екі машиналы және көп машиналы жүйе үшін алынды. Есепті шешу барысында айқын емес Адамс- Моултон әдісі қолданылды.
58 Қолданылған әдебиеттер тізімі
1 Барбашин Е.А., Таубаева В.А. Динамические системы с цилиндрическим фазовым пространством. –М: Наука,1969.-300 с.
2 Андерсон П., Фуад А. Управление энергосистемами и устойчивость. – М.:
Энергия, 1980. -568 с.
3 Ляпунов A.M. Общая задача об устойчивости движения. -М. Л.:
Гостехиздат, 1950 - 472 с.
4 Попов В.М. Об абсолютной устойчивости нелинейных систем . автоматического регулирования. Автоматика и телемеханика, 1961, № 8, с.961 - 979.
5 Наумов Б.Н. Теория нелинейных автоматических систем. -VI.: Наука, 1972, 544 с.
Калимолдаев Мақсат Нурадилович – ҰҒА академигі, ф.-м.ғ.д., профессор;
Абдилдаева Асель Асылбековна – доктор PhD;
Дузбаев Талгат – магистр;
Галиева Фариза Мақсотқызы – магистр;
Ақпараттық және есептеуіш технологиялар институты;
050010, Алматы; e-mail: [email protected]
УДК 004.89: 004.048
ДЕРЕКТЕРДІ КЛАСТЕРЛЕУ КЕЗІНДЕ БАЙЕСТІК ЖЕЛІНІ ҚОЛДАНУ
Сатымбеков М.Н., Шаяхметова А.С.
Ақпараттық және есептеуіш технологиялар институты, Алматы, Казахстан.
Аңдатпа. Байестік желілер өздерінің көрнекілігі мен ғылымның әртүрлі саласында қолданыстағы танымалдылығының нәтижесінде келешекті математикалық және программалық құрал болып табылады. Жұмыста деректерді кластерлеуде байестік тәсілді қолдану қарастырылған. Байестік тәсіл негізінде кластерлеудің негізгі екі алгоритмдері (Гаусс қоспа және k-орташа) салыстырылып, талдау жасалды. Bayes server платформасында және C# программалау тілінде жасалынған программалық пакет ұсынылды.
Кілттік сөздер: кластерлеу, классификациялау, қоспа моделі, Гаус моделі, Bayes server, Байестік желі.
Кіріспе. Соңғы уақытта заманауй ақпараттық қоғамда байланыс құралдарының, интернет пен есептеу техникаларының қарқынды дамуы үлкен көлемдегі деректерді өңдеу қажеттілігін тудырды. Көптеген деректердің арасынан деректердің жетіспеуі немесе жоғалуымын сипатталатын белгісіздік деректері, мысалы, адам факторы
59
арқылы анықталған деректердегі анық еместілікті айтуға болады. Мұндай мәселелерді байестік тәсілдердің көмегімен шешу ыңғайлы [1]. Байстік желілер теориясы бүгінде жақсы дамып келетіндіктен, бұл жасанды интеллект саласының дамуына өз үлесін қосуда.
Байестік желі әрбір шыңы n мәнді айнымалы болып табылатын, циклдік емес бағдарланған граф болып табылады, доғалар айнымалылар арасындағы себеп-салдар тәуелділігінің бар екенін білдіреді және осы тәуелділіктердің беріктігі сандық түрде әрқайсысына байланысты шартты ықтималдықтар ретінде көрсетіледі [2]. Байестік желілер ықтималдық графикалық моделдердің бір түрі болып табылады. Келесі жұмыстарда [3, 4, 5] байестік сенім желілерінің қатаң формальды анықтамасы мен теориясы құрылып, дами бастауы қарастырылады. Байестік желілер бұл өте күрделі үдерістер мен оқиғаларды белгісіздікпен сипаттаудың ыңғайлы құралы. Желіні құрудың негізгі идеясы күрделі жүйені жай элементтерге жіктеу болып табылады.
Жүйеде жеке элементтерді біріктіру үшін ықтималдықтар теориясының математикалық аппараты қолданылады. Байестік желіні сипаттау үшін әр түйіннің графтық құрылымын және параметрлерін анықтау керек. Бұл ақпаратты тікелей деректерден немесе сараптамалық бағалаудан алуға болады. Бұл процедура байестік желіні оқыту деп аталады [6].
Байестік желілерімен жұмыс істеу үшін көптеген қолданбалы программалар пакеті үнемі құрылуда және жетілу үстінде. Айтылған програмалық өнімдер еркін қолданыстағы және ақылы программалық өнімдер болып қарастырылады. Еркін қолданыстағы программалық өнімдерге: GeNIe & SMILE, OpenBayes, RISO, BANSY3, SamIam. Ақылы программалық өнімдерге: AgenaRisk, Bayesian network, Bayesia, Hugin, Netica, Bnet, Bayes Net Toolbox for Matlab, SIAM & Causeway, Bayes server жатқызуға болады. Технологияның дамуымен қатар соған байланысты деректерде ұлғаюда. Үлкен деректерді талдау және сол деректердің типі мен қолдану аясы бойынша айырып тану мәселесі алдыңғы қатарда тұр.
Тапсырма қойылымы келесідей құрылады: байестік тәсілді қолданып, Bayes server программалық өнімінде деректерді кластерлеуде екі алгоритм (Гаусс қоспасы үлгілері (gaussian mixture model) және k-орташа алгоритмі) жұмысына салыстыру жүргізу.
Қойылған тапсырманы жүзеге асыру үшін келесі мысалды қарастырайық.
Сақтандыру команиясы тіркелген машиналар мен машина иелерінің деректерінің қай классқа жататынын анықтау. Әр топқа бөлінген деректер арқылы сақтандыру компаниясы, машина иелерінің сақтандыру мерзімі қай уақытқа дейін жарамды екенін біле алады. Осы есепті шешу үшін біз Гаусс қоспасы моделі мен К-орташа клсастерлеу алгоритмін қолдандық. Есепті әр кластерлеу алгоритмінде жүзеге асырып нетижесінде екі алгоритмді салыстырдық.
Гаусс қоспасы үлгілері (gaussian mixture model) кластерлеу алгоритмдерінің бірі болып табылады [7]. Әрбір кластер орташа және дисперсиялы генеративті модель ретінде қарастырылады. Қоспа үлгісі орташа және дисперсиялы секілді ықтималды үлестіру параметрлерін қарастырады. Төменде Гаусс қоспасы моделінің орындалу алгоритмі 1-ші суретте көрсетілген.
60
Сурет-1. Гаусс қоспа моделінің жалпы сызбасы
Жоғарыда келтірілген Гаусс қоспа моделінің жалпы сызбасын келесідей сипаттауға болады:
Бірінші қадам: кластер номері және деректер анықталады. Қандайда бір N нүктелер жиыны беріледі.
Екінші қадам: логарифмдік функцияны максималдайтын центрлік нүктесін кездейсоқ Гаусстық үлестіреміз. Әр деректегі нүктенің кластерге қатыстылығының ықтималдылығын есептеп табамыз.
Үшінші қадам: Қоспа моделі параметрін жаңарту (ықтималдық масса бойынша) Төртінші қадам: Егер тоқтату критерий орындалса онда кластрелеу жұмысы тоқтатылады, ал егер критерий орындалмаса, онда жұмыс басынан басталады.
Анықталған кластердегі нүктелер әрқашан жаңартылып отырады.
К-орташа алгоритмі итеративті бақыланбайтын кластерлеу алгоритмі болып табылады [2]. Әр кластер өзінің орталық нүктесімен сипатталады. k-орташа шығын функциясының локалды ең аз мәнін таба отырып нүктелерді біріктіреді. Евклид қашықтығы метрикасын әр класстың пикселі мен центроид аралығындағы арақашықтықты табу үшін қолданады. k-орташа кластерлеу алгоритмінің жалпы сызбасы төменде көрсетілген (Сурет-2).
61
Сурет-2. k-орташа алгоритмінің жалпы сызбасы
k-орташа алгоритмінің жалпы сызбасын келесідей сипаттауға болады:
Бірінші қадам: кластер номері және деректер анықталады. Қандайда бір N нүктелер жиыны беріледі.
Екінші қадам: логарифмдік функцияны максималдайтын k центрлік нүктесін кездейсоқ таңдаймыз. Таңдалған нүктеге байланысты сол нүктеге жақын нүктелерді (егер таңдалған нүкте мәні 1-ге тең болса онда ол k центрлік нүктеге жатады, ал егер 0 тең болса ол басқа нүктеге тиесілі) жинақтаймыз.
Үшінші қадам: k кластер центріндегі нүктелерді инициялизациялаймыз, әр нүктені жақын орналасқан кластерге бекіту үшін біз қандайда бір белгі қоямыз. Әр кластер ортасындағы нүктені осы кластердің массалық нүктесі екінін қайта қарау.
Қойылған белгі өзгергенше осы үдерісті қайталау қажет.
Тәжірибе нәтижесі тегін программалық өнім Bayes server-де жүзеге асырылды.
Тәжірибе кезінде k-орташа және Гаусс қоспа моделі кластерлеу алгоритмдері салыстырылды. Нәтижесінде k-орташа алгоритімінің нүктелерді кластарға бекіту ықтималдылығы Гаусс қоспа моделіне қарағанда айтарлықтай төмен нәтиже беретіндігі көрінді. Жұмыста қолданылған Bayes server өнімі байестік желі есептерін шешу үшін өте қолайлы көп программалық тілдерді қабылдай алатын орта екені белгілі болды және интерфейсі қолданушыға түсінікті және оңай (Сурет 3).
62
Сурет-3. Bayes server интерфейсі
3-суреттегі ұсынылған графикалық сызба Bayes server өнімінде кластерлеу алгоритмді құрудың графикалық сызбасы болып табылады. Cluster деп аталатын торап ол- әрқайсысы өз бетінше кластерді құрайтын, бірнеше дискретті күйдегі дискретті айнымалы. Х деп аталатын торап төрт Х1,Х2,Х3,Х4 үздіксіз айнымалыны ұсынады. Х айнымалысына бекітілген үлестіру әр кластер тораптарының күйі бойынша көпөлшемді Гаусстық үлестіруді ұсынады. Сондықтан да біздің ұсынып отырған қоспа моделі көпөлшемді гаусс жиынынан тұрады. Бұл Байестік желі болғандықтан, модельдің үлестіру ықтималдылығы әр тораптың ықтималдығы болып табылады[8].
Ары қарай тәжірибе нәтижесі түсінікті болу үшін Bayes server программалық өнімінде визуалды түрде көрсетілді (Сурет-4).
k-орташа алгоритмі Гаусстық қоспа моделі Сурет-4. Гаусс қоспа моделі мен К-орташа кластерлеу алгоритмдерінің
деректерді кластерлеу нәтижесі
k-орташа және Гаусстық қоспа модельдерінің тиімді талдауы 1-кестеде келтірілген.
63 Кесте-1. Алгоритмдердің талдауы
Деректер Әдіс Орташа мән (нүктенің
кластерге тиісті болу ықтималдығы бойынша)
Тест 1 K-Орташа 0.69
Гаусстық қоспа моделі 0.75
Тест 2 K-Орташа 0.63
Гаусстық қоспа моделі 0.67
Тест 3 K-Орташа 0.71
Гаусстық қоспа моделі 0.73
Жоғарыдағы кестенің нәтижесі бойынша үш жағдайда да (Тест 1, Тест 2 және Тест 3) Гаусстық қоспа моделін таңдау тиімді болып отыр.
Сонымен, соңғы бірнеше онжылдықта әртүрлі зерттеу салаларында Байестік желілер тәсілдерін қолдану танымал бола бастады. Әсіресе кластерлеу тапсырмаларын шешуде кеңінен қолданыла бастады. k-орташа және Гаусстық қоспа моделі алгортимдерін салыстыру нәтижесінде екі алгортимде жақсы нәтиже көрсетті.
k-орташа алгоритмінің артықшылығы көп көлемді деректерді кластерлеу кезінде жақсы нәтиже бере алады, бірақ кластерлеу нақты жүргізілетіні белгісіз. Ал Гаусстық қоспа моделі байестік кластерлеу жүйесі болғандықтан ол нүктенің қай класстерге жататыны туралы нақты көрсете алады.
Зерттеуді қаржыландыру көзі. Жұмыс Қазақстан Республикасының Білім және ғылым Министрлігі ғылым Комитеті AP05131293 (2018–2020жж.) гранты бойынша
«Байестік желі тапсырмаларын шешуге арналған қолданбалы бағдарламалар пакетін құру және бағдарламалық жүзеге асыру» тақырыбы бойынша орындалды.
ҚОЛДАНЫЛҒАН ӘДЕБИЕТ
1. Baid U., Talbar S., Talbar S. Comparative Study of K-means, Gaussian Mixture Model, Fuzzy C-means algorithms for Brain Tumor Segmentation // Proceedings of the International Conference on Communication and Signal Processing. – Р. 592-597. - 2016.
2. Weatherill, G. and Burton, P. W.: Delineation of shallow seismic source zones using K-means cluster analysis, with application to the Aegean region, Geophys. J. Int., 176, 565–588, 2009.
3. Gordillo, N., Montseny, E., Sobrevilla, P.: State of the art survey on MRI brain tumor segmentation // Magnetic Resonance Imaging. - № 31(8). – Р. 1426-1438. – 2013.
4. Madhukumar, S., Santhiyakumari, N.: Evaluation of k-Means and fuzzy C-means segmentation on MR images of brain // The Egyptian Journal of Radiology and Nuclear Medicine. - № 23. – Р. 213-224. – 2015.
5. Rui A., Sousa, J.: Comparison of fuzzy clustering algorithms for Classification //
Proceedings of the Int. Symposium on Evolving Fuzzy Systems. - 112-117. – 2006.
6. Jain, A., Murty, M., Flynn, P.: Data Clustering: A review // ACM Computing Surveys. - № 31(3). – Р. 264-323. - 1999.
7. D. Barber, Bayesian reasoning and machine learning. Cambridge University Press, 2012.
8. K. P. Murphy, Machine learning: a probabilistic perspective. MIT press, 2012.
ӘОЖ 81-114.2
64
МӘТІНДІК АҚПАРАТТАРДЫ ПАРАМЕТРЛЕУ АЛГОРИТМДЕРІНЕ ШОЛУ
Тасболатұлы Н., Касымжанов Б.Қ., Дузбаев Т.Т.
ҚР БҒМ ҒК «Ақпараттық және есептеуіш технологиялар институты»
Түйіндеме. Бұл жұмыста мәтіндік ақпараттарды параметрлеу процесінің өзектілігі, қолданылу аясы және мәтіндік ақпараттарды параметрлеу, параметр анықтамасы келтірілді. Сонымен қатар, мәтіндік ақпараттарды параметрлеудің танымал алгоритмдеріне талдау жасалынып, сол алгоритмдерде қарапайым мысал қарастырылды.
Түйін сөздер: параметрлеу, параметр, кластерлеу, TF-IDF алгоритмі, нейрондық желілер, сөздердің векторлық ұсынылуы, семантикалық талдау, дистрибутивтік семантика.
Кіріспе. Параметрлеу (parametrization; parametrisierung; paramétrisation) –
«принциптер мен параметрлер» әдісі шеңберінен әмбебап грамматикаға өтудегі адам танымының идеалданған жүйесі ретінде тілді зерттеу тұжырымдамасының негізгі ұғымдарының бірі. Ғалым Н.Хомский бойынша: «Қарапайым мағынасында тілдерде ешқандай ереже немесе құрылым болмайды (мысалы, пассивті, салыстырмалы сөйлемдер және т.б.), ережелер мен құрылымдардың барлығы зерттеушілердің ойлап тапқаны. Белгілі бір тіл үшін әмбебап принциптер мен қандай мүмкіндіктер (параметр мәндері) жарамды болып табылатындығы туралы таңдаудың соңғы жиынтығы бар»
[1] – делінеді.
Параметрлер – сыртқы бақылаушылардан жасырын, бай құрылымға ие күрделі механизмнің корпусындағы өзіндік қосқыштар. Әр түрлі тілдер лексикалық айырмашылықтардан ғана емес, сонымен қатар жалпы қағидалардың әртүрлі параметрлерін көрсетеді [2].
TF-IDF алгоритмі. TF-IDF (TF – term frequency – термин жиілігі; IDF – inverse document frequency – құжаттың кері жиілігі) құжаттардың немесе корпус жинақтарының бөлігі болып табылатын құжаттың мәнмәтінінде сөздің маңыздылығын бағалау үшін пайдаланылатын статистикалық алгоритм. Бұл алгоритм бойынша сөздің салмағы құжатта осы сөздің қолданылу мөлшеріне тепе-тең және жиынтықтың барлық құжаттарында сөзді пайдалану жиілігіне кері пропорционалды.
TF-IDF алгоритмі мәтінді талдауда және ақпаратты іздеуде жиі пайдаланылады.
Мысалы, кластерлеуде құжаттардың жақындығын есептеу кезінде; құжатты іздеу сұранысына сәйкес келетін критерийлердің бірі ретінде пайдаланылады [3].
TF – құжатта терминнің қандай жиілікте кездесетіндігін есептейтін өлшем.
Формула түрінде көрсететін болсақ:
, tk k
TF t d n
n
,мұндағы: t – термин, d – құжат, nt- t терминнің құжатта канша рет кездескен саны,
knk
- құжаттағы барлық сөздер саны.65
IDF – кейбір сөздердің құжаттар топтамасында кездесу жиілігінің инверсиясы.
Бұл өлшем терминнің маңыздылығын есептейді. Яғни, біз TF өлшемін есептегенде әрбір сөз бір біріне қатысты тең маңызды деп есептеліп, жиі қолданылатын бірақ маңызды емес сөздер үлкен мәнге ие болады. Мұндай жағдайда IDF есептеледі. Бұл тұжырымның негізін қалаушы британиялық ғалым Карен Спарк Джонс [4] болып табылады. IDF өлшемі барлық құжаттар саны мен термин кездесетін құжаттар санының қатынасының логарифмі түрінде есептеледі [5]:
, log
i i
,IDF t D D
d D t d
мұндағы: D- құжаттар топтамасы,
diD t d i
- D құжаттар топтамасынан t (t 0
n жағдайында) термині кездесетін құжаттар саны.
Осылайша, TF-IDF алгоритм нәтижесі екі фактордың көбейтіндісі болып табылады:
TF IDFTF t d, *IDF t D,
Әрбір құжаттағы барлық сөз үшін TF мәнін жеке жеке есептейміз. Содан әрбір сөз үшін IDF есептеп, оны есептелген TF мәнімен көбейтеміз. Кірісінде болатын мәтіндердің бірдей тәртібін сақтау үшін, нәтижесінде алынған сөздікті тізімге қосамыз. Әрбір термин үшін есептелген TF-IDF-дің сөздіктер тізімін қайтарамыз.
Мысал. 100 сөзден тұратын x құжатта «Алматы» сөзі 4 рет кездескен болсын, яғни TF4 100 немесе 0,04 тең. x құжатты қоса есептегенде осындай 1000 құжат бар деп қарастырайық және «Алматы» сөзі бұл құжаттардың 10 құжатында кездеседі делік. Бұл жағдайда «Алматы» сөзінің IDF шамасы log 1000 10 немесе 2-ге тең. Ал
бұл алгоритмді қолдану барысындағы «Алматы» сөзінің маңыздылық өлшемі 2 * 0, 04 -ке немесе 0,08-ге тең.
Word embedding (сөздердің векторлық ұсынылуы). Векторлық ұсыну - тілдік модельдер және табиғи тілде өңдеу функцияларын (NLP) оқыту әдістерінің жиынтықтары үшін ортақ атау. Мұнда сөздер немесе сөз тіркестері шынайы сандар векторларында көрініс табады. Тұжырымдамада ол сөздің бір өлшемі бар кеңістіктен әлдеқайда төмен өлшеммен үздіксіз векторлық кеңістікке математикалық ендіруді қамтиды.
Бұл мәселені генерациялау әдістері нейрондық желілерді [6], ықтималдық модельдерді [7], түсіндіретін білім негіздері [8] әдістерін, сөзбе-сөз кездесетін матрицада өлшемділікті азайту [9-11] әдістерін, сөздер пайда болатын контекст тұрғысынан айқын көрініс [12] әдісін қамтиды.
Сөздердің және сөз тіркестерінің векторлық ұсыныстары табиғи тілдерді автоматты өңдеудің кейбір әдістерінің сапасын айтарлықтай жақсартуы мүмкін (мысалы, синтаксистік талдау [13] және тоналдылық талдау [14]).
Word2Vec. Word2vec – бұл табиғи тілдердің семантикасын талдаудың бағдарламалық құралы, ол дистрибутивті семантикаға және сөздердің векторлық көрінісіне негізделген технология болып табылады. Бұл құралды Томас Миколов [15]
басқаруымен Google зерттеушілер тобы 2013 жылы әзірледі.
66
Бұл технологияның жұмысы келесідей: word2vec кіріс деректер ретінде үлкен мәтіндік корпусты алады және әр сөзді вектормен байланыстырады, сөздердің координаттарын шығарады. Алдымен ол сөздікті жасайды, кіріс мәтіндік деректерінде «үйренеді», содан кейін сөздердің векторлық көрінісін есептейді.
Векторлық ұсыныс контекстік жақындыққа негізделеді: бірдей сөздердің жанында мәтінде кездесетін сөздер (демек, ұқсас мағынасы бар) векторлық көріністегі сөз векторларының тығыз координаттары болады. Алынған сөз векторлары табиғи тіл мен машиналық оқытуды өңдеу үшін пайдаланылуы мүмкін.
Шығу кезінде алынған сөз векторларының координаттық көріністері сөздер арасында «семантикалық қашықтықты» есептеуге мүмкіндік береді. Сонымен қатар, осы сөздердің контекстік жақындығына сүйене отырып, word2vec технологиясы өз болжамдарын жасайды. Word2vec құралы нейрондық желіні оқытуға негізделгендіктен оның ең тиімді жұмысына қол жеткізу үшін, оны оқытуға сөздердің үлкен корпусын пайдалану қажет. Бұл болжаудың сапасын жақсартуға мүмкіндік береді.
Мұндай модельдерді орыс тіліне қолданудың мысалы «РусВектоРес» веб- қызметінде ұсынылған. Жоғарыда келтірілген «Алматы» сөзіне қатысты осы қосымшаны пайдалану нәтижесі жиілік коэффициенті 0,557 тең «Астана» сөзін семантикалық жағынан ең жоғарыжиілікті деп көрсетті.
Дистрибутивтік семантика. Дистрибутивтік семантика – лингвистикалық деректердің үлкен массивтерінде оларды таралуына (дистрибуция) байланысты тілдік бірліктер арасындағы семантикалық жақындық дәрежесін есептеуді қарастыратын лингвистика саласы болып табылады. «Дистрибьюторлық талдау – толық лексикалық немесе грамматикалық мағынасы туралы ақпаратты пайдаланбай мәтіндегі жеке сөз орналасуын (дистрибуциясын, таралуын) зерттейтін тілдік әдіс [16].
Математикалық моделді ұсыну тәсілі ретінде сызықтық алгебраның векторлық кеңістіктері пайдаланылады. Лингвистикалық бірліктердің дистрибуциясы туралы ақпарат ауызша векторлық кеңістік қалыптастыратын көп сандық векторлар түрінде ұсынылған. Векторлар лингвистикалық бірліктерге (сөздер немесе сөз тіркесімі) сәйкес келеді, ал өлшемдер контексттерге сәйкес келеді. Векторлық координат - бұл берілген сөз немесе сөз тіркесінің қанша рет берілген контекстте кездесетіндігін көрсетеді.
Лингвистикалық бірліктер арасындағы семантикалық жақындық векторлар арасындағы қашықтық ретінде есептеледі. Дистрибутивтік семантикаға арналған зерттеулерде көбінесе косинустық шара келесі формуламен есептеледі:
1
2 2
1 1
*
*
n
i i
i
n n
i i
i i
A B DS
A B
,
мұндағы, А және В олардың арасындағы қашықтық есептелетін екі вектор. Осындай талдауды жүргізгеннен кейін зерттелетін сөзге қатысты ең жақын мағыналы сөздерді табу мүмкін болады.
Дистрибутивтік семантиканың модельдері табиғи тілдің семантикалық үлгілеріне қатысты зерттеулер мен практикалық іске асыруларда қолдануға ие болды.
Дистрибутивтік модельдер келесі мәселелерді шешу үшін пайдаланылады:
сөздер мен сөз тіркестерінің семантикалық жақындығын анықтау;
67
олардың семантикалық жақындығы дәрежесі бойынша автоматты түрде сөзді кластерлеу;
автоматты түрде генерациялау теориясы және тілдік сөздіктер;
лексикалық белгісіздіктің шешімі;
ассоциативті сілтемелер арқылы сұраныстарды кеңейту;
құжаттың тақырыбын анықтау;
ақпаратты іздеу үшін кластерлік құжаттар;
мәтіндерден білім алу;
әртүрлі пәндік салалардың семантикалық карталарын құру;
перифериялық модельдеу;
сөйлеу тонының анықтамасы;
сөздердің үйлесімділік шектеулерін моделдеу.
Қорытынды. Лингвистикалық құбылыстарды баптағанда, оларды талдаудың негізінде бірыңғай тәсіл алынуы, яғни, біріңғай тәсіл лингвистикалық құбылыстардың параметрлік өрнектеріне сәйкес қатаң бір мәнді ережелер түрінде ұсынылған болуы маңызды. Осы жүйелі тәсілдің арқасында әрбір жеке өлшемде әртүрлі тәсілдермен жұмыс істейтін жеке себептердің көптеген салдарынан туындаған кездейсоқ қателер санын барынша азайтуға болады және нақты себептермен әрекет ететін жүйелі қателердің болуын ескеруге болады.
Бұл зерттеу 2018-2020 жылдарға арналған бағдарламалық мақсатты қаржыландыру (БМҚ) №BR05236839 «Цифрлық Қазақстанды дамытудың негіздерінің бірі ретінде жеке тұлғаның тұрақты дамуына ықпал ететін ақпараттық технологиялар мен жүйелерді құру» жобасы аясында жүргізілді.
Пайдаланылған әдебиеттер:
[1] Chomsky N. Bare phrase structure. – Cambr. (Mass.): MIT, 1994. – 48+3 p.
[2] Rappaport G.C. On syntactic binding into adjuncts in the Russian noun phrase //
Topics in syntax and semantics: NPs, non-A binding. – Dordrecht; Boston: Reidel, 1987.
P.475-501.
[3] https://ru.wikipedia.org/wiki/TF-IDF
[4] Jones K. S. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation: журнал. – MCB University: MCB University Press, 2004. – Т. 60, № 5. – С. 493-502.
[5] Дж. Солтон. Динамические библиотечно-поисковые системы. – М.: Мир, 1979.
[6] Mikolov T., Sutskever I., Chen K., Corrado G., Dean J. Distributed Representations of Words and Phrases and their Compositionality. – arXiv:1310.4546 Freely accessible [cs.CL].
[7] Globerson A. Euclidean Embedding of Co-occurrence Data // Journal of Machine learning research. – 2007.
[8] Qureshi M.A., Greene D. EVE: explainable vector based embedding technique using Wikipedia // Journal of Intelligent Information Systems. doi:10.1007/s10844-018- 0511-x. ISSN 0925-9902.
[9] Lebret R., Collobert R. Word Emdeddings through Hellinger PCA // Conference of the European Chapter of the Association for Computational Linguistics (EACL). 2014.
arXiv:1312.5542 Freely accessible.
68
[10] Levy O., Goldberg Y. Neural Word Embedding as Implicit Matrix Factorization.
NIPS. – 2014.
[11] Li Y., Xu L. Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective // Int'l J. Conf. on Artificial Intelligence (IJCAI).
– 2015.
[12] Levy O., Goldberg Y. Linguistic Regularities in Sparse and Explicit Word Representations. – 2014. CoNLL. pp. 171–180.
[13] Socher R., Bauer J., Manning Ch., Ng A. Parsing with compositional vector grammars // Proc. ACL Conf. – 2013. pp. 1-11.
[14] Socher R., Perelygin A., Wu J., Chuang J., Manning Ch., Ng A., Potts Ch.
Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank //
EMNLP. – 2013. pp. 1-12.
[15] Mikolov T, Chen K., Corrado G., and Dean J. Efficient Estimation of Word Representations in Vector Space // In Proceedings of Workshop at ICLR, 2013.
[16] Schutze H. Dimensions of meaning // Proceedings of Supercomputing'92. – 1992. – pp. 787-796.
Тасболатұлы Нұрболат – PhD докторант, кіші ғылыми қызметкер, ҚР БҒМ ҒК
«Ақпараттық және есептеуіш технологиялар институты»;
050010, Алматы, Қазақстан; e-mail: [email protected] Қасымжанов Бек Құдайбергенович – аға ғылыми қызметкер, ҚР БҒМ ҒК «Ақпараттық және есептеуіш технологиялар институты»;
050010, Алматы, Қазақстан; e-mail: [email protected] Дузбаев Талғат Толеубаевич – кіші ғылыми қызметкер, ҚР БҒМ ҒК «Ақпараттық және есептеуіш технологиялар институты»;
050010, Алматы, Қазақстан; e-mail: [email protected]
УДК 532.517
МОДЕЛИРОВАНИЕ ОСЕСИММЕТРИЧНОГО СТРУЙНОГО ТЕЧЕНИЯ
Абдимуталипова З.К. 1, Курбаналиев А.Ы. 1, Калбекова М.Ж. 1, Сулайманова Г.К. 2
1Ошский государственный университет
2Баткенский государственный университет
Аннотация: Представлены результаты численного моделирования турбулентной свободной струи, выходящей из осесимметричного отверстия в неподвижную воздушную среду. Численное моделирование проводилось путем решения усреднённых по Рейнольдсу уравнений Навье-Стокса использованием решателя simpleFoam пакета OpenFOAM. Для учета влияние турбулентных пульсаций на среднее течение в трехмерной цилиндрической области использовалась стандартная двухпараметрическая модель турбулентности k-ε. Для оценки
69
возможностей принятой модели турбулентности численные результаты сравниваются с соответствующими экспериментальными данными.
Ключевые слова: моделирование, k-ε-модель, осесимметричное струйное течение, расчетная сетка, метод контрольных объёмов, OpenFOAM.
Введение
Струйные течения находят самое широкое применение в различных технологических процессах. Это, например, нанесение защитных покрытий путем газодинамического напыления порошков металлов на различные поверхности с помощью двухфазных струй с целью создания антикоррозийных покрытий или повышения изностойкости трущихся поверхностей, интенсификация процессов тепломассопереноса в технологических процессах химического производства и многое другое.
В металлургической промышленности струи находят самое широкое применение в связи с переходом на конвертерный способ производства стали.
Наиболее ярким примером является сравнительно новая технология нанесения дополнительного огнеупорного покрытия на стенки сталеплавильных конвертеров с помощью двухфазных струй. Эта технология, известная как струйное (или факельное) торкретирование, является практически полностью автоматизированной и ее применение позволяет значительно сократить простои конвертеров между плавками и более чем вдвое увеличить количество плавок на одном конвертере без замены его основной огнеупорной кладки.
Современное состояние численного моделирования в областях аэрогидродинамики и теплофизики характеризуется широким распространением коммерческих пакетов, реализующие численные алгоритмы решения уравнений Навье-Стокса. Разработка универсальных коммерческих пакетов типа ANSYS, COMSOL MULTYPHYSICS, FLOW3D, FLUENT, PHOENICS и других во многом связана с прогрессом в развитии высокопроизводительной вычислительной техники, в том числе суперкомпьютеров. На определенном этапе указанные пакеты сыграли определенную роль, однако в данное время, все очевиднее становится их тормозящее воздействие на развитие численных методов исследований в различной научной и учебной сфере. Причины лежат в сложившейся монополизации производителей и в закрытости самих исходных кодов.
Альтернатива вышеуказанным платным пакетам заключается в использовании открытого программного обеспечения, таких как OpenFOAM, Dolphyn, SALOME, Engrid, Paraview и других. В данное время эти пакеты поставляют на условиях GPL:
их свободно можно загрузить из Интернета.
Целью работы являлась проверка возможности моделирования свободных струйных течений посредством программного пакета OpenFOAM [1].