Ғылыми жобалар
2024-2026 жылдарға арналған «Жас Ғалым» жобасы бойынша жас ғалымдарға гранттық қаржыландыру
Жоба жетекшісі: Камшат Тусупова, PhD
Жоба атауы:
Өндірістік кәсіпорындар үшін ресурстарды оңтайлы бөлу және олардың даму динамикасын болжау үшін интеллектуалды ақпараттық жүйені әзірлеу.
IRN: AP22684879
Жоба сипаттамасы: Жоба өндірістік кәсіпорындар үшін ресурстарды оңтайлы бөлуді қамтамасыз ететін және олардың даму динамикасын болжайтын интеллектуалды ақпараттық жүйені әзірлеуге бағытталған. Зерттеу сыртқы әсерлер мен белгісіздікке бейімделген Кобб-Дуглас өндірістік функциясына негізделген, бұл нақты әлемдегі процестерді көрсететін экономикалық және математикалық модель құруға мүмкіндік береді. Жоба икемді және тиімді ресурстарды бөлуді қамтамасыз ететін басқару алгоритмдерін әзірлеуді, сондай-ақ болжам дәлдігін жақсарту үшін машиналық оқыту әдістерін біріктіруді жоспарлап отыр. Жүйе пайдаланушы интерфейсін және ақпаратты сақтау және өңдеуге арналған дерекқорды қамтиды. Оның тиімділігін бағалау үшін нақты деректер бойынша тестілеу және өндірістік ортада енгізу нәтижелерін кейіннен бақылау жоспарлануда.
Нәтижелер: Сыртқы факторлар мен белгісіздіктерді ескере отырып, Кобб-Дуглас функциясына негізделген экономикалық-математикалық модель жасалды. Өзгермелі жағдайларда ресурстарды оңтайлы бөлуді қамтамасыз ететін басқару алгоритмдері жасалды. Машиналық оқыту әдістері біріктірілді, бұл болжам дәлдігін және жүйенің тиімділігін арттырды.
2024-2026 жылдарға арналған қаржыландыру көлемі:
Жалпы сомасы:
25 068 744 теңге
2024 жылға арналған сома:
7 764 468 теңге
2025 жылға арналған сома:
8 513 893 теңге
2026 жылға арналған сома:
8 790 383 теңге
Жоба жетекшісі: Уәлшер Әнуарбекұлы Төкеев, инженерия ғылымдарының докторы
Жобаның атауы: Түркі тілдеріндегі сөйлеу транскрипциялары мен кездесу хаттамаларын генерациялаудың нейрондық модельдерін зерттеу.
IRN: AP23487816
Жобаның сипаттамасы:
Түркі тілдерінің өзара әрекеттесуін дамыту мәселесі түркі мемлекеттері арасындағы ынтымақтастықтың белсенді дамуын ескере отырып, өте өзекті. Түркі тілдерінің өзара әрекеттесуін дамытудың маңызды бағыттарының бірі - түркі тілдерінде өткізілетін кездесу хаттамаларын тиімді дайындауды қамтамасыз ету.
Жоба түркі тілдері үшін сөйлеу транскрипциялары мен кездесу хаттамаларын автоматты түрде генерациялауға арналған нейрондық технологияны әзірлеуге бағытталған. Зерттеуге қазақ, әзірбайжан, қырғыз, түрік, түрікмен және өзбек тілдері кіреді, олардың қазақ тілімен өзара әрекеттесуіне ерекше назар аударылады. Түркі мемлекеттері арасындағы ынтымақтастықтың белсенді дамуын ескере отырып, түркі тілдерінің өзара әрекеттесуін дамыту мәселесі өте өзекті. Түркі тілдерінің өзара әрекеттесуін дамытудың маңызды бағыттарының бірі - түркі тілдерінде өткізілетін кездесу хаттамаларын тиімді дайындау. Негізгі идея - түркі тілдерінде сөйлеу транскрипциялары мен кездесу хаттамаларын автоматты түрде генерациялауға арналған нейрондық модельдерге негізделген кешенді технологияны әзірлеу. Зерттеу нысандары - қазақ, әзірбайжан, қырғыз, түрік, түрікмен және өзбек. Келесі жұптарға ерекше назар аударылады: әзірбайжан-қазақ, қырғыз-қазақ, түрік-қазақ, түрік-қазақ, түрікмен-қазақ және өзбек-қазақ.
Нәтижелер:
Жобадан күтілетін нәтижелер: 1) түркі тілдерінде сөйлеу транскрипттерін және кездесу хаттамаларын жасаудың кешенді технологиясының модельдері, әдістері және құралдары; 2) түркі тілінің транскрипттерін қазақ тіліне машиналық аударудың модельдері, әдістері және құралдары; 3) нейрондық модельдерді оқытуға арналған деректер жиынтығы. 4) Қазақ тіліндегі мәтін транскрипттерінен кездесу хаттамаларын жасаудың модельдері, әдістері және құралдары.
2025 жылдың шілде айындағы жоба жетістіктері:
- Қазақ, әзірбайжан, қырғыз, түрік, түрікмен және өзбек тілдері үшін сөйлеуден мәтінге транскриптті тану құралдары таңдалды;
- Келесі тіл жұптары үшін реляциялық машиналық аударма технологиялары әзірленді: түрік-қазақ, өзбек-қазақ және қырғыз-қазақ;
Кері аударма технологиясын қолдана отырып, бес синтетикалық параллель корпустар жасалды: әзірбайжан-қазақ, қырғыз-қазақ, түрік-қазақ, түрікмен-қазақ және өзбек-қазақ, әрқайсысында 1 миллион параллель сөйлемдер бар (200 000, 300 000 және 500 000).
- Алынған синтетикалық параллель корпустардың жалпы көлемі келесі жұптар үшін 5 миллион параллель сөйлемді құрайды: әзірбайжан-қазақ, қырғыз-қазақ, түрік-қазақ, түрікмен-қазақ және өзбек-қазақ.
- Алынған 5 миллион параллель сөйлемдер қысқартулар мен қайталау қателерін жою үшін автоматтандырылған бағдарламаны пайдаланып тазартылды.
- Әрбір тіл жұбы үшін қайталанатындарды тазалап, алып тастағаннан кейін шамамен 782 000 корпус қалды, барлығы шамамен 3 910 000 сөйлем.
NLLB 1.3B моделі (Google) барлық тіл жұптары үшін 487 000 синтетикалық және тазартылған корпустар бойынша оқытылды.
- 497 000 синтетикалық және тазартылған корпустарда оқытылған NLLB 1.3B базалық моделі және NLLB 1.3B моделі бағаланды. Бағалау WER, TER, BLEU және CHRF метрикаларын қолдану арқылы жүргізілді. BLEU метрикасы бойынша үш модельдің ұпайлары келесідей: әзірбайжан-қазақ: 22.99, 37.28, 47.84; қырғыз-қазақ: 17.72, 29.73, 48.27; түркімен-қазақ: 9.18, 22.82, 33.22; түрік-қазақ: 18.52, 33.2, 42.10; өзбек-қазақ: 19.7, 31.71. Тазартылған корпустағы модельдің BLEU ұпайы базалық модельмен салыстырғанда орта есеппен 25 оқпанға жақсарды.
Жоба жетекшісі: Айдана Сейілғазықызы Карибаева, PhD
Жоба атауы: Түркі тілдерінің параллель сөйлеу корпустарын автоматты түрде генерациялау және оларды нейрондық модельдер үшін пайдалану бойынша зерттеулер
IRN: AP23488624
Бұл жоба түркі тілдеріне арналған параллель сөйлеу корпусын құруға арналған, бұл лингвистика, есептеу лингвистикасы және ақпараттық технологиялардағы өзекті мәселе. Мұндай корпус тілдік ерекшеліктерді дәлірек зерттеуге, жаңа талдау және өңдеу модельдерін әзірлеуге, сондай-ақ машиналық аударма, сөйлеуді тану және синтез жүйелерін әзірлеуге мүмкіндік береді. Жоба екі тәсілді зерттейді: каскадты корпус генерациялау схемасы (STT-TTT-TTS) және оны STS (Сөйлеуден сөйлеуге) жүйелерін оқытуда тікелей қолдану. Жобаны іске асыру аудармашылар, чатботтар және интеллектуалды байланыс жүйелерін қоса алғанда, автоматтандырылған қолданбалардың негізін қалайды. Алынған нәтижелер түркі тілдерін қолдау мен дамытуға бағытталған ғылыми зерттеулер мен практикалық әзірлемелер үшін пайдалы болады. Олар сондай-ақ мәдени және тілдік мұраны сақтауға, тіларалық байланысты нығайтуға және түркі тілдерінде сөйлейтіндер үшін заманауи цифрлық технологияларға қолжетімділікті кеңейтуге айтарлықтай үлес қосады.
Жобаның күтілетін нәтижелері:
Қазақ тілінен түркі тілдеріне сөйлеуге арналған каскадтық машиналық аударма схемасы әзірленеді; қазақ тілінен түрік, татар және өзбек тілдеріне параллель аудиокорпустар жасалады және машиналық аударма жүйелерін оқытуда қолданылады; және каскадтық және нейрондық машиналық аударма технологияларының нәтижелері сапа көрсеткіштерін қолдана отырып алынады және бағаланады. Жобаның бүкіл кезеңінде мақалалар конкурстық құжаттаманың талаптарына сәйкес жоғары рейтингті журналдарда дайындалады және жарияланады:
- Жобаның ғылыми бағытындағы, Science Citation Index Expanded индексінде индекстелген және Web of Science әсер ету факторының 1-ші (бірінші), 2-ші (екінші) және/немесе 3-ші (үшінші) квартильдеріне енгізілген және/немесе Scopus-та CiteScore пайызы кемінде алпыс (60) болатын ғылыми журналдарда кемінде үш (3) мақала және/немесе шолу;
- Ресей Федерациясының Ғылым және мәдени ұйымдар комитеті ұсынған шетелдік немесе отандық басылымдағы кемінде бір (1) мақала немесе шолу;
- Отандық басылымда жарияланған бір монография.
Жалпы сомасы: 91 286 606,18 теңге.
2024 жылға арналған сома: 26 922 345,17 теңге.
2025 жылға арналған сома:
30 489 305,39 теңге.
2026 жылға арналған сома:
33 874 955,62 теңге.
Жоба аты AP19677835 - «Қазақстан Республикасының заңнама саласындағы мемлекеттік тілге арналған семантикалық тәсілдерге негізделген интеллектуалды сұрақ-жауап үлгілерін зерттеу және жүйені әзірлеу»
Жоба жетекшісі: доц. профессор. PhD. Рахимова Диана Рамазанқызы Іске асыру мерзімі: 2023-2025 жж.
Жоба өзектілігі Қазақстан Республикасының мемлекеттік тілінде құқықтық ақпараттың қолжетімділігі мен тиімділігін арттыру қажеттілігімен байланысты. Заманауи заңи құжаттар күрделі құрылымға ие, бұл арнайы білімсіз оларды түсінуді қиындатады. Интеллектуалды сұрақжауап жүйелерінде семантикалық тәсілдерді қолдану құқықтық мәтіндерді автоматты түрде талдауға және интерпретациялауға мүмкіндік береді, азаматтар мен мамандарға ақпаратқа ыңғайлы қолжетімділікті қамтамасыз етеді. Мемлекеттік басқаруды цифрландыру жағдайында мұндай жүйе құқықтық кеңес беру сапасын едәуір арттыра алады. Қазақ тіліне арналған табиғи тілді өңдеу (NLP) технологияларын дамыту оның морфологиялық және синтаксистік ерекшеліктерін ескеретін арнайы модельдерді бейімдеуді және жасауды талап етеді. Сұрақ-жауап жүйелері үшін әртүрлі модельдерді зерттеу заңи мәтіндердің семантикалық талдауының ең тиімді әдістерін анықтауға мүмкіндік береді. Осылайша, семантикалық тәсілдерге негізделген интеллектуалды жүйені әзірлеу құқықтық ақпараттың цифрлық экожүйесін дамытуға және Қазақстанның тіл саясатын нығайтуға ықпал етеді.
Жоба мақсаты
Жоба Қазақстан Республикасы заңнамасына қатысты қазақ тіліндегі сұрақтарды түсініп, нақты әрі түсінікті жауаптар беретін интеллектуалды сұрақ-жауап жүйесін құруға бағытталған. Жүйе семантикалық тәсілдерге негізделеді, яғни сұраныстарды дұрыс интерпретациялау және жауаптарды іздеу үшін мәтіннің мағынасын талдайды. Бұл үшін машиналық оқыту және табиғи тілді өңдеу (NLP) технологиялары, соның ішінде семантикалық модельдер қолданылады.
Жарияланымдар тізімі
Авторлық куәліктер
1) ЭЕМ-ге арналған бағдарлама авторлық куәлігі, Рахимова Диана Рамазановна, Сатыбалдиев Абылай қазақ тіліне арнаған генерация моделі 05.05.2023 ж. № 35478
2) ЭЕМ-ге арналған бағдарлама авторлық куәлігі, ӘДІЛБЕК ҚҰРАЛАЙ; Рахимова Диана Рамазановна, Машиналық оқу негизинде семантикалық талдау жасаумоделі, № 34423 07.04.2023
3) Шормакова а. н. Айтбекқызы А. "Қазақстан Республикасының заңнамасы бойынша қазақ тілінде электрондық ресурстарды жинау жөніндегі бағдарлама"
ЭЕМ бағдарламасына 2024 жылғы 29 мамырдағы №46617 авторлық куәлік. Жоба аясында қорғалған магистрлік диссертациялар Осы жоба аясында 7М0101 – «Есептеуіш лингвистика» мамандығы бойынша Н.Б. Матановтың магистрлік диссертация «Машиналық оқыту негізінде қазақ тілінің синонимдерін құрастыру модельдерін зерттеу және әзірлеу» тақырыбы бойынша аяқтап, сәтті қорғады.
https://farabi.university/storage/files/37039510356811ce3f27458463579773_Матанов диссер 2024.pdf