Ғылымнан туындаған алгоритмдер: ҚазҰУ академиялық білімге негізделген KazLLM моделін жасаудаFarabi University

Ғылымнан туындаған алгоритмдер: ҚазҰУ академиялық білімге негізделген KazLLM моделін жасауда

23 мамыр, 2025

         

Қазақ тілінде «ойлайтын», әрі академиялық білімге сүйенетін жасанды интеллект қандай болуы керек? Осы сұраққа 2025 жылдың 14 мамырында журналистер мен жасанды интеллект саласындағы зерттеушілер бірлесе жауап іздеді.

 

          Әл-Фараби атындағы Қазақ ұлттық университетінің Ақпараттық технологиялар факультетінде «Data-журналистика» білім беру бағдарламасының магистранттары мен «Қазақ тілін және технологиялық прогресті қолдау үшін үлкен тілдік модель LLM құру» атты бірегей жобаның қатысушылары арасында ғылыми-практикалық кездесу өтті.

          Кездесуді ұйымдастырған – филология ғылымдарының кандидаты, Журналистика факультетінің аға оқытушысы Мусинова Әсел.

          Жасанды интеллект және Big Data кафедрасының қызметкерлері сұрақтарға жауап берді: кафедра меңгерушісі әрі жобаның жетекшісі Мансурова Мадина, аға оқытушы Оспан Әсел және маман  Мұса Аман.

          2024 жылдан бастап бағдарламалық мақсатты қаржыландыру аясында ұжым қазақ тілін түсініп, генерациялай алатын, сапалы академиялық дереккөздерге негізделген жаңа үлгідегі тілдік модельді жасаумен айналысып келеді.

          Жоба қазақ тілін ғылыми әрі кәсіби коммуникация құралы ретінде ілгерілетуге, елдің цифрлық егемендігін нығайтуға, сондай-ақ білім беру мен зерттеу салаларында жасанды интеллект шешімдерін дамытуға бағытталған. Мансурова Мадинаның атап өтуінше, бұл тек технологиялық емес, сонымен қатар мәдени-стратегиялық бастама: «Біз болашақта жасанды интеллекттің қазақ тілінде нақты, сауатты әрі кәсіби сөйлегенін қалаймыз».

 

​          Қазақ академиялық корпусына негізделген ИИ-модель

          OpenAI, Meta, Anthropic сияқты жетекші компаниялар әртүрлі сипаттамаларға ие LLM-модельдерді әзірлеуде.

          Мысалы, Қытайда жасалған DeepSeek моделі негізінен қытай тіліне бағытталған. GPT қазақ тілін түсінгенімен, оның оқыту деректер жиынтығы қолжетімсіз. Ал Meta компаниясының LLaMa моделі ашық дереккөздерді пайдалана отырып, тілдік құрылым ерекшеліктерін ескереді.

          Халықаралық кең танымал модельдермен салыстырғанда, қазақстандық KazLLM моделі ұлттық ерекшеліктер мен құндылықтарды, тіл құрылымы мен мәдени контексті ескереді. KazLLM моделінің оқыту негізі – көркем әдеби шығармалар, ғылыми деректер мен ресми құжаттар.

 

 

Қазақ тілінде LLM моделін оқытудағы қиындықтар мен кедергілер

ChatGPT, Gemini, Claude секілді ірі тілдік модельдер әлемдік нарықты жаулап жатқанда, қазақ тілді цифрлық модельдердің дамуы өзекті. KazLLM жобасы – отандық жасанды интеллект технологиялары үшін маңызды қадам.  Батыл бастамалармен бірге көптеген қиындықтар мен кедергілер де қатар жүруде. Қазақ тілді модель оқытудағы басты қиындықтардың бірі – ашық әрі сапалы деректердің жетіспеушілігі. Мысалы, ағылшын GPT, LLaMa модельдері жүздеген миллиард сөйлемнен құрылған датасеттерде оқытылады. Ал қазақ тілінде көлемді деректің тапшылығын аға оқытушы Оспан Әсел атап өтті. ҚазҰУ қазақ тілді модельдер негізінде журналистика саласына арналған көмекші құру нәтижесінде 1,9 миллиард параметрі бар алғашқы қазақ тілінің медиа корпусы моделі әзірленді.  Параметр – әрбір сөйлемнің, сөз тіркесінің сандық көрінісі. Бұл сан неғұрлым көп болса, модель соғұрлым күрделі әрі икемді болады.

«Тіл қазына» ұлттық ғылыми-практикалық орталық директоры Кенжебаева Сандуғаш айтуынша, «Абай жолы» романынан алынған сөйлемдер саны – бар болғаны 156 000 (түпнұсқа) сөйлем. Бұл аса ауқымды модель оқыту үшін жеткіліксіз. Деректерді жинау, өңдеу, сапасын тексеру – ұзақ әрі күрделі үдеріс.

Жоба мүшелері күнделікті цифрланбаған кітаптарды сканерлеп, OCR (Optical Character Recognition) технологиясы арқылы PDF форматына аударады. OCR технолгиясы – суреттегі әріптерді мәтінге айналдыратын құрал. Дегенмен, OCR қазақ тіліне тән әріптерді толық тани алмайды. Деректерді өңдеуге уақыт пен адам еңбегін көп қажет етеді. Соған қарамастан, қазіргі таңда шамамен 400 миллион сөзді құрайтын түрлі мәтіндер, 8000-нан астам сканерленген кітаптар, газеттер мен журналдардың цифрланған мұрағаттары, мысалы, Egemen Qazaqstan газеті, сондай-ақ заңдық құжаттар мен ғылыми жарияланымдар цифрланған PDF форматында енгізілді. Бұл қазақ тіліндегі деректердің алуан түрлілігін және сапасын қамтамасыз етеді.

Үлкен тілді модельдерді оқыту – тек мәтін енгізіп, нәтиже алу емес, бір мезетте миллиардтаған параметрді есептеп, өңдейтін күрделі инженерлік инфрақұрылым қажет. Модельдерді тиімді оқыту үшін графикалық процессорлар (GPU) қолданылады. GPU – бір мезетте мыңдаған есептеу операциясын орындай алатын жоғарғы өнімді құрылғы. Оспан Әсел айтуынша GPU ресурсы қосылғаннан кейін жауап беру уақыты 5-10 секундқа дейін қысқарған. Яғни, өңдеу жылдамдығы техникалық ресурстарға тікелей байланысты.

Болашақта NVIDIA компаниясынан арнайы суперкомпьютер орнату жоспарлануда. Яғни, техникалық кешігулер, баяу жұмыс істеу мәселелері толығымен шешімін табады. Дер кезінде әрі жүйелі жауап беру – кез келген тілдік модельдің сапа көрсеткіші. Жоба авторлары қазақ тілді деректердің сапасын арттыру және модельдің нақты жауап беруін қамтамассыз ету мақсатында RAG (Retrivel-Augmented Generation) әдісін жүзеге асыратынын атап өтті. RAG әдісінің тиімділігі тікелей дерек базасына байланысты. Қазақ тілінің морфологиясы күрделі, синоним көп, кей сөздер әр салада әртүрлі мағынада қолданылады. Құрылымдалған деректер базасының тапшы болуы – басты кедергілердің бірі. Алайда, бұл тәсіл модельдің нақты және релевантты жауап беру қабілетін арттырады.

Жасанды интеллекті дамытуда ең маңызды факторлардың бірі – адам ресурсы мен қаржыландыру. OpenAI, Google DeepMind сияқты алып ұйымдар GPT, Gemini, Claude ірі тілдік модель үшін мыңдаған мамандар жұмылдырып, қомақты көлемде қаржы бөлуде. Қазақ тілді LLM – мемлекет қолдауымен жүзеге асырылатын жоба. Мемлекет мамандардың еңбекақысын қамтамассыз етіп, қажетті техникалық құрал-жабдықтарды (серверлер, GPU, сақтау құрылғылары т.б.) беріп отыр. Бұл маңызды әрі қажет алғы шарттар. Алайда, еліміз қазақ тілінде бәсекеге қабілетті ірі тілдік модель құруды көздесе, жұмыс қарқынын жылдамдатуды қаласа, бастапқы қолдаумен шектелмей, инвестиция көлемін еселеу қажет деп ойлаймыз.  

Жобада тіл ресурстарын дайындауға жауапты мамандар бар. ҚР Ғылым және жоғары білім министрлігіне қарасты «Тіл-қазына» ұлттық ғылыми-практикалық орталығы мен Ахмет Байтұрсынұлы атындағы Тіл білімі институтында 47 кәсіби лингвист маман жұмыс істейді. Жобаға жалпы 126 ғалым тартылған және олар осы салада жұмыс істеп келе жатқан тәжірибелі, білікті мамандар. Айта кетерлігі, жоба жүйелі жүріп жатыр, әрі ең үлкен құндылық – жобадағы мамандар өз жұмысын шын ықыласпен атқарып жатыр. Бұл тек ғылыми жоба емес, ұлт тілінің цифрлық болашағына қосқан үлестері.

 

Этикалық ұстаным

Қазақ тілді модельді әзірлеу барысында этикалық нормаларды сақтау мен ұлттық және мәдени құндылықтарға құрметпен қарау мәселесіне ерекше көңіл бөлінді. Бұл міндеттерді шешу үшін ғалымдар LLM моделін бірқатар әдістер арқылы оқытып жатыр.

Prompt Filtering (сұраныстарды сүзгіден өткізу). Модель радикалды немесе арандатушы сұрақтарға заң шеңберінде жауап беру бағытталған. Мысалы, «Басқа діни сенімдегі адамдарды қоғамнан шеттету керек пе?» деген сұраққа модель: «Кешіріңіз, бұл сұрақ діни алауыздық туындатуы мүмкін. Мен тек толерантты әрі  заң талаптарына сай келетін сұрақтарға жауап беремін».

Instruction Tuning (мәдени-этикалық нұсқаулықпен оқыту). Модельді оқыту барысында отбасы құндылықтары, үлкенге құрмет, ұлттық дәстүр, қонақжайлық, әдет-ғұрып секілді ұғымдарды ескеретін арнайы нұсқаулар беріледі. Бұл тәсіл қазақ қоғамының рухани-мәдени кодының сақталуын қамтамасыз етеді.

RLHF  (Reinforcement  Learning from Human Feedback) – адам пікірі арқылы оқыту. Модельдің жауаптарын бағалауда этикалық әрі бейтарап жауаптарға басымдық беріледі. Мысалы, «ҚР мемлекеттік рәміздерін ауыстыру керек» деген пікірге модель: «ҚР мемлекеттік рәміздері – ел егемендігі мен бірлігінің нышаны. Рәміздер заңмен қорғалады және ұлт мақтанышның көрінісі» деп жауап береді.

Data Curation (деректер корын іріктеу). Абай Құнанбайұлының «Қара сөздері», Мұхтар Әуезов шығармалары, мақал-мәтелдер, Egemen Qazaqstan газетінен алынған шынайы деректер қолданылады. Бұл деректер модельдің тілдік және танымдық аясын ұлттық бағытта кеңейтеді.

Toxicity Detection (зиянды сөзді анықтау). Модель агрессивті, қорлау белгілері бар сұрақтарға жауап бермеуге үйретілген. Мұндай жағдайда: «Бұл сұрақ агрессивті және тіл тигізетін  элементтерін қамтитындықтан, жауап бере алмаймын» деген жауап ұсынады.

KazLLM моделі халықаралық стандарттарға сай жасалуда. Мысалы, OpenAI әзірлеген ChatGPT моделі де жоғарыда аталған бес әдісті қолданады. 2022 жылы жарияланған Aligning language models to follow instructions құжатында саяси және діни тұрғыдан сезімтал сұрақтарға жауап беру тәсілдері егжей-тегжейлі сипатталған. GPT-4 моделі «Діни сенімнің ең жақсысын ұсыншы» деген сұранысқа келесідей жауап береді: «Мен қандай да бір діннің басқалардан жақсы екенін айта алмаймын. Барлық дін – әр халықтың құндылықтары, дәстүрлері мен сенімдерін бейнелейді. Өзге дінге құрметпен қарау, этикалық нормаларын сақтау,  бейбіт өмір сүрудің маңызды бөлігі». Бұл жауап модель архитектурасында енгізілген этикалық бейтараптық пен құндылыққа негізделген.

Қытайда танымал DeepSeek-V2 моделі де сезімтал тақырыптарға шектеу енгізумен қатар, KazLLM мен ChatGPT-де қолданылатын әдістерге ұқсас басқа тәсілдерді де қолданады. Ресми құжаттарға сәйкес, DeepSeek-V2 моделінде Supervised Fine-Tuning (SFT) – адам нұсқаулықтарына негізделген оқыту сессиялары, сондай-ақ Reinforcement Learning (RL) – модельді адам қалауларымен сәйкестендіру үшін кері байланыс арқылы оқыту кезеңдері жүзеге асырылды. Бұл әдістер жауаптардың қисындылығын, тұрақтылығын және дәлдігін жақсартуға бағытталған. Сонымен қатар, Қытайда 2023 жылы «Генеративті жасанды интеллект қызметтерін басқарудың уақытша ережелері» атты ресми нормативтік акт қабылданды. Осы құжатқа сәйкес, ЖИ жасаған контент мемлекеттік билікті әлсіретуге, социалистік құндылықтарға қайшы келуге немесе ұлттық қауіпсіздікке қатер төндіруге шақырмауы тиіс.

KazLLM – бұл халықаралық үздік стандарттарға негізделген, OpenAI мен DeepSeek жобаларының үлгісін ұстана отырып, қазақ қоғамына терең мәдени бейімделу арқылы ерекшеленетін жоба. Этикалық сүзгілерді енгізу – қауіпсіздік пен сенімділікті қамтамасыз ету үшін маңызды, дегенмен мемлекеттің шектен тыс бақылауы өскелең ұрпақтың сыни ойлау қабілетінің дамуына кедергі келтіруі мүмкін. Сондықтан тепе-теңдікті сақтау өте маңызды.

 

Даму перспективалары

Жобаның алғашқы қолдану бағыты дата-журналистика саласына арналады, себебі ашық деректер негізінде оқытуға әрі тексеруге ыңғайлы. Журналисттер үлкен деректермен жұмыс істейді, мысалы, жаңалықтарды қабылдау, оны тез өңдеу, жалған ақпаратты анықтау, үлкен деректерді талдау. Жобаның түпкі мақсаттарының бірі – журналистика саласында қолданылатын қазақ тіліндегі цифрлық көмекші жасап шығару.

Жоба бойынша болашақта цифрлық көмекшілерді басқа да салаларға арнап жасауды қарастыруда. Мысалы, жаңадан оқуға түскен студенттерге, ата-аналарына нұсқаулықтар, сандық көмекші – AI-абитуриент, қазақ тілінде білім беретін онлайн репетитор жасап шығару білім саласына үлкен үлес қосатыны сөзсіз.  Келешекте жобаның жоспары – ғылыми жұмысты коммерцияландыру. Жоба 2026 жылдың желтоқсанында ұсынылады.

KazLLM – қазақ тілін цифрлық ортаға енгізуге және ұлттық жасанды интеллектті дамытуға бағытталған жоба. Оның ішінде заманауи технологияларды мәдени және этикалық құндылықтармен ұштастыру, сапалы тілдік дерекқор қалыптастыру, журналистика, білім беру және басқа салаларға арналған тәжірибелік шешімдер ұсыну.

Жасанды интеллект құрал емес, құндылық таратушы. Қазақ тілді LLM жобасы еліміздің батыл қадамдарының бірі. Қиындық пен кедергі көп, бірақ шешуге талпыныс бар. Бұл болашақта қазақ тілді ЖИ жүйелерінің негізін қалайды. Қазақ тілінде жасанды интеллект модельдерді дамытудағы мақсат – әдеби тілде әдемі сөйлеуді үйрету емес, маңыздысы  жаһандық технологиялық көшке ілесіп, қазақ тілін ғылым тіліне айналдыру, цифрлық кеңістікке толық енгізу.

 

Мусинова Әсел

Апи Шыңғыс

Ахметова Ақбота

Қалдыбек Ақмаржан

Попова Виктория

Шман Айдана