Научные проекты

Грантовое финансирование молодых ученых по проекту «Жас ғалым» на 2024-2026 годы

Руководитель проекта : Тусупова Камшат Бакытжановна, PhD

Название проекта:

Разработка интеллектуальной информационной системы оптимального распределения ресурсов для производственных предприятий и прогнозирования динамики их развития.

ИРН: AP22684879

Краткое описание проекта: Проект направлен на разработку интеллектуальной информационной системы, обеспечивающей оптимальное распределение ресурсов производственных предприятий и прогнозирование динамики их развития. В основе исследования лежит использование производственной функции Кобба–Дугласа, адаптированной к условиям внешних воздействий и неопределенности, что позволяет построить экономико-математическую модель, отражающую реальные процессы. В проекте планируется создание алгоритмов управления, обеспечивающих гибкое и эффективное распределение ресурсов, а также интеграция методов машинного обучения для повышения точности прогнозирования. Система будет включать пользовательский интерфейс и базу данных, обеспечивающую хранение и обработку информации. Для оценки её эффективности предусмотрено тестирование на реальных данных и последующий мониторинг результатов внедрения в производственную среду.

Результаты: Разработана экономико-математическая модель на основе функции Кобба–Дугласа с учётом внешних факторов и неопределенности. Созданы алгоритмы управления, обеспечивающие оптимальное распределение ресурсов при изменяющихся условиях. Интегрированы методы машинного обучения, повышающие точность прогнозирования и эффективность системы.

Объем финансирования по годам за 2024-2026 гг:

Общая сумма:

25 068 744 тг.

Сумма за 2024 г.:

7 764 468 тг.

Сумма за 2025 г.:

8 513 893 тг.

Сумма за 2026 г.:

8 790 383 тг.

Руководитель проекта : Тукеев Уалшер Ануарбекович, д.т.н.

Название проекта: Исследование нейронных моделей формирования стенограммы речи и протоколов совещаний на тюркских языках.

ИРН: AP23487816

Краткое описание проекта:

Проблема развития взаимодействия тюркских языков в связи активным развитием сотрудничества тюркских государств стоит весьма актуально. Одним из важных направлений развития взаимодействия тюркских языков является обеспечение оперативного оформления протоколов совещаний, проводимых на тюркских языках.

Проект направлен на разработку нейронной технологии автоматического формирования стенограмм речи и протоколов совещаний для тюркских языков. В исследование включены казахский, азербайджанский, кыргызский, турецкий, туркменский и узбекский языки, при этом особое внимание уделяется их взаимодействию в парах с казахским. Проблема развития взаимодействия тюркских языков в связи активным развитием сотрудничества тюркских государств стоит весьма актуально. Одним из важных направлений развития взаимодействия тюркских языков является обеспечение оперативного оформления протоколов совещаний, проводимых на тюркских языках. Основная идея направлена на разработку комплексной технологии на основе нейронных моделей для автоматического формирования стенограмм речи и протоколов совещаний на тюркских языках. В качестве объектов исследования рассматриваются казахский, азербайджанский, кыргызский, турецкий, туркменский и узбекский языки. Особое внимание уделяется исследованию пар: азербайджанский–казахский, кыргызский–казахский, турецкий–казахский, туркменский–казахский и узбекский–казахский.

Результаты:

Ожидаемые результаты проекта: 1) модели, методы и средства комплексной технологии формирования стенограмм речи и протоколов совещаний на тюркских языках; 2) модели, методы и средства машинного перевода текстов стенограмм тюркских языков на казахский язык; 3) наборы данных для обучения нейронных моделей; 4) модели, методы и средства формирования из текста стенограмм кратких протоколов совещаний на казахском языке.

Достигнутые результаты проекта на июль 2025 год:

- выбраны средства распознавания речи в текст стенограммы для казахского, азербайджанского, кыргызского, турецкого, туркменского, узбекского языков;

- разработаны технологии реляционных моделей машинного перевода для пар языков: турецко-казахский, узбекско-казахский, кыргызско-казахский;

получены с использованием технологии «обратного перевода (back translation)» пять синтетических параллельных корпуса: азер-каз, кыр-каз, турецкий-каз, туркмен-каз, узбек-каз. каждый объемами 1 млн параллельных предложений (200 тыс, 300 тыс., 500 тыс.);

- общий объем полученных синтетических параллельных корпусов составляет 5 млн. параллельных предложений по парам азер-каз, кыр-каз, турецкий-каз, туркмен-каз, узбек-каз.;

- выполнена очистка полученных 5 млн параллельных предложений автоматизированной программой от ошибок аббревиатур и повторений;

- после очистки, устранения дубликатов по каждой паре языков остались корпуса порядка 782 тыс., что в общем составляет порядка 3 910 тыс. предложений;

выполнено обучение модели NLLB 1.3B (Google) на синтетических и очищенных корпусах 487 тыс для всех пар языков;

- выполнена оценка базовой модели NLLB 1.3B, модели NLLB 1.3B обученной на синтетических и очищенных корпусах 497 тыс. Оценка выполнена по метрикам WER, TER, BLEU, CHRF. Приведем оценки по трем моделям для метрики

BLEU: азер-каз: 22.99, 37.28, 47.84; кыр-каз: 17.72, 29.73, 48.27; туркмен-каз: 9.18, 22.82, 33.22; турецкий-каз: 18.52, 33.2, 42.10; узбек-каз: 19.7, 31.71 . Оценка BLEU модели на очищенном корпусе по сравнению с базовой моделью улучшена в среднем на 25 позиций.

Руководитель проекта : Кәрібаева Айдана Сейілғазықызы, PhD

Название проекта: Исследование автоматической генерации параллельных корпусов речи тюркских языков и их использование для нейронных моделей

ИРН: AP23488624

Проект посвящён созданию параллельного корпуса речи для тюркоязычных языков, что является актуальной задачей в области лингвистики, компьютерной лингвистики и информационных технологий. Такой корпус позволит проводить более точные исследования языковых особенностей, формировать новые модели анализа и обработки, а также разрабатывать системы машинного перевода, распознавания и синтеза речи. В проекте предполагается исследовать два подхода: каскадную схему формирования корпуса (STT–TTT–TTS), и его прямое применение в обучении систем STS (Speech-to-Speech). Реализация проекта создаст фундамент для автоматических приложений, включая переводчики, чат-боты и интеллектуальные системы коммуникации. Полученные результаты будут полезны как для научных исследований, так и для практических разработок, направленных на поддержку и развитие тюркоязычных языков. Важным вкладом станет также сохранение культурного и языкового наследия, укрепление межъязыковой коммуникации и расширение доступа к современным цифровым технологиям для носителей тюркских языков.

Ожидаемые результаты проекта:

Будет разработана каскадная схема машинного перевода речи с казахского языка на тюркские языки, сформированы параллельные аудио корпуса с казахского на турецский, татарский и узбекские языка с примением их в обучении машинном перевода речи, также будут получены и оценены результаты каскадных и нейронных технологий машинного перевода речи с использованием метрик качества.

За весь период реализации проекта будут подготовлены и опубликованы статьи в рейтинговых журналах согласно требованиям конкурсной документации:

- не менее 3 (трех) статей и (или) обзоров в рецензируемых научных изданиях по научному направлению проекта, индексируемых в Science Citation Index Expanded и входящих в 1 (первый), 2 (второй) и (или) 3 (третий) квартиль по импакт-фактору в базе Web of Science и (или) имеющих процентиль по CiteScore в базе Scopus не менее 60 (шестидесяти);

- не менее 1 (одной) статьи или обзора в рецензируемом зарубежном или отечественном издании, рекомендованном КОКНВО;

- 1 монография отечественного издания

Общая сумма:

91 286 606,18 тг.

Сумма за 2024 г.:

26 922 345,17 тг.

Сумма за 2025 г.:

30 489 305,39 тг.

Сумма за 2026 г.:

33 874 955,62 тг.

Название проекта: AP19677835 «Исследование моделей и разработка интеллектуальной вопросно-ответной системы на основе семантических подходов для государственного языка в сфере законодательства Республики Казахстан»

Руководитель проекта : ассоц. профессор. PhD. Рахимова Диана Рамазановна

Срок реализации: 2023-2025 гг.

Актуальность

Актуальность данной темы обусловлена необходимостью повышения доступности и эффективности правовой информации на государственном языке Республики Казахстан. Современные юридические документы обладают сложной структурой, что затрудняет их понимание без специализированных знаний. Использование семантических подходов в интеллектуальных вопросно-ответных системах позволяет автоматически анализировать и интерпретировать правовые тексты, обеспечивая гражданам и специалистам удобный доступ к информации. В условиях цифровизации государственного управления такая система может значительно повысить качество правового консультирования. Развитие технологий обработки естественного языка (NLP) для казахского языка требует адаптации и создания специализированных моделей, учитывающих его морфологические и синтаксические особенности. Исследование различных моделей для вопросно-ответных систем позволит определить наиболее эффективные методы семантического анализа юридических текстов. Таким образом, разработка интеллектуальной системы на основе семантических подходов способствует развитию цифровой экосистемы правовой информации и укреплению языковой политики Казахстана.

Цель

Проект направлен на созданиеинтеллектуальной вопросно-ответной системы, которая понимает вопросы на казахском языке, связанные с законодательством Республики Казахстан, и дает точные и понятные ответы. Система опирается на семантические подходы, то есть анализирует смысл текста, чтобы правильно интерпретировать запросы и искать ответы. Используются технологии машинного обучения и обработки естественного языка (NLP), включая семантические модели.

Список публикаций

https://farabi.university/storage/files/37001304206811cb6c00731058582908_Публикации по проекту для сайта 2023-2025 (28-04-2025).pdf

Авторские свидетельства

1)Авт.свидетельсво программа для ЭВМ, Рахимова Диана Рамазановна , Сатыбалдиев Абылай Қазақ тіліне арналған генерациялау моделі № 35478 от 05.05.2023

2)Авт.свидетельсво программа для ЭВМ , ӘДІЛБЕК ҚҰРАЛАЙ; Рахимова Диана Рамазановна, Машиналық оқыту негізінде семантикалық анализ жасау моделі, № 34423 от 07.04.2023

3)Шормакова А. Н. Айтбеккызы А. Авторское свидетельство на программу для ЭВМ «Программа по сбору электронных ресурсов на казахском языке по законодательству Республики Казахстан» №46617 от 29 мая 2024 г.

Магистерские работы, защищенные в рамках проекта

В рамке данного проекта была выполнено и успешно защищена магистерская диссертация Матанова Н.Б на тему «Исследование и разработка моделей построения казахских синонимов на основе машинного обучения» по специальности 7M0101 – «Вычислительная лингвистика»

https://farabi.university/storage/files/21013656956811cbfee5db9640600197_Матанов диссер 2024.pdf