ОБЪЯВЛЕНИЕ! ВЫПУЩЕНА ПИЛОТНАЯ ВЕРСИЯ АЛМАТИНСКОГО КОРПУСА КАЗАХСКОГО ЯЗЫКА!

13 мая, 2014

Выпущена пилотная версия Алматинского корпуса казахского языка, находящегося на начальном этапе разработки. В настоящий момент размер корпуса составляет около 1миллиона словоупотреблений. Тексты корпуса были размечены с помощью автоматического морфологического анализатора, 75% словоформ корпуса имеют грамматический разбор. Омонимия в корпусе не снималась, т.е. каждой словоформе приписаны все возможные варианты разбора без учёта контекста.

Это первая версия корпуса Национального корпуса казахского языка— НККЯ как справочно-информационной системы на основе обширного фонда размеченных текстов литературного казахского языка, государственного языка Республики Казахстан. Безусловно, корпус будет дополняться, обновляться как количественно, так и качественно, кроме того будет существенно улучшаться поисковая функциональность корпуса.

В перспективе основные характеристики НККЯ следующие:

  • лингвистически репрезентативный корпус;
  • мощный поисковый аппарат для осуществления сложных лексико-морфологических запросов;
  • удобный инструмент для самостоятельного изучения казахского языка, дающий для большинства словоформ лексико-морфологические разборы и русские/английские переводные эквиваленты;
  • диахронически ориентированный корпус, покрывающий различные периоды истории современного казахского языка;
  • диверсифицированный корпус, включающий разножанровые письменные и устные тексты разных типов;
  • аннотированный корпус, снабженный грамматической и библиографической разметкой;
  • корпус, находящийся в открытом доступе;
  • электронная библиотека, включающая более 100 классических произведений казахской литературы.

Работа над проектом Корпуса началась в мае 2012г. при поддержке ректора КазНУ им.аль-Фараби Г.М.Мутанова. Корпус создаётся силами кафедры общего языкознания и иностранной филологии факультета филологии, литературоведения и мировых языков Казахского национального университета им.аль-Фараби под руководством заведующей кафедрой Г.Б.Мадиевой при участии сотрудников факультета филологии НИУВШЭ (Москва). Для корпуса была адаптирована поисковая система Восточноармянского национального корпуса (EANC).

Ссылка:

http://web-corpora.net/KazakhCorpus/search/?interface_language=ru