ОБЪЯВЛЕНИЕ! ВЫПУЩЕНА ПИЛОТНАЯ ВЕРСИЯ АЛМАТИНСКОГО КОРПУСА КАЗАХСКОГО ЯЗЫКА!
Выпущена пилотная версия Алматинского корпуса казахского языка, находящегося на начальном этапе разработки. В настоящий момент размер корпуса составляет около 1миллиона словоупотреблений. Тексты корпуса были размечены с помощью автоматического морфологического анализатора, 75% словоформ корпуса имеют грамматический разбор. Омонимия в корпусе не снималась, т.е. каждой словоформе приписаны все возможные варианты разбора без учёта контекста.
Это первая версия корпуса Национального корпуса казахского языка— НККЯ как справочно-информационной системы на основе обширного фонда размеченных текстов литературного казахского языка, государственного языка Республики Казахстан. Безусловно, корпус будет дополняться, обновляться как количественно, так и качественно, кроме того будет существенно улучшаться поисковая функциональность корпуса.
В перспективе основные характеристики НККЯ следующие:
- лингвистически репрезентативный корпус;
- мощный поисковый аппарат для осуществления сложных лексико-морфологических запросов;
- удобный инструмент для самостоятельного изучения казахского языка, дающий для большинства словоформ лексико-морфологические разборы и русские/английские переводные эквиваленты;
- диахронически ориентированный корпус, покрывающий различные периоды истории современного казахского языка;
- диверсифицированный корпус, включающий разножанровые письменные и устные тексты разных типов;
- аннотированный корпус, снабженный грамматической и библиографической разметкой;
- корпус, находящийся в открытом доступе;
- электронная библиотека, включающая более 100 классических произведений казахской литературы.
Работа над проектом Корпуса началась в мае 2012г. при поддержке ректора КазНУ им.аль-Фараби Г.М.Мутанова. Корпус создаётся силами кафедры общего языкознания и иностранной филологии факультета филологии, литературоведения и мировых языков Казахского национального университета им.аль-Фараби под руководством заведующей кафедрой Г.Б.Мадиевой при участии сотрудников факультета филологии НИУВШЭ (Москва). Для корпуса была адаптирована поисковая система Восточноармянского национального корпуса (EANC).
Ссылка:
http://web-corpora.net/KazakhCorpus/search/?interface_language=ru