24. ИРН AP22686434 «Создание многоязычного текстового корпуса, устанавливающего рефреновые отношения с именными группами» (Қалман Гүлжан)
Информация по научным и (или) научно-техническим проектам грантового финансирования МНВО РК
1) Грантовое финансирование грантовое финансирование научных и (или) научно-технических проектов на 2024-2026 годы (срок реализации 36 месяцев)
Краткая информация о проекте
Тема проекта
ИРН AP22686434 «Создание многоязычного текстового корпуса, устанавливающего рефреновые отношения с именными группами»
Руководитель проекта
Қалман Гүлжан
Сроки реализации
2024-2026 гг.
Сумма финансирования
25 272 081 тенге.
Актуальность
В области компьютерной лингвистики это связано с наличием большого количества данных на различных языках, в том числе на казахском, разработанных искусственным интеллектом, новейшими методами нейронных сетей и подготовленных специально для решения задач на естественном языке, автоматического анализа текста, хотя многие из этих ресурсов созданы для английского языка и имеют очень мало корпусов с референтными обозначениями.
Совершенные ресурсы, прежде всего, исследователям создания образцов национального языка, национальных словарей по темам, научные разработки, применения методов, необходимых для проведения лингвистических исследований последнего обеспечивает данными на казахском языке.
Методы, разработанные для получения обозначенных объектов и установления референциальных отношений, могут иметь независимое значение и вносить свой вклад в мировую науку, поскольку они основаны на использовании параллельных корпусов и интеграции различных методов машинного обучения на их основе и учитываемых лингвистических подходах. В частности, планируется сравнить различные типологии способов ссылки на несколько языков (т. е. ссылки на ранее упомянутые объекты в тексте).
Особенность подхода состоит в том, что предлагаемые в проекте: впервые разрабатывается уникальный ресурс автоматической обработки текста полиязычного, направленных на решение важных вопросов, референцияны проведен сравнительный анализ способов решения, основанные на классической лингвистической подходов и методов машинного обучения, объединенные в отношении последнего на казахский язык.
Цель
Цель этого проекта-создать многоязычный ресурс для поддержки национальных исследований в области компьютерной лингвистики и автоматической обработки текста.
Результаты проекта
Основным результатом проекта станет многоязычный текстовый корпус, созданный с маркировкой указанных объектов и ссылок.