ИРН AP22686434 «Атаулы топтармен рефренциялық қатынастарды белгілейтін көптілді мәтіндік корпус құру» (Қалман Гүлжан)
ҚР ДСМ гранттық қаржыландырудың ғылыми және (немесе) ғылыми-техникалық жобалары бойынша ақпарат
1) гранттық қаржыландыру 2024-2026 жылдарға арналған ғылыми және (немесе) ғылыми-техникалық жобаларды гранттық қаржыландыру (іске асыру мерзімі - 36 ай)
Жоба туралы қысқаша ақпарат
Жоба атауы
ИРН AP22686434 «Атаулы топтармен рефренциялық қатынастарды белгілейтін көптілді мәтіндік корпус құру»
Жоба жетекшісі
Қалман Гүлжан
Іске асыру мерзімдері
2024-2026 жылдар.
Қаржыландыру сомасы
25 272 081 теңге.
Өзектілігі
Компьютерлік лингвистика саласында жасанды интеллектке, нейрондық желілердің соңғы үлгідегі әдістерімен әзірленген және табиғи тілдегі мәселелерді шешу, мәтінді автоматты талдау үшін арнайы дайындаған үлкен көлемдегі әртүрлі тілдегі соның ішінде қазақ тілінде деректердің болуымен байланысты, Дегенмен, бұл ресурстардың көпшілігі ағылшын тілі үшін жасалған және референциялық белгілері бар корпустар өте аз.
Жасалған ресурс, ең алдымен, ұлттық зерттеушілерге тіл үлгілерін құрудың, ғылыми тақырыптар бойынша ұлттық сөздіктер жасаудың, қазақ тілінде лингвистикалық зерттеулер жүргізудің соңғы әдістерін қолдану үшін қажетті деректермен қамтамасыз етеді.
Белгіленген нысандарды алу және референциялық қатынасты белгілеу үшін жасалған әдістер тәуелсіз мәнге ие болуы мүмкін және әлемдік ғылымға өз үлесін қоса алады, өйткені олар параллель корпустарды пайдалануға және олардың негізінде әртүрлі машиналық оқыту әдістерін біріктіруге және есепке алынатын лингвистикалық тәсілдерге негізделген. Атап айтқанда, бірнеше тілге сілтеме жасау тәсілдерінің әртүрлі типологияларын (яғни, мәтіндегі бұрын аталған нысандарға сілтемелер) салыстыру жоспарлануда.
Жобада ұсынылған тәсілдің ерекшелігі мынада: бірінші рет мәтінді автоматты өңдеудің маңызды мәселелерін шешуге бағытталған бірегей көптілді ресурс жасалуда, референцияны шешу тәсілдеріне салыстырмалы талдау жүргізілді, классикалық қазақ тіліне қатысты лингвистикалық тәсілдер мен машиналық оқытуға негізделген соңғы әдістер біріктірілген.
Мақсаты
Бұл жобаның мақсаты – компьютерлік лингвистика және мәтінді автоматты өңдеу саласындағы ұлттық зерттеулерді қолдау үшін көптілді ресурс құру.
Жоба нәтижелері
Жобаның негізгі нәтижесі аталған нысандар мен сілтемелерді таңбалаумен құрылған көптілді мәтіндік корпус болады.