O‘zbek tili matnlarining universal bog‘liqlik daraxti korpusiga asoslangan neyron semanatik tahlili

Sanatbek Matlatipov; Xurshid Fayzullayev

Авторы

Sanatbek Matlatipov National University of Uzbekistan named after Mirzo Ulugbek
Xurshid Fayzullayev

Ключевые слова:

корпус универсального дерева зависимостей

Аннотация

Узбекский язык морфологически богат аффиксами, и значение в предложении выражается через ряд аффиксов существительных, глаголов и других частей речи. В этой статье мы представляем нейронный семантический анализ узбекских текстов, основанный на наборе деревьев, созданных на базе корпуса Universal Dependencies (UD). Этот корпус содержит 686 предложений и 7 950 токенов, каждое предложение состоит в среднем из 11,6 токенов. Мы разрабатываем графовый парсер, работающий с биаффинной функцией, объединяющей контекстуальный энкодер на основе BiLSTM и проекции главного слова и зависимого. Тесты представляются с детализацией по показателям UAS/LAS и длине предложений.

Библиографические ссылки

A. Akhundjanova and L. Talamo, “Universal Dependencies Treebank for Uzbek,” in Proceedings of the Third Workshop on Resources and Representations for Under-Resourced Languages and Domains (Resourceful 2025), pp. 129–134.

Elmurod Kuriyozov, David Vilares, and Carlos Gómez-Rodríguez. 2024. BERTbek: A Pretrained Language Model for Uzbek. In Proceedings of the 3rd Annual Meeting of the Special Interest Group on Under-resourced Languages @ LREC-COLING 2024, pages 33–44, Torino, Italia. ELRA and ICCL.

Mansurov, B., Mansurov, A. (2021). UzBERT: pretraining a BERT model for Uzbek. arXiv preprint arXiv:2108.09814.

Arofat Akhundjanova, Furkan Akkurt, Bermet Chontaeva, Soudabeh Eslami, and Cagri Coltekin. 2025. Parallel Universal Dependencies Treebanks for Turkic Languages. In Proceedings of the Eighth Workshop on Universal Dependencies (UDW, SyntaxFest 2025), pages 129–136, Ljubljana, Slovenia. Association for Computational Linguistics.

Matlatipov, G., Vetulani, Z. (2009). Representation of Uzbek Morphology in Prolog. In: Marciniak, M., Mykowiecka, A. (eds) Aspects of Natural Language Processing. Lecture Notes in Computer Science, vol 5070. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-04735-0_4

M. S. Sharipov, H. S. Adinaev and E. R. Kuriyozov, "Rule-Based Punctuation Algorithm for the Uzbek Language," 2024 IEEE 25th International Conference of Young Professionals in Electron Devices and Materials (EDM), Altai, Russian Federation, 2024, pp. 2410-2414, doi: 10.1109/EDM61683.2024.10615061.

Нейронно-семантический анализ узбекских текстов на основе корпуса универсального дерева зависимостей

Авторы

Ключевые слова:

Аннотация

Библиографические ссылки

Загрузки

Дополнительные файлы

Опубликован

Как цитировать

Выпуск

Раздел

Категории

Лицензия

Наиболее читаемые статьи этого автора (авторов)

Отправить материал

Журнал индексируется

Ключевые слова

Текущий выпуск

Язык