UZBEK TAGSET: CREATING A LIST OF MORPHOLOGICAL AND SYNTACTIC TAGS FOR BUILDING MACHINE LEARNING MODELS FOR THE UZBEK LANGUAGE
Ключевые слова:
Узбекский язык, Синтаксические теги, Морфологические теги, Обработка естественного языка, Части речи, HMM модельАннотация
Цель данного исследования – разработать полный список синтаксических и морфологических тегов узбекского языка, который направлен на создание набора данных для задач обработки естественного языка (NLP) на узбекском языке. Основываясь на существующих моделях тегсетов для других языков и учитывая специфические особенности узбекского языка, мы предлагаем иерархическую структуру тегсета, включающую классы слов, морфологические признаки и синтаксические функции. Для решения задачи маркировки частей речи (POS tagging) с использованием созданного набора тегов была построена скрытая марковская модель (HMM).
Библиографические ссылки
Abdurashetona AM, Ismailovich IO. Methods of Tagging Part of Speech of Uzbek Language. Proceedings - 6th International Conference on Computer Science and Engineering, UBMK 2021, 2021, 82 – 85.
Sharipov MS, Adinaev HS, Kuriyozov ER. Rule-Based Punctuation Algorithm for the Uzbek Language. 2024 IEEE 25th International Conference of Young Professionals in Electron Devices and Materials (EDM), 2024, 2410–2414.
Can Ş, Karaoğlan B, Kşla T, Metin SK. Using Word Embeddings in Turkish Part of Speech Tagging. Int J Mach Learn Comput 2021; 11.
Sharoff S, Kopotev M, Erjavec T, Feldman A, Divjak D. Designing and evaluating a Russian tagset. Proceedings of the 6th International Conference on Language Resources and Evaluation, LREC 2008, 2008, 279 – 285.
Kumawat D, Jain V. POS tagging approaches: A comparison. Int J Comput Appl 2015; 118.
Petrov S, Das D, McDonald R. A universal part-of-speech tagset. arXiv preprint arXiv:11042086 2011;
Zeman D. Hard problems of tagset conversion. Proceedings of the Second International Conference on Global Interoperability for Language Resources, 2010, 181–185.
Pham B. Parts of Speech Tagging: Rule-Based. 2020;
Maksud S, Elmurod K, Ollabergan Y, Ogabek S. UzbekVerbDetection: Rule-based Detection of Verbs in Uzbek Texts. 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation, LREC-COLING 2024 - Main Conference Proceedings, 2024, 17343 – 17347.
Murat A, Ali S. Low-Resource POS Tagging With Deep Affix Representation and Multi-Head Attention. IEEE Access 2024; 12: 66495 – 66504.
Загрузки
Дополнительные файлы
Опубликован
Как цитировать
Лицензия
Copyright (c) 2025 Maqsud Sharipov, Hakimjon Zaynidinov

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.