AВТОМАТИЧЕСКАЯ СЕГМЕНТАЦИЯ РЕЧИ С ПОМОЩЬЮ МЕТОДОВ КЛАСТЕРИЗАЦИИ
Ключевые слова:
Aвтоматическое распознавание речи, сегментация речевого сигнала, кластеризация, метод k-means, метод нечеткого c-means, метод DBSCANАннотация
В данной работе проанализирована эффективность современных алгоритмов кластеризации при автоматической сегментации речевого сигнала. Применены методы сегментации, основанные на алгоритмах K-means, нечеткого c-means и DBSCAN, с помощью которых определены временные границы слов. Полученные результаты подтверждают эффективность этих алгоритмов при автоматической обработке речи. Также в работе описан подход к определению точных границ слов. Полученные результаты сравнивались с другими методами сегментации речевого сигнала.
Библиографические ссылки
Rasanen O. Speech Segmentation and Clustering Methods for a New Speech Recognition Architecture. Helsinki University of Technolo¬gy. - 2007. - P. 94.
Cherif A., Bouafif L., Dabbabi T. Pitch Detection and Formant Analysis of Arabic Speech Processing // Applied Acoustics. - 2001. - Vol. 62. - P. 1129-1140. DOI: 10.1016/S0003-682X(01)00007-X
Sharma M., Mammone R. Subword-based text-dependent speaker verification system with user-selectable passwords // IEEE International Conference on Acoustics, Speech and Signal Processing. - 1996. - Vol. 1. - P. 93-96. DOI: 10.1109/ICASSP.1996.540298
Hioka Y., Hamada N. Voice activity detection with array signal processing in the wavelet domain // 11th European Signal Processing Con-ference. - 2002. - P. 1-4.
Beritelli F., Casale S. Robust voiced/unvoiced speech classification using fuzzy rules // IEEE Workshop on Speech Coding for Telecommunica¬tions. - 1997. - P. 5-6. DOI: 10.1109/SCFT.1997.623868
Qi Y., Hunt B. R. Voiced-unvoiced-silence classifications of speech using hybrid features and a network classifier // IEEE Transactions on Speech and Audio Pressing. - 1993. - Vol. 1. - P. 250-255. DOI: 10.1109/89.222883
Basu S. A linked-HMM model for robust voicing and speech detec¬tion // IEEE International Conference on Acoustics, Speech and Signal Pro¬cessing (ICASSP’03). - 2003. - Vol. 1. - P. 816-819.
Thangarajan R., Natarajan M., Selvam M. Syllable modeling in continuous speech recognition for Tamil language // International Journal of Speech Technology. - 2009. - Vol. 12. - P. 47-57. DOI: 10.1007/s10772- 009-9058-0
Kvale K. Segmentation and Labeling of Speech // Norwegian Insti¬tute of Technology. - 1993. - P. 271.
Rahman M., Bhuiyan A. Continuous Bangla Speech Segmentation using Short-term Speech Features Extraction Approaches // International Journal of Advanced Computer Science and Application (IJACSA). - 2012. - Vol. 3. - P. 131-138.
SaiJayram A.K.V., Ramasubramanian V., Sreenivas T.V. Robust parameters for automatic segmentation of speech // IEEE International Con-ference on Acoustics, Speech and Signal Processing. - 2002. - Vol. 1. - P. 513-516. DOI: 10.1109/ICASSP.2002.5743767
Webb A. Statistical Pattern Recognition // John Wiley & Sons, New Jersey. - 2002. - Р. 496. DOI: 10.1002/0470854774
Tan P.N., Steinbach M., Kumar V. Introduction to Data Mining // Addison-Wesley, Boston. - 2005. - P. 769.
Alpaydin E. Introduction to Machine Learning // MIT Press, Cam-bridge. - 2016. - Р. 206. DOI: 10.1017/S0269888906220745
Hathway R.J., Bezdek J. Optimization of Clustering Criteria by Reformulation // IEEE Transaction on Fuzzy Systems. - 1995. - Vol. 3. - P. 241-245. DOI: 10.1109/91.388178
Philipose S.S. A Triclass Image Segmentation using Adaptive K- means Clustering and Otsu’s Method // International Journal of Engineering Research and General Science. - 2015. - Vol. 3. - P. 134-138.
Shanthi T., Chelpa L. Isolated word speech recognition system us-ing HTK // International Journal of Computer Science Engineering and In-formation Technology Research. - 2014. - Vol. 4. - P. 81-86.
Kriegel H.-P., Schubert E., Zimek A. The (black) art of runtime evaluation: Are we comparing algorithms or implementations? Knowledge and Information Systems. 2016. Vol. 52.No. 2. P. 341.
Загрузки
Дополнительные файлы
Опубликован
Как цитировать
Лицензия
Copyright (c) 2024 Johongir Urinboev, Mavluda Nugmanova
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.