Інформаційна система для розпізнавання мовлення у звукових файлах

Драч, Артем Олександрович

Інформаційна система для розпізнавання мовлення у звукових файлах

Файли

Drach_Mahisterska_Informatsiina_systema_dlia.pdf (2.18 MB)

Дата

2025

Автори

Драч, Артем Олександрович

Анотація

автоматичного розпізнавання мовлення у звукових файлах із використанням сучасних нейромережевих архітектур та інструментів глибинного навчання. Об’єкт дослідження: процес автоматизованого перетворення мовлення у текст у межах нтелектуальних інформаційних систем. Предмет дослідження: методи, моделі та програмні засоби побудови системи автоматичного розпізнавання мовлення на основі енд-ту-енд нейронних підходів, доменної адаптації та багаторівневого препроцесингу аудіосигналів. Використані методи: цифрова обробка сигналів (VAD, шумозаглушення, нормалізація), нейромережеві моделі CTC, RNN-Transducer, Transformer/Conformer, самонавчання (wav2vec 2.0), кластеризація голосових ембедингів (x-vectors), UML-моделювання, побудова ER-діаграм, мікросервісна архітектура, REST API. Мета роботи – створити масштабовану інформаційну систему, що забезпечує високоточне розпізнавання мовлення у звукових файлах із підтримкою багатомовності, діаризації мовців, автоматичного вибору моделі та можливістю інтеграції з зовнішніми сервісами. Наукова новизна полягає у поєднанні підходів самонавчання (Self-Supervised Learning) та трансдукційних моделей (RNN-T) у єдиній адаптивній архітектурі ASR, а також у розробленні модульної мікросервісної системи з автоматичним визначенням мови, динамічним вибором моделі та багаторівневою постобробкою транскриптів. Рекомендації щодо впровадження: результати роботи можуть бути використані для створення сервісів транскрипції відеоконференцій, аналітики аудіоконтенту, автоматичного субтитрування, цифровізації документів, контакт-центрів, а також у державних та комерційних інформаційних системах. Прикладна значимість: розроблена система забезпечує точне та швидке перетворення аудіоданих у структурований текст, підтримує масштабування, розподіл навантаження та автоматичний аналіз якості (WER/CER), що робить її практичною основою для сучасних продуктів у сфері розпізнавання мовлення.
The work is devoted to the development of an intelligent information system for automatic speech recognition in audio files using modern neural network architectures and deep learning tools. Object of research: the process of automated speech-to-text conversion within intelligent information systems. Subject of research: methods, models and software tools for building an automatic speech recognition system based on end-to-end neural approaches, domain adaptation and multi-level preprocessing of audio signals. Methods used: digital signal processing (VAD, noise reduction, normalization), neural network models CTC, RNN-Transducer, Transformer/Conformer, self-learning (wav2vec 2.0), clustering of voice embeddings (x-vectors), UML modeling, construction of ER-diagrams, microservice architecture, REST API. The purpose of the work is to create a scalable information system that provides high-precision speech recognition in audio files with support for multilingualism, speaker diarization, automatic model selection and the ability to integrate with external services. The scientific novelty lies in the combination of self-learning approaches (Self-Supervised Learning) and transduction models (RNN-T) in a single adaptive ASR architecture, as well as in the development of a modular microservice system with automatic language detection, dynamic model selection and multi-level post-processing of transcripts. Recommendations for implementation: the results of the work can be used to create video conference transcription services, audio content analytics, automatic subtitling, document digitization, contact centers, as well as in government and commercial information systems. Applied significance: the developed system provides accurate and fast conversion of audio data into structured text, supports scaling, load balancing, and automatic quality analysis (WER/CER), which makes it a practical basis for modern products in the field of speech recognition.

Ключові слова

інтелектуальна інформаційна система, автоматизоване перетворення мовлення, аудіосигнали, звукові файли, intelligent information system, automated speech conversion, audio signals, audio files

Бібліографічний опис

Кириченко В. В. Інформаційна система для розпізнавання мовлення у звукових файлах : кваліфікаційна робота … магістра : 122 Комп’ютерні науки. Київ, 2025. 82 с.

URI

https://dglib.nubip.edu.ua/handle/123456789/13975

Зібрання

ОПП "Інформаційні управляючі системи та технології"

Повна інформація про документ

Інформаційна система для розпізнавання мовлення у звукових файлах

Файли

Дата

Автори

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

URI

Зібрання

Endorsement

Review

Supplemented By

Referenced By