Построение конвейера данных при решении задачи сегментации речи нескольких дикторов

Скачать дипломную работу на тему: Построение конвейера данных при решении задачи сегментации речи нескольких дикторов. В которой определен обзор существующих решений для решения задачи данного типа, в том числе выявить сильные и слабые стороны. Изучены существующие подходы, методы, алгоритмы и актуальные инструменты для решения задачи СРНД, выявить их достоинства и недостатки.
Author image
Ekaterina
Тип
Дипломная работа
Дата загрузки
20.02.2025
Объем файла
1472 Кб
Количество страниц
61
Уникальность
Неизвестно
Стоимость работы:
2000 руб.
2500 руб.
Заказать написание работы может стоить дешевле

Введение

С момента начала использования первых ЭВУ, и по настоящее время, для человечества актуален вопрос коммуникации с этими устройствами. Длительное время, были необходимы специальные познания в сфере информационных технологий, так как основным средством коммуникации между ЭВУ и человеком являлись низкоуровневые, а впоследствии и высокоуровневые языки программирования. Глобальная цифровизация общества достигла уровня, при котором все больше и больше людей вынуждены по объективным причинам взаимодействовать с различными интеллектуальными электронными устройствами. Возможность коммуникации с техникой на естественном языке, способствует снятию так называемых «барьеров» [9], и в значительной степени ускоряет эволюцию ЭВУ, а вместе с тем, и развитие человечества в целом.Один из способов коммуникации человека с устройством основывается на создании речевого интерфейса, реализующего возможность устройства правильно понимать человеческую речь и правильно на нее реагировать. 

Оглавление
Список сокращений
Введение
Постановка задачи СРНД
Глава 1. Исследование задачи СРНД
1Предварительная обработка данных в задаче СРНД
2Обнаружение речи и извлечение признаков
3Сегментация
4Векторные представления.
5Классификация и кластеризация в решении задачи СРНД
6Постобработка
Глава 2. Обзор существующих решений систем СРНД
1Google Cloud Speech API
2IBM Watson Speech to Text
4LIUM
5AudioSeg
6ALIZÉ
7Bob
8DeepAffects
9Библиотеки Python
10 Основные проблемы задачи диаризации
Глава 3. Типы задач и оценка результатов СРНД
1.Типы задач диаризации речи
2.Методы оценки результатов диаризации
Глава 4. Построение конвейера данных для решения задачи СРНД
1Концепция и преимущества системы на основе платформы управления данными Apache Airflow
2Описание конвейера данных для решения задачи СРНД
Заключение
Библиографический список

Авсентьев А.О., Лукьянов А.С. Применение скрытых марковских моделей для распознавания речи диктора, 2015. URL: https://cyberleninka.ru/article/n/primenenie-skrytyh-markovskih-modeley-dlya-raspoznavaniya-rechi-diktora (дата обращения: 11.03.2023)
Аграновский А.В., Леднов Д.А., Репалов С.А., Метод текстонезависимой идентификации дикторов на основе индивидуальности произношения гласных звуков // Акустика речи и прикладная лингвистика. Ежегодник Российского акустического общества. Выпуск 3. М., 2002. URL: http://conf.nsc.ru/files/conferences/Lyap-100/fulltext/75534/88233/kulikov.pdf (дата обращения: 20.09.2022)
Ахметзянова А.И., Корнийченко Т.Ю., Суздальцева Л.Н. Логопедический атлас (периферический речевой аппарат): учеб.  пособие / – Казань: Издво Казан.  ун-та, 2016. URL: https://kpfu.ru/portal/docs/F170000456/ATLAS.pdf (дата обращения: 23.12.2021)
Крашенинникова Н.А. Основные факторы, мешающие распознаванию речевых команд / Н.А. Крашенинникова // Симбирский научный вестник, 2011. URL: http://radio.kpi.ua/article/view/S0021347020100039 (дата обращения: 28.10.2021)
Мещеряков Р.В. Структура систем синтеза и распознавания речи.  // Известия Томского политехнического университета.  Т.315, №5.  –  2009. URL: https://cyberleninka.ru/article/n/struktura-sistem-sinteza-i-raspoznavaniya-rechi (дата обращения: 03.07.2022)
Огородников А.Н. Эффективный алгоритм оценивания длины периода основного тона речевого сигнала / А.Н. Огородников // Материалы VIII Всеросс. научн.-практ. конф. «Научное творчество молодежи» / Томск: Изд-во Тос. ун-та, 2004. URL: chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://istina.msu.ru/media/publications/article/194/e4b/10357096/TVT.pdf  (дата обращения: 19.03.2022)

Результатом на этом шаге является определение индексов кадров MFCC на которых происходит смена диктора, которые в дальнейшем используются для формирования диапазонов с человеческой речью (рис. 15).Для построения векторных представлений и снижения размерности использован подход вычисления среднеквадратического отклонения между кадрами, включенными в диапазоны с человеческой речью. Экспериментальным путем получен наиболее приемлемый результат на основе использования последних шести признаков MFCC для каждого кадра, так как они содержат большее количество уникальных признаков каждого фрагмента с речью.Данный результат является заключительным на этапе подготовки данных и может в дальнейшем быть использован для проведения экспериментов по поиску и апробации наиболее подходящих методов и алгоритмов для решения задачи СРНД.Задача «calc_ranges». В качестве проверки работоспособности конвейера данных и оценки результата были реализованы алгоритмы поиска оптимального количества кластеров и методы кластеризации.Так как по условию задачи количество дикторов заранее неизвестно, для поиска оптимального количества кластеров, в качестве проверки работоспособности конвейера данных протестированы метод «силуэта» и метод «локтя» (рис. 16), для поиска оптимального количества кластеров, указывающих на количество дикторов.