ДАУКЕЕВА»
ISSN 2790-0886
В Е С Т Н И К
АЛМАТИНСКОГО УНИВЕРСИТЕТА ЭНЕРГЕТИКИ И СВЯЗИ
Учрежден в июне 2008 года
Тематическая направленность: энергетика и энергетическое машиностроение, информационные, телекоммуникационные и космические технологии
1 (60) 2023
Импакт-фактор - 0.095
Научно-технический журнал Выходит 4 раза в год
Алматы
о постановке на переучет периодического печатного издания, информационного агентства и сетевого издания
№KZ14VPY00024997 выдано
Министерством информации и общественного развития Республики Казахстан
Подписной индекс – 74108
Бас редакторы – главный редактор Стояк В.В.
к.т.н., профессор
Заместитель главного редактора Жауыт Алгазы, доктор PhD Ответственный секретарь Шуебаева Д.А., магистр
Редакция алқасы – Редакционная коллегия
Главный редактор Стояк В.В., кандидат технических наук, профессор Алматинского Университета Энергетики и Связи имени Гумарбека Даукеева, Казахстан;
Заместитель главного редактора Жауыт А., доктор PhD, ассоциированный профессор Алматинского Университета Энергетики и Связи имени Гумарбека Даукеева, Казахстан;
Сагинтаева С.С., доктор экономических наук, кандидат физико-математических наук, профессор математики, академик МАИН;
Ревалде Г., доктор PhD, член-корреспондент Академии наук, директор Национального Совета науки, Рига, Латвия;
Илиев И.К., доктор технических наук, Русенский университет, Болгария;
Белоев К., доктор технических наук, профессор Русенского университета, Болгария;
Обозов А.Д., доктор технических наук, НАН Кыргызской Республики, заведующий Лабораторией «Возобновляемые источники энергии», Кыргызская Республика;
Кузнецов А.А., доктор технических наук, профессор Омского государственного технического университета, ОмГУПС, Российская Федерация, г. Омск;
Алипбаев К.А., PhD, доцент Алматинского Университета Энергетики и Связи имени Гумарбека Даукеева, Казахстан;
Зверева Э.Р., доктор технических наук, профессор Казанского государственного энергетического университета, Российская Федерация, г. Казань;
Лахно В.А., доктор технических наук, профессор Национального университета биоресурсов и природопользования Украины, кафедра компьютерных систем, сетей и кибербезопасности, Украина, Киев;
Омаров Ч.Т., кандидат физико-математических наук, директор Астрофизического института имени В.Г. Фесенкова, Казахстан;
Коньшин С.В., кандидат технических наук, профессор Алматинского Университета Энергетики и Связи имени Гумарбека Даукеева, Казахстан;
Тынымбаев С.Т., кандидат технических наук, профессор Алматинского Университета Энергетики и Связи имени Гумарбека Даукеева, Казахстан.
За достоверность материалов ответственность несут авторы.
При использовании материалов журнала ссылка на «Вестник АУЭС» обязательна.
185
ИНФОРМАЦИОННЫЕ,
ТЕЛЕКОММУНИКАЦИОННЫЕ И КОСМИЧЕСКИЕ ТЕХНОЛОГИИ
МРНТИ 20.19.29 https://doi.org/10.51775/2790-0886_2023_60_1_185 ТРАНСФЕРНОЕ ОБУЧЕНИЕ ДЛЯ ИНТЕГРАЛЬНОЙ СИСТЕМЫ
АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ С НИЗКИМ УРОВНЕМ ДАННЫХ
А. Бекарыстанқызы1, О.Ж. Мамырбаев2, Д.О. Оралбекова3, Б.Ж. Жұмажанов4
1Казахский национальный исследовательский технический университет имени К.И. Сатпаева, Алматы, Казахстан
2Институт информационных и вычислительных технологий, Алматы, Казахстан
3НАО «Алматинский университет энергетики и связи имени Гумарбека Даукеева», Алматы, Казахстан
4Институт информационных и вычислительных технологий, Алматы, Казахстан
e-mail: [email protected], [email protected], [email protected], [email protected]
Аннотация. Интегральные модели — это эффективные модели для системы автоматического распознавания речи. Несмотря на хорошее качество распознавания, у данных моделей есть недостатки.
Данные недостатки основываются на необходимости большого количества данных для обучения. Это серьезная проблема для языков с низким уровнем данных, таких как казахский и азербайджанский языки.
Данные языки были выбраны в силу того, что они оба относятся к Тюркской группе агглютинативных языков и имеют схожие акустические и синтаксические структуры. Для решения проблем малоресурсных языков обычно применяются подходы с объединением данных, точнее мультиязычное обучение и трансферное обучение. Так как алфавиты этих языков отличаются, был выбран метод трансферного обучения и более того трансферное обучение доказало свою эффективность уже во многих трудах. Цель нашего исследования состоит в том, чтобы создать систему распознавания речи для казахского и азербайджанского языков и исследовать данный метод в области эффективности распознавания речи. С этой целью мы обучаем одновременно два языковых корпуса на архитектуре с декодером Сonnectionist Temporal Classification+механизм внимания, извлекая на этапе кодирования общие акустические характеристики языков с применением неглубоких двунаправленных LSTM. Наши эксперименты с двумя языковыми корпусами показывают, что трансферное обучение может снизить коэффициент ошибок фонем на 14.23% по сравнению с базовыми показателями.
Ключевые слова: распознавание речи, трансферное обучение, сквозное обучение, язык с низким уровнем ресурсов, Сonnectionist Temporal Classification, механизм внимания.
Введение
Системы автоматического распознавания речи начали динамично развиваться с бурным развитием вычислительных технологий. В области распознавания речи были достигнуты хорошие результаты, существует множество моделей и методов, которые применяются в коммерческих приложениях, и они в данном направлении оправдывают свое применение. Среди коммерческих приложений для распознавания речи, в первую очередь, можно отметить внедрение call-центров или IVR-систем (Interactive Voice Response) – системы автоматического доступа к информации, речевые чат-боты и т. д. В call-центрах на сегодняшний день внедрен интеллектуальный голосовой помощник, который генерирует вопросы пользователей на естественном языке, и ответ синтезируется системой на языке пользователя.
Первичные системы автоматического распознавания речи состояли из трех модулей:
декодирование, акустические и языковые модели. Модульная подсистема для распознавания речи в
186
основном состоит из независимых модулей, и даже акустическая модель зависит от модели HMM, а также от моделей GMM, которые во многих случаях соответствуют единице произношения [1].
Прорыв в области искусственного интеллекта дал возможность улучшить качество распознавания речи и получить хорошие результаты в области распознавания речи. Во многих исследовательских работах с помощью методов глубокого обучения (Deep learning) разработана усовершенствованная системы распознавания. На сегодняшний день популярными методами распознавания речи являются методы машинного обучения, где для распознавания речи применялся HMM-DNN архитектура и гибридная архитектура GMM- DNN для моделирования динамических характеристик речевых сигналов. Интегральный подход имеет теоретическое преимущество, при гибридном подходе DNN обучаются минимизировать перекрёстную энтропию между прогнозируемыми и фактическими состояниями HMM, чтобы оптимизация выполнялась за один шаг и с целью улучшения точности распознавания речи. В некоторых исследованиях для построения акустических моделей использовали глубокие нейронные сети [2], и для построения языковых моделей были использованы RNN [3] и получены отличные результаты. При анализе исследовательских работ ученых было определено, что для решения задачи распознавания речи можно использовать нейронные сети на всех этапах распознавания.
С развитием программных и вычислительных технологий можно было успешно реализовывать технологию глубокого обучения для распознавания речи с помощью интегральных методов (end-to- end). Чтобы разработать интегральную модель необходимо исключить все потенциальные предположения из всей системы распознавания речи и построить единую модель, оптимизированную на уровне последовательности [4]. В интегральном методе все модули обучаются одновременно. Во многих исследовательских работах было доказано, что методы глубокого обучения облегчают обучение системы автоматического распознавания речи, использующие интегральный подход.
Данный метод также может обучать систему автоматического распознавания речи напрямую, то есть без ручной работы с необработанными сигналами. Рассматриваемый метод был разработан с помощью нескольких рекуррентных и сверточных слоев, которые функционируют как акустическая и языковая модель, отображая речевые входы в транскрипции. Таким образом, интегральный метод может принимать необработанный речевой сигнал в качестве входных данных и генерировать условные вероятности класса фонем в качестве выходных данных. В настоящее время существует несколько видов архитектуры интегрального метода, а именно коннекционная временная классификация (CTC) и шифратор-дешифратор модели, основанные на механизме внимания (Attention-based model).
В разработке системы автоматического распознавания речи, как и ранее, внимание уделяется интегральным методам, и во многих исследованиях было доказано, что производительность и точность повышаются с увеличением объема данных для обучения. Например, в опубликованных исследованиях можно отметить, что лучшие результаты при обучении больших данных показали интегральные системы на основе моделей Connectionist Temporal Classification [5, 6] и моделей шифратор-дешифратор, созданных на механизме внимания (Attention-based model). В интегральных моделях все параметры вычисляются методом градиентного спуска, на который легко влияют структуры нейронных сетей. Рассматриваемые модели требуют меньшего объема памяти, что дает возможность использовать их на мобильных устройствах локально. Интегральные системы на сегодняшний день обучаются с большими корпусами, но все равно не достигают современного уровня производительности. В данной работе предлагается следующее: первое — это уникальность языка и многозадачность для распознавания, второе - интегральные модели в большинстве случаев недостаточно обучены, третье – модели нуждаются в большом количестве учебных данных, которые будут обучены должным образом.
Для решения вышеизложенных проблем в данной области исследователи предложили совместные архитектуры, такие как рекуррентные нейронные сети (RNNs), комбинированные с условным случайным полем (CRF) [7] и совместные системы CTC-внимания (CTC-attention) [8].
Рассматриваемые архитектуры имеют преимущества каждой подмодели и модели и привносят более явные и строгие ограничения, но данное исследование повышает качество и производительность интегральных систем. Мы считаем, что для интегральной системы введение сложных вычислительных слоев в модель может использовать лучшие корреляции как во временной, так и в частотной области, модель с большим количеством параметров будет сложнее обучить и метод обучения на основе данных без привлечения экспертных знаний становится уязвимым местом.
На сегодняшний день для интегрального распознавания речи входящих в группу языков одного
187
семейства (тюркоязычные), применяются следующие методы: для малоресурсных языков – трансферное обучение, а для больших ресурсов – многозадачное обучение (MTL) [9, 10].
В данной работе предлагается интегральная модель с трансферным обучением, которая направлена на распознавание казахского и азербайджанского языков и решает задачи с ограниченным речевым ресурсом. В предыдущих исследовательских работах авторов было доказано, что для интегральной модели без интегрирования языковых моделей можно получить хорошие результаты [11].
Трансферное обучение – это способ приспособить модели, обученные на одном наборе данных, к другому набору данных. Планируется, что данный подход приведет к следующим улучшениям: во- первых, использование подхода, полученного по казахской модели представления, приведет к сокращению времени обучения, в сравнении с обучением с нуля; во-вторых, интегральная модель, обученная с использованием трансферного обучения, требует меньше данных для эквивалентной оценки, чем модели для азербайджанского языка. Таким образом, ожидается снижение использования памяти графического процессора (GPU), поскольку не нужно поддерживать градиенты для всех слоев.
Материалы и методы
Для тюркских языков большие и качественно аннотированные речевые данные для обучения системы интегрального распознавания речи отсутствуют. На сегодняшний день есть большой спрос на качественные системы интегрального распознавания речи для этих языков. В связи с этим для решения этого вопроса требуются специальные методы.
Один из представленных методов [12] – эффекты трансферного обучения систем интегрального распознавания речи на основе глубоких нейронных сетей. Исходная акустическая модель обучается на большом корпусе телефонных записей call-центров, и эксперименты показывают, что для всех целевых размеров обучения трансферные модели превзошли те модели, которые обучаются только на целевых данных, а модель, которая передается с использованием 20 часов целевых данных, на 7,8%
достигла более высокой точности распознавания, чем исходная модель.
В работе Heigold et al [13] рассматриваются экспериментальные результаты для перекрестного и многоязычного сетевого обучения одиннадцати романских языков в общей сложности на 10 000 часов данных. Средний относительный прирост по сравнению с базовым уровнем одноязычного обучения составляет 4%: 2% (языки с дефицитом данных / языки с большим количеством данных) для перекрестного обучения и 7%; 4% для многоязычного обучения. Однако дополнительный прирост от совместного обучения языкам по всем данным достигается при увеличении времени обучения примерно на четыре недели по сравнению с двумя неделями (одноязычными) и одной неделей (перекрестными языковыми).
В следующей работе [14] рассматривается языково-состязательное трансферное обучение (language-adversarial transfer learning). Состязательное обучение (аdversarial learning) используется для того, чтобы общие слои SHL-модели могли обучать больше языковых инвариантных признаков.
Эксперименты проводятся на наборах данных IARPA Babel. Результаты показывают, что целевая модель, обученная с использованием знаний, переданных из состязательной модели SHL, доходит до 10,1% относительного снижения частоты ошибок слов по сравнению с целевой моделью, обученной с использованием знаний, переданных из SHL-модели.
Еще одна интересная работа [15] рассматривает интегральное акустическое моделирование с использованием сверточных нейронных сетей (CNN), где CNN принимает в качестве входного необработанный речевой сигнал и оценивает условные вероятности классов состояний HMM на выходе. Во время исследования и анализа системы автоматического распознавания речи на нескольких языках и множестве задач доказано следующее: 1) предлагаемый подход последовательно дает лучшую систему с меньшим количеством параметров по сравнению с традиционным подходом извлечения кепстральных признаков с последующим обучением ИНС; 2) в отличие от обычных методов обработки речи, в предлагаемом подходе соответствующие представления признаков изучаются путем предварительной обработки входной исходной речи на подсегментном уровне (≈2 мс). В частности, посредством анализа доказано, что слой вывода более разборчив по сравнению со стандартными кепстральными функциями и может передаваться между языками и доменами.
Во многих исследовательских работах [16] используется вариант оптимизации градиентного спуска, мини-пакетный градиентный спуск. В данной работе было предложено четыре стратегии
188
выбора мини-пакетов для представления вариантов каждой функции в наборе данных для задач распознавания речи, чтобы повысить производительность модели распознавания речи на основе глубокого обучения. Для этого предлагаются стратегии с поправкой на пол и акцент для отбора мини-пакетов. Эксперименты показывают, что предлагаемые стратегии работают лучше по сравнению со стандартной стратегией отбора образцов мини-сериями.
Khassanov et al. [17] представили 335-часовой корпус для казахского языка. В итоге эксперимента было показано, что достаточно большой набор обучающих данных значительно улучшает показатели системы распознавания речи на основе интегральной модели по сравнению с гибридными.
Amirgaliyev et al. [18] предложили новый метод, который берет предварительно обученную модель на датасете VoxForge со 100 часами русской речи и применяет ее знания в качестве базы для построения своей нейронной сети в рамках метода трансферного обучения. Также был собран 20- часовой корпус казахской речи для обучения нейронной сети. Обученная модель использовала 2 нейронные сети, такие как LSTM и biLSTM. Результаты показали, что модель biLSTM с внешней русскоязычной моделью улучшила производительность системы, снизив LER до 32%.
В работе Zou [9] были разработаны две основные интегральные модели: коннекционная временная классификация (CTC) и шифратор-дешифратор модели, основанные на механизме внимания (attention based encoder-decoder model) для распознавания мандаринской речи. Во время исследования было обнаружено, что китайский иероглиф является подходящей единицей для распознавания мандаринской речи. В результате распознавания модель внимания достигла CER 35,2%, а модель CTC достигла CER 35,7% и, более того, шифратор-дешифратор модели, основанный на механизме внимания, обеспечивает лучшую производительность, чем модель CTC.
В исследованиях Watanabe [9] представлена платформа с открытым исходным кодом для интегральной обработки речи под названием ESPnet. ESPnet, которая в основном фокусируется на сквозном автоматическом распознавании речи и использует широко распространенные инструменты динамической нейронной сети, Chainer и Py-Torch, в качестве основного механизма глубокого обучения.
В следующей работе [10] предложена совместная модель, обученная высокоуровневыми функциями на основе неотрицательной матричной факторизации (NMF), и гибридный механизм внимания, включающий внимание нескольких голов, и вычислена оценка внимания по многоуровневым результатам. Эксперименты с WSJ показывают, что данный метод демонстрирует коэффициент ошибок в словах (WER), только на 0,2% хуже по абсолютной величине и превосходит все существующие интегральные методы.
В работе [19] предложена модель на основе внимания (attention based model) для автоматического распознавания непрерывной русской речи. В эксперименте применялся небольшой набор русской речи, общая продолжительность которого составляет более 60 часов, при этом с помощью предложенных методов увеличилась точность распознавания и показана лучшая производительность с точки зрения скорости декодирования речи с использованием метода оптимизации лучевого поиска.
В работе Fujita [20] рассматривается модель на основе вставки (NAT). Модели на основе вставки решают указанные выше проблемы прогнозирования маски и могут генерировать произвольный порядок генерации выходной последовательности. Данная модель усиливает CTC, делая его зависимым от генерации токенов на основе вставки без авторегрессии. Мы провели эксперименты с тремя общедоступными тестами и достигли конкурентоспособности сильного авторегрессионного преобразователя (Transformer) с аналогичными условиями декодирования.
В работе Zeng [21] предлагается гибридная архитектура на основе Transformer-LSTM.
Результаты показывают, что в целом модель превосходит обычную Transformer ASR на 11,9%
относительно WER и данная гибридная архитектура предлагает гораздо более быстрый вывод по сравнению с архитектурами LSTM и Transformer.
В работе Chorowski [22] представлен метод добавления определения местоположения к механизму внимания, чтобы облегчить эту проблему. Данный метод изменяет механизм внимания, который предотвращает чрезмерную концентрацию внимания на отдельных кадрах, что дополнительно снижает PER до уровня 17,6%.
В данной [23] работе исследователями был применен подход глубоких нейронных сетей, и использовался корпус другого типа для лингвистического обогащения языковой модели. В результате эксперимента WER составила 3,61%, и получена оптимальная комбинация архитектуры — это
189 глубокий LSTMP с регуляризацией L2.
Предлагаемая интегральная система распознавания речи с трансферным обучением Предложенная методология в рамках данной работы выполняется следующими способами:
Двуязычное обучение. Для повышения эффективности и быстрого решения задачи, связанной с ограниченным ресурсом, в данной работе для интегральной модели применяется трансферное обучение. Хотя трансферное обучение проводится над многоязычными данными, полезнее использовать акустические сходства из общих слоев. В данном исследовании полагается, что извлечение признаков из многоязычных речевых данных является эффективным способом встраивания общих акустических знаний в интегральные модели.
На первом этапе эксперимента обучаются несколько независимых RNN с общими скрытыми слоями, используя два языковых ресурса (Рисунок 1).
Рисунок 1 - RNN с общими скрытыми слоями
В данном эксперименте применяется активационная функция maxout с обучением dropout, чтобы избежать проблемы чрезмерной подгонки и выявить лучшие общие черты.
Во время эксперимента обучаются два схожих языка одновременно. В RNN для каждого скрытого слоя выходные данные описываются следующим образом:
𝑥𝑛= 𝑦𝑛× 𝑀𝑦, 1 ≤ 𝑛 ≤ 𝑁 (1) где 𝑦𝑛 - выходные данные каждого слоя l для n-го кадра, 𝑀𝑛 - это вектор, заполненный двоичными элементами, × обозначает операцию точечного произведения. Каждый элемент вектора показывает, остается ли соответствующая единица неизмененной или нет. Активационную функцию для каждого скрытого слоя можно еще описать следующим образом:
max (𝑤1𝑇𝑥 + 𝑏1, 𝑤2𝑇𝑥 + 𝑏2, … ) (2) где 𝑤1𝑇𝑥 - выходные даннные активации слоя l для t-го кадра, 𝑏𝑡 - это вектор того же размера.
Далее выполняется простая операция max pooling для усреднения либо вычисления максимума.
Фактические максимальные выходные данные вычисляются следующим образом:
𝑦𝑛(𝑖) = max(𝑠𝑛(𝑘 ∗ 𝑖 − 2), 𝑠𝑛(𝑘 ∗ 𝑖 − 1), 𝑠𝑛(𝑘 ∗ 𝑖)) , 1 ≤ 𝑛 ≤ 𝐼 (3) где I - количество выходных единиц в каждом скрытом слое, а 𝑠𝑛 – вектор, состоящий из этих единицы, k - pooling size. RNN будет связано с phonemes units, и генерируются GMM, в то время как входы являются классическими акустическими характеристиками низкого уровня.
190
Для извлечения low-dimensional features из RNN сначала все параметры переносятся под последним скрытым слоем, и добавляется новый слой softmax со случайными параметрами, а затем настраивается весь целевой RNN. Такая адаптация обучения, без разрушения структуры нейронной сети во время обучения, позволяет сохранять максимальную нелинейность для последующей обработки.
Извлечение признаков с помощью метода Nonnegative matrix factorization. Во многих исследованиях для извлечения признаков использованы методы MFCC, PLP, LPC, SVD, PCA, и данные методы показывают хорошие результаты. В данном исследовании применение таких методов дает много избыточных вычислений и значений. Для извлечения высокоуровневых признаков в данной работе был применен метод NMF. NMF является методом сокращения размерности на основе приближения низкого ранга пространства признаков. Помимо обеспечения сокращения количества функций, NMF гарантирует, что функции являются неотрицательными, производя аддитивные модели [24].
Учитывая матрицу целевого веса X, имеет размер n×m и все элементы положительный целочисленный 𝑘 < min (𝑚, 𝑛). NMF находит неотрицательные матрицы W и H, соответственно, которые минимизируют норму различия X – WH. W и H являются, таким образом, аппроксимированными неотрицательными факторами X. На рисунке 2 показано выделение признаков высокого уровня путем применения NMF.
Рисунок 2 - Выделение признаков высокого уровня с помощью метода NMF
Красными цветами отображаются признаки, полученные с помощью метода NMF, а точки Р1, Р2, Р3 – это точки, признаки большого веса. Матрица весов определенного скрытого слоя разлагается на две матрицы в соответствии с вышеописанным процессом. Были оставлены W и установлены H в качестве матрицы веса нового слоя извлечения признаков. В процессе эксперимента было определено, что признаки могут иметь многоязычные акустические сходства, вызванные ограниченными ресурсами.
Совместное применение CTC и внимания. В этой части статьи рассмотрена и представлена end-to-end модель для трансферного обучения, исходя из полученных высокоуровневых признаков. И на базе работы [25] была построена совместная интегральная модель на основе двух архитектур, как СТС и внимание, в которой модель имеет единый кодер и объединенный декодер. Была поставлена задача по переносу монотонного ограничения из СТС в декодер с механизмом внимания для улучшения показателей системы после моделирования.
Совместное обучение с кодером. В качестве промежуточного процесса для рассматриваемой совместной модели можно считать сеть для осуществления операции по извлечению признаков из поступающего сигнала. Таким образом, извлеченные признаки уже являются высокоуровневыми, и нет необходимости отображения этих исходных данных на фонемы. В этой работе модель была реализована путем применения неглубоких двунаправленных LSTM.
Авторами была построена интегральная модель, которая показана на рисунке 3, на основе гибридной модели СТС и внимания через полученные высокоуровневые векторы признаков.
В компоненте кодера начальные данные символа 𝑑𝑡 в момент времени t определяются на всех входах Х:
191
𝑃(𝑑𝑡|𝑋 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥(𝑏𝑖𝑑𝑖𝑟𝑒𝑐𝑡𝑖𝑜𝑛𝑎𝑙𝐿𝑆𝑇𝑀(𝑋)) (4) После этого можно распределить вероятности P(S|X) по входной аудио сигнала S при относительно независимых условиях:
Рисунок 3 - Структура совместной модели CTC и внимания 𝑃𝐶𝑇𝐶(𝑆|𝑋) = ∑d∈𝛮(𝑆′)𝑃(d|𝑋) ≈ ∑d∈𝛮(𝑆′)∏𝑇𝑡=1𝑃(d𝑡|𝑋) (5)
Модель имеет 3 элемента в компоненте с механизмом внимания. В качестве кодера был применен двунаправленный LSTM. Было использовано внимание по местоположению. Пусть 𝑔𝑘,𝑡 будет весами внимания, объединяющими выходы k-го кодера с входом t-го декодера. Для вычисления 𝑔𝑘,𝑡 берутся предыдущие веса 𝑔𝑛−1, t скрытых выходов для декодера 𝑙𝑘−1 и выходов кодера ℎ𝑡:
𝑓𝑛 = 𝐹 ∗ 𝑔𝑛−1 (6)
𝑒𝑘,𝑙 = 𝑤𝑇 tanh (𝑉𝑆𝑠𝑛+ 𝑉𝐻ℎ𝑛+ 𝑉𝐹𝑓𝑘,1+ 𝑏) (7) 𝑟𝑘 = ∑𝑇𝑡=1𝑔𝑘,𝑡ℎ𝑡 (8) 𝑃(𝑠𝑘, |𝑠𝑘, … , 𝑠𝑘−1, 𝑋) = 𝐷𝑒𝑐𝑜𝑑𝑒𝑟(𝑟𝑘, 𝑙𝑘−1,ℎ𝑡) (9)
F - сверточный фильтр, 𝑔𝑛,T - мерный весовой вектор внимания. w, VS, VH и VF - настраиваемые весовые параметры многослойного персептрона. rk – является контекстным вектором, необходим для объединения всех выходных последовательностей кодера на основе весов внимания.
В данном случае апостериорная вероятность p (S|X) модели с механизмом внимания формируется без всяких условленных предположений:
𝑃(𝑆|𝑋) ≈ ∏ 𝑃(𝑠𝑘 𝑘|𝑠1, … , 𝑠𝑘−1 (10) Модель на основе механизма внимания и функция потерь CTC будут определены следующим образом:
{ ℐ𝐶𝑇𝐶 = −𝑙𝑛𝑃𝐶𝑇𝐶(𝑆|𝑋)
ℐ𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛= −𝑙𝑛𝑃𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑆|𝑋) (11) Attention Decoder
CTC Decoder Common
Decoder
Encode r
shallow bi-directional LSTM layers
Feature vectors Outputs
192
Для вычисления функции полной потери необходимо взять сочетание логарифмической линейной функции CTC и внимания:
ℐ𝑡 = γℐ𝐶𝑇𝐶+ (1 − γ)ℐ𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛′ γ ∈ [0,1] (12) где γ – вес потерь CTC.
Общий декодер. Для повышения качества показателей распознавания СТС был включен в модель с механизмом внимания. Здесь подробно рассматривается совместный декодер предлагаемой модели.
В декодере механизм внимания определяет оценку предположения в лучевом поиске:
𝑔𝑎𝑡𝑡(b𝑙) = 𝑔𝑎𝑡𝑡(b𝑙−1) + 𝑙𝑜𝑔𝑃(𝑧|b𝑙−1, 𝑋) (13) где b𝑙 – это гипотеза с длиной l, а z является конечным символом b𝑙.
Обычно СТС декодирует выходную последовательность методом frame-wise (кадровый), в то время как модель на основе механизма внимания осуществляет данный процесс одновременно. Было решено применить вероятность префикса СТС и найти оценку предположения СТС:
𝑔𝐶𝑇𝐶(b𝑙) = 𝑙𝑜𝑔𝑃(𝑏𝑙, … , |𝑋) (14) После этого применяется метод однопроходного декодирования [24] для соединения оценок внимания и СТС, после с помощью λ объединяются 𝑔𝐶𝑇𝐶(b𝑙) и 𝑔𝑎𝑡𝑡(𝑏𝑙). И данное совместное декодирование предоставляет наиболее возможную аудио последовательность 𝑆̂:
𝑆̂ =𝑎𝑟𝑔𝑚𝑎𝑥𝑆 {𝜆𝑔𝐶𝑇𝐶(b𝑙) + (1 − 𝜆)𝑔𝑎𝑡𝑡(𝑏𝑙)} (15) Как видно, одна часть предлагаемой модели с механизмом внимания применяется как целевая модель при распознавании речи, а в другой части модели функция потерь СТС содействует целевой модели на шаге декодирования.
Хотя были проведены многие эксперименты с совместными моделями СТС+внимание с применением глубоких структур нейронных сетей, не была выявлена их эффективность в ограниченных условиях. Помимо этого, были использованы RNN с минимальным возможным количеством слоев в кодере.
Эксперименты и результаты. Данные и настройки эксперимента
Казахский корпус: для проведения эксперимента был разработан корпус из 400 часов речи, сам корпус состоит из двух частей: 200 часов «чистой» речи и 200 часов телефонной спонтанной речи. Данный корпус был собран в лаборатории «Компьютерная инженерия интеллектуальных систем» ИИВТ МОН РК [11]. При создании корпуса учтены различные виды речи: подготовленная (чтение), спонтанная. В корпусе звуковые файлы разделены на тренировочную и тестовую части, это 90% и 10% соответственно.
База данных чистой речи состоит из записей 380 дикторов, носителей казахского языка, разного возраста и пола, а также речевые данные из художественных аудиокниг и аудиоданных трансляций новостей.
Аудиоданные имели формат .wav. Все аудиоданные были приведены в одноканальное состояние. Был использован метод РСМ для преобразования данных в цифровой вид. Дискретная частота 44,1 кГц, разрядность 16 бит.
Азербайджанский язык: был разработан корпус для азербайджанского языка с объемом 70 часов речи. Корпус содержит речевые данные и был разработан для проведения экспериментов в области автоматического распознавания азербайджанского языка. В записи участвовали 101 диктор (из них 55% - мужчины и 45% - женщины). Корпус, в основном, включает людей молодого и среднего возраста. Таким образом, группа дикторов имеет сравнительно небольшую разницу в возрасте, профессии и образовании. Большинство дикторов было записано в течение месяца.
Запись производилась в офисных условиях. При этом окна и двери были закрыты, чтобы избежать любого внешнего шума. Для записи были использованы наушники с шумоподавляющим
193
микрофоном. Для большей эффективности были выбраны фонетически богатые слова, в которых согласные доминируют над гласными. База включает прочитанный текст, состоящий из 94267 слов в 1200 предложениях [https://www.sketchengine.eu/corpora-and-languages/azerbaijani-text-corpora/].
Всем речевым файлам были присвоены имена с уникальным идентификационным кодом, так же как и в казахских файлах.
Для трансферного обучения был применен инструментарий Keras. Эксперименты проводились на сервере AMD Ryzen9 с графическим процессором GeForce RTX3090. Наборы данных хранились на 1000 GB SSD памяти, чтобы обеспечить более быстрый поток данных во время обучения.
Эксперименты на основе трансферного обучения. В этом разделе проводились два эксперимента для оценки производительности. Во-первых, была построена модель трансферного обучения и оценена эффективность обучения, полученная при трансферном обучении. Во-вторых, полученная трансферная модель была сравнена с основными базовыми методами.
Разработанные в текущей работе интегральные модели обучены с помощью 32 фонем азербайджанского языка и 28 фонем казахского языка. Для оценки были выбраны всего 60 фонем.
Для обучения имеется 470 часов данных. Для тестовых данных (Test) было взято 20%, а для набора разработки (dev) 80% (Таблица 1).
Таблица 1. Набор данных
Настройка Продолжительность
Обучение 470 часов
Dev 90%
Test 10%
На первом этапе эксперимента обучена модель CTC, а потом отдельно обучена модель attention-based. Основная модель CTC состоит из направленной шестислойной BLSTM с 256 ячейками в каждом слое. Для модели attention-based кодер (encoder) представляет собой направленный трехслойный BLSTM с 256 ячейками в каждом слое. Слой внимания (attention) основан на определении местоположения и имеет 120 ячеек. Декодер (decoder) представляет собой однослойный LSTM с 256 ячейками. Коэффициент отсева (dropout rate) для входов: кодер - 0.2;
внимание - 0.5; декодер - 0.1. Для оптимизации моделей применялся алгоритм Adam. Вес декодирования для CTC равен 0,3. Ширина для исследования луча (beam research) на этапе декодирования равна 15. Процесс обучения до 45-ой эпохи не смог различить акустически схожие слова между казахским и азербайджанским языками (Таблица 2). В данном корпусе акустически схожие 71649 слов.
Таблица 2. Акустические схожие слова.
Казахские слова Азербайджанские слова
алма[alma] alma[almaq]
күн[kuun] gün[guun]
ашық[ashyq] açıq[achyykh]
қасық[qasyq] qaşıq[qashyykh]
кітап[ki'taap] torpaq[torpaaq]
алмас қылыш[almass qylysh] almaz qılınc[almas qylynch]
қара топырақ[qara topyraq] qara torpaq[qara torpaaq]
терең көл[tereng kyol] dərin göl[daerin qyol]
Решением вышеизложенных проблем является модель, которая имеет лучшую точность, выбранная в качестве окончательной модели после 45 эпохи обучения.
Все RNN обучаются с коэффициентом отсева 0,2 для других скрытых слоев. Начальная скорость обучения сохраняется на уровне 0,3 в течение первых 26 эпох и после этого уменьшается втрое. Точность процесса обучения и проверка по эпохам показаны на рисунке 4.
194
Рисунок 4 - Точность процесса обучения и проверки по эпохам
Для оценки системы распознавания фонем общепринятой мерой является коэффициент фонемных ошибок (PER). В этом случае необходимо сравнить распознанную и эталонную последовательность меток фонем. После определения коэффициента ошибок символов наша модель показала результат PER 14,23%.
Результаты и обсуждения
На втором этапе эксперимента, полученная трансферная модель сравнивается с другими моделями, полученными без трансферного обучения (Таблица 3). Полученная модель сравнивается с базовыми моделями, такими как глубокая нейронная сеть, со скрытой марковской моделью (DNN- HMM), и CTC + LM, которые подробно описаны в предыдущей работе авторов [25, 11].
Еще одна из известных интегральных моделей для системы автоматического распознавания, направлена на построение отображения модели из необработанных входных данных в последовательности звуковых/символьных последовательностей или вводящая сложные кодеры [26, 27].
В исследованиях [28, 29] применяется joint CTC-attention, состоящий из неглубоких рекуррентных нейронных сетей (RNN). Экспериментальные результаты показали, что предложенный подход к обучению с переходом достиг наилучшей производительности среди всех интегральных методов и может быть сопоставим с современной системой распознавания речи для TIMIT.
Таблица 3. PER для разных систем распознавания речи
Модель PER (%)
DNN + HMM [25] 31.5
WaveNet [26] 18.8
Сomplex ConvNets [27] 18.0
CTC + LM [11] 17.9
End-to-end with transferring (English + Persian language) [28] 19.41 4langAdaptCNMF + CTC3 + att2 + RNN-LM [29] 16.59 End-to-end with transferring (Kazakh + Azerbaijan language) 14.23
Результаты текущей работы обобщены в последней строке. По результатам исследования, можно сделать вывод, что End-to-end with transferring (Kazakh + Azerbaijan language) совместная модель работает лучше, чем другие модели. Когда вводятся многоязычные предварительно обученные признаки, текущая модель End-to-end with transferring (Kazakh + Azerbaijan language) достигает 14,23 для PER, что является лучшим показателем, по сравнению с другими результатами (Рисунок 5).
195
Рисунок 5 - Сравнение результатов трансферного обучения с некоторыми базовыми моделями Эти результаты убедительно подтверждают эффективность предложенного подхода, основанного на трансферном обучении в интегральных моделях. Хотя предложенный подход к переходному обучению требует дополнительных процедур обучения для извлечения признаков, он лучше работает с меньшим количеством слоев RNN для интегральной части. Были перечислены PER некоторых типичных традиционных методов и отмечено, что опубликованные интегральные модели не могут превзойти традиционные системы распознавания речи. Обратите внимание, что предложенные интегральные модели обучаются без какой-либо регуляризации, за исключением отсева на слоях BLSTM. Из результатов видно, что интегральная система без трансфера дает худшую производительность, несмотря на то, что это сделано на современном уровне. Полученный результат показывает значительное улучшение системы, обученной с помощью трансферного обучения.
Заключение
Для интегрального распознавания речи нами в данной работе был предложен новый подход, основанный на трансферном обучении. На первом этапе для извлечения признаков применили алгоритм NMF. На втором этапе совместные модели CTC-внимания обучаются на основе извлеченных признаков через алгоритм NMF. Трансферное обучение применяется посредством двуязычного обучения и многозадачного обучения на двух уровнях. Эксперименты показывают, что предложенная модель работает лучше всех интегральных моделей и достигает высокой производительности по сравнению с современной системой распознавания речи. Хотя данный подход к трансферному обучению повышает производительность интегральных моделей распознавания речи, необходимо проверить, работает ли этот подход и для интегрального обучения с относительно высоким ресурсом. Полученный результат показывает хорошие показатели качества распознавания речи.
В дальнейших исследованиях планируется проведение экспериментов с другими видами интегральных моделей с Transformer для распознавания казахской слитной речи.
Благодарность
Работа выполнена при финансовой поддержке Комитета науки Министерства образования и науки Республики Казахстан (No BR18574144).