• Tidak ada hasil yang ditemukan

ОБЗОР НЕКОТОРЫХ АЛГОРИТМОВ ОПРЕДЕЛЕНИЯ НАЧАЛА И КОНЦА РЕЧИ

N/A
N/A
Protected

Academic year: 2024

Membagikan "ОБЗОР НЕКОТОРЫХ АЛГОРИТМОВ ОПРЕДЕЛЕНИЯ НАЧАЛА И КОНЦА РЕЧИ"

Copied!
3
0
0

Teks penuh

(1)

«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция

327

УДК 004.432.4:811.512.122

БЕКМАНОВА Г.Т., ЖАНТОЛИН Д.Б.

Евразийский национальный университет им. Л.Н. Гумилева, Астана, Казахстан ОБЗОР НЕКОТОРЫХ АЛГОРИТМОВ ОПРЕДЕЛЕНИЯ

НАЧАЛА И КОНЦА РЕЧИ

На сегодняшний день существует множество успешных методов выявления начальной и конечной точки произнесенного слова в звуковом потоке на основе обработки сигналов меняющихся в течение времени. Множество этих методов основаны на различных подходах.

Если аудиозапись сделана в лабораторных условиях, выявление начальной и конечной точки – задача не очень сложная. Поскольку отношение сигнал-шум велик, определить действительный сигнал в потоке путем анализа образов не представляет труда. Но в реальных условиях не так просто: потому что, шум существует везде. И это влияет на производительность обработки сигналов. Так как шума практически невозможно избежать, разработаны методы для решения этой проблемы. Ниже на рисунке 1 показан примерное действие шума на звуковой сигнал (красный – исходный сигнал, зеленый – с шумом при 5 dB, синий - с шумом при -5dB).

Рисунок-1.

Надежными алгоритмами считаются: полно-диапазонные и под-диапазонные энергии(Woo, 2000), меры спектральных расхождениймежду речью и фоновым шумом (Marzinzik и Kollmeier, 2002), оценка шагов(Tucker, 1992), пересечения нулевого уровня(Rabiner,1975), статистика высшего порядка(Nemer, 2001; Ramírez, 2006a; Górriz, 2006a; Ramírez, 2007).[1]

Ниже описаны некоторые алгоритмы:

Алгоритм, представленный в [2]: на первом этапе записывается тишина для обработки и сохранения как начальный и конечный порог. Далее запускается сигнал и при превышении величины сигнала начального порога не менее чем пять раз подряд, он определяется и сохраняется как начало речи. Запись останавливается тогда, когда величина сигнала становится меньше чем конечный порог.

Еще один простой алгоритм представленный в [3]:

1) Средняя величина w1окна длиныW, вычисляется из образцов si начиная отsa и заканчивая sb:

(2)

«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция

328

2) Средняя величина другого w2 окна, вычисляется аналогичным образом начиная отsb

и заканчивая sc:

3) Вычисляется разница между w1 и w2 и сравнивается с пороговым значением. Если больше порогового значения, то началом речи считается sc. В противном случае переход на пункт 4.

4) Средняя величина старого окна (w1) отбрасывается и вместо него записывается w2 и переход на пункт 2.

Пороговое значение определяется в зависимости позиции микрофона, уровня шума и т.д.

Алгоритм Рабинел: Если рассматривать строб-импульсов {s1, s2, …, sn}, где n – число образов строб-импульсов, а si, i=1, ... , n – численное выражение образцов. Общая энергия строб-импульсов вычисляется формулой:

Формула среднего пересечения нулевого уровня:

где:

В методе используются три числовых уровня: для энергии (верхний и нижний) и для среднего пересечения нулевого уровня. Точка, начиная с которой энергия перекрывает верхний уровень и уровень положительных и отрицательных значений, не отменяет установленный уровень, который считается отправной точкой голосового звучания. Поиск первой такой точки производится путем скрещивания импульсов от начала и до конца, и это определит первую область с речью. Обратный переход, из конца в начало, позволяет определить конечную точку последней области с речью. Определение внутри области может быть сделано путем скрещивания импульсов между двумя этими точками. Начало глухой области начинается в точке, в которой энергия становится меньше значения нижнего уровня.

На рисунке 2 звуковой сигнал до и после удаления глухой области:

Рисунок -2.

(3)

«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция

329

В данной статье рассмотрены простые алгоритмы определения начала и конца речи, которые могут использоваться при аппаратной реализации обработки речевого сигнала.

Литература

1. Robustness J. Ramнrez, J. M. Gуrriz and J. C. Segura Voice Activity Detection.

Fundamentals and Speech Recognition System // University of Granada Spain

2. Шелепов В. Ю. Лекции о распознавании речи//Донецьк:IПШI «Наука i освiта», 2009.- 196 c.

3. Asmat C., Sanzo D., Wu K. Speech recognition using FPGA Technology. McGill 2007

Referensi

Dokumen terkait