<<この欄は編集者が記入します>>日本音響学会音声研究会資料,Vol.,No
Proc. Speech Res. Meeting, The Acoustical Society of Japan, Vol. , No<<この欄は編集者が記入します>>
サイドローブのない窓に基づく二種類の音源情報の表現について
河原 英紀
†榊原 健一
††矢田部 浩平
†††坂野 秀樹
††††森勢 将雅
†††††† 和歌山大学 〒 640-8510 和歌山市栄谷 930
†† 北海道医療大学 〒 061-0293 北海道石狩郡当別町金沢 1757
††† 早稲田大学 〒 169-8555 新宿区大久保 3-4-1
†††† 名城大学 〒 468-8502 名古屋市天白区塩釜口一丁目 501 番地
††††† 明治大学 〒 164-8525 東京都中野区中野 4-21-1
E-mail: † [email protected], †† [email protected], ††† [email protected],
††††[email protected], †††††[email protected]
あらまし
短時間 Fourier 変換では、サイドローブが生ずる。サイドローブの無い窓関数を用いることで、様々な問
題を回避することができる。ここでは、周期性に関連する二つの情報表現を紹介する。最初の表現は瞬時周波数に基 づくものであり、基本波成分を選択する。短時間 Fourier 変換を、対数周波数軸上で同形の重みを用いて加算するこ とにより、周波数変調と振幅変調の大きさが最小になる仕組みを構成した。次の指標は、周波数軸上での周期性に基 づくものであり、違う解像度の間の変化量に基づいて現象の繰り返しの時間間隔を調べる仕組みを構成した。
キーワード
多重解像度、瞬時周波数、周波数変調、振幅変調、変形自己相関
Two voice source representations
based on windowing function without side lobes
Hideki KAWAHARA
†, Ken-Ichi SAKAKIBARA
††, Kohei YATABE
†††, Hideki BANNO
††††, and Masanori MORISE
†††††† Wakayama University, 930 Sakaedani, Wakayama, 640-8510 Japan
†† Health Science University of Hokkaido, 1757 Kanazawa, Tobetsu, Ishikari-gun, Hokkaido, 061-0293 Japan
††† Waseda University, 3-4-1 Ookubo, Shinjuku-ku, Tokyo, 169-8555, Japan
†††† Meijo University, 1-501 Shiogamaguchi, Tempaku-ku, Nagoya, 468-8502 Japan
††††† Meiji University, 4-21-1 Nakano, Nakano-ku, Tokyo, 164-8525 Japan E-mail: † [email protected], †† [email protected], ††† [email protected],
††††[email protected], †††††[email protected]
Abstract We introduce two representations for signal periodicity based on Fourier transform using sidelobe-less windowing functions. The first uses instantaneous frequency. We use a weighted average of the Fourier transform using constant shape weighing on the logarithmic frequency axis. It provides a mechanism for minimizing variations of the fundamental component. The second one uses multi-resolution representation on the frequency axis and represents the repetition interval. We found that sidelobe was harmful in periodicity analyses.
Key words multi-resolution, instantaneous frequency, frequency and amplitude modulation, autocorrelation
1. は じ め に
有声音は、声門の開閉による気流(注1)の断続を主な音源とし て生成される。この有声音を特徴づける指標として、基本周波
(注1):呼気だけではなく吸気も音源として用いられる場合がある。また、断続 だけではなく断続に伴う乱流や仮声帯の振動も関与する場合がある[1], [2]。
数(
fundamental frequency,
以下ではfoと表記することにす る[3]
)が主に用いられている。しかし、声帯の振動は気流や音 響インピーダンスなどとの相互作用により生ずる現象であり、周期的なものだけではなく複数の周期を有する振動(サブハー モニック)やカオス状の運動を含んでいる。この周期的な部分 にも周波数変調や振幅変調がかかっており、さらに、周期内で 2021 年 9 月 23 日 , 日本音響学会音声研究会資料 Vol. 1, No. 2, SP-2021-25
日本音響学会音声コミュニケーション研究会資料 Vol. 1, No. 1, SC-2021-6
声門が開いている割合と開いている区間内での形状の変化は生 成される声の質に大きく影響する
[1], [2], [4]
。複数の声門音源 モデルが提案されており[5]
〜[8]
、パラメタと声質の関連も研究 されてきた[5], [9]
。このように積み上げられてきた音声生成機構の研究は、
2016
年のWaveNet [10]
に代表される深層学習に基づく音声合成、音 声変換技術の急速な発展[11]
に直接貢献することはほとんどな く、既存の概念に基づく処理の分割や中間表現を省いた方が性 能が向上するという(一見すると逆説的な)傾向が認められる に至っている[12]
。しかし、音声生成機構の研究により蓄積さ れてきた知見は、音声の診断やリハビリなど現象についての深 い理解を必要とする領域[13], [14]
では必須であり、深層学習に 基づくシステムを理解可能な形で制御する[15]
上でも重要にな ると考えている。ここでは、これらの知見を深層学習と適切な 形で結びつけるために、音源の情報表現を数理的に健全な基盤 の上に再構築することを狙って実装した対話的研究環境を紹介 する。この研究環境では、実時間で対話的に音源の駆動に関す る二つの表現を調べることができる。一つは、基本波を選択し てその瞬時周波数で表現するもの、もう一つは、声門の開閉と いう離散的なイベントに注目して隣接するイベントの時間間隔 で表現するものである。それぞれの表現の導出では、短時間フーリエ変換に基づく時 間周波数解析が用いられる。これまでの(ほとんどの)方法で は、サイドローブを有する窓が用いられてきた。サイドローブ の存在により、瞬時周波数の分析においても時間間隔の分析に おいても、様々な副作用が生ずる
[16]
。ここでは、それらによ り議論が煩瑣になることを避けるため、サイドローブの無い窓 関数[17]
を用いることにする。2. サイドローブの無い窓関数 [17]
正規分布の確率密度関数(以下
Gauss
関数)のFourier
変換 はGauss
関数である。Gauss
関数の値は中心からの距離の二 乗の指数の逆数で急速に単調に減少する。サイドローブは存 在しない。定義域は無限であるが、実際に信号処理に用いる際 には、計算機イプシロン以下の部分は結果に影響しないので、有限の長さで打ち切ることができる。例えば、数値演算環境の
MATLAB
では64bit
の浮動小数点数(IEEE754
)が用いられ ており、±6σ
で打ち切ることができる。時間軸上の信号を扱う 場合には、このようにして打ち切ったものを用いればよい。離散信号の
Fourier
変換は、円環状の周波数軸を持つ。この ように打ち切ったGauss
関数の長さが円環の周期よりも長い場合には、
Gauss
関数を円環に巻き付けて加算すれば良い。サイドローブが存在しない窓はその他にもある。例えば文 献
[17]
にあるスレピアン窓[18]
とその近似であるKaiser
窓[19]
は有用な候補である。円環上の周波数軸で用いる場合には、同 様に巻き付けて加算すれば良い。ここでは、議論を簡単にする ために再生性を有する
Gauss
窓を用いることとする。実装で 性能を追求する場合には、原点付近での形状が同じ(例えばTaylor
展開の二次の係数が同じ)ものや自乗誤差を最小とするもの、
50%
の分布幅が同じものの中で打ち切りの長さが最も短 いものを選択するなどの方法がある。さらに、実際の音声分析 に用いる際には、計算機イプシロンは強すぎる要求である。そ の際には、実用上サイドローブの無い窓関数として、上記の二 種類に加え、Chebyshev
窓[20]
、Nuttall
窓[21], [22]
、エネル ギー集中窓[23]
など多数から選択することができる(注2)。(注2):瞬時周波数を求める場合、最大のサイドローブのレベルだけではなく、サ イドローブの減衰速度も性能に影響する[16]。
3. 瞬時周波数に基づく表現
基本波抽出機構のアイデアは、
legacy-STRAIGHT [24]
の『基 本波らしさ』のアイデアと、フィルタ中心周波数からフィルタ 出力への写像の不動点のアイデア[25]
を組み合わせたものであ る。『基本波らしさ』のアイデアは、以下である。通過域の中心周波数が調波複合音の基本周波数に一 致するとき、
2
番目の調波とそれ以上の調波成分が阻 止域に含まれるような帯域通過フィルタを(複数の基 本周波数について)設計すれば、フィルタ出力のAM
およびFM
変動が最小になるフィルタを選択すること で、基本周波数の事前知識を持たずに、基本波成分が 含まれているフィルタを選択することができる。『不動点』に基づくアイデアは、以下である。
フィルタの通過域に単一の正弦波が含まれており、
そのエネルギーが支配的であれば、フィルタ出力の瞬 時周波数は、正弦波の周波数に一致する。したがって、
中心周波数が単調に増加するようなフィルタの組を用 意して、フィルタの中心周波数にフィルタの出力の中 心周波数を対応させる関数を、周波数から周波数への 写像と見做せば、支配的な正弦波の周波数に不動点が 生ずる。
これらを組み合わせると、基本波抽出機構は、次のように記 述できる。
基本波の中心周波数を中心周波数とし、
2
番目の調 波とそれ以上の調波成分が阻止域に含まれるような帯 域通過フィルタを(複数の基本周波数について)設計 し、中心周波数が単調に増加するように周波数軸上に 配置する。これらのフィルタの中心周波数にフィルタ の出力の中心周波数を対応させる関数を、周波数から 周波数への写像と見做して不動点を(複数)求める。不動点に対応するフィルタの中で、最も出力の
AM
お よびFM
を総合した変動の大きさが少ないものを選択 する。その不動点は基本波に対応しており、不動点の 周波数が基本周波数を与える。ここで、問題は、「最も出力の
AM
およびFM
変調が少ない ものを選択」するところにある。簡単には、フィルタを多数用 意して、その出力の瞬時振幅と瞬時周波数を観測し、直接、AM
とFM
を求めることである。これは、legacy-STRAIGHT
とEURISPEECH
で実装していた方法である。もう一つのやり方は、一つのフレームで数回(今回の例では
4
回)の隣接する離 散時刻で短時間フーリエ変換を求めて計算する方法である。3. 1 設 計 例
目標となる周波数軸上の形状を
Gauss
関数とし、インパル ス応答が解析信号になるようにフィルタを設計する。すると解 くべきなのは、最初の短時間Fourier
変換に用いる窓関数の包 絡を持つ解析信号の和が目的とするインパルス応答になるよう に、重みを決定する問題となる。自乗誤差を最小にすることを 目標にすると、これは連立一次方程式の解を求める問題とな る。この連立一次方程式の係数行列のランクは列数の半分程度 であり、条件数も非常に大きいため、そのままでは信頼できる 解を求めることはできない。ここでは、LSQR [26]
を用いた。LSQR
は共役勾配法の一つであり、係数行列が悪条件のときに 他の共役勾配法よりも信頼できる値を求めることができる。図
1
に、55 Hz
の基本周波数に対するフィルタの設計例を声門が開いている割合と開いている区間内での形状の変化は生 成される声の質に大きく影響する
[1], [2], [4]
。複数の声門音源 モデルが提案されており[5]
〜[8]
、パラメタと声質の関連も研究 されてきた[5], [9]
。このように積み上げられてきた音声生成機構の研究は、
2016
年のWaveNet [10]
に代表される深層学習に基づく音声合成、音 声変換技術の急速な発展[11]
に直接貢献することはほとんどな く、既存の概念に基づく処理の分割や中間表現を省いた方が性 能が向上するという(一見すると逆説的な)傾向が認められる に至っている[12]
。しかし、音声生成機構の研究により蓄積さ れてきた知見は、音声の診断やリハビリなど現象についての深 い理解を必要とする領域[13], [14]
では必須であり、深層学習に 基づくシステムを理解可能な形で制御する[15]
上でも重要にな ると考えている。ここでは、これらの知見を深層学習と適切な 形で結びつけるために、音源の情報表現を数理的に健全な基盤 の上に再構築することを狙って実装した対話的研究環境を紹介 する。この研究環境では、実時間で対話的に音源の駆動に関す る二つの表現を調べることができる。一つは、基本波を選択し てその瞬時周波数で表現するもの、もう一つは、声門の開閉と いう離散的なイベントに注目して隣接するイベントの時間間隔 で表現するものである。それぞれの表現の導出では、短時間フーリエ変換に基づく時 間周波数解析が用いられる。これまでの(ほとんどの)方法で は、サイドローブを有する窓が用いられてきた。サイドローブ の存在により、瞬時周波数の分析においても時間間隔の分析に おいても、様々な副作用が生ずる
[16]
。ここでは、それらによ り議論が煩瑣になることを避けるため、サイドローブの無い窓 関数[17]
を用いることにする。2. サイドローブの無い窓関数 [17]
正規分布の確率密度関数(以下
Gauss
関数)のFourier
変換 はGauss
関数である。Gauss
関数の値は中心からの距離の二 乗の指数の逆数で急速に単調に減少する。サイドローブは存 在しない。定義域は無限であるが、実際に信号処理に用いる際 には、計算機イプシロン以下の部分は結果に影響しないので、有限の長さで打ち切ることができる。例えば、数値演算環境の
MATLAB
では64bit
の浮動小数点数(IEEE754
)が用いられ ており、±6σ
で打ち切ることができる。時間軸上の信号を扱う 場合には、このようにして打ち切ったものを用いればよい。離散信号の
Fourier
変換は、円環状の周波数軸を持つ。この ように打ち切ったGauss
関数の長さが円環の周期よりも長い場合には、
Gauss
関数を円環に巻き付けて加算すれば良い。サイドローブが存在しない窓はその他にもある。例えば文 献
[17]
にあるスレピアン窓[18]
とその近似であるKaiser
窓[19]
は有用な候補である。円環上の周波数軸で用いる場合には、同 様に巻き付けて加算すれば良い。ここでは、議論を簡単にする ために再生性を有する
Gauss
窓を用いることとする。実装で 性能を追求する場合には、原点付近での形状が同じ(例えばTaylor
展開の二次の係数が同じ)ものや自乗誤差を最小とするもの、
50%
の分布幅が同じものの中で打ち切りの長さが最も短 いものを選択するなどの方法がある。さらに、実際の音声分析 に用いる際には、計算機イプシロンは強すぎる要求である。そ の際には、実用上サイドローブの無い窓関数として、上記の二 種類に加え、Chebyshev
窓[20]
、Nuttall
窓[21], [22]
、エネル ギー集中窓[23]
など多数から選択することができる(注2)。(注2):瞬時周波数を求める場合、最大のサイドローブのレベルだけではなく、サ イドローブの減衰速度も性能に影響する[16]。
3. 瞬時周波数に基づく表現
基本波抽出機構のアイデアは、
legacy-STRAIGHT [24]
の『基 本波らしさ』のアイデアと、フィルタ中心周波数からフィルタ 出力への写像の不動点のアイデア[25]
を組み合わせたものであ る。『基本波らしさ』のアイデアは、以下である。通過域の中心周波数が調波複合音の基本周波数に一 致するとき、
2
番目の調波とそれ以上の調波成分が阻 止域に含まれるような帯域通過フィルタを(複数の基 本周波数について)設計すれば、フィルタ出力のAM
およびFM
変動が最小になるフィルタを選択すること で、基本周波数の事前知識を持たずに、基本波成分が 含まれているフィルタを選択することができる。『不動点』に基づくアイデアは、以下である。
フィルタの通過域に単一の正弦波が含まれており、
そのエネルギーが支配的であれば、フィルタ出力の瞬 時周波数は、正弦波の周波数に一致する。したがって、
中心周波数が単調に増加するようなフィルタの組を用 意して、フィルタの中心周波数にフィルタの出力の中 心周波数を対応させる関数を、周波数から周波数への 写像と見做せば、支配的な正弦波の周波数に不動点が 生ずる。
これらを組み合わせると、基本波抽出機構は、次のように記 述できる。
基本波の中心周波数を中心周波数とし、
2
番目の調 波とそれ以上の調波成分が阻止域に含まれるような帯 域通過フィルタを(複数の基本周波数について)設計 し、中心周波数が単調に増加するように周波数軸上に 配置する。これらのフィルタの中心周波数にフィルタ の出力の中心周波数を対応させる関数を、周波数から 周波数への写像と見做して不動点を(複数)求める。不動点に対応するフィルタの中で、最も出力の
AM
お よびFM
を総合した変動の大きさが少ないものを選択 する。その不動点は基本波に対応しており、不動点の 周波数が基本周波数を与える。ここで、問題は、「最も出力の
AM
およびFM
変調が少ない ものを選択」するところにある。簡単には、フィルタを多数用 意して、その出力の瞬時振幅と瞬時周波数を観測し、直接、AM
とFM
を求めることである。これは、legacy-STRAIGHT
とEURISPEECH
で実装していた方法である。もう一つのやり方は、一つのフレームで数回(今回の例では
4
回)の隣接する離 散時刻で短時間フーリエ変換を求めて計算する方法である。3. 1 設 計 例
目標となる周波数軸上の形状を
Gauss
関数とし、インパル ス応答が解析信号になるようにフィルタを設計する。すると解 くべきなのは、最初の短時間Fourier
変換に用いる窓関数の包 絡を持つ解析信号の和が目的とするインパルス応答になるよう に、重みを決定する問題となる。自乗誤差を最小にすることを 目標にすると、これは連立一次方程式の解を求める問題とな る。この連立一次方程式の係数行列のランクは列数の半分程度 であり、条件数も非常に大きいため、そのままでは信頼できる 解を求めることはできない。ここでは、LSQR [26]
を用いた。LSQR
は共役勾配法の一つであり、係数行列が悪条件のときに 他の共役勾配法よりも信頼できる値を求めることができる。図
1
に、55 Hz
の基本周波数に対するフィルタの設計例を図1 Frequency gain response (Top plot). Frequency bin weight (analytic wave with Gaussian envelope: Middle plot). Im- pulse response target and composition. It also shows error in log scale (Bottom plot).
示す。隣接する調波との重なりが
-80 dB
になるように目標特 性を設定した。最初の短時間Fourier
変換に用いた窓関数は27 Hz
に対応している。最上段の図に周波数応答を示す。凡例のtargetが設計目標、compoが設計されたフィルタの応答で ある。目標とする特性とは
-150 dB
程度まで一致している。中段は求められた重み関数を示す。周波数的に局在しており 使いやすい。適切な重み関数が求まったと言える。
最下段は、求められた(複素数の)インパルス応答と設計目 標としたインパルス応答およびそれらの差を絶対値で表し、片 対数で表示した。この場合、相対誤差の大きさは
-160 dB
程度 であり、無視できる。3. 1. 1 動作例:基本周波数依存性の確認
図
2
に、隣接調波の影響が-35 dB
となるように重なりを設 計したフィルタの動作例を示す。上の図では、基本周波数を200 Hz
として、SNR
を10 dB
きざみで変化させている。SNR
の上昇に伴って統合された変動は少なくなる。SNR
がさらに 高くなると、隣接する調波成分との干渉の影響が雑音よりも大 きくなり、統合された変動量は一定の値に落ち着く。下の図では、
SNR
を固定して7
種類の異なった基本周波数 のパルス列を分析した。それぞれの基本周波数で、フィルタ出 力の統合された変動量は最小になり、その値は、基本周波数に 依存しない。これらの結果は、統合された変動量を用いて、信 号のSNR
を推定できる可能性を示す。3. 1. 2 動作例:
SNR
推定の直線性の確認図
3
に、統合する帯域幅の拡大率毎にSNR
を推定した結果図2 LVSQ-based fundamental component extractor using -35 dB crossover. Top plot shows SNR dependency. The bottom plot showsfodependency.
図3 Estimated SNR on bandwidth stretching factor.
を示す。横軸は、与えた信号の
SNR
を示し、縦軸は(直線部 分で推定値と実際の値が一致するように調整した後の)SNR
の推定値を示す。拡大率1
は、基本波に対応する中心周波数を 有するフィルタの形状をそのまま使う場合である。この場合、周波数
0
と、基本周波数の二倍の周波数の区間の外では、フィ ルタの利得が計算機イプシロン以下になる。他のフィルタは、このフィルタを周波数方向に比例的に引き伸ばして用意する。
拡大率が
2.3
では、通過域として定めた区間の両端で、利得は 約-35 dB
になる。拡大率が1.5
では、SNR
が70 dB
まで、推 定値は実際の値に一致している。拡大率が2.3
では、推定値は30 dB
を超えると飽和している。SNR
の推定を目的とする場合には、小さな拡大率を用いる べきである。一方、拡大率を大きくすると(等価な)時間窓の 長さが短くなり、基本周波数の急速な変化に追従することがで きる。また、大きな拡大率では基本波の位置と第二調波の位置 で観測される変動量の差が大きくなるため、基本波成分の誤選図4 AM-FM modulation map and extracted fixed points from a Japanese vowel sequence /aiueo/ spoken by the author in 1998.
択が少なくなる。以下では、
AM
とFM
の統合された変動の 大きさの代わりに推定されたSNR
を用いて議論することにす る(注3)。3. 2 連続母音の分析例
今までの論文で例題として使っていた
1998
年に自分が発声 した連続母音/aiueo/
を分析した例を示す。作成した関数は、標 本化周波数に依存しない分析を行う。図
4
に分析例を示す。上の図は、推定されたSNR
を示して おり、下の図は、求められた不動点である。不動点は、最大5
個まで表示している。青が最も標準偏差が少ないもの、赤が2
番目、黄色が3
番目、紫が4
番目、緑が5番目である。この例 は周波数帯域幅の拡大率を2.3
とした結果である。2位と3位 のものが少し含まれているが、第一位の不動点を主体とする不 動点の軌跡が実際の基本周波数を正しく選択している様子が分 かる。4. 周波数軸上での周期性に基づく表現
音声の短時間スペクトルには、声門音源波形、放射特性、声 道形状、駆動タイミング、雑音、その他のイベントなどの影響 が含まれている。音声の生成機構をモデル化し、それぞれの特 性を求めようとすることは、非常に難しい。ここでは、連続す るイベントの間隔のみに注目する。
声帯の運動と音響との相互作用を無視し、声道と放射の影響 を線形時不変システムと見なせば、
Fourier
変換の後に対数変換(注3):SNRの推定値として用いることができるのは、厳密に言えば正弦波成分 が一個だけ含まれる場合である。
図5 Power spectral representations of a segment in a vowel.
することにより、それぞれの寄与の和として音声を表すことが できる。ケプストラムと準同型分析の背景にあるアイデアであ る
[27], [28]
。しかし、短時間Fourier
変換で用いられる窓によ る切り出しは、周波数領域では畳み込みとなるため、それらの 議論で想定するように綺麗に分離することはできない。また、対数は低いレベルを大きく拡大するため、ランダムな雑音など の影響を強く受ける。ここでは、対数を用いることによる脆弱 性を避けるため、藤崎による時間領域の方法
[29]
と、嵯峨山に よる自己相関領域の方法[30]
にヒントを得て、パワースペクト ルの多重解像度分析に基づく方法を提案する。ここでは議論を 簡単にするために、Gauss
関数を用いる。4. 1 母音の分析例
母音を用いて、ここで提案する方法の考え方を具体的に説明 する。図
5
に、男性話者が発声した「爆音が銀世界の高原にひ ろがる。」という文章音声の開始から1
秒の位置での分析例を示 す。「音が」の部分の鼻子音中央に相当する。ここでは、80 Hz
で-3 dB
となるようなハン窓と3 dB
帯域幅が同じGauss
窓を 用いて分析している。上の図は、短時間Fourier
変換で求めら れたパワースペクトル(赤線)と、自己相関領域で同じGauss
窓の二乗で重みづけて平滑化したパワースペクトル(黒線)を 示す。細かな変動はあるが、黒線は、有声音の時間領域での周 期性に基づく周波数軸上の周期的変動(微細構造)が取り除か れたスペクトル包絡を(ほぼ)表している。この包絡で元のパ ワースペクトルを除算することにより、周期性に対応する微細 構造を求めようとするのが、前に説明した方法の概要である。さらに、周波数荷重を行うことにより、高い周波数における周 期性の乱れの影響を排除するのがラグ窓法のアイデアである。
これらの方法で、
Gauss
窓を使うことには利点がある。Gauss
窓は、乗算によっても畳み込みによってもGauss
窓のままなの で、自己相関関数に乗じてもパワースペクトルの自己相関関数 の正定値性を破壊しない。また、常に正の値をとる関数を平滑 化するので元のパワースペクトルを平滑化したスペクトルで除 算しても、突発的に大きな値が発生することも無い。図
5
の下の図は、除算により取り出した微細構造から求めた 原点以外の主要なピークの高さを、窓関数の-3dB
帯域幅の関 数として示した。このピークの高さは、周波数方向で解像度を 一定の割合で変化させたときの形状の変化の大きさを示す。例で用いた
80 Hz
は、最大の変化がある解像度に対応する。図4 AM-FM modulation map and extracted fixed points from a Japanese vowel sequence /aiueo/ spoken by the author in 1998.
択が少なくなる。以下では、
AM
とFM
の統合された変動の 大きさの代わりに推定されたSNR
を用いて議論することにす る(注3)。3. 2 連続母音の分析例
今までの論文で例題として使っていた
1998
年に自分が発声 した連続母音/aiueo/
を分析した例を示す。作成した関数は、標 本化周波数に依存しない分析を行う。図
4
に分析例を示す。上の図は、推定されたSNR
を示して おり、下の図は、求められた不動点である。不動点は、最大5
個まで表示している。青が最も標準偏差が少ないもの、赤が2
番目、黄色が3
番目、紫が4
番目、緑が5番目である。この例 は周波数帯域幅の拡大率を2.3
とした結果である。2位と3位 のものが少し含まれているが、第一位の不動点を主体とする不 動点の軌跡が実際の基本周波数を正しく選択している様子が分 かる。4. 周波数軸上での周期性に基づく表現
音声の短時間スペクトルには、声門音源波形、放射特性、声 道形状、駆動タイミング、雑音、その他のイベントなどの影響 が含まれている。音声の生成機構をモデル化し、それぞれの特 性を求めようとすることは、非常に難しい。ここでは、連続す るイベントの間隔のみに注目する。
声帯の運動と音響との相互作用を無視し、声道と放射の影響 を線形時不変システムと見なせば、
Fourier
変換の後に対数変換(注3):SNRの推定値として用いることができるのは、厳密に言えば正弦波成分 が一個だけ含まれる場合である。
図5 Power spectral representations of a segment in a vowel.
することにより、それぞれの寄与の和として音声を表すことが できる。ケプストラムと準同型分析の背景にあるアイデアであ る
[27], [28]
。しかし、短時間Fourier
変換で用いられる窓によ る切り出しは、周波数領域では畳み込みとなるため、それらの 議論で想定するように綺麗に分離することはできない。また、対数は低いレベルを大きく拡大するため、ランダムな雑音など の影響を強く受ける。ここでは、対数を用いることによる脆弱 性を避けるため、藤崎による時間領域の方法
[29]
と、嵯峨山に よる自己相関領域の方法[30]
にヒントを得て、パワースペクト ルの多重解像度分析に基づく方法を提案する。ここでは議論を 簡単にするために、Gauss
関数を用いる。4. 1 母音の分析例
母音を用いて、ここで提案する方法の考え方を具体的に説明 する。図
5
に、男性話者が発声した「爆音が銀世界の高原にひ ろがる。」という文章音声の開始から1
秒の位置での分析例を示 す。「音が」の部分の鼻子音中央に相当する。ここでは、80 Hz
で-3 dB
となるようなハン窓と3 dB
帯域幅が同じGauss
窓を 用いて分析している。上の図は、短時間Fourier
変換で求めら れたパワースペクトル(赤線)と、自己相関領域で同じGauss
窓の二乗で重みづけて平滑化したパワースペクトル(黒線)を 示す。細かな変動はあるが、黒線は、有声音の時間領域での周 期性に基づく周波数軸上の周期的変動(微細構造)が取り除か れたスペクトル包絡を(ほぼ)表している。この包絡で元のパ ワースペクトルを除算することにより、周期性に対応する微細 構造を求めようとするのが、前に説明した方法の概要である。さらに、周波数荷重を行うことにより、高い周波数における周 期性の乱れの影響を排除するのがラグ窓法のアイデアである。
これらの方法で、
Gauss
窓を使うことには利点がある。Gauss
窓は、乗算によっても畳み込みによってもGauss
窓のままなの で、自己相関関数に乗じてもパワースペクトルの自己相関関数 の正定値性を破壊しない。また、常に正の値をとる関数を平滑 化するので元のパワースペクトルを平滑化したスペクトルで除 算しても、突発的に大きな値が発生することも無い。図
5
の下の図は、除算により取り出した微細構造から求めた 原点以外の主要なピークの高さを、窓関数の-3dB
帯域幅の関 数として示した。このピークの高さは、周波数方向で解像度を 一定の割合で変化させたときの形状の変化の大きさを示す。例で用いた
80 Hz
は、最大の変化がある解像度に対応する。図6 Weighted spectral fine structure and the modified correla- tion.
図
6
に、周波数重みをかけた微細構造(上)と、幾つかの 解像度で求められた自己相関(下)を示す。ここでは1000 Hz
で-3 dB
となるGauss
関数の重みをかけた(注4)。予備的な検 討から、周期性の計算に用いる帯域を制限するために決めた1000 Hz
という値を変えると、ピークの高さと形状が変化する。また、原点付近だけではなく、例えば
1000 Hz
や2000 Hz
を 中心とする帯域の周期的構造を利用しても良い。これらの最適 化は、今後の課題である。下の図の自己相関に認められるラグ軸上の周期的なピークは、
基本周波数での波形の周期的繰り返しに対応している。この構 造は、
80 Hz
の解像度で顕著になる。それよりも短いlag
の領 域(0.005 s
以下)に認められる160 Hz
と320 Hz
の解像度で の負のピークは、(おそらく)フォルマント配置の制約に依存し ていると解釈することができる。女性の音声の場合には、これ らの負のピークのある領域に、基本周波数に対応するピークが 重なる。ケプストラムのリフタリングで微細構造とピッチを分 離できるとする考え方は、女性の音声では破綻していることを 意味する。4. 2 解像度の統合
このように、解像度の変化に伴う形状の変化に注目すること により、基本周波数(繰り返しの間隔)についての事前知識に 依存せずに、分析のために適切な解像度を選択することができ る。以下では、適切な解像度での結果を、全解像度について統 合することで、基本周波数に依存しない(変形)相関を構成す る方法を説明する。
図
7
は、パルス列の基本周波数に対する、それぞれの解像度 で求められた相関と、統合された相関(黒線)を示す。解像度 を決める帯域幅は、15 Hz
から出発し、毎回二倍にすることで 設定した。ピーク値は、基本周波数が解像度の帯域幅の二倍の 位置に現れた。そこで、解像度の帯域幅の二倍を最適周波数と し、重みは対数周波数軸上でraised cosine
となるように設定 し、重みの幅は2
オクターブとした。それぞれの解像度におけ るピークの高さは最適周波数から離れる際に減少する。この影 響を補償するために、重み関数を0.78
乗して最終的な重み関数(注4):この場合、重みの長さはFFTバッファのサイズを超える。離散Fourier 変換の周波数軸は円環なので、周期を超える長さの重みは、この円環に巻きつけ て加算している。
図7 Peak level of different scale. The black thick line shows the integrated correlation measure.
とした。その結果、統合された相関を、図
7
の下の図の黒線に 見るように、30 Hz
以上では基本周波数に依存しない値にする ことができた。この一定になった黒線の値は、一定周期のパル ス列に対応するものであり上限の値と考えることができる。こ の上限の値を用いて正規化することにより、成分が完全に周期 的であれば、1
となり、AM
やFM
、雑音の混入などにより周 期性からの逸脱が大きくなると低下する、理解しやすい指標が 得られる。図
8
に、この指標を用いて文章「爆音が銀世界の高原にひろ がる。」を分析した結果を示す。基本周波数に対応する遅延の 位置に1
に近い値のピークが見える。この指標は、基本波が存 在しない周期的な信号の分析に用いることもできる。基本波の 存在が不可欠な瞬時周波数に基づく表現を補完する指標として 用いることができる。5. お わ り に
ここでは、音声の周期性に関連する二つの情報表現について 議論した。短時間
Fourier
変換の際にサイドローブの無い窓関 数を用いることにより、調整すべきパラメタが少ない見通しの 良い方法とすることができた。基本的なアイデアは1970
年代 に提案されたものであるが、計算能力の飛躍的な向上に支え られて、実装の際の妥協を省くことにより、それらが現在でも(現在だからこそ)重要な情報を提供するものであることが明 らかとなった。これを基準とすることで、実装による効率化と 精度の劣化を応用目的に応じて設計することが可能になる。こ れらの、基準となる
MATLAB
を用いた実装は、筆頭著者のGitHub
のリポジトリで公開している。謝 辞
本研究は科研費
18K00147, 18K10708, 19K21618, 21H03468
の支援を受けた。文 献
[1] 榊原健一,“世界の歌唱法 : 様々な歌唱様式におけるsupra- normalな声,” 日本音響学会誌,vol.70,no.9,pp.499–505, 2014.
[2] 榊原健一,“発声と声帯振動の基礎,”日本音響学会誌,vol.71, no.2,pp.73–79,2015.
[3] I.R. Titze, R.J. Baken, K.W. Bozeman, S. Granqvist, N. Henrich, C.T. Herbst, D.M. Howard, E.J. Hunter, D.
Kaelin, R.D. Kent, J. Kreiman, M. Kob, A. Löfqvist, S. Mc- Coy, D.G. Miller, H. Noé, R.C. Scherer, J.R. Smith, B.H.
Story, J.G. Švec, S. Ternström, and J. Wolfe, “Toward a consensus on symbolic notation of harmonics, resonances, and formants in vocalization,” J. Acoust. Soc. Am., vol.137,
図8 Time-lag representation of the modified autocorrelation of a sentence /bakuon ga giNsekai no kougen ni hirogaru/, spoken by a male speaker.
no.5, pp.3005–3007, 2015.
[4] I.R. Titze, Principles of Voice Production, Prentice-Hall, Inc., Englewood Cliffs, New Jersey, 1994.
[5] A.E. Rosenberg, “Effect of glottal pulse shape on the quality of natural vowels,” The Journal of the Acoustical Society of America, vol.49, no.2B, pp.583–590, 1971.
[6] G. Fant, J. Liljencrants, and Q.-g. Lin, “A four-parameter model of glottal flow,” STL-QPSR, vol.4, no.1985, pp.1–13, 1985.
[7] H. Fujisaki and M. Ljungqvist, “Proposal and evaluation of models for the glottal source waveform,” ICASSP 1986, pp.1605–1608, Tokyo, 1986.
[8] H. Fujisaki and M. Ljungqvist, “Estimation of voice source and vocal tract parameters based on ARMA analysis and a model for the glottal source waveform,” ICASSP 1987, pp.637–640, 1987.
[9] D.G. Childers and C.K. Lee, “Vocal quality factors: analy- sis, synthesis, and perception.,” The Journal of the Acous- tical Society of America, vol.90, pp.2394–2410, 1991.
[10] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O.
Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K.
Kavukcuoglu, “WaveNet: A generative model for raw au- dio,” arXiv preprint arXiv:1609.03499, pp.1–15, 2016.
[11] 戸田智基,“機械学習と音声生成:音声波形モデリングの進展,” 計測と制御,vol.58,no.12,pp.951–954,2019.
[12] B. Sisman, J. Yamagishi, S. King, and H. Li, “An overview of voice conversion and its challenges: From statistical mod- eling to deep learning,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.29, pp.132–57, 2021.
[13] 音声言語医学会,新編 声の検査法,医歯薬出版,東京,2009.
[14] R.R. Patel, S.N. Awan, J. Barkmeier-Kraemer, M. Courey, D. Deliyski, T. Eadie, D. Paul, J.G. Švec, and R. Hillman,
“Recommended protocols for instrumental assessment of voice: American speech-language-hearing association expert panel to develop a protocol for instrumental assessment of vocal function,” Am. J. Speech-Lang. Pathol., vol.27, no.3, pp.887–905, 2018.
[15] S. Watanabe, “End-to-End speech processing: From pipeline to integrated architecture,” 2018. Keynote talk, Asia-Pac. Signal Inf. Process. Assoc. Annu. Summit Conf.
(APSIPA ASC).
[16] 河原英紀,“ディジタル信号処理の落とし穴,”日本音響学会誌,
vol.73,no.9,pp.592–599,2017.
[17] 矢田部浩平,“短時間フーリエ変換入門〜離散信号の時間周波数 解析の理論と実装〜第五回:実装における諸注意,”日本音響学 会誌,vol.77,no.8,pp.537–544,2021.
[18] D. Slepian and H.O. Pollak, “Prolate spheroidal wave func- tions, Fourier analysis and uncertainty-I,” Bell System Tech- nical Journal, vol.40, no.1, pp.43–63, 1961.
[19] J. Kaiser and R.W. Schafer, “On the use of theI0-sinh win- dow for spectrum analysis,” Acoustics, Speech and Signal Processing, IEEE Transactions on, vol.28, no.1, pp.105–107, 1980.
[20] L.R. Rabiner, J.H. McClellan, and T.W. Parks, “Fir digital filter design techniques using weighted chebyshev approxi- mation,” Proceedings of the IEEE, vol.63, no.4, pp.595–610, 1975.
[21] A.H. Nuttall, “Some windows with very good sidelobe be- havior,” IEEE Trans. Audio Speech and Signal Processing, vol.29, no.1, pp.84–91, 1981.
[22] H. Kawahara, K. Sakakibara, M. Morise, H. Banno, T.
Toda, and T. Irino, “A new cosine series antialiasing func- tion and its application to aliasing-free glottal source models for speech and singing synthesis,” Proc. Interspeech 2017, pp.1358–1362, Stocholm, Aug. 2017.
[23] T. Kusano, K. Yatabe, and Y. Oikawa, “Maximally energy- concentrated differential window for phase-aware signal pro- cessing using instantaneous frequency,” ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)IEEE, pp.5825–5829 2020.
[24] H. Kawahara, I. Masuda-Katsuse, and A. deCheveigne, “Re- structuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency- based F0 extraction,” Speech Communication, vol.27, no.3- 4, pp.187–207, 1999.
[25] H. Kawahara, H. Katayose, A.d. Cheveigné, and R.D. Pat- terson, “Fixed point analysis of frequency to instantaneous frequency mapping for accurate estimation of F0 and peri- odicity,” Proc. EUROSPEECH’99, pp.2781–2784, 1999.
[26] C.C. Paige and M.A. Saunders, “Algorithm 583: Lsqr:
Sparse linear equations and least squares problems,” ACM Trans. Math. Softw., vol.8, no.2, pp.195–209, June 1982.
https://doi.org/10.1145/355993.356000
[27] A.M. Noll, “Cepstrum pitch determination,” The Journal of the Acoustical Society of America, vol.41, no.2, pp.293–309, 1967.
[28] A.V. Oppenheim, “Speech analysis ‐ synthesis system based on homomorphic filtering,” The Journal of the Acous- tical Society of America,vol.45,no.2,pp.458–465,1969. [29] H. Fujisaki and Y. Tanabe, “A time-domain technique for
pitch extraction of speech,” 日本音響学会誌, vol.29, no.7, pp.418–419, 1973.
[30] 嵯峨山茂樹,古井貞熙,“ラグ窓を用いたピッチ抽出の一方法,”
電子情報通信学会総合全国大会,pp.5–263,1978.