サイドローブのない窓に基づく二種類の音源情報の表現について

(1)

＜＜この欄は編集者が記入します＞＞日本音響学会音声研究会資料，Vol.，No

Proc. Speech Res. Meeting, The Acoustical Society of Japan, Vol. , No＜＜この欄は編集者が記入します＞＞

サイドローブのない窓に基づく二種類の音源情報の表現について

河原英紀

^†

榊原健一

^††

矢田部浩平

^†††

坂野秀樹

^††††

森勢将雅

^{†††††}

† 和歌山大学〒 640-8510 和歌山市栄谷 930

†† 北海道医療大学〒 061-0293 北海道石狩郡当別町金沢 1757

††† 早稲田大学〒 169-8555 新宿区大久保 3-4-1

†††† 名城大学〒 468-8502 名古屋市天白区塩釜口一丁目 501 番地

††††† 明治大学〒 164-8525 東京都中野区中野 4-21-1

E-mail: † [email protected], †† [email protected], ††† [email protected],

††††[email protected], †††††[email protected]

あらまし

短時間 Fourier 変換では、サイドローブが生ずる。サイドローブの無い窓関数を用いることで、様々な問

題を回避することができる。ここでは、周期性に関連する二つの情報表現を紹介する。最初の表現は瞬時周波数に基づくものであり、基本波成分を選択する。短時間 Fourier 変換を、対数周波数軸上で同形の重みを用いて加算することにより、周波数変調と振幅変調の大きさが最小になる仕組みを構成した。次の指標は、周波数軸上での周期性に基づくものであり、違う解像度の間の変化量に基づいて現象の繰り返しの時間間隔を調べる仕組みを構成した。

キーワード

多重解像度、瞬時周波数、周波数変調、振幅変調、変形自己相関

Two voice source representations

based on windowing function without side lobes

Hideki KAWAHARA

^†

, Ken-Ichi SAKAKIBARA

^††

, Kohei YATABE

^†††

, Hideki BANNO

^††††

, and Masanori MORISE

^{†††††}

† Wakayama University, 930 Sakaedani, Wakayama, 640-8510 Japan

†† Health Science University of Hokkaido, 1757 Kanazawa, Tobetsu, Ishikari-gun, Hokkaido, 061-0293 Japan

††† Waseda University, 3-4-1 Ookubo, Shinjuku-ku, Tokyo, 169-8555, Japan

†††† Meijo University, 1-501 Shiogamaguchi, Tempaku-ku, Nagoya, 468-8502 Japan

††††† Meiji University, 4-21-1 Nakano, Nakano-ku, Tokyo, 164-8525 Japan E-mail: † [email protected], †† [email protected], ††† [email protected],

††††[email protected], †††††[email protected]

Abstract We introduce two representations for signal periodicity based on Fourier transform using sidelobe-less windowing functions. The ﬁrst uses instantaneous frequency. We use a weighted average of the Fourier transform using constant shape weighing on the logarithmic frequency axis. It provides a mechanism for minimizing variations of the fundamental component. The second one uses multi-resolution representation on the frequency axis and represents the repetition interval. We found that sidelobe was harmful in periodicity analyses.

Key words multi-resolution, instantaneous frequency, frequency and amplitude modulation, autocorrelation

1. はじめに

有声音は、声門の開閉による気流^（注1）の断続を主な音源として生成される。この有声音を特徴づける指標として、基本周波

（注1）：呼気だけではなく吸気も音源として用いられる場合がある。また、断続だけではなく断続に伴う乱流や仮声帯の振動も関与する場合がある[1], [2]。

数（

fundamental frequency,

_以下ではfoと表記することにする

[3]

）が主に用いられている。しかし、声帯の振動は気流や音響インピーダンスなどとの相互作用により生ずる現象であり、

周期的なものだけではなく複数の周期を有する振動（サブハーモニック）やカオス状の運動を含んでいる。この周期的な部分にも周波数変調や振幅変調がかかっており、さらに、周期内で 2021 年 9 月 23 日 , 日本音響学会音声研究会資料 Vol. 1, No. 2, SP-2021-25

日本音響学会音声コミュニケーション研究会資料 Vol. 1, No. 1, SC-2021-6

(2)

声門が開いている割合と開いている区間内での形状の変化は生成される声の質に大きく影響する

[1], [2], [4]

。複数の声門音源モデルが提案されており

[5]

_〜

[8]

、パラメタと声質の関連も研究されてきた

[5], [9]

。

このように積み上げられてきた音声生成機構の研究は、

2016

年の

WaveNet [10]

に代表される深層学習に基づく音声合成、音声変換技術の急速な発展

[11]

に直接貢献することはほとんどなく、既存の概念に基づく処理の分割や中間表現を省いた方が性能が向上するという（一見すると逆説的な）傾向が認められるに至っている

[12]

。しかし、音声生成機構の研究により蓄積されてきた知見は、音声の診断やリハビリなど現象についての深い理解を必要とする領域

[13], [14]

では必須であり、深層学習に基づくシステムを理解可能な形で制御する

[15]

_{上でも重要にな} ると考えている。ここでは、これらの知見を深層学習と適切な形で結びつけるために、音源の情報表現を数理的に健全な基盤の上に再構築することを狙って実装した対話的研究環境を紹介する。この研究環境では、実時間で対話的に音源の駆動に関する二つの表現を調べることができる。一つは、基本波を選択してその瞬時周波数で表現するもの、もう一つは、声門の開閉という離散的なイベントに注目して隣接するイベントの時間間隔で表現するものである。

それぞれの表現の導出では、短時間フーリエ変換に基づく時間周波数解析が用いられる。これまでの（ほとんどの）方法では、サイドローブを有する窓が用いられてきた。サイドローブの存在により、瞬時周波数の分析においても時間間隔の分析においても、様々な副作用が生ずる

[16]

。ここでは、それらにより議論が煩瑣になることを避けるため、サイドローブの無い窓関数

[17]

_{を用いることにする。}

2. サイドローブの無い窓関数 [17]

正規分布の確率密度関数（以下

Gauss

_関数）の

Fourier

_変換は

Gauss

関数である。

Gauss

関数の値は中心からの距離の二乗の指数の逆数で急速に単調に減少する。サイドローブは存在しない。定義域は無限であるが、実際に信号処理に用いる際には、計算機イプシロン以下の部分は結果に影響しないので、

有限の長さで打ち切ることができる。例えば、数値演算環境の

MATLAB

では

64bit

の浮動小数点数（

IEEE754

）が用いられており、±

6σ

で打ち切ることができる。時間軸上の信号を扱う場合には、このようにして打ち切ったものを用いればよい。

離散信号の

Fourier

変換は、円環状の周波数軸を持つ。このように打ち切った

Gauss

関数の長さが円環の周期よりも長い場

合には、

Gauss

関数を円環に巻き付けて加算すれば良い。

サイドローブが存在しない窓はその他にもある。例えば文献

[17]

_{にあるスレピアン窓}

[18]

_{とその近似である}

Kaiser

_窓

[19]

は有用な候補である。円環上の周波数軸で用いる場合には、同様に巻き付けて加算すれば良い。ここでは、議論を簡単にするために再生性を有する

Gauss

窓を用いることとする。実装で性能を追求する場合には、原点付近での形状が同じ（例えば

Taylor

展開の二次の係数が同じ）ものや自乗誤差を最小とする

もの、

50%

の分布幅が同じものの中で打ち切りの長さが最も短いものを選択するなどの方法がある。さらに、実際の音声分析に用いる際には、計算機イプシロンは強すぎる要求である。その際には、実用上サイドローブの無い窓関数として、上記の二種類に加え、

Chebyshev

_窓

[20]

_、

Nuttall

_窓

[21], [22]

_、エネルギー集中窓

[23]

など多数から選択することができる^（注2）。

（注2）：瞬時周波数を求める場合、最大のサイドローブのレベルだけではなく、サイドローブの減衰速度も性能に影響する[16]。

3. 瞬時周波数に基づく表現

基本波抽出機構のアイデアは、

legacy-STRAIGHT [24]

_の『基本波らしさ』のアイデアと、フィルタ中心周波数からフィルタ出力への写像の不動点のアイデア

[25]

を組み合わせたものである。『基本波らしさ』のアイデアは、以下である。

通過域の中心周波数が調波複合音の基本周波数に一致するとき、

2

番目の調波とそれ以上の調波成分が阻止域に含まれるような帯域通過フィルタを（複数の基本周波数について）設計すれば、フィルタ出力の

AM

および

FM

変動が最小になるフィルタを選択することで、基本周波数の事前知識を持たずに、基本波成分が含まれているフィルタを選択することができる。

『不動点』に基づくアイデアは、以下である。

フィルタの通過域に単一の正弦波が含まれており、

そのエネルギーが支配的であれば、フィルタ出力の瞬時周波数は、正弦波の周波数に一致する。したがって、

中心周波数が単調に増加するようなフィルタの組を用意して、フィルタの中心周波数にフィルタの出力の中心周波数を対応させる関数を、周波数から周波数への写像と見做せば、支配的な正弦波の周波数に不動点が生ずる。

これらを組み合わせると、基本波抽出機構は、次のように記述できる。

基本波の中心周波数を中心周波数とし、

2

_番目の調波とそれ以上の調波成分が阻止域に含まれるような帯域通過フィルタを（複数の基本周波数について）設計し、中心周波数が単調に増加するように周波数軸上に配置する。これらのフィルタの中心周波数にフィルタの出力の中心周波数を対応させる関数を、周波数から周波数への写像と見做して不動点を（複数）求める。

不動点に対応するフィルタの中で、最も出力の

AM

_および

FM

を総合した変動の大きさが少ないものを選択する。その不動点は基本波に対応しており、不動点の周波数が基本周波数を与える。

ここで、問題は、「最も出力の

AM

_および

FM

_{変調が少ない} ものを選択」するところにある。簡単には、フィルタを多数用意して、その出力の瞬時振幅と瞬時周波数を観測し、直接、

AM

と

FM

を求めることである。これは、

legacy-STRAIGHT

と

EURISPEECH

で実装していた方法である。もう一つのやり方

は、一つのフレームで数回（今回の例では

4

回）の隣接する離散時刻で短時間フーリエ変換を求めて計算する方法である。

3. 1 設計例

目標となる周波数軸上の形状を

Gauss

_{関数とし、インパル} ス応答が解析信号になるようにフィルタを設計する。すると解くべきなのは、最初の短時間

Fourier

変換に用いる窓関数の包絡を持つ解析信号の和が目的とするインパルス応答になるように、重みを決定する問題となる。自乗誤差を最小にすることを目標にすると、これは連立一次方程式の解を求める問題となる。この連立一次方程式の係数行列のランクは列数の半分程度であり、条件数も非常に大きいため、そのままでは信頼できる解を求めることはできない。ここでは、

LSQR [26]

_{を用いた。}

LSQR

は共役勾配法の一つであり、係数行列が悪条件のときに他の共役勾配法よりも信頼できる値を求めることができる。

図

1

_に、

55 Hz

の基本周波数に対するフィルタの設計例を

(3)

声門が開いている割合と開いている区間内での形状の変化は生成される声の質に大きく影響する

[1], [2], [4]

。複数の声門音源モデルが提案されており

[5]

_〜

[8]

、パラメタと声質の関連も研究されてきた

[5], [9]

。

このように積み上げられてきた音声生成機構の研究は、

2016

年の

WaveNet [10]

に代表される深層学習に基づく音声合成、音声変換技術の急速な発展

[11]

に直接貢献することはほとんどなく、既存の概念に基づく処理の分割や中間表現を省いた方が性能が向上するという（一見すると逆説的な）傾向が認められるに至っている

[12]

。しかし、音声生成機構の研究により蓄積されてきた知見は、音声の診断やリハビリなど現象についての深い理解を必要とする領域

[13], [14]

では必須であり、深層学習に基づくシステムを理解可能な形で制御する

[15]

_{上でも重要にな} ると考えている。ここでは、これらの知見を深層学習と適切な形で結びつけるために、音源の情報表現を数理的に健全な基盤の上に再構築することを狙って実装した対話的研究環境を紹介する。この研究環境では、実時間で対話的に音源の駆動に関する二つの表現を調べることができる。一つは、基本波を選択してその瞬時周波数で表現するもの、もう一つは、声門の開閉という離散的なイベントに注目して隣接するイベントの時間間隔で表現するものである。

それぞれの表現の導出では、短時間フーリエ変換に基づく時間周波数解析が用いられる。これまでの（ほとんどの）方法では、サイドローブを有する窓が用いられてきた。サイドローブの存在により、瞬時周波数の分析においても時間間隔の分析においても、様々な副作用が生ずる

[16]

。ここでは、それらにより議論が煩瑣になることを避けるため、サイドローブの無い窓関数

[17]

_{を用いることにする。}

2. サイドローブの無い窓関数 [17]

正規分布の確率密度関数（以下

Gauss

_関数）の

Fourier

_変換は

Gauss

関数である。

Gauss

関数の値は中心からの距離の二乗の指数の逆数で急速に単調に減少する。サイドローブは存在しない。定義域は無限であるが、実際に信号処理に用いる際には、計算機イプシロン以下の部分は結果に影響しないので、

有限の長さで打ち切ることができる。例えば、数値演算環境の

MATLAB

では

64bit

の浮動小数点数（

IEEE754

）が用いられており、±

6σ

で打ち切ることができる。時間軸上の信号を扱う場合には、このようにして打ち切ったものを用いればよい。

離散信号の

Fourier

変換は、円環状の周波数軸を持つ。このように打ち切った

Gauss

関数の長さが円環の周期よりも長い場

合には、

Gauss

関数を円環に巻き付けて加算すれば良い。

サイドローブが存在しない窓はその他にもある。例えば文献

[17]

_{にあるスレピアン窓}

[18]

_{とその近似である}

Kaiser

_窓

[19]

は有用な候補である。円環上の周波数軸で用いる場合には、同様に巻き付けて加算すれば良い。ここでは、議論を簡単にするために再生性を有する

Gauss

窓を用いることとする。実装で性能を追求する場合には、原点付近での形状が同じ（例えば

Taylor

展開の二次の係数が同じ）ものや自乗誤差を最小とする

もの、

50%

の分布幅が同じものの中で打ち切りの長さが最も短いものを選択するなどの方法がある。さらに、実際の音声分析に用いる際には、計算機イプシロンは強すぎる要求である。その際には、実用上サイドローブの無い窓関数として、上記の二種類に加え、

Chebyshev

_窓

[20]

_、

Nuttall

_窓

[21], [22]

_、エネルギー集中窓

[23]

など多数から選択することができる^（注2）。

（注2）：瞬時周波数を求める場合、最大のサイドローブのレベルだけではなく、サイドローブの減衰速度も性能に影響する[16]。

3. 瞬時周波数に基づく表現

基本波抽出機構のアイデアは、

legacy-STRAIGHT [24]

_の『基本波らしさ』のアイデアと、フィルタ中心周波数からフィルタ出力への写像の不動点のアイデア

[25]

を組み合わせたものである。『基本波らしさ』のアイデアは、以下である。

通過域の中心周波数が調波複合音の基本周波数に一致するとき、

2

番目の調波とそれ以上の調波成分が阻止域に含まれるような帯域通過フィルタを（複数の基本周波数について）設計すれば、フィルタ出力の

AM

および

FM

変動が最小になるフィルタを選択することで、基本周波数の事前知識を持たずに、基本波成分が含まれているフィルタを選択することができる。

『不動点』に基づくアイデアは、以下である。

フィルタの通過域に単一の正弦波が含まれており、

そのエネルギーが支配的であれば、フィルタ出力の瞬時周波数は、正弦波の周波数に一致する。したがって、

中心周波数が単調に増加するようなフィルタの組を用意して、フィルタの中心周波数にフィルタの出力の中心周波数を対応させる関数を、周波数から周波数への写像と見做せば、支配的な正弦波の周波数に不動点が生ずる。

これらを組み合わせると、基本波抽出機構は、次のように記述できる。

基本波の中心周波数を中心周波数とし、

2

_番目の調波とそれ以上の調波成分が阻止域に含まれるような帯域通過フィルタを（複数の基本周波数について）設計し、中心周波数が単調に増加するように周波数軸上に配置する。これらのフィルタの中心周波数にフィルタの出力の中心周波数を対応させる関数を、周波数から周波数への写像と見做して不動点を（複数）求める。

不動点に対応するフィルタの中で、最も出力の

AM

_および

FM

を総合した変動の大きさが少ないものを選択する。その不動点は基本波に対応しており、不動点の周波数が基本周波数を与える。

ここで、問題は、「最も出力の

AM

_および

FM

_{変調が少ない} ものを選択」するところにある。簡単には、フィルタを多数用意して、その出力の瞬時振幅と瞬時周波数を観測し、直接、

AM

と

FM

を求めることである。これは、

legacy-STRAIGHT

と

EURISPEECH

で実装していた方法である。もう一つのやり方

は、一つのフレームで数回（今回の例では

4

回）の隣接する離散時刻で短時間フーリエ変換を求めて計算する方法である。

3. 1 設計例

目標となる周波数軸上の形状を

Gauss

_{関数とし、インパル} ス応答が解析信号になるようにフィルタを設計する。すると解くべきなのは、最初の短時間

Fourier

変換に用いる窓関数の包絡を持つ解析信号の和が目的とするインパルス応答になるように、重みを決定する問題となる。自乗誤差を最小にすることを目標にすると、これは連立一次方程式の解を求める問題となる。この連立一次方程式の係数行列のランクは列数の半分程度であり、条件数も非常に大きいため、そのままでは信頼できる解を求めることはできない。ここでは、

LSQR [26]

_{を用いた。}

LSQR

は共役勾配法の一つであり、係数行列が悪条件のときに他の共役勾配法よりも信頼できる値を求めることができる。

図

1

_に、

55 Hz

の基本周波数に対するフィルタの設計例を

図1 Frequency gain response (Top plot). Frequency bin weight (analytic wave with Gaussian envelope: Middle plot). Im- pulse response target and composition. It also shows error in log scale (Bottom plot).

示す。隣接する調波との重なりが

-80 dB

_{になるように目標特} 性を設定した。最初の短時間

Fourier

変換に用いた窓関数は

27 Hz

に対応している。最上段の図に周波数応答を示す。凡例

のtargetが設計目標、compoが設計されたフィルタの応答である。目標とする特性とは

-150 dB

程度まで一致している。

中段は求められた重み関数を示す。周波数的に局在しており使いやすい。適切な重み関数が求まったと言える。

最下段は、求められた（複素数の）インパルス応答と設計目標としたインパルス応答およびそれらの差を絶対値で表し、片対数で表示した。この場合、相対誤差の大きさは

-160 dB

程度であり、無視できる。

3. 1. 1 動作例：基本周波数依存性の確認

図

2

_{に、隣接調波の影響が}

-35 dB

となるように重なりを設計したフィルタの動作例を示す。上の図では、基本周波数を

200 Hz

_として、

SNR

_を

10 dB

きざみで変化させている。

SNR

の上昇に伴って統合された変動は少なくなる。

SNR

がさらに高くなると、隣接する調波成分との干渉の影響が雑音よりも大きくなり、統合された変動量は一定の値に落ち着く。

下の図では、

SNR

_{を固定して}

7

種類の異なった基本周波数のパルス列を分析した。それぞれの基本周波数で、フィルタ出力の統合された変動量は最小になり、その値は、基本周波数に依存しない。これらの結果は、統合された変動量を用いて、信号の

SNR

を推定できる可能性を示す。

3. 1. 2 _動作例：

SNR

_{推定の直線性の確認}

図

3

に、統合する帯域幅の拡大率毎に

SNR

を推定した結果

図2 LVSQ-based fundamental component extractor using -35 dB crossover. Top plot shows SNR dependency. The bottom plot showsfodependency.

図3 Estimated SNR on bandwidth stretching factor.

を示す。横軸は、与えた信号の

SNR

を示し、縦軸は（直線部分で推定値と実際の値が一致するように調整した後の）

SNR

の推定値を示す。拡大率

1

は、基本波に対応する中心周波数を有するフィルタの形状をそのまま使う場合である。この場合、

周波数

0

と、基本周波数の二倍の周波数の区間の外では、フィルタの利得が計算機イプシロン以下になる。他のフィルタは、

このフィルタを周波数方向に比例的に引き伸ばして用意する。

拡大率が

2.3

では、通過域として定めた区間の両端で、利得は約

-35 dB

になる。拡大率が

1.5

では、

SNR

が

70 dB

まで、推定値は実際の値に一致している。拡大率が

2.3

_{では、推定値は}

30 dB

を超えると飽和している。

SNR

の推定を目的とする場合には、小さな拡大率を用いるべきである。一方、拡大率を大きくすると（等価な）時間窓の長さが短くなり、基本周波数の急速な変化に追従することができる。また、大きな拡大率では基本波の位置と第二調波の位置で観測される変動量の差が大きくなるため、基本波成分の誤選

(4)

図4 AM-FM modulation map and extracted ﬁxed points from a Japanese vowel sequence /aiueo/ spoken by the author in 1998.

択が少なくなる。以下では、

AM

_と

FM

_{の統合された変動の} 大きさの代わりに推定された

SNR

を用いて議論することにする^（注3）。

3. 2 連続母音の分析例

今までの論文で例題として使っていた

1998

_{年に自分が発声} した連続母音

/aiueo/

を分析した例を示す。作成した関数は、標本化周波数に依存しない分析を行う。

図

4

に分析例を示す。上の図は、推定された

SNR

を示しており、下の図は、求められた不動点である。不動点は、最大

5

個まで表示している。青が最も標準偏差が少ないもの、赤が

2

番目、黄色が

3

_{番目、紫が}

4

番目、緑が５番目である。この例は周波数帯域幅の拡大率を

2.3

とした結果である。２位と３位のものが少し含まれているが、第一位の不動点を主体とする不動点の軌跡が実際の基本周波数を正しく選択している様子が分かる。

4. 周波数軸上での周期性に基づく表現

音声の短時間スペクトルには、声門音源波形、放射特性、声道形状、駆動タイミング、雑音、その他のイベントなどの影響が含まれている。音声の生成機構をモデル化し、それぞれの特性を求めようとすることは、非常に難しい。ここでは、連続するイベントの間隔のみに注目する。

声帯の運動と音響との相互作用を無視し、声道と放射の影響を線形時不変システムと見なせば、

Fourier

変換の後に対数変換

（注3）：SNRの推定値として用いることができるのは、厳密に言えば正弦波成分が一個だけ含まれる場合である。

図5 Power spectral representations of a segment in a vowel.

することにより、それぞれの寄与の和として音声を表すことができる。ケプストラムと準同型分析の背景にあるアイデアである

[27], [28]

。しかし、短時間

Fourier

変換で用いられる窓による切り出しは、周波数領域では畳み込みとなるため、それらの議論で想定するように綺麗に分離することはできない。また、

対数は低いレベルを大きく拡大するため、ランダムな雑音などの影響を強く受ける。ここでは、対数を用いることによる脆弱性を避けるため、藤崎による時間領域の方法

[29]

と、嵯峨山による自己相関領域の方法

[30]

にヒントを得て、パワースペクトルの多重解像度分析に基づく方法を提案する。ここでは議論を簡単にするために、

Gauss

_{関数を用いる。}

4. 1 母音の分析例

母音を用いて、ここで提案する方法の考え方を具体的に説明する。図

5

に、男性話者が発声した「爆音が銀世界の高原にひろがる。」という文章音声の開始から

1

秒の位置での分析例を示す。「音が」の部分の鼻子音中央に相当する。ここでは、

80 Hz

で

-3 dB

_{となるようなハン窓と}

3 dB

_{帯域幅が同じ}

Gauss

_窓を用いて分析している。上の図は、短時間

Fourier

変換で求められたパワースペクトル（赤線）と、自己相関領域で同じ

Gauss

窓の二乗で重みづけて平滑化したパワースペクトル（黒線）を示す。細かな変動はあるが、黒線は、有声音の時間領域での周期性に基づく周波数軸上の周期的変動（微細構造）が取り除かれたスペクトル包絡を（ほぼ）表している。この包絡で元のパワースペクトルを除算することにより、周期性に対応する微細構造を求めようとするのが、前に説明した方法の概要である。

さらに、周波数荷重を行うことにより、高い周波数における周期性の乱れの影響を排除するのがラグ窓法のアイデアである。

これらの方法で、

Gauss

窓を使うことには利点がある。

Gauss

窓は、乗算によっても畳み込みによっても

Gauss

窓のままなので、自己相関関数に乗じてもパワースペクトルの自己相関関数の正定値性を破壊しない。また、常に正の値をとる関数を平滑化するので元のパワースペクトルを平滑化したスペクトルで除算しても、突発的に大きな値が発生することも無い。

図

5

の下の図は、除算により取り出した微細構造から求めた原点以外の主要なピークの高さを、窓関数の

-3dB

帯域幅の関数として示した。このピークの高さは、周波数方向で解像度を一定の割合で変化させたときの形状の変化の大きさを示す。例

で用いた

80 Hz

は、最大の変化がある解像度に対応する。

(5)

図4 AM-FM modulation map and extracted ﬁxed points from a Japanese vowel sequence /aiueo/ spoken by the author in 1998.

択が少なくなる。以下では、

AM

_と

FM

_{の統合された変動の} 大きさの代わりに推定された

SNR

を用いて議論することにする^（注3）。

3. 2 連続母音の分析例

今までの論文で例題として使っていた

1998

_{年に自分が発声} した連続母音

/aiueo/

を分析した例を示す。作成した関数は、標本化周波数に依存しない分析を行う。

図

4

に分析例を示す。上の図は、推定された

SNR

を示しており、下の図は、求められた不動点である。不動点は、最大

5

個まで表示している。青が最も標準偏差が少ないもの、赤が

2

番目、黄色が

3

_{番目、紫が}

4

番目、緑が５番目である。この例は周波数帯域幅の拡大率を

2.3

とした結果である。２位と３位のものが少し含まれているが、第一位の不動点を主体とする不動点の軌跡が実際の基本周波数を正しく選択している様子が分かる。

4. 周波数軸上での周期性に基づく表現

音声の短時間スペクトルには、声門音源波形、放射特性、声道形状、駆動タイミング、雑音、その他のイベントなどの影響が含まれている。音声の生成機構をモデル化し、それぞれの特性を求めようとすることは、非常に難しい。ここでは、連続するイベントの間隔のみに注目する。

声帯の運動と音響との相互作用を無視し、声道と放射の影響を線形時不変システムと見なせば、

Fourier

変換の後に対数変換

（注3）：SNRの推定値として用いることができるのは、厳密に言えば正弦波成分が一個だけ含まれる場合である。

図5 Power spectral representations of a segment in a vowel.

することにより、それぞれの寄与の和として音声を表すことができる。ケプストラムと準同型分析の背景にあるアイデアである

[27], [28]

。しかし、短時間

Fourier

変換で用いられる窓による切り出しは、周波数領域では畳み込みとなるため、それらの議論で想定するように綺麗に分離することはできない。また、

対数は低いレベルを大きく拡大するため、ランダムな雑音などの影響を強く受ける。ここでは、対数を用いることによる脆弱性を避けるため、藤崎による時間領域の方法

[29]

と、嵯峨山による自己相関領域の方法

[30]

にヒントを得て、パワースペクトルの多重解像度分析に基づく方法を提案する。ここでは議論を簡単にするために、

Gauss

_{関数を用いる。}

4. 1 母音の分析例

母音を用いて、ここで提案する方法の考え方を具体的に説明する。図

5

に、男性話者が発声した「爆音が銀世界の高原にひろがる。」という文章音声の開始から

1

秒の位置での分析例を示す。「音が」の部分の鼻子音中央に相当する。ここでは、

80 Hz

で

-3 dB

_{となるようなハン窓と}

3 dB

_{帯域幅が同じ}

Gauss

_窓を用いて分析している。上の図は、短時間

Fourier

変換で求められたパワースペクトル（赤線）と、自己相関領域で同じ

Gauss

窓の二乗で重みづけて平滑化したパワースペクトル（黒線）を示す。細かな変動はあるが、黒線は、有声音の時間領域での周期性に基づく周波数軸上の周期的変動（微細構造）が取り除かれたスペクトル包絡を（ほぼ）表している。この包絡で元のパワースペクトルを除算することにより、周期性に対応する微細構造を求めようとするのが、前に説明した方法の概要である。

さらに、周波数荷重を行うことにより、高い周波数における周期性の乱れの影響を排除するのがラグ窓法のアイデアである。

これらの方法で、

Gauss

窓を使うことには利点がある。

Gauss

窓は、乗算によっても畳み込みによっても

Gauss

窓のままなので、自己相関関数に乗じてもパワースペクトルの自己相関関数の正定値性を破壊しない。また、常に正の値をとる関数を平滑化するので元のパワースペクトルを平滑化したスペクトルで除算しても、突発的に大きな値が発生することも無い。

図

5

の下の図は、除算により取り出した微細構造から求めた原点以外の主要なピークの高さを、窓関数の

-3dB

帯域幅の関数として示した。このピークの高さは、周波数方向で解像度を一定の割合で変化させたときの形状の変化の大きさを示す。例

で用いた

80 Hz

は、最大の変化がある解像度に対応する。

図6 Weighted spectral ﬁne structure and the modiﬁed correlation.

図

6

に、周波数重みをかけた微細構造（上）と、幾つかの解像度で求められた自己相関（下）を示す。ここでは

1000 Hz

で

-3 dB

_となる

Gauss

_{関数の重みをかけた}^（注4）_{。予備的な検} 討から、周期性の計算に用いる帯域を制限するために決めた

1000 Hz

という値を変えると、ピークの高さと形状が変化する。

また、原点付近だけではなく、例えば

1000 Hz

や

2000 Hz

を中心とする帯域の周期的構造を利用しても良い。これらの最適化は、今後の課題である。

下の図の自己相関に認められるラグ軸上の周期的なピークは、

基本周波数での波形の周期的繰り返しに対応している。この構造は、

80 Hz

の解像度で顕著になる。それよりも短い

lag

_の領域（

0.005 s

_{以下）に認められる}

160 Hz

_と

320 Hz

_{の解像度で} の負のピークは、（おそらく）フォルマント配置の制約に依存していると解釈することができる。女性の音声の場合には、これらの負のピークのある領域に、基本周波数に対応するピークが重なる。ケプストラムのリフタリングで微細構造とピッチを分離できるとする考え方は、女性の音声では破綻していることを意味する。

4. 2 解像度の統合

このように、解像度の変化に伴う形状の変化に注目することにより、基本周波数（繰り返しの間隔）についての事前知識に依存せずに、分析のために適切な解像度を選択することができる。以下では、適切な解像度での結果を、全解像度について統合することで、基本周波数に依存しない（変形）相関を構成する方法を説明する。

図

7

は、パルス列の基本周波数に対する、それぞれの解像度で求められた相関と、統合された相関（黒線）を示す。解像度を決める帯域幅は、

15 Hz

から出発し、毎回二倍にすることで設定した。ピーク値は、基本周波数が解像度の帯域幅の二倍の位置に現れた。そこで、解像度の帯域幅の二倍を最適周波数とし、重みは対数周波数軸上で

raised cosine

_{となるように設定} し、重みの幅は

2

オクターブとした。それぞれの解像度におけるピークの高さは最適周波数から離れる際に減少する。この影響を補償するために、重み関数を

0.78

乗して最終的な重み関数

（注4）：この場合、重みの長さはFFTバッファのサイズを超える。離散Fourier 変換の周波数軸は円環なので、周期を超える長さの重みは、この円環に巻きつけて加算している。

図7 Peak level of diﬀerent scale. The black thick line shows the integrated correlation measure.

とした。その結果、統合された相関を、図

7

_{の下の図の黒線に} 見るように、

30 Hz

以上では基本周波数に依存しない値にすることができた。この一定になった黒線の値は、一定周期のパルス列に対応するものであり上限の値と考えることができる。この上限の値を用いて正規化することにより、成分が完全に周期的であれば、

1

となり、

AM

や

FM

、雑音の混入などにより周期性からの逸脱が大きくなると低下する、理解しやすい指標が得られる。

図

8

に、この指標を用いて文章「爆音が銀世界の高原にひろがる。」を分析した結果を示す。基本周波数に対応する遅延の位置に

1

に近い値のピークが見える。この指標は、基本波が存在しない周期的な信号の分析に用いることもできる。基本波の存在が不可欠な瞬時周波数に基づく表現を補完する指標として用いることができる。

5. おわりに

ここでは、音声の周期性に関連する二つの情報表現について議論した。短時間

Fourier

変換の際にサイドローブの無い窓関数を用いることにより、調整すべきパラメタが少ない見通しの良い方法とすることができた。基本的なアイデアは

1970

年代に提案されたものであるが、計算能力の飛躍的な向上に支えられて、実装の際の妥協を省くことにより、それらが現在でも

（現在だからこそ）重要な情報を提供するものであることが明らかとなった。これを基準とすることで、実装による効率化と精度の劣化を応用目的に応じて設計することが可能になる。これらの、基準となる

MATLAB

を用いた実装は、筆頭著者の

GitHub

のリポジトリで公開している。

謝辞

本研究は科研費

18K00147, 18K10708, 19K21618, 21H03468

の支援を受けた。

文献

[1] 榊原健一，“世界の歌唱法 : 様々な歌唱様式におけるsupra- normalな声，” 日本音響学会誌，vol.70，no.9，pp.499–505， 2014．

[2] 榊原健一，“発声と声帯振動の基礎，”日本音響学会誌，vol.71， no.2，pp.73–79，2015．

[3] I.R. Titze, R.J. Baken, K.W. Bozeman, S. Granqvist, N. Henrich, C.T. Herbst, D.M. Howard, E.J. Hunter, D.

Kaelin, R.D. Kent, J. Kreiman, M. Kob, A. Löfqvist, S. Mc- Coy, D.G. Miller, H. Noé, R.C. Scherer, J.R. Smith, B.H.

Story, J.G. Švec, S. Ternström, and J. Wolfe, “Toward a consensus on symbolic notation of harmonics, resonances, and formants in vocalization,” J. Acoust. Soc. Am., vol.137,

(6)

図8 Time-lag representation of the modiﬁed autocorrelation of a sentence /bakuon ga giNsekai no kougen ni hirogaru/, spoken by a male speaker.

no.5, pp.3005–3007, 2015.

[4] I.R. Titze, Principles of Voice Production, Prentice-Hall, Inc., Englewood Cliﬀs, New Jersey, 1994.

[5] A.E. Rosenberg, “Eﬀect of glottal pulse shape on the quality of natural vowels,” The Journal of the Acoustical Society of America, vol.49, no.2B, pp.583–590, 1971.

[6] G. Fant, J. Liljencrants, and Q.-g. Lin, “A four-parameter model of glottal ﬂow,” STL-QPSR, vol.4, no.1985, pp.1–13, 1985.

[7] H. Fujisaki and M. Ljungqvist, “Proposal and evaluation of models for the glottal source waveform,” ICASSP 1986, pp.1605–1608, Tokyo, 1986.

[8] H. Fujisaki and M. Ljungqvist, “Estimation of voice source and vocal tract parameters based on ARMA analysis and a model for the glottal source waveform,” ICASSP 1987, pp.637–640, 1987.

[9] D.G. Childers and C.K. Lee, “Vocal quality factors: analysis, synthesis, and perception.,” The Journal of the Acous- tical Society of America, vol.90, pp.2394–2410, 1991.

[10] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O.

Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K.

Kavukcuoglu, “WaveNet: A generative model for raw audio,” arXiv preprint arXiv:1609.03499, pp.1–15, 2016.

[11] 戸田智基，“機械学習と音声生成：音声波形モデリングの進展，” 計測と制御，vol.58，no.12，pp.951–954，2019．

[12] B. Sisman, J. Yamagishi, S. King, and H. Li, “An overview of voice conversion and its challenges: From statistical mod- eling to deep learning,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.29, pp.132–57, 2021.

[13] 音声言語医学会，新編声の検査法，医歯薬出版，東京，2009．

[14] R.R. Patel, S.N. Awan, J. Barkmeier-Kraemer, M. Courey, D. Deliyski, T. Eadie, D. Paul, J.G. Švec, and R. Hillman,

“Recommended protocols for instrumental assessment of voice: American speech-language-hearing association expert panel to develop a protocol for instrumental assessment of vocal function,” Am. J. Speech-Lang. Pathol., vol.27, no.3, pp.887–905, 2018.

[15] S. Watanabe, “End-to-End speech processing: From pipeline to integrated architecture,” 2018. Keynote talk, Asia-Pac. Signal Inf. Process. Assoc. Annu. Summit Conf.

(APSIPA ASC).

[16] 河原英紀，“ディジタル信号処理の落とし穴,”日本音響学会誌，

vol.73，no.9，pp.592–599，2017．

[17] 矢田部浩平，“短時間フーリエ変換入門〜離散信号の時間周波数解析の理論と実装〜第五回：実装における諸注意,”日本音響学会誌，vol.77，no.8，pp.537–544，2021．

[18] D. Slepian and H.O. Pollak, “Prolate spheroidal wave functions, Fourier analysis and uncertainty-I,” Bell System Tech- nical Journal, vol.40, no.1, pp.43–63, 1961.

[19] J. Kaiser and R.W. Schafer, “On the use of theI0-sinh window for spectrum analysis,” Acoustics, Speech and Signal Processing, IEEE Transactions on, vol.28, no.1, pp.105–107, 1980.

[20] L.R. Rabiner, J.H. McClellan, and T.W. Parks, “Fir digital ﬁlter design techniques using weighted chebyshev approxi- mation,” Proceedings of the IEEE, vol.63, no.4, pp.595–610, 1975.

[21] A.H. Nuttall, “Some windows with very good sidelobe be- havior,” IEEE Trans. Audio Speech and Signal Processing, vol.29, no.1, pp.84–91, 1981.

[22] H. Kawahara, K. Sakakibara, M. Morise, H. Banno, T.

Toda, and T. Irino, “A new cosine series antialiasing function and its application to aliasing-free glottal source models for speech and singing synthesis,” Proc. Interspeech 2017, pp.1358–1362, Stocholm, Aug. 2017.

[23] T. Kusano, K. Yatabe, and Y. Oikawa, “Maximally energy- concentrated diﬀerential window for phase-aware signal processing using instantaneous frequency,” ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)IEEE, pp.5825–5829 2020.

[24] H. Kawahara, I. Masuda-Katsuse, and A. deCheveigne, “Re- structuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency- based F0 extraction,” Speech Communication, vol.27, no.3- 4, pp.187–207, 1999.

[25] H. Kawahara, H. Katayose, A.d. Cheveigné, and R.D. Pat- terson, “Fixed point analysis of frequency to instantaneous frequency mapping for accurate estimation of F0 and periodicity,” Proc. EUROSPEECH’99, pp.2781–2784, 1999.

[26] C.C. Paige and M.A. Saunders, “Algorithm 583: Lsqr:

Sparse linear equations and least squares problems,” ACM Trans. Math. Softw., vol.8, no.2, pp.195–209, June 1982.

https://doi.org/10.1145/355993.356000

[27] A.M. Noll, “Cepstrum pitch determination,” The Journal of the Acoustical Society of America, vol.41, no.2, pp.293–309, 1967.

[28] A.V. Oppenheim, “Speech analysis ‐ synthesis system based on homomorphic ﬁltering,” The Journal of the Acous- tical Society of America，vol.45，no.2，pp.458–465，1969． [29] H. Fujisaki and Y. Tanabe, “A time-domain technique for

pitch extraction of speech,” 日本音響学会誌, vol.29, no.7, pp.418–419, 1973.

[30] 嵯峨山茂樹，古井貞熙，“ラグ窓を用いたピッチ抽出の一方法,”

電子情報通信学会総合全国大会，pp.5–263，1978．

サイドローブのない窓に基づく二種類の音源情報の表現について