G検定

音声データの解析における特徴量

本記事では、音声データの解析、特にそれに使われる特徴量と関連する用語を解説します。

G検定などのデータサイエンス資格でも、最近は、音声認識や音声合成の技術が多く問われるようになりました。ここで書かれている説明は資格試験の役にも立ちます。

本記事の一部は以下の書籍をもとに構成されています。

G検定 最強の合格テキスト(SBクリエイティブ)| Amazon

音声認識のためのデータ前処理

A-D変換(Analog to Digital Conversion)

音声は、時間に対し連続的に変化するアナログデータです。よって、まずはコンピュータで処理可能な離散的な数値データに変換する必要があります。この変換を A-D 変換 (Analog to Digital Conversion)と呼びます。A-D変換によく用いられるのは、パルス符号変調(Pulse Code Modulation ; PCM)という手法です。

標本化→量子化→符号化

続いて、標本化→量子化→符号化 の流れで音声信号を準備します。

1 標本化(サンプリング):連続的な音波を一定の時間間隔ごとに切り出す

2 量子化:波の強さを離散的な値に近似する

3 符号化:量子化された値をビット列で表現する

周波数スペクトルに変換(高速フーリエ変換)

音声処理に使用する音声信号は、様々な周波数の波動に対して、周波数ごとに重みを掛けて足し合わせた合成信号です。「どの周波数成分がどのくらいの強さで音声に含まれているのか」を解析する必要があります。時系列データから観測される周波数成分は常時変動しているため、周波数解析を非常に短時間で実行しなければいけません。高速に音声信号を周波数スペクトルに変換する手法として高速フーリエ変換(Fast Fourier Transform ; FFT)が有名です。

音響モデルを生成するための特徴量

このように調べた周波数や時間変化をもとに音声認識を行うには、音響モデルを生成する必要があります。ここからは、音響モデルに使う特徴量について見ていきましょう。

物理現象としての音は、「強さ」「高さ」「音色 (音質)」の 3 つの基本属性を持っています。このうち、音を区別する上で一番重要なのは「音色」です。他の属性が全て同じでも「音色」が異なるだけでも「違う音」と認識されてしまいます。この「音色」が音響モデルで使用される有効な特徴量の1つです。

では、音色の違いをもたらしているのは何でしょうか?

技術的な用語を解説しながら説明していきます。

メル周波数ケプストラム係数

振幅や周波数だけではなく、音色まで表現した波形をスペクトルと呼びます。音色の違いを表しているのは、スペクトル上の穏やかな変動(共振特性)であるスペクトル包絡です。よって、音を区別するためには、スペクトル包絡を計算する必要があります。この計算で出力されるのは、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients ; MFCC)です。MFCCは人間の聴覚特性を考慮した周波数スペクトルの概形を表しています。その係数列は入力された音声信号のスペクトル包絡にそのまま相当するため、機械学習で音声処理を行うために使う「特徴量」として使われます。

メル尺度

メル尺度は、人間の音高知覚(音の聞こえ方)に基づいた尺度です。心理学者のStanley Smith Stevensらによって提案されました。

メル尺度の差が同じであれば、人間が感じる音高の差が同一であることを意味します。

人間の聴覚には、低い周波数の音に対して敏感で、高い周波数の音に対して鈍感である、という性質から考え方に基づいています。
1000Hzの純音の高さの感覚を1000メルと決めた上で、1000メルの半分の高さに感じた音を500メル、1000メルの2倍の高さに感じた音を2000メルという容量で定めたものです。0 [mel]と可聴域のメル尺度の上限値との間を等分割して得られたメル尺度の値を対応する周波数へ戻すことにより、人間の聴覚に即した周波数スケール(メル周波数)が得られます。

メル周波数スペクトルは音響モデルの特徴量として用いられることがあります。どちらかというと、MFCCの方が多く音声認識で使われます。

ケプストラム

ケプストラムとは、音声信号のフーリエ変換の絶対値に対数を掛け算し、さらに逆フーリエ変換(フーリエ変換)したものです。

フォルマント

スペクトル包絡に観察される、ピークが立っている複数の周波数フォルマント(周波数)と呼びます。別の言い方をすると、言葉を発してできる複数の周波数のピークのことです。

周波数の低いピークから「第1フォルマント」(F1)、「第2フォルマント」(F2)、と呼ばれ、この「F1」「F2」によって母音の音が作られます。フォルマントは、男性の声、女性の声、子供の声で周波数の高さが違い、低い声や高い声の違いが出てきます。言語に依存せずに人の発声を区別できる音の要素が音韻ですので、音韻が近ければフォルマント周波数も近い値をとります。

多少の個人差があるものの、母音によって「第1フォルマント」と「第2フォルマント」の位置がある程度決まっています。

隠れマルコフモデル(Hidden Markov Model ; HMM)

音声データの前処理を行った後に、いよいよ音響モデルを用いて音声認識を行います。従来から音響モデルとして長く用いられてきたのは、隠れマルコフモデル(Hidden Markov Model ; HMM)です。ここでは音素(母音や子音など) ごとに学習を行います。音素列がどの単語に対応するかを判断するために、事前に用意された、音素列と単語を対応させた辞書を使ってパターンマッチングを行います。

担当:ヤン ジャクリン(分析官・講師)

yan
データ分析官・データサイエンス講座の講師