音声認識でよく聞く「音韻」という概念、これは複雑と同時に興味深く感じています。この記事では音声認識と音韻の関係性を見ていこうと思います。
音韻とはどんな概念?
音韻とは、発せられた音声を区別する音の要素を指しています。他に音声を区別するために「音素」も使用されるが、音韻よりも細かいかつ言語論的な意味を持っています(後ほど解説)。
発される音が異なっても、音韻的に同じであることもあります。例えば「ピザ」と「ピッツア」は発される音は異なりますが、国の言語によっては両者を区別できないことがあります。この場合、その国の言語の音韻においては「ピザ」と「ピッツア」は同じものと認識されます。
もう1つの例を挙げると、日本語では 「r」 の音と「l」の音が区別されないことがあります。日本語を母国語とする人には「right」(右/正しい)と 「light」 (明るい、軽い)が同じ音に聞こえることがあります。また、日本語およびスペイン語では通常、「b」 の音と「v」の音が区別されません。この場合、ban(禁止する)と van (バン)が同じ音に聞こえがちです。
上記の音のペアは、音声的には違う音ですが、特定の国の言語の音韻的には同じということになります。一方、他の国、例えば英語圏ではこれらを区別できるため、音韻的に異なる音です。このように、言語に関係なく、単に「同じ音に聞こえるかどうか」で違いが決まるのが音韻の複雑なところです。
音声認識における「音素」の役割
次に、よく聞く「音素」、これはどんな概念でしょうか。
音素(phoneme)とは、「意味の違いに関わる最小の音声的な単位」として定義されます。自然言語処理における「形態素」と対応して解釈することができます。
音声認識は一般的に以下の手順で行われます。このように、音素は「音響的な役割」よりも「意味の役割」を果たしています。
- 音声波形から周波数や時間変化の特徴を抽出する
- 言葉の最小単位である音素を特定する
- 辞書と照合することで音素の系列を単語に変換する
- 単語間の繋がりを解析して、文章を生成する
このように、音韻は音素よりも広くて抽象化された概念であることがわかりますね。
音素は厳密に音の長さやアクセント、強弱を表記で体系化されているのに対して、音韻の場合は言語によって細かい違いがあってもこれらを考えずに同じ音と認識されることがあります。
音素の表記
音声表記と音素表記によって発音がよく表記されます。両者の違いを下表にまとめています。
項目名 | 音声表記 | 音素表記 |
---|---|---|
慣習的な表記形式 | []で囲む
例:ない [nai]と はい [hai] は発音が異なる 例:「か」という音は [ka] という発音表記になる |
//で囲む
例:日本語では/r/という音素単位があるが、/l/という音素単位がない 例:「か」という音は /k/a/という音素表記になる |
目的 | 調音的,音響的な観点から音の記述する。言語においてその音が果たす役割を考慮しない | 言語の意味を区別するために果たす機能を考慮する。 |
執筆担当:ヤン ジャクリン (GRIデータ分析官・講師)