雑談

自然言語処理の現状は?

本記事では自然言語処理によるテキスト要約や生成がなぜ難しいのか、そしてテキスト分野以外における処理の動向についてまとめようと思います。

1. テキスト要約

基本テキスト要約となるとそれはテキストtoテキストのものとなります。
要約は長い文章を短くすることであり、その過程で重要でない情報は捨てられます。しかし、重要な情報(単語)は抜かすことができません。重要な語はテキストの分野、対象の読者、要約自体の目標に大きく依存するため、単一的な線引きで判断することは困難です。
そのため良い要約はコンテクストに依存し、単なるテキストからテキストへの変換ではなく、テキスト+コンテクストからテキストへの問題であると考えられています。
Microsoftが公開するAzure Cognitive Serviceなどの要約APIは、素朴なテキスト-to-テキストの定義に準拠しており、現状の要約APIは求められる要約後の文章の長さ以外に条件をつけることは不可能となっています。
要約の際は抽出型か抽象型のどちらかになりますが、抽出型の要約は、元の文章から重要な文を探し出すので、重要な項目(単語・意味)をより正確に抽出し反映できる可能性が高いです。それに対して、抽出型の要約は原文の内容を完全に把握することが困難であり、要約から欠落した文章にキーワードとなる語・内容があった場合、それが失われるリスクがあります。
抽象型要約の代表例としてGPTのような生成モデルがあるが、これを個人単位で構築することは困難です。そして、このようなモデルを使用しても出力が事実と異なっていたり、言語がサポートされていなかったりすることもあり、入力テキストへの依存度が高く、原文に依存しない要約を求める場合には活用は難しいといった課題があります。

2. 音声要約

音声認識の分野では、ユーザーが話した発話内容の文字列をニューラルネットワークで推定するEnd-to-End(E2E)音声認識が注目されています。しかし、現在の多くの音声認識では、発話内容の表記のみ出力しているため出力結果からユーザーの発話意図を汲み取ることが困難です。
音声認識のモデルとしてはQuartzNetモデルがあります。これはEnd-to-Endの音声認識手法になります。
End-to-Endは音声特徴量の系列をX、音響特徴量から認識される文字列をWとしたときにP(W|X)をニューラルネットでモデル化したものになります。簡単にいうと、モデルに音響特徴量を入れるとテキストになって返却されるということです。
QuartzNetの構造は畳み込みの繰り返し構造がある入力から出力まで一直線のシンプルな構造が特徴です。
そのためモデルサイズや計算量の削減などのチューニングが従来型の音声認識と比較して容易に行うことが可能になりつつあります。
このE2E音声認識を導入することで、サーバーに音声データを送信することなく、スマホだけで完結する音声認識が可能です。

3. おわりに

自然言語処理の現状について、テキスト分野・音声認識の分野から技術やモデル、課題点についてまとめました。やはりテキスト分野は依然課題点が多いです。GPT3が新たに公開されたため一度試してみたいですね。

T.A
新卒1年目で働いてます。 まだわからないことも沢山ありますが頑張りたいと思います。