音声認識のコツ3 電話編
本日は大阪に来ています。朝品川から新幹線に乗りましたが、海外からの観光客が切符を買っていました。その時、JRの職員さんが、マイクに向かって話すと翻訳して喋ってくれる機械を使っているのを見ました。しかし、うまく伝わらないようで、何度か言い直していたようです。弊社の音声認識は音声を文字にして翻訳するので、聞き取りにくくても文字で読むことができます。聞き取りにくい環境や、図書館など音声を出しにくい状況でも使えるので便利です。
音声認識のコツを2回書きましたが、今回は電話の音声認識についてです。電話の音声は生の声と違って聞き取りにくいと感じる人が多いです。これは顔が見えないので口が読めない、表情が見えないから感情がわかりにくい、ということもあるのですが、一番の理由は音声を圧縮しているからだと思います。昔は今ほど大量のデータを送信する技術やインフラがありませんでしたので、電話回線に音声を電気信号として流すデータ量をできるだけ減らす必要がありました。そのため人間が音声として認識できる周波数以外の不要な音声情報は、生の声を電気信号に変換する際にバッサリと削除して圧縮します。
人間が認識できる可聴域は20Hzから20,000Hz程度ですが、普段の会話で使われる言葉の周波数は250Hzから4,000Hz程度なので、電話の音声は4,000Hzより上の周波数は削除して送信されます。
この音声の必要な周波数だけをとって圧縮することを標本化とかサンプリングと言います。音声のサンプリングは電話だけではなく、CDに音楽を録音する時にも使われています。CDの音楽はサンプリング周波数44,100Hzで録音されます。サンプリングされる周波数は、必要な周波数の2倍と決まっているので、CDの場合は22,050Hzまでの周波数の音楽が録音されています。だいたい人間が聞くことができる周波数の上限である20,000Hzまで含まれています。
最近ではハイレゾ音源と言われる高音質の録音方法が人気ですが、このハイレゾ音源では96,000Hzのサンプリング、つまり48,000Hzまでの音が録音されます。人間の可聴域を大幅に超える周波数ですが、聞き取れなくても無意識に入ってくる高い周波数が音楽に深みを与えるそうで、音響マニアの方たちに人気です。スープの出汁のようなものといったところでしょうか。
しかしせっかくのハイレゾ音源も、その高い周波数まで再生できるハイレゾ音源対応のスピーカーやヘッドホンを使わないと良い音で再生できません。電話の音声を文字化する際も、電話の音声のサンプリング周波数、必要な周波数の4,000Hzの2倍である8,000Hzの音声に対応した音声認識アプリを使わないときちんと文字化できません。一般的な音声認識のアプリは、16,000Hzのサンプリング周波数を文字化するように設計されています。そのため電話の音声を音声認識アプリに聞かせても認識率が非常に悪くなります。
自立コムのテレホンテキストやジャンボプラス+を使うと電話の音声をスマホに取り込むことができます。その取り込んだ音声を文字化するために、自立コムの音声認識アプリは電話のサンプリング周波数である8,000Hzに対応しています。ただ、通常の会話などを認識させる時は16,000Hzで認識させるようになっているので、電話の通話を音声認識する時は設定画面を開いてサンプリング周波数を8,000Hzにしてください。
最近の高音質な通話ができる電話の場合は16,000Hzのままでもきちんと音声認識できるのですが、昔ながらのアナログ回線の電話をお使いで、うまく認識しないと感じている方は一度8,000Hzに設定して試してみてください。