新着Pick
73Picks
Pick に失敗しました

人気 Picker
本文でも触れられている通り、コールセンターの場などでは音声認識・感情認識・自然言語のサマライズ技術の活用が進んでいます。
レポーティングの手間がなくなり、対応の改善方法が簡単に検出できるとなるとやらない手はないだろう。あとは精度の問題。

ビジネスユースについては利便性が分かりやすく、店舗での接客や営業の商談などにも同様の仕組みはハマると考えられます。
コンシュマー向けよりそっちが先でしょうね。
音声認識は、活用するユースケースによって、認識精度が大幅に変わるのが現状です。

例えば、会議と言っても、
・「会議を始めて」のようなコマンドの場合、予め知ってる言葉が多いので、認識精度は高い
・議事録を書き起こす場合、専門用語等の知らない言葉が多いと、認識精度が低い

あらゆるユースケースに対応できる言語モデルは、まだ存在しないので、プロジェクト毎に期待する認識精度をKPIとして設定して検証することが大切です。
音声認識はまだまだ精度が不十分です。でも、数年前に比べれば飛躍的に向上しているのも確か。だから、現時点で実用的なアプリを考案することがとても重要です。

コールセンターの記録は最も有望な分野の一つです。さらに会議の議事録。いずれにせよ、100%の書き起こしよりも、要点を抽出してまとめる要約技術がキモになりそうです。ただし、会話の要約技術はまだ未成熟です。

一方で、精度不十分と割り切って、単語を拾ってリアルタイムにガイダンスを提示したり、感情分析でトラブルを未然予防するなど、別の価値を提供する方向もあります。

精度向上はしばらく要するので、音声認識しやすい発声ができるのは一つのスキルとなるでしょう。シンプルでクリアな発話ができれば、実はほぼ100%音声認識させられます。ロボットと会話できない人は仕事ができない人、になるかもしれません。