新着Pick
448Picks
Pick に失敗しました

人気 Picker
発言と同時に字幕がつく日も遠くないでしょう。
発言は記録され、検索される。
これを恐れることなく、人の心を動かす話ができる力はますます大切になりそうです。
大きな可能性がある。 言葉として発したものを残す方法として、古来より紙に残す方法が取られてきたが、近代 データ化しても記録するのにある程度の時間とストレッジが必要。
言葉をリアルタイムで記録できる技術により、著しく効率化できることをいくつも想像できる。
たくさんの使い道が思いつく反面、まだまだ解決すべき課題は多いです。例えば
・音声が不明瞭だとエラーが大きくなる (よほど明瞭でないと、精度はまだまだ)
・複数人の声が重なると駄目 (マイクアレイでも使えば・・・・)
・新語、専門用語への対応がネック (皆さん、思いの外「業界用語」をお使いです)
・処理時間がまだまだ (現状、N分の音声を入れるとN分後にテキストが出てくる感じです。一瞬ではできない。)

ほとんどのメジャーサービスは試してみましたが、speech2textに関してはIBMが現状いい感じです。下記でも使っています。

AIによるプレゼンテーションのトレーニングサービス 「プレトレ」提供開始
https://newspicks.com/news/3944867
スピーチをテキストに置き換えられれば、議事録や原稿はもっとスムーズになるでしょうね。95%の精度であっても、使えそうです。
スマホの音声入力を多用しています。チャットやメールの2-3行のメッセージなら、半分くらいは無修正で入力できます。残りの半分も最後にちょっと修正すればOKです。

勘違いしている人が多いのですが、音声入力を使いこなすには、次の2つのスキルの訓練が必要です。

(1) 明瞭で紛れの少ない発声スキル
 音声認識エンジンは相当進化しましたが、精度100%ではありません。単語単位で明瞭に発音することが第一です。適切なスピードもあります。
 同音異義語がある場合には文脈に沿って変換されてしまいます。これは間違いのパターンに気づくと避けることができます。

(2) 文語体で完成した1文として話すスキル
 チャットやメールなので、話し言葉のようにぶつ切りでは違和感があります。音声認識が正しくても修正が必要になってしまいます。
 発話前にメッセージ全文を思い浮かべて、それを読むように滑らかに話すことが必要です。

どちらもある程度の訓練が必要です。特にメッセージ全文を思い浮かべるは意外と最初は難しいものです。
ウェブベースのビデオ会議システムを開発する「Zoom」は、「Otter.ai」のサービスを利用した文字起こしのオプションも提供している。会議の内容がすぐにテキスト化されて保存され、オンライン検索が可能となっている。
読唇術からの文字起こしもできれば、言葉を発することが不自由な人とのコミュニケーションも円滑になりそう。
英語圏と日本とでは、人工の規模が違うし、サービスの利用者数も大きな開きがある。
先ずは、英語圏で実用的になっていくのかな。