新着Pick
185Picks
Pick に失敗しました

人気 Picker
便利だと思う反面、受講中に「あとで見返せるからいいや」と、意識を抜いてしまうと無駄な時間を過ごしてしまうことになるので良し悪しですね。

しかし、speech2textは一般的な言葉でも難しいのに授業・講義で使うような専門用語をちゃんと認識できるのでしょうか?トレーニングするのが大変そうです。

「今日はバターワースフィルタとチェビシェフフィルタを使って規格化フィルタを作っていきたいと思います」
というセリフをいまspeech2textにかけてみました。結果は推して知るべし。
教師がはっきり発話すれば、上手く字幕化されるかもしれませんね。逆に、上手く字幕化されるよう教師が発話を意識して、授業が聞きやすくなる効果もありそう。

音声認識率が気になるところ。どの単位で評価するかで、文字・単語・文章での認識率のKPIがありますが、ヒトが見て正しいと感じるのは単語・文章であり、漢字変換の正しさも要求されるので、英語より難易度が高い。
特に、大学の授業で使われる専門用語に、言語モデルがどこまで対応しているか。
社内の期初訓示を、今回はコロナの為に
レコーディングとライブ配信で行いました。

社内のチャットでどうでした?と呟いたら、
社員に耳が不自由な人がいるので、我々のAI
技術で、字幕化できませんか?
とあったので、実施したらとても好評でした。

東芝は、音声認識を長年研究しています。
課題はまだ多く有りますが、
声でレポートが書ける、レポートエージェント
を既に実用化しています。

まだまだ課題は有りますが、使って頂くと
技術は進化します。
授業だけでなく一般の会議やプレゼンでも有用でしょう。リアルタイムでの理解補助よりも、音をミュートしてチラ見すればいい程度の映像や、後から早送りで議事内容を文字チェックするような場面に使いでがありそう。
英語であれば、既にZOOMとOtterが連携して、この機能は実現されていたと思いますが…

ポイントは「それぞれの分野でトップの企業またはスタートアップが組む」ということで、そこには、汎用技術の入り込む余地はないのでは?と個人的には思います。

※個人的な見解であり、所属する会社、組織とは全く関係ありません
シンプルに、ビジネスとして成り立つのかなってのが1番気になるところです。

字幕って、あれば良いけどマストではないと思うんですよね。
 
プライシング次第ですが、インタビュー音声の文字起こし職人との戦いが主戦場となり、ニッチマーケットになりそうな予感がします。
便利になりますね。個人的には学生時代東進ハイスクールでビデオで授業を受講していたので、聞き逃したところを何回も巻き戻ししてメモをとっていました。
字幕があればよりスムーズに理解ができそうです。
株式会社東芝(とうしば、英語: TOSHIBA CORPORATION)は、日本の大手電機メーカーであり、東芝グループの中核企業である。 ウィキペディア
時価総額
1.53 兆円

業績