みなさんこんにちは。
リモートでの商談が増え、その際に録音や録画をしている方多いのではないでしょうか?しかし、その録音や録画したファイルを後から見返す時間を取ったり、0から文字起こししたりするのは中々大変だったりします。
録音しながら、自動で文字起こしをしてくれたら楽だな〜なんて思ったことありませんか?
今回、Googleのスマホ「pixel」のボイスメモアプリのリアルタイム文字起こし機能に日本語が対応したということで、実際に使用してみました。
使い方
使い方は簡単。pixelのボイスメモアプリを立ち上げて録音開始ボタンを押して、画面上に現れた文字起こしというメニューを選択するだけ。それだけで、録音しながら勝手に文字起こしをしてくれます。
実際に使ってみた
①話者1人パターン
▼こちらが自動文字起こしされた文章です。
▼こちらが筆者が文字起こしした文章です。
比べてみていかがでしょうか?ちなみに自動文字起こしは録音しながらなので、文字起こしにかかった時間は録音時間と同じ1分30秒ほど。対して、筆者による手作業での文字起こしは3分17秒もかかってしまいました。
自動文字起こしではやはり、固有名詞に表記のバラつきが見られました。
スーパー名「ツルヤ」→「ツルヤ」「鶴屋」「釣り屋」
しかし全体的に読める文章にはなっているのではないでしょうか?さすがGoogle大先生です。
話者2人パターン
次に試すのは話し手が2人の場合です。実際の商談やMTGなどではこのように複数人で喋るのがスタンダードのはず。こちらでの使用が十分に耐えうるかどうか非常に大事ですね。
▼自動文字起こしされた文章
それないとさただよ。わかんなくないけど、日々改善してみましょう。あれ使ってるんだけど、前回はアフリカに行って帰ってきてとか苦しんでる。ちょうどインサイトテックに移動した時期みたいな感じかな?
▼筆者が文字起こした文章(改行で話者交代)
タイトルコールじゃなくない?
タイトルコールじゃないのこれ?いや、僕があのYouTubeでオールナイトニッポンの感じを見てたらまあこういうのでいいのかなと
あれなんかさあ音があるじゃん。テーッテテみたいな。
はいはいはい
あれがなってそれが萎んでって喋るのよ。
はいはいわかりますよ。はい
それないとさ、ただ、わかんなくない?
あ、じゃあ音もありで次回やったほうがいい?
そうですね、次回ちょっと、まあ日々改善していきましょう。あれ、使っていいかわかんないけど。
はいはいはい。
前回の社内ラジオは、アフリカに行って帰ってきてと。
そうですね。
言う中で、もがき苦しんでる、インサイトテックに移動した時期みたいな感じかな?
やはり1人話者の時と比べて精度が明らかに落ちているのが感じられます。自動文字起こしされている様子を見ている感じ、話し手同士が被せるように喋ってしまった場合、両方の発言を1人の発言として処理している節がありました。
その結果、2人の発言がリアルタイム文字起こしが認識できた部分のみ繋ぎ合わされてあることないこと文字起こしされたようです。
その他の機能
文字起こしされているボイスメモを再生すると、今文字起こしされた部分のどこを再生しているのか示しながら再生してくれます。分かりやすくていいですね。
筆者所感
・1人しか喋らない音声の文字起こしをするのにはかなり便利。ボタン1クリックで自動で文字起こしがされるのは強み。
・話者が2人以上になり、会話が混み合ってくると、自動文字起こしもこんがらがってくる模様。また、ビデオ会議ごしの音声はより若干認識が怪しい。
・完全に交互に喋る商談(会話があまり混線していない会議)などではまだ使い道があるかもしれない。各々が思い思いに喋る会議やブレストなどではまだ力不足感。
・今後のGoogleのアップデートに期待