ガジェット

Google pixelのリアルタイム文字起こしに日本語が対応。実際に使ってみた。

みなさんこんにちは。

リモートでの商談が増え、その際に録音や録画をしている方多いのではないでしょうか?しかし、その録音や録画したファイルを後から見返す時間を取ったり、0から文字起こししたりするのは中々大変だったりします。

録音しながら、自動で文字起こしをしてくれたら楽だな〜なんて思ったことありませんか?

今回、Googleのスマホ「pixel」のボイスメモアプリのリアルタイム文字起こし機能に日本語が対応したということで、実際に使用してみました。

目次

使い方

使い方は簡単。pixelのボイスメモアプリを立ち上げて録音開始ボタンを押して、画面上に現れた文字起こしというメニューを選択するだけ。それだけで、録音しながら勝手に文字起こしをしてくれます。

実際に使ってみた

①話者1人パターン

▼こちらが自動文字起こしされた文章です。

今後対応に追われているような感じです。今週ではないんですけれども、先週長野の上諏訪っていうところに仕事で行きましてで、長野県の南の方にだけある鶴屋っていうスーパーがあるんですけれども、まあカタカナで釣るやって書いて、その鶴屋というスーパーのジャム。00:25まあなんかプライベートブランド商品が有名らしく、まあちゃんもいっぱい買ってきたんですけども、まあなんか噂に関わるくらい、めちゃくちゃ美味しくて仕事で話をする人に、みんなツルヤのジャム美味しいよ。別にあげるわけじゃないけどね。00:45みたいな話を反応しています。まあのこれからあんまりなのって旅行で行くことないと思うんですけども。もし行かれる方がいたら鶴屋のジャム、わざわざあの釣り屋に立ち寄って買うぐらい美味しかったので、すごいおすすめではあります。01:02はい。

▼こちらが筆者が文字起こしした文章です。

今週ではないんですけども、先週長野の上諏訪っていうところに仕事で行きまして、長野県の南の方にだけあるツルヤっていうスーパーがあるんですけど。まあ、カタカナでツルヤって書いて。ツルヤというスーパーのジャム。まあプライベートブランド商品が有名らしく、まあジャムもいっぱい買ってきたんですけども、まあなんか噂に違わぬぐらいめちゃくちゃ美味しくて。仕事で話をする人に、みんなツルヤのジャム美味しいよ、別にあげるわけじゃないけどね。みたいな話をしています。まあ、あのこれから、あんまり長野って旅行で行くことないと思うんですけども、もし行かれる方がいたら、ツルヤのジャム、わざわざ、あの、ツルヤに立ち寄って買うぐらい美味しかったので、すごいおすすめではあります。はい。

比べてみていかがでしょうか?ちなみに自動文字起こしは録音しながらなので、文字起こしにかかった時間は録音時間と同じ1分30秒ほど。対して、筆者による手作業での文字起こしは3分17秒もかかってしまいました。

自動文字起こしではやはり、固有名詞に表記のバラつきが見られました。
スーパー名「ツルヤ」→「ツルヤ」「鶴屋」「釣り屋」

しかし全体的に読める文章にはなっているのではないでしょうか?さすがGoogle大先生です。

話者2人パターン

次に試すのは話し手が2人の場合です。実際の商談やMTGなどではこのように複数人で喋るのがスタンダードのはず。こちらでの使用が十分に耐えうるかどうか非常に大事ですね。

▼自動文字起こしされた文章

こんばんはです。ピアノじゃないラジオ 2 回目の放送です。タイトルコラボの YouTube でオールナイト 1 本の単純に聞いてたら、まあこういうのでいいのかなとかさあるじゃんみたいなあれがなってよ。そのなんか脂肪ってそれ喋るのよ。00:35
それないとさただよ。わかんなくないけど、日々改善してみましょう。あれ使ってるんだけど、前回はアフリカに行って帰ってきてとか苦しんでる。ちょうどインサイトテックに移動した時期みたいな感じかな?

▼筆者が文字起こした文章(改行で話者交代)

こんばんは、まささいとうです。Peer Lodge社内ラジオ、2回目の放送です。タイトルコールはこんな感じで大丈夫ですか?この放送では
タイトルコールじゃなくない?
タイトルコールじゃないのこれ?いや、僕があのYouTubeでオールナイトニッポンの感じを見てたらまあこういうのでいいのかなと
あれなんかさあ音があるじゃん。テーッテテみたいな。
はいはいはい
あれがなってそれが萎んでって喋るのよ。
はいはいわかりますよ。はい
それないとさ、ただ、わかんなくない?
あ、じゃあ音もありで次回やったほうがいい?
そうですね、次回ちょっと、まあ日々改善していきましょう。あれ、使っていいかわかんないけど。
はいはいはい。
前回の社内ラジオは、アフリカに行って帰ってきてと。
そうですね。
言う中で、もがき苦しんでる、インサイトテックに移動した時期みたいな感じかな?

 

やはり1人話者の時と比べて精度が明らかに落ちているのが感じられます。自動文字起こしされている様子を見ている感じ、話し手同士が被せるように喋ってしまった場合、両方の発言を1人の発言として処理している節がありました。

その結果、2人の発言がリアルタイム文字起こしが認識できた部分のみ繋ぎ合わされてあることないこと文字起こしされたようです。

その他の機能

文字起こしされているボイスメモを再生すると、今文字起こしされた部分のどこを再生しているのか示しながら再生してくれます。分かりやすくていいですね。

筆者所感

1人しか喋らない音声の文字起こしをするのにはかなり便利。ボタン1クリックで自動で文字起こしがされるのは強み。

話者が2人以上になり、会話が混み合ってくると、自動文字起こしもこんがらがってくる模様。また、ビデオ会議ごしの音声はより若干認識が怪しい。

・完全に交互に喋る商談(会話があまり混線していない会議)などではまだ使い道があるかもしれない。各々が思い思いに喋る会議やブレストなどではまだ力不足感。

・今後のGoogleのアップデートに期待

おすすめ記事

-ガジェット

© 2023 REMOTE HACK Powered by AFFINGER5