最近、Zoomで行ったインタビューをまとめたレポートを書いています。Zoomでインタビューをしているときには、あまりメモをとらずコミュニケーションに集中するようにしています。それが可能になったのは、Zoomでインタビューのすべてを録画しておけるようになったからです。
ただ、すべてを録画しても、それを聴き直して文字起こしをして、それからレポートの形にするのに時間がとてもかかっていたので、どうにか効率化できないかと思って、Zoomの録画データ(mpeg4形式)をGoogleドキュメントを使って文字起こししてみました。
調べてみると、通常マイクを通して音声入力をするところを、「サウンドの設定」の画面で「ステレオミキサー」を選ぶと、PCの音を録音することができるようです。思っていたより簡単です。
www.notta.ai
さっそく、実際にやってみました。Zoomの録画データを再生してから、Googleドキュメントの音声入力のボタンを押すと、どんどん文字が入力されていきます。もちろん完璧にすべてが間違いなく文字起こしされるわけではないですが、それでも劇的に楽に文字起こしが完了しました。
気になったところは、以下のようなところでしょうか。
- ある程度文字起こしを続けていると、途中でオフラインになってしまったり、音声入力が止まってしまうことがある
→これはネットワーク環境やPCのスペックの問題かもしれない- 文字起こしの途中で、「たしかにね」とか「あのー」みたいな相づちやフィラーは無視されているような気がする(便利!)
→これ、消すの面倒なので助かるけど、機能として無視しているのか偶然なのかはわからない- 途中、文章単位でがっつり文字入力が「されない」ときがあったりするので、もう一度聴き直しながら補完していく必要がある
→どうせレポートにまとめるときにもう一度聴き直すつもりだったから問題ない
途中でオフラインになってしまったりするので、少し戻ってもう1回再生し直したりしていたのですが、その手間を含めても1時間のインタビュー動画を2時間弱で文字起こし完了しました。自分で手作業でやったらこんな時間では絶対に終わりません。
文字起こしの作業は何もない状態からすべてを書き起こすところが、僕にとってはいちばん時間もかかるし大変です。終わった後は消耗しきっていて集中力も残っていません。そんな文字起こしの作業を、完璧でなくても自動化できると、集中力を手直しのところに使うことができます。
また、ずっとインタビューを聴きながら、文字が起こされている様子を見ていたので、「あ、ここ、あとで直そう」とか、なんとなくレポートを書くときの執筆方針みたいなものも考えることができました。自分で全力で文字起こしをしていたら、こんなことを考えている余裕は絶対にありません。
今まで、文字起こしを自動化できることは知識として知っていましたが、実際にやってみて本当に助かったし、無料でもこれだけできるのであれば便利だと感じました。
テクノロジーによってエンパワーされているのを実感した仕事でした。ここから、レポートにまとめていくところは生成AIなどに任せず、自分でがんばろうと思います。
(為田)