KNOWLEDGE - COLUMN ナレッジ - コラム

【エバンジェリスト・ボイス】動画制作と人工知能

システム・インテグレーション・サービス第3部
エバンジェリスト 佐藤 聖

今年に入ってから新型コロナウイルスをきっかけに在宅勤務を始められた方も多いのではないでしょうか。学校も休校になり、通常とは異なる日常を過ごされたかと思います。感染予防対策として外出自粛による活動に制約が出てきていました。

在宅勤務は以前からありましたが、自宅で事務作業を行うなど限定的な活用だったと思います。在宅学習や在宅勤務が進むにつれて、より安全で効率的な行動様式を模索されています。リモート接続や仮想デスクトップ(VDI)を活用した業務、動画配信サービスを活用したオンライン授業、会議や商談が普及しつつあります。

在宅勤務を進めてきた企業では、新型コロナウイルス対策としてではなく、業務の効率化として活用が進んでいました。新しい兆しは変化の激しい短期雇用の現場から広まっていくと考えています。今年に入ってから学生のアルバイトも縮小傾向にあります。


■これから必要とされる新スキル

外出自粛によりレストラン、居酒屋、スーパー、コンビニ、衣料品店などでのアルバイトやパートが減り、その一方で増えているのが書類の文字起こし、パワーポイント資料作成などです。これらの仕事では企業の社員が行っていたものですが、場所を問わない仕事の一部がこうして外部に委託されています。特に動画編集や動画配信のアルバイト求人が増えています。学生は特殊な道具もいらず、バイト先に出かけず、時間の融通が利き、高い時給であるため学生たちに人気です。

企業では、2017年頃から営業、マーケティングやHRなどの分野で動画活用が急速に進んでいます。世界でも動画の制作者や編集者はプログラマーに匹敵する賃金上昇が見られる職種の一つです。今年に入ってからオンラインセミナーやバーチャルエキスポなどのイベントも多数開催されるようになりました。動画コンテンツを作って配信するだけでなくライブ動画配信も活況です。

企業ではZoom、YouTube、LINE、Teamsなどのオンラインサービス利用が急速に伸びてきています。動画制作スキルがないために外部に制作を依頼することが多いのではないでしょうか。映像コンテンツでは文字や図表中心のドキュメントとは情報を伝える技術や動画編集スキルが異なります。スキルチェンジのチャンスなのかもしれません。


■動画制作をより簡単にする実験(特集記事の予告編)

学校の先生が動画で授業を配信することも増えてきました。こうした時代背景を踏まえて動画編集に人工知能を活用する実験を行いました。この実験は学校祭でのアナウンサー体験や動画配信体験などの出し物がヒントになりました。クラスのみんなで動画撮影や鑑賞会をしたり、家族とラズベリーパイ工作としても楽しめる内容にしています。この内容は近く雑誌の特集で詳しく取り上げますのでご参考にいただけると思います。

通常は動画編集ツールを利用して字幕として表示するテキストを手入力が必要になり、労力がかかる作業です。動画需要の高まりの一方で、どのように作成すればよいかわからないとの声あります。実験では最新のラズベリーパイ4BとWebカメラでHD動画の撮影から動画編集までを行いました。

ラズベリーパイでもGUI環境で動画編集ツールが利用できます。

Linpack (CPU speed test)_800x687
(図1)


kdevliveサイト_500x270
(図2)


OpenShotサイト_500x377
(図3)

カメラ撮影を制御するためPythonプログラムを作成しました。こちらは小学生でも簡単操作で動画撮影できるように撮影用UI(図4)も作成しました。

Rec-Timer_284x336
(図4)

マウスでボタンをクリックするだけで1シーン(15秒または30秒)の動画を撮影できます。動画編集は難しくなるため、低学年でも編集できるよう複数動画を1本に繋げる編集のみに絞りました。

動画撮影だけでなく、動画に自動でテロップを付けるため音声認識を画像分類に挑戦しました。音声認識はPythonプログラムで動画から音声のみを抽出して、GCP Cloud Speech-to-text API(図5)へ転送してテキスト化された文字列を動画に挿入します。

GCP_speech-to-text_800x632
(図5)

音声認識(Julius)や画像認識(TensorFlow Lite、Darknet)、GCP Vision AIによる自動テロップ生成の比較実験もあります。

※外部サイト(図1): Raspberry Pi 4 specs and 


■会議の議事録作成にも活用できる音声認識

企業では音声認識と言えば議事録作成ではないでしょうか。例えば、クラウドサービスのGoogleドキュメント(https://docs.google.com/)を使うとパソコンのマイクで音声を拾い文字起こしができます。私もメールを書くときには音声入力を多用しています。

講演会やセミナーの会場で音声入力を使ってメモを取る方をよく見かけます。GmailアカウントやGoogleアカウントがあれば無料で利用できます。音声認識を使用した音声入力の効果は実際に体験して頂いた方が実感できると思います。

ただし、注意点としては音声入力を日本語に設定すると、英語やカタカナ語混じりで話すと認識精度が低下します。日本語にない言葉は、推論範囲を他の言語にも広げるためなのか文字が確定するまでにしばらくかかります。

その他、音声から議事録を作成するソリューションは複数あります。在宅勤務やリモートワークにも対応したクラウド型や社内イントラに導入するオンプレミス型などがあります。個人マイクやシステム内で声紋分析により話者を特定できますので、オンラインの打ち合わせや商談の記録に活用できるでしょう。Zoom、SkypeやTeamsなどのツールには録音機能があるのでメモに使えます。

音声認識のコツは、ゆっくり話す、1分以内で話すなどです。一般的に声質の異なる人が話すと音声認識の精度が低下しますので、他の人が話した後一息時間を取ることも重要です。参加者がそうした特性を理解して使えば非常に便利なツールになるはずです。


■音声認識の進化

従来の音声認識は、一般的にマイクで拾った音(音声の波形)を音響分析により特徴量をデータ化します。音響モデルを参照して特徴量が音素を特定して、音素がどの単語に近いかを整合率を計算します。ここで音から単語が分かるようになります。文字が特定されると言語モデルを使って一つ一つの文字の適切につながりを予測して文章に組み立てます。よく利用されるのがニューラルネットワークの一種である隠れマルコフモデルです。蓄積されたデータ(発音辞書)から使用する単語の出現率を計算して文章化されます。しかし、新語が出てくると辞書になかったり、変わった言い回しに弱かったりしました。

ディープラーニングでは、RNN(リカレント・ニューラルネットワーク)やLSTMにより、上記の特徴抽出から単語を予測することができます。音響モデルから言語モデルまでのプロセスを1つのニューラルネットワーク・モデルで実装することができます。現代では、YouTubeなどの動画を使ってディープラーニングをトレーニングできるのでデータ収集も簡単です。ディープラーニングの登場により、スマホやスマートスピーカーの音声認識は飛躍的に精度が向上しました。

従来の音声認識では日本語の認識率は約60~70%ですが、ディープラーニングを用いたソリューションでは90%以上の精度が出ることも珍しくありません。2017年のGoogle I/Oではエラー率4.9%でした。現在ではより高精度になっているはずです。音声認識に失敗する原因の多くは、マイクで拾う音が小さかったり、周囲の雑音が大きかった入りする場合です。クラウド型音声認識は方言による音の違いも学習されているサービスもあり、多くの人に便利に利用できる機能になっています。


■最後に

音声認識は議事録だけでなく、メール作成や書類作成も音声認識を使うとキーボード入力よりも速く行え効率的です。ただし、日本の企業ではオープン型オフィスが多いため周囲の音を拾いがちです。外国企業のオフィスによく見られる集中ブースがあれば音声認識は非常に強力なツールになるはずです。在宅勤務では人の少ない環境になるため業務の効率化に音声認識を試してみてはいかがでしょうか。

Interface 2020年6月号(4月25日発売) マイコンからクラウドまで新時代到来中 科学計算とPythonの研究[科学ソフト事典付き](図6)の「第1部 特別企画 科学計算ソフト事典」、「第3部 クラウド科学計算の研究」を執筆しました。科学技術計算からGoogle Colabの使い方までを解説しています。

MIF202006-scaled_353x500
(図6)

※外部サイト(図6)

当サイトの内容、テキスト、画像等の転載・転記・使用する場合は問い合わせよりご連絡下さい。

エバンジェリストによるコラムやセミナー情報、
IDグループからのお知らせなどをメルマガでお届けしています。

メルマガ登録ボタン

佐藤 聖

株式会社インフォメーション・ディベロプメント 先端技術部 エバンジェリスト

この執筆者の記事一覧

関連するナレッジ・コラム

地味に見えて優秀!マネージドプレフィックスリストでアドレス管理を効率化

DockerでJupyterLabの環境を作ろう

残された攻撃の痕跡を追え! ~Post-Exploitationで起きていること~