「本物の人間と区別がつかない」　文章からAIアバターが話す動画を作成するSynthesia

スタートアップインタビュー

湯浅大輝

2022.12.13 Tue

文章のファイルをアプリにドラッグアンドドロップするだけで、本物の人間と区別がつかないアバターが「話している」動画を作成するSynthesia。イギリス・ロンドンに本社を構える同社のサービスはAmazonやReuters、Teleperformanceなどのグローバル企業が、社員研修や対顧客コミュニケーションのために利用している。さらに、Synthesiaが用意したアバターだけでなく、文章を書いた本人が話している動画も、たった数分間の顔動画の撮影で作成できる。同社共同創業者でCEOのVictor Riparbelli氏に話を聞いた。

数分でテキストを読み込むAIを実装　65以上の言語に対応

――御社はどんなサービスを展開しているのでしょうか。

　SynthesiaはAI搭載動画作成プラットフォームを運営しています。撮影は一切不要で、テキストのファイルをドラッグアンドドロップするだけで、アバターが話す動画を作成できるサービスです。当社のサービスは、企業内研修や教育、対顧客コミュニケーションといった用途に最適化されています。

　詳しく、Synthesiaの仕組みを説明しましょう。Synthesiaでは、カメラやマイクを使ってレコーディングする代わりに、AIが台本（テキスト）を読み込みます。読み込んだ内容を、本物の人間と区別ができないほど精巧につくられた約70種類のアバターが話している動画にする、という流れです。

　プレゼンをしたい本人の顔を映した動画（約3分間の撮影）をアップロードすれば、本人のアバターを作成することも可能です。テキストベースの台本をAIが読み込む時間は数分と、手間いらずな点も特長です。Synthesiaで作成する動画は、最長30分まで対応しています。また、Synthesiaは英語や日本語、スペイン語など、65以上の言語に対応していて、グローバルに使われています。

AIや機械学習による分析ツールを強化する、行動データ集約プラットフォーム Snowplow

「AIや機械学習による分析ツールを強化する、行動データ集約プラットフォーム Snowplow」の詳細を見る

Victor Riparbelli

Synthesia

Co-Founder & CEO

IT University of CopenhagenでComputer Science、Business Informaticsの学士号取得後、VR/AR 開発企業のImmersive Futuresや仮想通貨ポートフォリオ制作会社のCoincallなどを創業。2017年、Synthesiaを共同創業し、CEOに就任

　今日、動画を用いたコミュニケーションは以前よりも重要度が増しています。TikTokの隆盛を見ても明らかなように、文章による発信よりも動画の方が内容も頭に入ってきやすく、ニーズも高いです。しかし、動画コンテンツの作成は、スタジオでの撮影や編集などにコストと時間がかかり、ハードルが高いままでした。Synthesiaを使えば、安く、簡単に「人間が話している」動画を作成できるのです。

　動画での発信は、主に企業内の研修で力を発揮します。世界中で何百万人もの従業員を雇用しているグローバル・ファストフードチェーン店での従業員教育の例を考えてみましょう。彼らに対して、20ページ超の長々としたPDFを送信して読んでもらうよりも、同じ内容を人間が、動画上で説明した方が、分かりやすいでしょう。このように、Synthesiaは、コミュニケーションをより効果的なものにするお手伝いをしているのです。

　SynthesiaはSaaS型のビジネスモデルで、個人用と法人用の2種類のプランを用意しています。個人用の料金は月額30ドルで、ユーザーは1カ月に10分間の動画の作成が可能です。法人用では、企業のニーズに応じて利用時間を設定できるなど、より多くの機能が使えます。

――SynthesiaのAI搭載動画作成プラットフォームが、本物の人間と区別がつかないアバターが「話している」動画を作成できる理由を教えてください。

　ハリウッドなどの映画業界やゲーム業界はこれまで40年間ほど、本人にそっくりなアバターの作成に取り組んできました。その方法は、本人の顔や髪、肌など身体のパーツに機器を取り付け、デジタル上の人間のモデルをつくるという方法です。たしかにこれらのアニメーションは優れていますが、「３D上の人間だ」という印象は拭えないでしょう？なぜそう思うかというと、人間は、髪や肌の質感が（アニメーション上の人間と）本物の人間と微妙に違うと、「これは人間ではない」と認識するからです。

　SynthesiaのAIは、何兆ものアルゴリズムを覚えているので、（本人を含め）人間がどのように話すのか、どのように感情を乗せるのか、話すときはどんな顔をしているのか、組み合わせられます。この組み合わせにより、「本人」が話している動画を、顔の3分間の撮影と文章のアップロードだけで作成できるのです。SynthesiaのAI技術は他になく、競合他社よりも圧倒的にリアルな「人間」が話している動画をつくっている点で、差別化しています。

Image：Synthesia

世界のグローバル企業が利用　社内のエンゲージメント率向上に寄与

――どのような企業が、御社のサービスを使っているのですか。

　REUTERS、Accenture、Amazon、BBCなど世界的に有名な企業をはじめ、1万2000以上の顧客を抱えています。当社の顧客企業の多くが、CEOや事業部長による研修動画作成や決算説明、顧客とのコミュニケーションを目的にSynthesiaを利用しています。また、カスタマーサポートの分野においても、グループ会社やアウトソース先へのインストラクション動画の作成元としてSynthesiaが使われています。

　研修のための動画であれ、顧客とのコミュニケーションを動画で代替するのであれ、Synthesiaを使うメリットは、何よりそれが「簡単だから」ということに尽きます。PowerPointのスライドを作成できる人なら誰でも、アバター動画を作成できるのです。PowerPointのファイルをSynthesiaのアプリにドラッグアンドドロップし、数分待てば、動画が出来上がっています。さらに、65以上の言語に対応しているため、グローバル企業にとっては、ほとんどの言語への翻訳が可能な点も嬉しいでしょう。

Image：Synthesia

　たとえば、多国籍企業のThe Bosch Groupは、社内研修でSynthesiaを利用しています。アバター動画による研修を導入した結果、これまでの文章による説明の研修よりもエンゲージメント率が約30％向上し、70％のコスト削減につながりました。現在では、世界中の企業がSynthesiaを使い、企業内外のコミュニケーションを促進しています。

「人間が話している動画」によるコミュニケーションは、文章による説明よりも優れているのです。動画による情報の方が文章よりも頭に残り、何より楽しめるのでしょう。文章ではスキミングしていた内容も、動画では覚えられるのではないでしょうか。

Image：Synthesia

「パソコン一つで、ハリウッド映画をつくる」

――御社は2021年12月、シリーズBラウンドにおいて、5000万ドルの資金調達に成功しました。資金の使い道について教えてください。

　当社の財政は健全で、資金を調達する必要はなかったのですが、市場でのポジションを確実なものにするために、資金調達を実施した形です。調達した資金は、新機能の実装など、プロダクトをブラッシュアップするために使います。

　そして、当社の長期的なビジョンを実現するためにも、資金を投入します。そのビジョンとは「パソコン一つで、ハリウッド映画をつくる」です。現在は30分以内のアバター動画ですが、AI技術をより強固なものにしていきます。

　現在、当社はロンドンに大きなキャプチャースタジオを建設中です。このスタジオでは、お互いにつながった200以上のカメラを用意し、人間の動作を３Dで撮影しています。そうしたデータを蓄積することで、AIアルゴリズムの精度向上に役立てようという目論見です。研究を続けていけば、「ハリウッド映画」レベルの動画をパソコン1台で作成できる未来もそう遠くないでしょう。

Image：Synthesia

――日本市場に進出する予定はありますか。

　既にSynthesiaは日本語対応しているため、個人の顧客を抱えています。また、法人であればHENNGE（ヘンゲ）というクラウドサービス運営会社と提携を結んでいます。同社のCEOがSynthesiaを使って決算会見をしています。

　日本企業は、Synthesiaを使って、自社のプロダクトを海外に売り込んだり、企業の説明をしたりできると考えています。

――日本の大企業と協業したいというお考えはありますか？あるとするならば、どのような分野・業種の企業との協業を求めていますか。

　当社には1万2000社以上の顧客がいることから分かるよう、多くの分野・業種の企業との付き合いがあります。ですから、特定の業界を指定することは難しいのですが、従業員を多く抱えている大企業とのビジネス・パートナーシップが理想です。Synthesiaを使った、研修や顧客とのコミュニケーションなど、多くの問題解決への提案が可能だと考えています。

　一方で、資金調達を目的としたパートナーシップ締結は考えていません。日本市場への深耕を目的に、協業できるビジネス・パートナーシップを求めています。

――最後に、御社の長期的な目標を教えてください。

　先にお伝えしたよう、「パソコン一つで、ハリウッド映画をつくる」です。50年前に「パソコンで、どんな音楽でもつくれるよ」と言ったら驚かれたでしょう。しかし、現在それは可能です。このことは、画像の分野でも同じです。技術開発の進歩は目覚ましく、過去の非常識は今日の常識になっています。私たちは、音楽や画像の分野で起こった革命は、動画の領域で起こる、と確信しています。そのためにも、研究開発を進め、目標を達成したいですね。