数分でテキストを読み込むAIを実装 65以上の言語に対応
――御社はどんなサービスを展開しているのでしょうか。
SynthesiaはAI搭載動画作成プラットフォームを運営しています。撮影は一切不要で、テキストのファイルをドラッグアンドドロップするだけで、アバターが話す動画を作成できるサービスです。当社のサービスは、企業内研修や教育、対顧客コミュニケーションといった用途に最適化されています。
詳しく、Synthesiaの仕組みを説明しましょう。Synthesiaでは、カメラやマイクを使ってレコーディングする代わりに、AIが台本(テキスト)を読み込みます。読み込んだ内容を、本物の人間と区別ができないほど精巧につくられた約70種類のアバターが話している動画にする、という流れです。
プレゼンをしたい本人の顔を映した動画(約3分間の撮影)をアップロードすれば、本人のアバターを作成することも可能です。テキストベースの台本をAIが読み込む時間は数分と、手間いらずな点も特長です。Synthesiaで作成する動画は、最長30分まで対応しています。また、Synthesiaは英語や日本語、スペイン語など、65以上の言語に対応していて、グローバルに使われています。
今日、動画を用いたコミュニケーションは以前よりも重要度が増しています。TikTokの隆盛を見ても明らかなように、文章による発信よりも動画の方が内容も頭に入ってきやすく、ニーズも高いです。しかし、動画コンテンツの作成は、スタジオでの撮影や編集などにコストと時間がかかり、ハードルが高いままでした。Synthesiaを使えば、安く、簡単に「人間が話している」動画を作成できるのです。
動画での発信は、主に企業内の研修で力を発揮します。世界中で何百万人もの従業員を雇用しているグローバル・ファストフードチェーン店での従業員教育の例を考えてみましょう。彼らに対して、20ページ超の長々としたPDFを送信して読んでもらうよりも、同じ内容を人間が、動画上で説明した方が、分かりやすいでしょう。このように、Synthesiaは、コミュニケーションをより効果的なものにするお手伝いをしているのです。
SynthesiaはSaaS型のビジネスモデルで、個人用と法人用の2種類のプランを用意しています。個人用の料金は月額30ドルで、ユーザーは1カ月に10分間の動画の作成が可能です。法人用では、企業のニーズに応じて利用時間を設定できるなど、より多くの機能が使えます。
――SynthesiaのAI搭載動画作成プラットフォームが、本物の人間と区別がつかないアバターが「話している」動画を作成できる理由を教えてください。
ハリウッドなどの映画業界やゲーム業界はこれまで40年間ほど、本人にそっくりなアバターの作成に取り組んできました。その方法は、本人の顔や髪、肌など身体のパーツに機器を取り付け、デジタル上の人間のモデルをつくるという方法です。たしかにこれらのアニメーションは優れていますが、「3D上の人間だ」という印象は拭えないでしょう?なぜそう思うかというと、人間は、髪や肌の質感が(アニメーション上の人間と)本物の人間と微妙に違うと、「これは人間ではない」と認識するからです。
SynthesiaのAIは、何兆ものアルゴリズムを覚えているので、(本人を含め)人間がどのように話すのか、どのように感情を乗せるのか、話すときはどんな顔をしているのか、組み合わせられます。この組み合わせにより、「本人」が話している動画を、顔の3分間の撮影と文章のアップロードだけで作成できるのです。SynthesiaのAI技術は他になく、競合他社よりも圧倒的にリアルな「人間」が話している動画をつくっている点で、差別化しています。
Image:Synthesia
世界のグローバル企業が利用 社内のエンゲージメント率向上に寄与
――どのような企業が、御社のサービスを使っているのですか。
REUTERS、Accenture、Amazon、BBCなど世界的に有名な企業をはじめ、1万2000以上の顧客を抱えています。当社の顧客企業の多くが、CEOや事業部長による研修動画作成や決算説明、顧客とのコミュニケーションを目的にSynthesiaを利用しています。また、カスタマーサポートの分野においても、グループ会社やアウトソース先へのインストラクション動画の作成元としてSynthesiaが使われています。
研修のための動画であれ、顧客とのコミュニケーションを動画で代替するのであれ、Synthesiaを使うメリットは、何よりそれが「簡単だから」ということに尽きます。PowerPointのスライドを作成できる人なら誰でも、アバター動画を作成できるのです。PowerPointのファイルをSynthesiaのアプリにドラッグアンドドロップし、数分待てば、動画が出来上がっています。さらに、65以上の言語に対応しているため、グローバル企業にとっては、ほとんどの言語への翻訳が可能な点も嬉しいでしょう。
Image:Synthesia
たとえば、多国籍企業のThe Bosch Groupは、社内研修でSynthesiaを利用しています。アバター動画による研修を導入した結果、これまでの文章による説明の研修よりもエンゲージメント率が約30%向上し、70%のコスト削減につながりました。現在では、世界中の企業がSynthesiaを使い、企業内外のコミュニケーションを促進しています。
「人間が話している動画」によるコミュニケーションは、文章による説明よりも優れているのです。動画による情報の方が文章よりも頭に残り、何より楽しめるのでしょう。文章ではスキミングしていた内容も、動画では覚えられるのではないでしょうか。
Image:Synthesia
「パソコン一つで、ハリウッド映画をつくる」
――御社は2021年12月、シリーズBラウンドにおいて、5000万ドルの資金調達に成功しました。資金の使い道について教えてください。
当社の財政は健全で、資金を調達する必要はなかったのですが、市場でのポジションを確実なものにするために、資金調達を実施した形です。調達した資金は、新機能の実装など、プロダクトをブラッシュアップするために使います。
そして、当社の長期的なビジョンを実現するためにも、資金を投入します。そのビジョンとは「パソコン一つで、ハリウッド映画をつくる」です。現在は30分以内のアバター動画ですが、AI技術をより強固なものにしていきます。
現在、当社はロンドンに大きなキャプチャースタジオを建設中です。このスタジオでは、お互いにつながった200以上のカメラを用意し、人間の動作を3Dで撮影しています。そうしたデータを蓄積することで、AIアルゴリズムの精度向上に役立てようという目論見です。研究を続けていけば、「ハリウッド映画」レベルの動画をパソコン1台で作成できる未来もそう遠くないでしょう。
Image:Synthesia
――日本市場に進出する予定はありますか。
既にSynthesiaは日本語対応しているため、個人の顧客を抱えています。また、法人であればHENNGE(ヘンゲ)というクラウドサービス運営会社と提携を結んでいます。同社のCEOがSynthesiaを使って決算会見をしています。
日本企業は、Synthesiaを使って、自社のプロダクトを海外に売り込んだり、企業の説明をしたりできると考えています。
――日本の大企業と協業したいというお考えはありますか?あるとするならば、どのような分野・業種の企業との協業を求めていますか。
当社には1万2000社以上の顧客がいることから分かるよう、多くの分野・業種の企業との付き合いがあります。ですから、特定の業界を指定することは難しいのですが、従業員を多く抱えている大企業とのビジネス・パートナーシップが理想です。Synthesiaを使った、研修や顧客とのコミュニケーションなど、多くの問題解決への提案が可能だと考えています。
一方で、資金調達を目的としたパートナーシップ締結は考えていません。日本市場への深耕を目的に、協業できるビジネス・パートナーシップを求めています。
――最後に、御社の長期的な目標を教えてください。
先にお伝えしたよう、「パソコン一つで、ハリウッド映画をつくる」です。50年前に「パソコンで、どんな音楽でもつくれるよ」と言ったら驚かれたでしょう。しかし、現在それは可能です。このことは、画像の分野でも同じです。技術開発の進歩は目覚ましく、過去の非常識は今日の常識になっています。私たちは、音楽や画像の分野で起こった革命は、動画の領域で起こる、と確信しています。そのためにも、研究開発を進め、目標を達成したいですね。