文章のファイルをアプリにドラッグアンドドロップするだけで、本物の人間と区別がつかないアバターが「話している」動画を作成するSynthesia。イギリス・ロンドンに本社を構える同社のサービスはAmazonやReuters、Teleperformanceなどのグローバル企業が、社員研修や対顧客コミュニケーションのために利用している。さらに、Synthesiaが用意したアバターだけでなく、文章を書いた本人が話している動画も、たった数分間の顔動画の撮影で作成できる。同社共同創業者でCEOのVictor Riparbelli氏に話を聞いた。

数分でテキストを読み込むAIを実装 65以上の言語に対応

――御社はどんなサービスを展開しているのでしょうか。

 SynthesiaはAI搭載動画作成プラットフォームを運営しています。撮影は一切不要で、テキストのファイルをドラッグアンドドロップするだけで、アバターが話す動画を作成できるサービスです。当社のサービスは、企業内研修や教育、対顧客コミュニケーションといった用途に最適化されています。

 詳しく、Synthesiaの仕組みを説明しましょう。Synthesiaでは、カメラやマイクを使ってレコーディングする代わりに、AIが台本(テキスト)を読み込みます。読み込んだ内容を、本物の人間と区別ができないほど精巧につくられた約70種類のアバターが話している動画にする、という流れです。

 プレゼンをしたい本人の顔を映した動画(約3分間の撮影)をアップロードすれば、本人のアバターを作成することも可能です。テキストベースの台本をAIが読み込む時間は数分と、手間いらずな点も特長です。Synthesiaで作成する動画は、最長30分まで対応しています。また、Synthesiaは英語や日本語、スペイン語など、65以上の言語に対応していて、グローバルに使われています。

Victor Riparbelli
Synthesia
Co-Founder & CEO
IT University of CopenhagenでComputer Science、Business Informaticsの学士号取得後、VR/AR 開発企業のImmersive Futuresや仮想通貨ポートフォリオ制作会社のCoincallなどを創業。2017年、Synthesiaを共同創業し、CEOに就任

 今日、動画を用いたコミュニケーションは以前よりも重要度が増しています。TikTokの隆盛を見ても明らかなように、文章による発信よりも動画の方が内容も頭に入ってきやすく、ニーズも高いです。しかし、動画コンテンツの作成は、スタジオでの撮影や編集などにコストと時間がかかり、ハードルが高いままでした。Synthesiaを使えば、安く、簡単に「人間が話している」動画を作成できるのです。

 動画での発信は、主に企業内の研修で力を発揮します。世界中で何百万人もの従業員を雇用しているグローバル・ファストフードチェーン店での従業員教育の例を考えてみましょう。彼らに対して、20ページ超の長々としたPDFを送信して読んでもらうよりも、同じ内容を人間が、動画上で説明した方が、分かりやすいでしょう。このように、Synthesiaは、コミュニケーションをより効果的なものにするお手伝いをしているのです。

 SynthesiaはSaaS型のビジネスモデルで、個人用と法人用の2種類のプランを用意しています。個人用の料金は月額30ドルで、ユーザーは1カ月に10分間の動画の作成が可能です。法人用では、企業のニーズに応じて利用時間を設定できるなど、より多くの機能が使えます。

――SynthesiaのAI搭載動画作成プラットフォームが、本物の人間と区別がつかないアバターが「話している」動画を作成できる理由を教えてください。

 ハリウッドなどの映画業界やゲーム業界はこれまで40年間ほど、本人にそっくりなアバターの作成に取り組んできました。その方法は、本人の顔や髪、肌など身体のパーツに機器を取り付け、デジタル上の人間のモデルをつくるという方法です。たしかにこれらのアニメーションは優れていますが、「3D上の人間だ」という印象は拭えないでしょう?なぜそう思うかというと、人間は、髪や肌の質感が(アニメーション上の人間と)本物の人間と微妙に違うと、「これは人間ではない」と認識するからです。

 SynthesiaのAIは、何兆ものアルゴリズムを覚えているので、(本人を含め)人間がどのように話すのか、どのように感情を乗せるのか、話すときはどんな顔をしているのか、組み合わせられます。この組み合わせにより、「本人」が話している動画を、顔の3分間の撮影と文章のアップロードだけで作成できるのです。SynthesiaのAI技術は他になく、競合他社よりも圧倒的にリアルな「人間」が話している動画をつくっている点で、差別化しています。

Image:Synthesia

世界のグローバル企業が利用 社内のエンゲージメント率向上に寄与

――どのような企業が、御社のサービスを使っているのですか。

 REUTERS、Accenture、Amazon、BBCなど世界的に有名な企業をはじめ、1万2000以上の顧客を抱えています。当社の顧客企業の多くが、CEOや事業部長による研修動画作成や決算説明、顧客とのコミュニケーションを目的にSynthesiaを利用しています。また、カスタマーサポートの分野においても、グループ会社やアウトソース先へのインストラクション動画の作成元としてSynthesiaが使われています。

 研修のための動画であれ、顧客とのコミュニケーションを動画で代替するのであれ、Synthesiaを使うメリットは、何よりそれが「簡単だから」ということに尽きます。PowerPointのスライドを作成できる人なら誰でも、アバター動画を作成できるのです。PowerPointのファイルをSynthesiaのアプリにドラッグアンドドロップし、数分待てば、動画が出来上がっています。さらに、65以上の言語に対応しているため、グローバル企業にとっては、ほとんどの言語への翻訳が可能な点も嬉しいでしょう。

Image:Synthesia

 たとえば、多国籍企業のThe Bosch Groupは、社内研修でSynthesiaを利用しています。アバター動画による研修を導入した結果、これまでの文章による説明の研修よりもエンゲージメント率が約30%向上し、70%のコスト削減につながりました。現在では、世界中の企業がSynthesiaを使い、企業内外のコミュニケーションを促進しています。

「人間が話している動画」によるコミュニケーションは、文章による説明よりも優れているのです。動画による情報の方が文章よりも頭に残り、何より楽しめるのでしょう。文章ではスキミングしていた内容も、動画では覚えられるのではないでしょうか。

Image:Synthesia

「パソコン一つで、ハリウッド映画をつくる」

――御社は2021年12月、シリーズBラウンドにおいて、5000万ドルの資金調達に成功しました。資金の使い道について教えてください。

 当社の財政は健全で、資金を調達する必要はなかったのですが、市場でのポジションを確実なものにするために、資金調達を実施した形です。調達した資金は、新機能の実装など、プロダクトをブラッシュアップするために使います。

 そして、当社の長期的なビジョンを実現するためにも、資金を投入します。そのビジョンとは「パソコン一つで、ハリウッド映画をつくる」です。現在は30分以内のアバター動画ですが、AI技術をより強固なものにしていきます。

 現在、当社はロンドンに大きなキャプチャースタジオを建設中です。このスタジオでは、お互いにつながった200以上のカメラを用意し、人間の動作を3Dで撮影しています。そうしたデータを蓄積することで、AIアルゴリズムの精度向上に役立てようという目論見です。研究を続けていけば、「ハリウッド映画」レベルの動画をパソコン1台で作成できる未来もそう遠くないでしょう。

Image:Synthesia

――日本市場に進出する予定はありますか。

 既にSynthesiaは日本語対応しているため、個人の顧客を抱えています。また、法人であればHENNGE(ヘンゲ)というクラウドサービス運営会社と提携を結んでいます。同社のCEOがSynthesiaを使って決算会見をしています。

 日本企業は、Synthesiaを使って、自社のプロダクトを海外に売り込んだり、企業の説明をしたりできると考えています。

――日本の大企業と協業したいというお考えはありますか?あるとするならば、どのような分野・業種の企業との協業を求めていますか。

 当社には1万2000社以上の顧客がいることから分かるよう、多くの分野・業種の企業との付き合いがあります。ですから、特定の業界を指定することは難しいのですが、従業員を多く抱えている大企業とのビジネス・パートナーシップが理想です。Synthesiaを使った、研修や顧客とのコミュニケーションなど、多くの問題解決への提案が可能だと考えています。

 一方で、資金調達を目的としたパートナーシップ締結は考えていません。日本市場への深耕を目的に、協業できるビジネス・パートナーシップを求めています。

――最後に、御社の長期的な目標を教えてください。

 先にお伝えしたよう、「パソコン一つで、ハリウッド映画をつくる」です。50年前に「パソコンで、どんな音楽でもつくれるよ」と言ったら驚かれたでしょう。しかし、現在それは可能です。このことは、画像の分野でも同じです。技術開発の進歩は目覚ましく、過去の非常識は今日の常識になっています。私たちは、音楽や画像の分野で起こった革命は、動画の領域で起こる、と確信しています。そのためにも、研究開発を進め、目標を達成したいですね。



RELATED ARTICLES
ソリューションとコンサルを両輪に AIで国内大企業のDXを牽引、社会課題の解決へ シナモンAI
ソリューションとコンサルを両輪に AIで国内大企業のDXを牽引、社会課題の解決へ シナモンAI
ソリューションとコンサルを両輪に AIで国内大企業のDXを牽引、社会課題の解決へ シナモンAIの詳細を見る
「人間が話しているような」ビジネス用音声アシスタントを開発するPolyAI  コールセンター自動化、顧客体験向上へ
「人間が話しているような」ビジネス用音声アシスタントを開発するPolyAI  コールセンター自動化、顧客体験向上へ
「人間が話しているような」ビジネス用音声アシスタントを開発するPolyAI  コールセンター自動化、顧客体験向上への詳細を見る
【まとめ】いくつになっても「学び」を止めないために リスキリング、研修を支援するスタートアップ
【まとめ】いくつになっても「学び」を止めないために リスキリング、研修を支援するスタートアップ
【まとめ】いくつになっても「学び」を止めないために リスキリング、研修を支援するスタートアップの詳細を見る
AIモデルをCPUのスペックに合わせて「最適化」するDeci AI ボトルネックを解消し本来の能力を発揮させる
AIモデルをCPUのスペックに合わせて「最適化」するDeci AI ボトルネックを解消し本来の能力を発揮させる
AIモデルをCPUのスペックに合わせて「最適化」するDeci AI ボトルネックを解消し本来の能力を発揮させるの詳細を見る
クラウド・インフラ使用量をAIで最適化するZesty 社内インフラ担当エンジニアらに高いニーズ
クラウド・インフラ使用量をAIで最適化するZesty 社内インフラ担当エンジニアらに高いニーズ
クラウド・インフラ使用量をAIで最適化するZesty 社内インフラ担当エンジニアらに高いニーズの詳細を見る
ドローン画像や気象データをAIで分析 Taranis 農作物の生育状況や炭素吸収を捉える 収量増へインサイト提供
ドローン画像や気象データをAIで分析 Taranis 農作物の生育状況や炭素吸収を捉える 収量増へインサイト提供
ドローン画像や気象データをAIで分析 Taranis 農作物の生育状況や炭素吸収を捉える 収量増へインサイト提供の詳細を見る

NEWS LETTER

世界のイノベーション、イベント、
お役立ち情報をお届け
全員にオープンイノベーション
ガイドブックもプレゼント


新規事業の
調査業務を効率化
成長産業に特化した調査プラットフォーム
BLITZ Portal
社員の声でイノベーションを効率化する
アイデア管理プラットフォーム
q-ideate

Copyright © 2023 Ishin Co., Ltd. All Rights Reserved.