「人間と遜色ない会話ができる」ビジネス用音声アシスタントを開発するPolyAI。イギリス・ロンドンに本社を構える同社はAIを用いて、100以上の言語に対応し、人間同士の自然な会話のように返答できるサービスを開発している。ケンブリッジ大学で機械学習・自然言語処理の博士号を取得し、Apple社でもリサーチャーとして勤務した経験を持つ、音声認識界のエキスパートである同社の共同創業者でCEOのNikola Mrkšić氏に話を聞いた。

長距離・高解像度で正確な識別が可能に 自動運転のミライに不可欠な車載ミリ波レーダー チップを開発するMetawave
関連記事
長距離・高解像度で正確な識別が可能に 自動運転のミライに不可欠な車載ミリ波レーダー チップを開発するMetawave
「長距離・高解像度で正確な識別が可能に 自動運転のミライに不可欠な車載ミリ波レーダー チップを開発するMetawave」の詳細を見る

利用シーンが拡大する音声アシスタントの「革命児」

――御社はどんなサービスを展開しているのでしょうか。

 PolyAIは、AIを用いた自動音声アシスタントによる、電話応対サービスを展開しています。英語や日本語をはじめ、100以上の言語に対応していて、ホテル業界などのサービス産業や飲食店などの外食業界での電話予約時、金融機関のサービスに関する質問受付のためのコールセンターなどさまざまな場面で使用されています。

 PolyAIの特長は、当社がUniversity of Cambridgeで開発したAIにより、「人間と遜色ない会話」を展開できる点にあります。あらゆる言語、あらゆる訛りを理解するほか、会話のパターンに応じて人間のようにスムーズな返答を、会話の始まりから終わりまで展開できるのです。

Nikola Mrkšić
Co-Founder & CEO
University of Cambridgeにて博士号を取得 ( 機械学習 / 自然言語処理) 。自己学習対話APIを開発したスタートアップVocalIQ (Apple買収) で勤務後、Appleで機械学習リサーチャーを務める。2017年、PolyAIを共同設立しCEOに就任。

 現在、多くの企業が人材不足とコスト削減の観点から、自動音声アシスタントを開発・強化しています。これは、コロナ禍であらゆる産業のDXが進み、人の手を必要としない顧客向けサービスのニーズが高まっているためです。特に、アメリカのサービス産業やコールセンターでは、メールなどの文章よりも、電話をはじめとした音声によるサービスが好まれていることもあり、この分野の進化が期待されているのです。

 しかし、人間の音声の認識の仕方はとても複雑で、自動音声の会話の中の5%が「人間らしくない」と判明すれば、顧客体験の質は著しく低下してしまいます。コールセンターやサービス産業では「顧客満足度」がすべてといっても過言ではありません。その良し悪しが、企業の収益性とダイレクトにつながっているのです。ですから、中途半端な自動音声サービスを導入すると、逆にリスクになってしまう可能性もあるのです。

 そんな中、PolyAIは一聴してもらえれば分かりますが、何十億パターンの会話を用意していて、顧客の発言の要旨を会話の文脈のなかで捉えられます。また、会話の過程で顧客が発した日付や名前、電話番号などの重要な情報も瞬時に取得できるのです。つまりPolyAIは、「人間と話しているような音声をAIが作成する」自動音声業界で革命的なイノベーションを起こしたサービスだと言えるでしょう。

 現在、FedExやMarriottなどのグローバル企業をはじめ、保険会社や銀行などの金融機関、通信、自動車業界、政府機関など、PolyAIはさまざまなセクターで利用されています。使用されるシーンは、例えばホテルのフロント、レセプションでの20秒ほどの会話から、宿泊予約の電話まで、短い時間の会話から一定の長い時間まで対応しています。また、料金体系も固定費は無料で、通話時間による従来課金式であるなど、コスト・パフォーマンスにも優れています。

――人間と遜色ない会話を展開できる、PolyAIの技術的な優位性はどこにあるのでしょうか。

 まず、AIが顧客の発言を聞き、その「意図」を読み取ります。これは、自動音声認識(ASR)を搭載したPolyAI独自の人工知能の自然言語理解(Natural Language Understanding)が、アクセントや背景音、通信の乱れなどを除去し、発言のメイン部分だけを理解することで可能になっています。

 さらに、この人工知能には、TwitterやQuora、RedditといったSNSや映画字幕から何十億もの人間の会話を記録したビッグデータをあらかじめ学習させています。非常に多くのパターンの人間のコミュニケーションを理解させているのです。事前訓練がなされているため、顧客はトレーニングデータを入力する必要がなく、平均してわずか2週間でPolyAIを現場に導入できます。

 当社のビッグデータにはもう一つ利点があります。もし、これまで学習していないタイプの会話が入ってきたとしても、瞬時にそのデータを入力し、次回からの「返答リスト」に記載することが可能です。PolyAIの人工知能は、人間が学習する方法に似ているのです。

日本の金融機関とも協働 形にとらわれないパートナーシップを模索

――既に日本企業の顧客も獲得しているのでしょうか。

 はい。2022年初頭から、日本の金融サービス系の顧客と協働しています。ホテルなどホスピタリティ業界はこれからです。私は、PolyAIが日本で受け入れられる素地は大きいと考えています。日本はデジタル社会ですが、自動チャットと比較すると、音声アシスタントはまだ広がりきっていない市場であることが魅力的です。

 また、日本人は議論よりも、比較的穏やかな会話を好むことも、我々にとっては利点でしょう。感情的なコミュニケーションよりも、要点を把握する会話においては自動音声アシスタントがその威力を発揮するのです。

――日本の大企業との提携を考えた場合、どのような形態のパートナーシップが理想でしょうか。

 代理店契約や共同開発、合弁事業など、さまざまな形態のパートナーシップに対してオープンでいたいと考えています。なぜなら、ヨーロッパやアメリカでは、PolyAIはホテルの予約のような電話応対サービスや、金融機関のバックエンドの応対を外部コールセンターに委託する代わりに当社のサービスを使う場合など、さまざまな場面に対応可能だからです。PolyAIは汎用性の高い音声アシスタントであるため、そのポテンシャルをフルに使える形態のパートナーシップを構築したいと考えています。

――御社は累計6600万ドルの資金調達に成功しています。資金の使い道を教えてください。

 多くのスタートアップのように、既存市場の深耕と、プロダクトの技術開発への投資に資金を充てます。より多くの場面でPolyAIを展開できるようにしていきたいですね。事実、2022年には当社は対前年比で売上高約5倍を記録しているなど、ビジネスは順調です。

PolyAIが考える音声アシスタントの未来

――あらためてですが、ケンブリッジ大学での研究を経て、2017年に創業した経緯について教えてください。

 私はUniversity of Cambirdgeで自然言語分野の博士課程に在籍中、音声認識の分野の第一人者であるSteve Young氏の研究室で研究に取り組み、200以上の論文を出しました。Ph.D取得後は、Young氏が立ち上げたVocalIQ(2015年にAppleに売却)で働くなど、私自身のキャリアを通して音声認識と向き合ってきました。アカデミアやAppleなどの大企業、スタートアップとさまざまな組織で働く中で、確かなビジョンをもった小さな会社で働くのが、自分の性に合っていることに気づいたのです。それが、PolyAIを創業した理由です。

――音声アシスタントの未来は、どのようになっていくとお考えですか?

 多くの企業がさまざまな場面で音声アシスタントを利用するようになり、日常に溶け込んでいくでしょう。ビジネスにおいても、その導入は収益を左右するカギとなるのではないでしょうか。

 ご存じの通り、先進国では人口減社会が定着し、労働力は不足します。企業は顧客体験向上のためには、コールセンターで新人を雇い、人材育成を行うよりも、精度の高いAIによる音声アシスタントを導入する方が良いと考えるようになるでしょう。すでに、情報を集積し、記憶するといったエリアに関してはAIの方が人間よりも優れているからです。

 コールセンターの業務は、顧客の反応を知るという意味でとても重要ですが、業務量が膨大で、多くのリソースが割かれているのが現実です。これを、PolyAIをはじめとしたAI音声アシスタントに置き換えることで、人間は従来よりももっとクリエイティブな仕事に集中できるようになると思います。

――最後に、御社の長期的な目標を教えてください。

 我々の日常の中に確実に溶け込むであろう音声アシスタントを、より愛され、より信頼されるものにしたいですね。仮にみなさんに「今から50年後、音声アシスタントは社会で当たり前のように使われると思いますか?」と質問したとすれば、みなさん「イエス」と答えるでしょう。PolyAIは、「50年後」とは言わずに「5年後」に、音声アシスタントが日常にありふれたものになる光景をつくりたいですね。

あらゆる業種の事業開発に関連する、「通信」テックトレンドレポート
関連記事
あらゆる業種の事業開発に関連する、「通信」テックトレンドレポート
「あらゆる業種の事業開発に関連する、「通信」テックトレンドレポート」の詳細を見る

音声認識に異音検知 産総研発の「音」に特化したAI技術で多様な課題解決に挑む Hmcomm
関連記事
音声認識に異音検知 産総研発の「音」に特化したAI技術で多様な課題解決に挑む Hmcomm
「音声認識に異音検知 産総研発の「音」に特化したAI技術で多様な課題解決に挑む Hmcomm」の詳細を見る



RELATED ARTICLES
AI×ボイス×クラウド、強さの秘密は「技術の掛け算」 音声解析AI電話のRevComm
AI×ボイス×クラウド、強さの秘密は「技術の掛け算」 音声解析AI電話のRevComm
AI×ボイス×クラウド、強さの秘密は「技術の掛け算」 音声解析AI電話のRevCommの詳細を見る
「富岳」の理研もシステム採用、企業のAI活用と機密性を両立 SambaNova Systems
「富岳」の理研もシステム採用、企業のAI活用と機密性を両立 SambaNova Systems
「富岳」の理研もシステム採用、企業のAI活用と機密性を両立 SambaNova Systemsの詳細を見る
「京都発、テクノロジー×医療・ヘルスケア」 学術都市が生んだスタートアップ
「京都発、テクノロジー×医療・ヘルスケア」 学術都市が生んだスタートアップ
「京都発、テクノロジー×医療・ヘルスケア」 学術都市が生んだスタートアップの詳細を見る
Apple Vision Pro、現場での活用術を探れ │ TECHBLITZが選ぶスタートアップ5選
Apple Vision Pro、現場での活用術を探れ │ TECHBLITZが選ぶスタートアップ5選
Apple Vision Pro、現場での活用術を探れ │ TECHBLITZが選ぶスタートアップ5選の詳細を見る
AIはなぜ今転換点を迎えたのか?2024年の生成AIトレンドは? シリコンバレー拠点のAI専門キャピタリストが解説
AIはなぜ今転換点を迎えたのか?2024年の生成AIトレンドは? シリコンバレー拠点のAI専門キャピタリストが解説
AIはなぜ今転換点を迎えたのか?2024年の生成AIトレンドは? シリコンバレー拠点のAI専門キャピタリストが解説の詳細を見る
AIには再現できない「意見」や「アイデア」を数値化 VISITS Technologies
AIには再現できない「意見」や「アイデア」を数値化 VISITS Technologies
AIには再現できない「意見」や「アイデア」を数値化 VISITS Technologiesの詳細を見る

NEWS LETTER

世界のイノベーション、イベント、
お役立ち情報をお届け
「グローバルオープンイノベーションインサイト」
もプレゼント



Copyright © 2024 Ishin Co., Ltd. All Rights Reserved.