「誰が、どこから話したか」を聞き分ける　音声AIの“限界”を突破するイスラエル発Kardome

スタートアップインタビュー

森英信

2026.03.24 Tue

騒音や複数の話者が入り混じる環境でも、「誰が、どこから話したか」を正確に聞き分ける──。イスラエル発スタートアップのKardome（カルドーム）は、人間の空間聴覚に着想を得た独自の音声AI技術で、音声インターフェースの限界を打ち破ろうとしている。

同社が開発するオンデバイス型ソフトウェアは、車載インフォテインメントや家電、ウェアラブル機器などの既存マイクシステムと統合可能だ。騒がしい車内でも各座席の音声コマンドを正確に識別でき、すでに1,200万台以上のデバイスに実装されている。韓国・現代グループやパナソニックグループなど大手企業との協業も広がりを見せる。

音声UIが「聞こえるか」から「理解できるか」の段階へ進む中、カルドームはどのような未来を描いているのか。共同創業者兼CEOのダニ・チェルカスキー（Dani Cherkassky）氏に聞いた。

目次
・LLMの「3つの限界」を突破する音声AI
・音声AI分野で博士号を取得した経歴
・アマゾンやグーグルの音声AIは「協業関係」
・今年のCESの「最もクールな技術」に
・日本市場への本格参入と「音声OS」のビジョン

LLMの「3つの限界」を突破する音声AI

―音声AIは急速に進化していますが、現時点ではどこに課題が残っているのでしょうか。

　製品の説明に入る前に、まず私たちが認識している課題からお話しさせてください。

　現在、LLM（大規模言語モデル）は広く普及し、多くの人が日常的に利用しています。一方で、いくつかの本質的な制約も存在します。

　1つ目は、私たちが「文脈的盲目性」と呼んでいるものです。LLMはテキスト処理においては非常に高い性能を発揮しますが、現実世界の理解、いわゆる“世界モデル”にはまだ到達していません。周囲で何が起きているかといった物理的な文脈を持たないのです。

　2つ目は「感覚的空白」です。現在のAIは人間のように音を“知覚”することができません。音声そのものを理解しているわけではなく、あくまでテキスト化されたデータとして処理しているに過ぎません。

　そして3つ目が、「ウェイクアップ・ギャップ」です。これは最も大きな制約と言えます。どれだけ高度なLLMであっても、起動する前の環境については何も知りません。「Hey Alexa」「Hey Siri」と呼びかけられるまで、その場の状況を把握できないのです。

　この背景には、LLMがクラウド上で動作しているという前提があります。クラウドLLMを24時間365日、常時リスニング状態で稼働させることは現実的ではありません。プライバシー、コスト、エネルギーのいずれの観点でも成立しないためです。仮にすべてのAlexaデバイスを常時リスニングにした場合、ビジネスとして成り立たないでしょう。

Dani Cherkassky

Kardome

Co-Founder & CEO

イスラエルのテルアビブ大学で、電気電子工学修士課程を修了。ノイズ抑制技術企業SilentiumでCTOを務めた後、バル＝イラン大学で信号処理を専門とする博士号を取得。オーディオ・音響分野で20年以上の経験を持つ。2019年にKardomeを共同創業し、空間聴覚技術を活用した次世代音声インターフェースの実用化を牽引している。

―カルドームはどのようにこの課題を解決するのですか。

　私たちは、人間の認知モデルに着想を得て、音声AIのアーキテクチャそのものを再設計しました。ベースにしているのは、ノーベル経済学賞受賞者のダニエル・カーネマンが提唱した「システム1」と「システム2」の概念です。

　システム1は、直感的で高速な思考です。低コストで常時稼働し、シンプルな処理を担います。一方、システム2は論理的で低速な思考で、必要なときだけ起動し、より高度でエネルギー消費の大きい処理を行います。人間も日常のほとんどをシステム1で処理し、システム2を使うのは限定的です。

　カルドームが開発しているのは、このシステム1に相当するオンデバイス型ソフトウェアです。クラウドに依存せず、エッジ側で常時稼働しながら、3次元空間を認識し、話者を識別し、会話の文脈を理解します。

　たとえば車やロボットに搭載した場合、「お茶を持ってきて」といった指示はすべてデバイス上で即時に処理されます。一方で、より高度な推論が必要な場合のみ、クラウド上のChatGPTやGeminiといったLLMを呼び出します。

　常時稼働する軽量なシステム1と、必要なときだけ起動する高度なシステム2。この二層構造こそが、私たちの製品の中核です。

Image : Kardome

音声AI分野で博士号を取得した経歴

―これまでの経歴と、カルドーム創業の経緯を教えてください。

　電気工学を専門に学び、オーディオや音響分野で約20年のキャリアを積んできました。以前在籍していたノイズ抑制技術企業サイレンティウム（Silentium）で、共同創業者であるCTOのアロン・スラパックと出会っています。同社が安定成長の軌道に乗り、自走できる段階に達した後、私はアカデミアに戻り、音声AIの分野で博士号を取得しました。

　修了後、アロンと「次に解くべき面白い課題は何か」をテーマに議論を重ねました。当時はアマゾンの「Alexa」が登場し、音声AIが急速に進化し始めたタイミングです。テーブルに置いたデバイスに話しかけるだけで、静かな環境であれば高い精度で応答する。その体験には大きな可能性を感じました。

　しかし一方で、騒がしい環境では性能が大きく低下してしまいます。最先端のディープニューラルネットワークを用いても、人間のように音声を聞き分けることはできませんでした。環境への適応が不十分で、聞こえる時もあれば聞こえない時もある。便利なガジェットではあっても、信頼できるインターフェースとは言えない状態だったのです。

　こうした課題への強い問題意識から、カルドームは2019年に誕生しました。数式とデジタル信号処理を用いてプロトタイプを開発し、関係者に見せたところ大きな手応えを得ました。そこから、趣味のプロジェクトを本格的な事業へと転換する決断をしました。

―創業後の事業展開について教えてください。

　2020年の韓国・現代自動車主導のシードラウンドで200万ドルを調達し、ビジョンの実現に向けたエンジニアチームを立ち上げました。この出資を契機に韓国市場を軸とした展開が始まり、LG、SK、KTといった韓国を代表する企業を顧客として獲得しています。

　2024年末には販売パイプラインが約8,000万ドル規模にまで拡大しましたが、それを実行するためのリソースが不足するという課題に直面しました。そこで追加の資金調達を決断し、コリア・インベストメント・パートナーズをリードに1,500万ドルのシリーズAを完了しています。

　現在は約45名体制で、その大半がエンジニアです。コアとなる研究開発はイスラエルに置きつつ、韓国・ソウルにはビジネスと技術の両面を担う拠点を設置しました。加えて、米国と日本への展開も進めており、日本にはカントリーマネージャーを配置しています。

アマゾンやグーグルの音声AIは「協業関係」

―この分野に競合はいますか。

　音声AI領域には、サウンドハウンド（SoundHound）やニュアンス（Nuance、現マイクロソフト傘下）、自動車業界向けのセレンス（Cerence）、iFLYTEKなど複数の有力プレイヤーが存在します。センサリー（Sensory）のような比較的小規模な企業も含め、競争は活発です。ただし、カルドームのアプローチはこれらの企業とは一線を画しています。

　アマゾンやグーグルも自社で音声AIスタックを開発していますが、私たちとは競合というより協業関係にあります。実際、アマゾンはカルドームの出資者の一社でもあります。

　私たちの独自性は、クラウドに依存せず、オンデバイスで3次元空間をリアルタイムに認識し、複数の話者を同時に識別できる点にあります。騒がしい環境下で「誰が、どこから話したか」を特定する技術は、いまだ多くの企業が実現できていない領域です。

―現在の主な導入分野を教えてください。

　現在は大きく2つの領域で展開しています。

　1つ目がスマートホームです。スマートTVやセットトップボックスなどの家庭用デバイスに技術を提供しており、すでに1,200万台以上に実装されています。特に韓国市場での導入が進んでおり、LGやSKとの協業を通じて普及が拡大しています。

　2つ目は自動車領域です。車載インフォテインメントシステムに空間聴覚技術を組み込み、騒がしい車内でも各座席の乗員の声を正確に識別できる仕組みを提供しています。このほか、会議の書き起こしなど、エンタープライズ領域でも実証的な取り組みを進めています。

　私は、人間とコンピューティングデバイスのインターフェースは、最終的に音声へと収束すると考えています。スマートフォンやロボット、ウェアラブル端末など、あらゆるデバイスにおいて、音声は最も自然で効率的なコミュニケーション手段です。機械が人間の声を、人間同士と同じレベルで理解できるようになったとき、音声はインターフェースの主役になるはずです。

Image : Kardome HP

今年のCESの「最もクールな技術」に

―CES 2026に出展されましたが、反響はいかがでしたか。

　CES 2026では、車内のすべての乗員の声を常時取得し、自動車に関連する文脈にのみ応答するシステムを実演しました。来場者やパートナー候補企業からは、非常にポジティブな反応を得ています。

　個人的にも、今回のCESは特別なものとなりました。私は10年以上にわたりほぼ毎年CESに参加してきましたが、2026年は格別です。カルドームの技術が、CES公式ホストによる「Coolest Tech at CES 2026」に選出されたのです。チームが積み重ねてきた取り組みが形となって評価された瞬間であり、大きな手応えを感じています。

―現在の事業の成長状況を教えてください。

　現在は、アーリーグロースのフェーズにあります。2024年のシリーズA調達以前は、構想やビジョンの側面が強い段階でしたが、2025年に入って状況は大きく変わりました。この1年間で約1,000万台のデバイスへの新規導入が進んでいます。

　自動車領域では、4年間で2,000万台規模の大型契約を獲得しました。実車への搭載は今後6ヶ月以内に開始される見込みです。また、日本最大級の自動車メーカーとも長期的な協業プロジェクトを進めており、2026年中の具体的な成果を見込んでいます。

　売上面では、2025年に前年比で約3倍の成長を達成し、約300万ドルで着地しました。2026年は少なくとも倍増、可能であれば3倍の成長を目指しています。事業計画を実行するための資金も十分に確保できており、成長に向けた準備は整っています。

【現地取材】CES 2026の基調講演を読み解く　「AIネイティブ時代」の幕開けが静かに宣言された

「【現地取材】CES 2026の基調講演を読み解く　「AIネイティブ時代」の幕開けが静かに宣言された」の詳細を見る

日本市場への本格参入と「音声OS」のビジョン

―日本企業との協業についてはどのようにお考えですか。

　日本では、まず自動車分野が最も重要な領域だと考えています。すでに複数の自動車メーカーと協議を進めており、一部は具体的な段階に入っています。パナソニックの自動車機器部門パナソニックオートモーティブシステムズとの協業も進行中です。

　加えて注目しているのがロボティクス分野です。人型ロボットに限らず、すでに実用化されている産業用ロボットにも大きな可能性があります。現場で人とロボットがコミュニケーションを取る場面は多く、そこに私たちの技術が活きると考えています。

　さらに、大手通信・ソリューション企業との連携も進めており、2026年4月には再び日本を訪問し、具体的なデモンストレーションを実施する予定です。

　日本のベンチャーキャピタル数社から出資も受けており、カントリーマネージャーも配置しています。事業はまだ立ち上げ段階ではありますが、着実に基盤は整いつつあります。ご関心のある企業には、ぜひお声がけいただければと思います。

―5〜10年後、カルドームが目指す世界を教えてください。

　私たちは、音声がインターフェースの主役になると確信しています。将来的には、コンピュータにも自然に声で話しかけ、ロボットやウェアラブルデバイスとも音声でやり取りするのが当たり前になるでしょう。

　もちろん、タッチスクリーンやボタンが完全になくなるわけではありません。しかし、その役割は徐々に縮小していくはずです。

　カルドームが最終的に目指すのは「音声ベースのOS」です。あらゆるコンピューティングデバイスを音声で操作するための基盤ソフトウェアを構築していきます。

―日本の将来的なパートナー・潜在顧客へメッセージをお願いします。

　私はこれまで、イスラエル企業と日本・韓国企業の協業に長年携わってきました。その中で、両者の間には明確なシナジーがあり、独自の価値が生まれると実感しています。

　イスラエル企業はイノベーションやコンセプト創出に強みを持つ一方で、継続的な改善や量産化は必ずしも得意ではありません。一方で、日本企業はまさにその領域において卓越した力を持っています。

　互いの強みを掛け合わせることで、大きな可能性が生まれるはずです。何かアイデアをお持ちの方は、ぜひ気軽にお声がけください。私たちは常にオープンです。