ソフト開発に欠かせない「架空のデータセット」を生成　Tonic.ai

スタートアップインタビュー

森英信

2024.07.10 Wed

ソフトウェアの開発・改善に重要なのがテストのプロセスで、そのためには実際の運用時を想定したデータが必要だ。しかし、本物のデータをテストに利用するのは機密情報やプライバシー漏えいの懸念もあり、できる限り控えたい。Tonic.ai（本社：米国カリフォルニア州、以下Tonic）は、テストに必要な架空のデータセットを生成するプラットフォームを提供する企業だ。大切なのは、この架空のデータセットが高品質であること。これにより、顧客の信頼を損なわず、組織のポリシーに違反しない安全なデータを使ってテストを行うことができる。共同創業者でCEOのIan Coe氏に、創業の経緯や業況を聞いた。

目次
・企業データの扱いが直面する問題
・Tonicはどんなプロダクトなのか？
・利用のメリット、最大の差別化要因は
・日本企業との提携方法を模索中
・プライベートデータに革新の種がある

企業データの扱いが直面する問題

―これまでのキャリアや創業の経緯について教えてください。

　Tonicのアイデアは、私と他の共同創業者（Karl Hanson氏、Andrew Colombi氏、Adam Kamor氏）が以前勤務していたPalantir TechnologiesやTableau Softwareで直面した課題から生まれました。データを扱うときに、常にセキュリティやコンプライアンスの問題があったのです。

　私は大手銀行のソリューションを実装しようとしていた際、多くのエラーが発生して困っていました。そのエラーを外部の開発者に送り「どうやって修正すればいいか」と尋ねたところ、彼らは「データを送ってくれないと分からない」と言いました。しかし、銀行が扱うデータを外部に送ることはできませんでした。

　そこで、私たちは扱うデータにそっくりな架空のデータを作ることにしたのですが、手作業で行ったため数週間かかり、とても大変でした。しかし、これによって外部の開発者とより良い対話ができ、バグ修正だけでなく将来の製品開発にも役立ったのです。プロジェクトの生産性を向上したこの経験から、特にソフトウェア開発のためにこのプロセスを迅速に行えるようにすることが重要だと感じ、創業したのです。

Tonicはどんなプロダクトなのか？

―テスト用のダミーデータを生成するのですね。プロダクトについて詳しく教えてください。

　当社のプロダクトは、データ保護のためのETL（Extract、Transform、Load）や、生成AI向けのデータ損失防止（DLP）のようなものです。私たちは基本的に機密データ、例えば本番データに接続し、そのデータを変換して新しいインスタンスを作成します。このインスタンスは、機械学習やソフトウェア開発の環境で使用できます。概念的にはETL製品に近いですが、機能や用途は異なります。

　私たちが主に対象とするのは、多くのデータシステムを持つ企業や金融サービスの企業です。これらの企業は、Oracle、PostgreSQL、Snowflakeなどの複数のデータシステムを同期させたいと考えています。Tonicの価値の一つは、これらすべてのシステムに対応し、一貫性のある出力を提供できることです。データの関係、値や統計など、重要な点で一貫した出力を生成します。

　私たちは多くの企業に対して、ソフトウェア開発・テスト環境の構築を行っています。これにより、企業は本番データに近い環境で作業することができますが、実際には機密情報を含まないデータを使用できます。特に、欧州連合（EU）のGDPR（一般データ保護規則）への準拠やサービスの統制を保証するSOC2、その他の規制に対応しようとしている企業にとって大きなメリットがあります。

　日本にも消費者保護やデータ保護の制度があると思います。Tonicを利用することで企業は機密データを持たずにそのデータの価値を活用し、活発な開発作業を行うことができます。私たちはeBayやFlexport、NHLとも協力しています。また連邦機関とも取引があり、非常に機密性の高いデータを扱っています。

　収益モデルについては、データのサイズに応じてライセンス料を設定しています。つまり、Tonicに接続するデータが多いほど料金が高くなりますが、これが顧客にとっての価値の指標だと考えています。例えば、eBayのように8ペタバイトのデータを接続している大企業もあります。また、中小企業のお客様もおり、より小規模なデータを扱う場合もあります。非常に多くのデータを持つ小規模な顧客や、データ量が少ない大規模な顧客もいます。

Ian Coe

Tonic.ai

Co-Founder & CEO

Stanford Universityで機械工学の学士号と修士号を取得し、卒業後は構造工学を専門とする企業や資産運用企業で研究を続けた。その後、ソフトウェア企業のPalantir TechnologiesやTableau Softwareで事業開発担当やプロダクトマネージャーを務め、2017年にTonic.aiを共同創業しCEOに就任。

利用のメリット、最大の差別化要因は

―Tonicを利用するメリットについてもう少し詳しくお話しいただけますか。

　顧客にとっての最大のメリットは、効率が大幅に向上することです。私たちのツールを使わない場合、機密データを開発者やデータサイエンティストが直接使用することになりますが、場合によってはセキュリティ上の問題が生じます。

　別の方法として、厳格なアクセス制御を行うとします。例えば、特定の小グループのみが制限されたシステムを通じてデータにアクセスできるようにするという方法です。しかし、これは非常に非効率的で、多くのプロセスを経てデータにアクセスする必要があり、システムも制約されることが多いのです。開発やデータサイエンスチームの効率を大幅に低下させます。

　第3の選択肢として、自社専用の解決策を構築することがあります。多くの企業がこの方法を試みていますが、Tonicを導入すれば、データの質が大幅に向上するとともに、自社システムやインフラの管理をしなくても済むという利点があります。

　Tonicを使えば、本番さながらの複雑さを保ちながら、セキュリティの懸念を抱えずに高品質なデータを利用できます。自社で解決策を構築した顧客では、低品質のデータが問題となることが多く、セキュリティを重視するあまり、データの価値が失われがちです。その結果、テスト環境で通ったものが本番環境で失敗し、多くの時間をバグ修正に費やすことになります。

―この分野での競合はいますか。もし存在するなら競合との違いを教えてください。

　エンタープライズ分野でいくつかの競合他社が存在します。顧客が私たちを選ぶ主な理由は、ソリューションに到達するまでの速さと、プロフェッショナルサービスの負担が非常に少ないことです。私たちが開発したモデルのおかげで、全てを迅速にセットアップできるため、価値を実感するまでの時間が大きな違いとなっています。

　また、私たちの最大の差別化要因としてデータ統合の強さもあります。私たちは開発者をターゲットにしたことで、非常に堅牢なデータプラットフォームを構築しました。そのため、総所有コストやDevOpsやMLOpsチームが使いやすくなっています。競合のスタートアップ企業はデータサイエンティストを中心に据えていることが多いため、データ接続の仕組みやインフラ面などの問題に焦点を当てていません。

―生成AIが大きく話題になっていますが、同時にその安全性も指摘されています。AI領域についてはどのような貢献をしていますか。

　2023年に「Tonic Textual」というプロダクトを発売しました。これは特にフリーテキストに対する顧客の需要が急速に高まりに応えたものです。Tonic Textualは、顧客に対していくつかの機能を提供します。まず、フリーテキストの要約と合成を行い、敏感な情報や保護された情報を特定してマスクしたり、独自の大規模言語モデル（LLM）を使ってテキスト全体を合成することができます。この機能により、より広範なコンテキストを考慮してテキストを置き換えることができます。

　さらに、私たちの製品はデータ統合においても多くの時間を節約します。多くの顧客は膨大なデータをさまざまな形式で持っており、PDFや画像、Word文書などに散在しています。私たちはこれらすべてを統合し、ベクターデータベースに簡単に取り込むことができ、保護も行います。これにより、モデルのトレーニングが容易になり、RAGシステム（LLMによるテキスト生成に外部情報の検索を組み合わせ精度を向上させる技術）への取り込みやファインチューニングも簡単になり、同時にコンプライアンス違反の懸念を減らすことができます。

日本企業との提携方法を模索中

―これまでの業況や、今後の1〜2年のマイルストーンについて教えてください。

　特にDevOps分野で非常に速いペースで成長しています。さらに、生成AIプロダクトを立ち上げたことで、さらに成長が促進されています。私たちは現在、業界や大陸を超えて数百の顧客と取引しています。アジア、ヨーロッパ、そして多くは北アメリカに顧客がいますが、現在ではグローバルな展開をしています。

　今後1～2年で私たちが本当に目指しているのは、広範な顧客のエンドツーエンドのデータプラットフォームのニーズに対応することです。構造化データを保護し、テスト環境を支援すること、非構造化データを保護し、データの取り込みを支援すること、そしてすべてのデータ管理を支援することです。2023年は、トレーニングワークフローにデータを統合するための製品と、テストおよび開発ワークフローのインフラストラクチャを管理するための製品をリリースしました。

　最終的な目標は、顧客がデータの安全性やデータ管理の煩雑さを気にせずにデータを扱えるようにすることです。もちろん、たくさんの課題があります。まず、優秀な人材を採用することは常に難しいです。また、顧客から多くの関心を寄せられている中で、最も重要で価値の高い機能を見極めることも大切だと感じています。さらに、市場で最高品質のソリューションを提供するために、常に高い品質基準を維持することも必要です。

―日本企業とのパートナーシップについてはどのようなお考えをお持ちですか。

　日本企業との提携方法を探っている最中です。数年前に東京と京都を訪れ、とても気に入りましたので、また訪れる機会があると嬉しいです。金融サービス系の企業に利用していただくには、そうした企業と付き合いのあるパートナーがいるといいですね。最高品質のサポートとソリューションの統合を提供できるパートナーと協力したいと考えています。

　Tonicは日本語を扱う既存顧客のデータに対応しています。Tonic Textualはモデルの追加が必要になるかもしれませんが、言語の追加は比較的容易です。モデルの微調整を行うことで、製品の機能はそのままに、高品質な結果を得ることができます。

プライベートデータに革新の種がある

―長期的なビジョンや、将来の顧客やパートナーへのメッセージをお聞かせください。

　Tonicの設立目的は、データの取り扱いを簡単にし、データを保護し、プライバシーと利便性のトレードオフを大幅に減少させることです。AIを活用したい顧客は、高品質なテストデータや開発データを使用して最高のAIモデルを構築することができ、データをトレーニング前に編集する必要がなくなります。また、モデルが個人情報や機密情報を漏洩することを心配する必要もありません。

　現在の多くのAIモデルはすでに公開されているデータを大量に使用しているため、次のイノベーションはプライベートデータから生まれる可能性が高いと考えられています。過去には、AIモデルがセンシティブなトレーニングデータを漏洩した不幸な事例があり、多くの顧客はこれが起こらないように多大な時間を費やしています。Tonicは、プライベートデータを安全に活用できるようにすることで、顧客の懸念を解消します。

　将来のパートナーやお客様にお伝えしたいことは、データプライバシーに関するご質問や、RAGシステムの導入やトレーニングに関するお悩み、データの取り込みなどの問題についてご質問がある場合は、ぜひお問い合わせいただきたいということです。私たちは喜んでお話しします。この分野は新しいため、長期的な関係を築いていくことを目指しており、常にお話をお聞きしながらビジネス関係を発展させていきたいと考えています。