AIのトレーニングデータ、「安さ」と「安全」を両立　Granica

スタートアップインタビュー

森英信

2024.09.19 Thu

Granica（本社：米国カリフォルニア州）は、ペタバイトスケールの大規模データセットを効率的に処理し、AIと機械学習の効果を最大化するプラットフォームを提供している。データ圧縮、機密性、コンプライアンスの3つの分野に焦点を当て、企業がAIの価値を安全かつ効率よく実現できるよう支援する。共同創業者でCEOのRahul Ponnala氏に、同社の強みと今後の展望、日本市場への期待を聞いた。

目次
・「AIのためのデータ」に特化したビジネス
・テック系スタートアップや大企業が顧客
・安全、効果的、効率的なAIプラットフォームに

「AIのためのデータ」に特化したビジネス

―ご自身の経歴と創業のきっかけを教えてください。

　私は数学者として学び、過去15年間は機械学習、人工知能（AI）、データ圧縮、暗号、分散コンピューティングを専門とするデータインフラ分野で仕事をしてきました。大学院（インディアナ州立大学）での私の論文は主に情報検索システムに関するもので、画像の品質に悪影響を与えることなく、画像の真正性を保護するためにウォーターマークを挿入する方法を解明しようとするものでした。

　今でも同じ情報検索システムの問題に取り組んでいますが、問題の規模は文字通り「1兆倍」に膨れ上がっています。17年前はキロバイト空間で作業していましたが、今はエクサバイト（10億ギガバイト）規模で作業しています。つまり、非常に大きな規模になっているのです。

　Granicaは私の経歴と、AIの進歩の分野で継続的に見てきた問題から始まりました。AIは主に3つの要素があります。1つ目はモデルで、より大きく、より良いモデルが必要です。2つ目は計算能力で、多くのGPUやGPUコアが必要です。3つ目はデータです。

　モデルは汎用的なものがあり、メタの大規模言語モデル（LLM）「Llama」などのオープンソースのLLMなら自分の環境にデプロイして、特定のユースケースに合わせて調整できます。モデルを選び、GPUやコンピューティングリソースを調達することはできますが、データは企業ごとに異なり、非常に異質です。これが問題を大きく、複雑にしています。Granicaでは、この問題をシンプルにしようとしているのです。

　私たちは研究所とエンジニアリング会社として構成されており、研究チームはスタンフォード大学やGoogle DeepMind、Apple Researchなどから集まった博士号取得者で、データとAI分野の基礎研究の境界を押し広げる作業をしています。そして、製品開発とエンジニアリングチームが、開発した研究を顧客が使用できる拡張性のある製品に変換しています。

　Granicaは、新しい研究と拡張性のあるエンジニアリングの融合として構築されており、AIにおけるデータが根本的なボトルネックであると考える世界でAIのイノベーションと進歩を推進することを目指しているのです。

Rahul Ponnala

Granica

Co-Founder & CEO

ネルー工科大学で電子通信工学の学士号を取得し、インディアナ州立大学で理学・数学・コンピューターサイエンスの修士号を取得した。2009年〜2017年に複数のスタートアップでエンジニアリング職に就き、技術の習得やリーダーシップなど幅広い経験を積む。2017年にはPure Storageにエンジニアとして勤務し、2019年には自らGranicaを共同創業してCEOに就任。また、エンジェル投資家やBritish Computer Societyのフェロー、FinOps Foundationの運営委員会メンバーとしても活躍。

―御社のプロダクトについて教えてください。

　現在3つの分野、データ圧縮、データの機密性、そしてコンプライアンスに焦点を当てています。AIのためのデータにおける圧縮とは、重要な情報を失うことなくデータセットのサイズを縮小するプロセスを指します。これは、ロスレスデータ圧縮と呼ばれます。効率的な圧縮方法により、データ処理が高速化され、ストレージコストが削減されます。これにより、大規模なAIと機械学習の計算がより実現可能で費用対効果の高いものになります。

　データの占有空間を最小限に抑えることで、企業や組織はAIモデルのパフォーマンスを最適化しながら、データの処理と保存のコストを削減できます。特に、大規模なデータセットや情報、非構造化データセットを扱う場合に効果的です。

　データの機密性は、主に機密情報を保護し、機密情報への不正アクセスや露出を防ぐと同時に、プライバシーを保護する機械学習を可能にする概念を指します。これには、堅牢なアクセス制御、暗号化メカニズム、データの匿名化方法の実装が含まれ、個人のプライバシーを侵害することなく、これらのデータセットをより安全な方法で使用できるようにします。また、AIのライフサイクル全体を通じてユーザーの信頼と整合性を維持します。

　コンプライアンスは、データの使用、処理、保存に関する法的規制と倫理基準を遵守する観点から重要です。これには、GDPR（EU一般データ保護規則）など、国・地域や業界における規制や、AIモデルが倫理的な境界内で操作されることを保証することが含まれます。コンプライアンスはブランドの整合性を維持することにも及びます。例えば、ある会社が、その会社独自の方法で顧客と対話するようなものです。通常のモデルは非常に一般的な出力を生成しますが、会社やブランドごとの体験をどのように区別するかは、われわれの製品に不可欠な要素です。外部の規制と社内やブランドのガイダンスとの両方に対して機能します。

　これらの3分野はすでに製品ラインの一部として立ち上げられています。そして、次の四半期には、4番目の分野として高度なデータキュレーションを立ち上げます。データキュレーションは主に、AIモデルのトレーニングに最も関連性が高く、有用で、高品質な情報のみが使用されることを保証するために、データの非常に綿密な選択、組織化、管理を含みます。

　AIの文脈では、われわれが先駆的に取り組んでいるこの高度なデータキュレーションは、ノイズの除去、バイアスの削減、AIの予測の精度を確保する上で非常に重要です。データを慎重にキュレーションすることで、組織はAI製品の全体的な効果を改善し、ユーザーにより信頼性の高い有意義な洞察を提供し、ビジネスと収益を成長させることができます。

テック系スタートアップや大企業が顧客

―ビジネスの収益モデルはどのような形ですか？

　われわれの収益は主に、顧客に提供する価値に基づいて得られています。われわれのプラットフォームを実際にデプロイすると、顧客がすぐに得られるものの1つがデータ圧縮です。先ほど述べたように、データ圧縮はストレージコストの削減、処理コストの削減につながります。さらに、機密性とコンプライアンス、データキュレーションも提供され、これらは実際にトップラインの成長に寄与します。

　企業について本当に考えると、企業は3つのことを気にします。日本だけでなく、オーストラリア、アメリカ、ヨーロッパのどの企業も、トップラインの収益を成長させること、ボトムラインのコストを使用すること、リスクを最小化する3つを考えています。Granicaが提供するデータプラットフォームは、これら3つのことに対処するために構築されています。われわれが顧客に課金する方法は、これら3つの視点に関して貢献している価値を測定し、そのインパクトの小さな部分を成果報酬としていただきます。

　データ圧縮の分野では、ストレージコストの削減量、AIモデルのパフォーマンスやデータパイプラインのパフォーマンスの向上量を測定し、それをドル単位で定量化し、その一部をROI分析の一部として取ります。同様に、機密性、コンプライアンス、データキュレーションの側面でも、ボトムラインの削減、またはボトムラインの増加、トップラインの増加、そしてリスクの最小化というこれら3つのことに取り組んでいます。

―どのような顧客がGranicaを使用していますか。

　Granicaは非常に大規模なデータセット、つまり非常に高いボリュームの大規模なデータセットを処理するように構築されています。われわれは通常、ペタバイトやエクサバイトの規模で運用しています。また、その範囲についても言えば、非構造化データ、半構造化データ、このような種類のデータセットがあり、このような規模は主にデータ駆動型の企業でのみ見られます。つまり、イノベーションに非常に真剣な組織です。そして、おもな顧客プロファイルとして、次の3つのセグメントがあります。

　1つ目はスタートアップ領域、テクノロジースタートアップ領域です。これらはやや成熟したスタートアップで、シリーズBやそれ以上、シリーズCやそれ以上の企業で、基本的にAI製品を構築し、それを主要な差別化要因として活用しています。2つ目はテクノロジー企業です。これらは上場企業や大規模なステージのテクノロジー企業で、SNSや動画配信などの企業です。3つ目はForbes Global 2000（Forbes誌が選ぶ世界の時価総額上位2000社）にリストされる規模の企業で、ソニー、パナソニック、日産自動車、Walmart、Targetなどの企業が含まれます。

―御社と同様のアプローチをしている競合他社について知りたいです。

　この分野には多くの企業が存在しますが、これをAIと機械学習のためのデータ管理レイヤーのようなものと考えてください。われわれの競合他社は通常、Scale AIのような企業です。また、パートナーでもありますが、SnowflakeやDatabricksのような企業も競合する領域があります。

　私たちの強みは主に4つの点にあります。1つ目は「規模」です。ペタバイトやエクサバイトのデータを扱え、そのような量のデータを非常に効果的かつ効率的な方法で処理できることが、当社のプラットフォームの核心です。2つ目は「セキュリティ」です。われわれは顧客の環境内で動作するプラットフォームを開発しており、データが顧客の環境を離れることはありません。これにより、自動的にコンプライアンスの保証、セキュリティの保証が提供され、顧客のセキュリティファイアウォール内で動作します。

　3つ目は「導入のしやすさ」です。われわれが顧客の環境内にデプロイする際に、非常に使いやすい方法で行えます。特別なトレーニングや何かを受ける必要はありません。非常に使いやすく、簡単に利用でき、継続的に価値を提供します。最後の1つは「対応範囲の広さ」です。構造化データ、非構造化データ、半構造化データセットなど、さまざまな種類のデータセットに対応できます。

―御社自体の成長を示す指標や、成長の背景について教えてください。

　2024年は昨年と比較して約10倍の成長を予測しています。この成長の理由はAIの活用が促進されていることと、データの扱いがAIのボトルネックになっていることが挙げられます。

　既存のAIモデルを選び、NVIDIAのGPUを購入することはできても、データを非常に安全で効果的、効率的な方法で使用する方法を見出す必要があります。つまり、データをAI用に準備することが、ほとんどの企業の最高情報責任者（CIO）や最高AI責任者にとってのニーズなのです。

―顧客はどのようにしてGranicaのサービスを知るのでしょうか。販売プロセスを教えてください。

　当社には営業チームがあります。そして多くのパートナーシップも活用しています。チャネルパートナーシップは重要な販売チャネルであり、重要な流通ネットワークです。また、大手企業との技術パートナーシップも行っています。たとえば、GoogleやDatabricksのパートナーでもあります。こうした技術パートナーシップによって、われわれのプロダクトの認知が進み、顧客はプラットフォームの価値をすぐに見極めることができます。

image: Granica

安全、効果的、効率的なAIプラットフォームに

―次のステップとして何を目指していますか。今後12〜24カ月で達成したいマイルストーンを教えてください。

　Granicaのミッションとビジョンは、AIを安全で効果的、効率的にするAIプラットフォームになることです。『SEE（Safe：安全、Effective：効果的、Efficient：効率的）』なAIを実現することが会社のビジョンです。そのために、新しい研究を通じて継続的に境界を押し広げています。われわれはトップカンファレンスで受賞歴のある論文を多数発表しており、内部で行った研究を公に活用いただいています。そして、その研究と新しい発見を拡張性のある製品に変換します。データがAIの根本的なボトルネックでなくなるよう境界を押し広げ続け、企業が非常に迅速に、そして安全で効果的、効率的な方法でAIの価値を実現できるよう支援します。現在我々はデータから始めていますが、会社の規模が拡大するにつれて、データを超えた領域にも進出していきたいと考えています。

　次の成長のための課題は3つあります。1つが、最高の人材を獲得し、そのメンバーが本当に夢とキャリアの野望を実現できる場所を確保することです。私はGranicaを、人々が人生最高の仕事をする場所にしたいと考えています。文化は、われわれが世界的なアイコニックな企業、長続きする企業を作る上で重要な側面です。これはわれわれが解決しなければならない重要な課題であり、人々がキャリアの野望を実現できる場所を作り続けることです。

　2つ目の課題はプロダクトの流通です。われわれの製品が企業のニーズに応え、ユーザーの手に非常に迅速に届くように、そして企業が我々のプラットフォームを採用し、非常に迅速に価値を得られるように、継続的に流通を拡大することです。これは我々の製品イノベーションを活用して実現します。

　最後最も重要なのはイノベーションです。AIのためのデータ空間で継続的にイノベーションを起こすことです。われわれは市場で最高のパフォーマンスを発揮するデータインフラストラクチャサービスと製品の会社になりたいと考えています。

―日本企業とパートナーシップを結びたいとお考えですか？もしそうなら、どのような関係が有益だと思われますか？

　はい、日本は非常に技術的に進んだ国です。日本の流通ネットワークを持つ企業とパートナーを組みたいと考えています。また日本では、製品が企業に価値をもたらせるよう的確に評価し、非常に緻密なフィードバックを提供してくれます。これは我々が非常に興味を持っていることです。Granicaは日本企業に多くの価値を提供でき、また同時に、多くのフィードバックを得ることで、会社自体が優れた製品を構築する恩恵を受けると考えています。

　TECHBLITZを通じて、データ駆動型で、AIを活用するための基盤としてデータを使用しようとしている企業と出会い、サポートさせていただきたいと考えています。Granicaはそのような企業の旅を加速させるのに役立つでしょう。現在のところ日本企業とは1社と初期段階の話し合いを行っているところですが、他の日本企業にもGranicaを試してもらい、価値を得てもらいたいと考えています。

―将来の日本のパートナーとなる皆さんに向けてメッセージをお願いします。

　データはAIの根本的なボトルネックです。AIと機械学習モデルを実際に活用し、ビジネスやユーザーに価値を提供して成長を加速させるには、データを責任持って使用することが重要です。同時に、データ内のノイズも活用する必要があります。このAIの旅において、データを効率的に活用できることが極めて重要であり、Granicaはその過程を加速させるのに役立ちます。

　日本企業やパートナーにとって、データは非常に多様で、企業ごとに異なる特性を持っています。Granicaとパートナーシップを結ぶことで、クライアントの特別なアドバイザーとして、そのAIの旅を加速させることができるのです。我々は、クライアントや顧客の信頼できるアドバイザーとしての関係を継続し、その見返りとして収益分配や多くの機会を提供します。これにより、チャネルパートナーや価値あるパートナーとして、皆様のビジネスを成長させることができるのです。