(2022年にAlteryxが買収。2023年6月追記)
データサイエンティストの労力の大半はクリーニングに
―どのような経緯でこのビジネスがはじまったのでしょうか。
大企業向けに生データを分析ができる状態まで加工して提供しています。きっかけはUCバークレーとスタンフォード大学による共同研究プロジェクトでした。このプロジェクトの中で、データサイエンティストたちが実際に分析ができる状態までデータをクリーニングすることに大半の労力を割いていることが分かりました。膨大なデータが集まれば集まるほど、この問題は深刻になっていきます。そこでStanford Data Wranglerというプロトタイプを作ったところ、わずか半年で3万人がこのプロトタイプを使ってくれました。これが今から6年前の話です。
10万人以上のアクティブユーザー
―現在、利用者はどのくらい広がっていますか。
今は126ヵ国から1万以上の企業がTrifactaを利用しています。いくつかのバージョンがあり、無料のもの、個人や小さなチーム向けのプロフェッショナル向け、大企業向けがあります。Googleブランドで再販売もしており、アクティブユーザーは10万人以上に及びます。
昨今、企業は内部のものはもちろん、第三者からのデータ、オープンデータなど情報にあふれています。我々が機械学習でデータを扱いやすくすれば、企業内で分析にあたる人にはより付加価値の高い仕事が効率的にできます。以前はコードを書いて、数か月、場合によっては数年もかかっていた作業が、数クリックでできるわけです。
Image: Trifacta
作業時間を90%削減できた事例も
―具体的にどのような使い方があるのでしょうか。
たとえばドイツ証券取引所は、取引の膨大なデータを加工して、銀行やヘッジファンドに製品として提供をしたいと考えました。このデータの海には不要なものもたくさん含まれていて、価値づけをするにはデータの適正化が必要なわけです。この部分を我々が手助けしました。
また、医療関係では、グラクソ・スミスクラインの事例があります。同社は呼吸器系疾患向けの治験を実施していますが、吸入器を利用しているケースや喘息の患者の機器にセンサーを取り付けました。そうすると、アンケート調査や研究データ以外に、センサーが感知した生のデータが送られてくることになります。患者に「いつ吸入器をつかましたか?」と聞いても、よく覚えていないことや正確ではないこともあります。センサーがあればとても詳細の情報が大量に手に入ります。治験の手続きに沿っているかも確認できます。これまで新薬に対する政府の承認には10〜12年もかかっていましたが、これがデータによって5〜6年に短縮できます。
飲料メーカーのペプシでは需要の予測や計画をするために、多くの分析をしています。小売店からの情報に天気の情報などを組み合わせるわけですが、毎日、多くの製品について、異なる販売チャネルからの異なる形式のデータが異なる地域から入ってきます。そこからオーダーする製品を多すぎず少なすぎず適切な分量に判断するというのは、非常に複雑な作業です。Trifactaを使う前は30日の予測を作るのに26〜27日を要していましたが、時間を90%も短縮でき、分析や交渉にもっと時間を割けるようになりました。
日本でアーリーアダプターを探したい
―今後、日本市場への参入についてはどう考えていますか。
既に金融サービスなどの多国籍企業がTrifactaを使ってくれており、アジアにももちろん拡大しています。クラウドの提供でもアジアで既に顧客が広がっています。Googleが来年には我々のプレゼンスをより直接的にアナウンスしてくれるので、来年には日本を含めたアジアで正式に市場参入することになります。既に日本での展開をサポートしてくれるCloudera、Google、Microsoftなどのパートナーがいて、DataRobotがAIで集めるデータについても対応しています。日本ではアーリーアダプターになってくれる顧客やパートナー企業を引き続き探していきたいと考えています。