Image: Pachyderm

Joe Doliner
Pachyderm
Co-founder & CEO
シカゴ大学を卒業。その後、リサーチャー・プログラマーとしていくつかの企業に勤め、2014年にPachydermを設立、CEOに就任。

なぜPachydermは企業に必要とされるのか?

 Pachydermは、新しい形のデータ追跡を可能とするほか、特定のコーディング言語に縛られることなくデータを扱えるようにする。

 企業には事業のさまざまなところからデータが入ってくるため、データを有効に保管、処理する方法を見つけるのに苦労しがちだ。そんなデータインフラの分野で、PachydermはDockerコンテナを活用し、ほかにないソリューションを提供している。

 Dockerコンテナについて、共同創業者でCEOのJoe Doliner氏は、要するに「コードまわりを送り出す方法を統一したもの」と説明する。「Pythonで書いたコードとC++で書いたコードとを見つくろって渡しても、まったく同じように使ってもらえる」と言う。

 そうしたシステムを使うことに、企業はなぜ期待を高めるのか。その柔軟性の恩恵は、すぐには分からないかもしれない。少なくとも、データインフラの半分以上がJavaを中心に構築されている事実を考える必要がある。Javaがわかる人はいいのだが、Javaがわからないデータサイエンティストは多い。それに、Javaで書かれていないツールを適用可能にする必要がある分野は多い。「そこで、たとえば生物医学の科学者たちに大いに注目されている。Javaではないツールを使っていても、Pachydermなら仕事を順調に進められるのだ」とDoliner氏は語る。

 Pachydermの恩恵は柔軟性だけではない。データの起源がわかるいわゆる「データ来歴」、データがどのように変更されてきたのかがわかるバージョン管理も提供する。この2つはPachydermならではのもので、とても重宝するクライアントもいるだろう。

 データ来歴の利点を明確にするため、Doliner氏が挙げるのは金融業界の事例だ。銀行を考えてみてほしい。銀行にはトランザクションデータが大量に入ってくる。このデータを機械学習モデルのトレーニングに利用して、融資を認めるべき相手に関する判断を改善したい。しかし、そうした判断に用いてもよいデータには、規制による制限がある。判断の際に規制に適合していたことがわかるようにするためには、経過を振り返られるようにして、機械学習モデルの訓練に使用したデータの起源を示せるようにする必要がある。さらに、バージョン管理の恩恵がある。機械学習モデルをデータで訓練したのに、結果の予測が逆にひどくなったという場合に、アナリストは問題を絞り込めるようにしておきたい。関係をモデル化する別の方法を考える必要があるのか、それとも、訓練に使ったデータが基準に達していなかったのか。バージョン管理があれば、アナリストはデータの長期的な変化を追跡して、問題の絞り込みができるのだ。

   

オープンソースのコード、クローズドソースのオプション

 Pachydermの基盤である中核技術はオープンソースで完全に無料だ。Pachydermには、この中核技術を基にしたクローズドソースのエンタープライズ製品があり、そのライセンスを販売している。「価格は顧客によりけりだ。ライセンス料はおおむね年間10万ドルほど。加えて、利用する人数に基づく料金がかかる。非営利向けのいちばん安価ものは年間5000ドルほどで、ハイエンド向けは最高で年間200万ドルになる」とDoliner氏は説明する。

 エンタープライズ製品にはオープンソースのコードにはない大きな利点があると、Doliner氏は指摘する。「そのような機能は、大企業には付加価値になるが、愛好家には重要ではないようなものに限るようにしている。たとえば、データ統治を実現する機能や、どのデータを誰が見られるのかを管理する機能が挙げられる。エンタープライズ製品に欠かせない、より快適なフロントエンドも提供している」と言う。

今後の展望

 当面は、既存プロダクトの改善に注力していく。「今は製品の機能拡充に努めている。さまざまなことを要求する多くの顧客がいるため、方向性を維持することを重視している」とDoliner氏は語る。

 しかし、だからといってPachydermに別の計画がないというわけではない。Pachydermの長期目標を手短に説明するのに、Doliner氏は、GitHubがソフトウェア開発に与えている影響を引き合いに出す。「Gitはあくまでオープンソースのソフトウェアであって、誰もが自由に利用できる。GitHubはそこにソーシャルというレイヤーを追加し、コードに協調してあたれるようにしている」。

 今のPachydermは「データのためのGit」のようなものだ。しかし、ソーシャルの側面を追加することで、GitHubがソフトウェアにもたらしたものをデータにもたらせると、Pachydermは考えている。するとどういった利点があるのか。「コンテナを稼働させるには、クラウドインフラにかなり精通している必要がある。しかし、いったん稼働したら、コンテナを使って数多くの恩恵を受けるのにたくさんの知識は必要ない」とDoliner氏は語る。ソーシャルを盛り込むことで、技術のバックグラウンドがない人もデータを有効活用できるようにすることを、Pachydermは目指している。



RELATED ARTICLES
複数クラウド間のネットワーク構築、半年以上の作業期間をわずか数時間に Alkira
複数クラウド間のネットワーク構築、半年以上の作業期間をわずか数時間に Alkira
複数クラウド間のネットワーク構築、半年以上の作業期間をわずか数時間に Alkiraの詳細を見る
コーヒーショップの混雑観測から始まったスマートビル革命 Density
コーヒーショップの混雑観測から始まったスマートビル革命 Density
コーヒーショップの混雑観測から始まったスマートビル革命 Densityの詳細を見る
クラウド全盛時代の新常識?CPU・GPUが利用データを暗号化 Anjuna
クラウド全盛時代の新常識?CPU・GPUが利用データを暗号化 Anjuna
クラウド全盛時代の新常識?CPU・GPUが利用データを暗号化 Anjunaの詳細を見る
勉強を「学び」から「遊び」に ゲーム感覚の学習プラットフォームが子供に人気 SplashLearn
勉強を「学び」から「遊び」に ゲーム感覚の学習プラットフォームが子供に人気 SplashLearn
勉強を「学び」から「遊び」に ゲーム感覚の学習プラットフォームが子供に人気 SplashLearnの詳細を見る
ソフトバンクも出資する韓国の人気旅行アプリの強さとは ヤノルジャ
ソフトバンクも出資する韓国の人気旅行アプリの強さとは ヤノルジャ
ソフトバンクも出資する韓国の人気旅行アプリの強さとは ヤノルジャの詳細を見る
ライドシェアとは一線画す、相乗りビジネスの成功モデル BlaBlaCar
ライドシェアとは一線画す、相乗りビジネスの成功モデル BlaBlaCar
ライドシェアとは一線画す、相乗りビジネスの成功モデル BlaBlaCarの詳細を見る

NEWSLETTER

世界のイノベーション、イベント、
お役立ち情報をお届け
「オープンイノベーション事例集 vol.5」
もプレゼント

Follow

探すのは、
日本のスタートアップだけじゃない
成長産業に特化した調査プラットフォーム
BLITZ Portal

Copyright © 2024 Ishin Co., Ltd. All Rights Reserved.