なぜPachydermは企業に必要とされるのか?
Pachydermは、新しい形のデータ追跡を可能とするほか、特定のコーディング言語に縛られることなくデータを扱えるようにする。
企業には事業のさまざまなところからデータが入ってくるため、データを有効に保管、処理する方法を見つけるのに苦労しがちだ。そんなデータインフラの分野で、PachydermはDockerコンテナを活用し、ほかにないソリューションを提供している。
Dockerコンテナについて、共同創業者でCEOのJoe Doliner氏は、要するに「コードまわりを送り出す方法を統一したもの」と説明する。「Pythonで書いたコードとC++で書いたコードとを見つくろって渡しても、まったく同じように使ってもらえる」と言う。
そうしたシステムを使うことに、企業はなぜ期待を高めるのか。その柔軟性の恩恵は、すぐには分からないかもしれない。少なくとも、データインフラの半分以上がJavaを中心に構築されている事実を考える必要がある。Javaがわかる人はいいのだが、Javaがわからないデータサイエンティストは多い。それに、Javaで書かれていないツールを適用可能にする必要がある分野は多い。「そこで、たとえば生物医学の科学者たちに大いに注目されている。Javaではないツールを使っていても、Pachydermなら仕事を順調に進められるのだ」とDoliner氏は語る。
Pachydermの恩恵は柔軟性だけではない。データの起源がわかるいわゆる「データ来歴」、データがどのように変更されてきたのかがわかるバージョン管理も提供する。この2つはPachydermならではのもので、とても重宝するクライアントもいるだろう。
データ来歴の利点を明確にするため、Doliner氏が挙げるのは金融業界の事例だ。銀行を考えてみてほしい。銀行にはトランザクションデータが大量に入ってくる。このデータを機械学習モデルのトレーニングに利用して、融資を認めるべき相手に関する判断を改善したい。しかし、そうした判断に用いてもよいデータには、規制による制限がある。判断の際に規制に適合していたことがわかるようにするためには、経過を振り返られるようにして、機械学習モデルの訓練に使用したデータの起源を示せるようにする必要がある。さらに、バージョン管理の恩恵がある。機械学習モデルをデータで訓練したのに、結果の予測が逆にひどくなったという場合に、アナリストは問題を絞り込めるようにしておきたい。関係をモデル化する別の方法を考える必要があるのか、それとも、訓練に使ったデータが基準に達していなかったのか。バージョン管理があれば、アナリストはデータの長期的な変化を追跡して、問題の絞り込みができるのだ。
オープンソースのコード、クローズドソースのオプション
Pachydermの基盤である中核技術はオープンソースで完全に無料だ。Pachydermには、この中核技術を基にしたクローズドソースのエンタープライズ製品があり、そのライセンスを販売している。「価格は顧客によりけりだ。ライセンス料はおおむね年間10万ドルほど。加えて、利用する人数に基づく料金がかかる。非営利向けのいちばん安価ものは年間5000ドルほどで、ハイエンド向けは最高で年間200万ドルになる」とDoliner氏は説明する。
エンタープライズ製品にはオープンソースのコードにはない大きな利点があると、Doliner氏は指摘する。「そのような機能は、大企業には付加価値になるが、愛好家には重要ではないようなものに限るようにしている。たとえば、データ統治を実現する機能や、どのデータを誰が見られるのかを管理する機能が挙げられる。エンタープライズ製品に欠かせない、より快適なフロントエンドも提供している」と言う。
今後の展望
当面は、既存プロダクトの改善に注力していく。「今は製品の機能拡充に努めている。さまざまなことを要求する多くの顧客がいるため、方向性を維持することを重視している」とDoliner氏は語る。
しかし、だからといってPachydermに別の計画がないというわけではない。Pachydermの長期目標を手短に説明するのに、Doliner氏は、GitHubがソフトウェア開発に与えている影響を引き合いに出す。「Gitはあくまでオープンソースのソフトウェアであって、誰もが自由に利用できる。GitHubはそこにソーシャルというレイヤーを追加し、コードに協調してあたれるようにしている」。
今のPachydermは「データのためのGit」のようなものだ。しかし、ソーシャルの側面を追加することで、GitHubがソフトウェアにもたらしたものをデータにもたらせると、Pachydermは考えている。するとどういった利点があるのか。「コンテナを稼働させるには、クラウドインフラにかなり精通している必要がある。しかし、いったん稼働したら、コンテナを使って数多くの恩恵を受けるのにたくさんの知識は必要ない」とDoliner氏は語る。ソーシャルを盛り込むことで、技術のバックグラウンドがない人もデータを有効活用できるようにすることを、Pachydermは目指している。