強まるデータ保護規制 急速なDXにセキュリティ対策が追い付いていない
――AIやデータセキュリティを取り巻くスタートアップや環境は、どのように変化していますか。
ほんの5~6年前までは「AIを使っているスタートアップ」というだけで注目が集まっていましたが、もはやそういう時代ではありません。幅広い業界においてAIはすでに「ベースの技術」として活用されており、AIが貢献するとされる市場規模は2030年には1500兆円に達すると見込まれています。
そんな時代において理解しておくべきは、AIが消費するデータの膨大なボリュームです。その量は、今後もさらに増えていくでしょう。
同時に、レギュレーション(規制)やコンプライアンス(法令順守)の動きも強まっています。代表的なのが、欧州連合(EU)を中心に2018年に施行された個人情報保護に関する「GDPR(EU一般データ保護規則)」です。このルールに違反すると、重大な違反者は最大で年間売上高の4%か2000万ユーロ以上という、巨額の制裁金を科される可能性があります。実際に、英航空大手ブリティッシュ・エアウェイズには約250億円の制裁金が課されましたし、ホテルグループのマリオット・インターナショナルやGoogleなども違反による制裁金が発生しています。
GDPRのほかにも、米国防総省による「CMMC(サイバーセキュリティ成熟度モデル認証)」、米カリフォルニア州の「CCPA(カリフォルニア消費者プライバシー法)」、HIPAA(Health Insurance Portability and Accountability Act/医療保険の携行性と責任に関する法律)などがあり、個人情報保護やデータの取り扱いについては欧米を中心として強まっています。企業として、データをどのように取り扱うか、非常に細かな注意が必要です。一方で、この新しい課題に対応策を提案するスタートアップ、そこに投資するVCも増えてきています。
また、国家間のサイバー攻撃も非常に激化しています。インフラへの攻撃だけでなく個人情報を狙ったケースも増えてきています。
さらに、昨今ではDXにより急速なクラウド移行が進んでいますが、クラウドセキュリティ対策が遅れていること、またクラウドでのセキュリティにおいてヒューマンエラーが非常に多いことも背景として理解しておく必要があります。
「セキュリティ」に加え「プライバシー」への意識が重要
――データセキュリティに関しての考え方や対応は、どう変化しているのでしょうか。
データ保存が紙からディスクへ移行した際は、ディスクの破損や電源トラブル時に備えるため、バックアップやリカバリーの技術が必要とされました。その後、ネットワーク化されて社内などインターナルの情報漏洩やハッキングなどが問題視されるようになると、データの暗号化というソリューションが生まれ、そういった技術を開発する企業が増えていきました。
10年ほど前からは個人情報保護、プライバシーに関する意識が高まり、先ほどお伝えしたさまざまな規制も多く設けられるようになりました。この状況下で、企業はどうデータセキュリティを考えなければいけないのか。
社内の膨大なデータ内にGDPRなどに抵触するものがどれだけあるのか、個人が特定できるような情報がどれだけあるのかをそもそも認識していませんでした。これらを認識し、分類し、アクセスコントロールをし、該当するような情報にはマスキングをするなど保護していくことが必要になります。こういった技術を持つスタートアップがどんどん伸びてきたのがここ数年の動きです。
同時に、セキュリティ業界で頭を悩ませているのが、ランサムウェアの登場でした。「乗っ取り」などサイバー攻撃に対する防御策、データのバックアップの技術などを持つスタートアップが伸びてきました。
こうやって見ると、時代に応じて何が必要とされているのか、それに対してスタートアップがどういう技術を提供してきたのかが分かります。ここ1~1年半ほどでVC業界の注目を集めている領域が、APIをサイバー攻撃から守る「APIセキュリティ」や、「データセキュリティ(またはコラボレーション・フォー・AI)」です。
APIではDevOpsで開発が迅速に進められ、マイクロサービス間で物凄い量のデータが行き交っていますが、そこに対して監視管理ができておらず盲点でした。そういったセキュリティの課題解決策に取り組むAPI分野のスタートアップが増えており、Noname SecurityやSalt Securityといったスタートアップが着目を浴びています。
一方のデータセキュリティにおいては、特にAIに関わるデータやプライバシーの問題を考えていくべきという、セキュリティfor AIが新しい領域として市場の関心が高まってきております。
Image: DNX Ventures
――このAI時代でデータを守るには、どういった対応が必要でしょうか。
「セキュリティ」だけでなく「プライバシー」という考え方が必要です。
GDPRなどの施行により、ここ数年でセキュリティに対する考え方が変わってきています。その1つが、「データをどう防御するか」から、「何があっても大丈夫なかたちでデータを管理するにはどうすればいいか」というデータに対する考え方の変化です。
多くのアプリケーションがAIを活用するベースに進化してきてる以上、アプリケーションに大量のデータを投げ込む、という方向は止まりません。「何があっても大丈夫」にするには、例えば、あるデータをAIやML(機械学習)のモデルに投げ込むときに、元データでは漏洩など非常にリスクが高いので、違うかたちに変化させる、トランスフォーメーションが必要になります。そこで、トランスフォーメーションのレイヤーでデータを暗号化した状態でMLにかけることができるものなど、さまざまな処理技術が開発されており、それぞれの処理技術に対して複数のスタートアップが出てきています。
その上で、AIモデル構築、トレーニングのデータセットに関しては「本物の元データではなく、人工的に作成した合成データを使用する方がいいのでは」という考え方も生まれています。Bifrostというシンガポールのスタートアップは、AI開発者向けの合成データ生成で注目されています。
私自身も、AIモデル作りで合成データを使用することは、非常に理にかなっていると思っています。まず、膨大なデータセットを短時間で準備できるため、多くの検証ができます。検証数の多さがより良いAIモデル作りにつながるため、ここは非常に重要です。
加えて、人種・性別・居住地域・年齢などのバランスが取れた、倫理的で偏りのないモデル作りにも有効です。特に米国では人種や性別などのフェアネスが重視されます。実際のデータセットの多くは、データ収集方法なども起因して何らかの偏りがあるものです。すると、実際に運用したときにテスト段階と大きな違いが生じてしまいますが、合成データ使用によってそうしたズレを防ぐことができます。
実際にMicrosoftなどは、より高品質かつ価値あるAIモデル作りのために合成データを活用しており、この領域は今後も伸びていくでしょう。ただし、合成データといえども何らかの元データを利用して作られているものであり、万能薬ではありません。多くの会社が「リスクフリー」とうたっていますが、額面通りに受け取れない部分もあるため、そこのリスクを踏まえて導入するべきでしょう。
――合成データでソリューションを提供する企業も増えていますか。
合成データに強みをもつスタートアップは現在60社ほど存在しますが、そのうちの約半分がこの2年ほどの間に出てきています。
ユニークなスタートアップもいくつかあり、その1つがシード期で2億円以上を集める米オースティンのProtopia AIです。同社では、データに「ノイズ」を載せる形で変化させるという「Data Differential(差分プライバシー)」をさらに進化させた技術を開発しています。。
従来の差分プライバシーのアプローチではでは変化されたデータをMLモデルにかけた際に、結果の正確性に影響が出ることが大きな課題でしたが、同社の技術では演算処理に変化が出ない形でノイズを載せた処理が可能です。また、高度な処理を行っているにもかかわらず、処理時間もCPU負荷も従来と変わりませんので、Cloudで処理をするとなるとコストも低く抑えられる、ということになります。さらに、画像だけでなくテキストデータやデータベースに対しても同じように活用できるため、非常に実用的な技術だと思います。
もう1社が、AIモデルをハックされることから守るAdversa AIというイスラエルの企業です。最近の顔認証エンジンにおいてはAIモデルの穴を突いたようなハッキング事例が出ていますが、同社ではサイバーアタックシミュレーションのAIモデル版ともいえる、AIモデル自身を強くしていく試みを行っています。
Image: DNX Ventures
「AIモデル自身」の強化が急務
――データだけでなく、AIモデル自身へのセキュリティが重要という流れですね。
現在のサイバー攻撃のうち、約30%はAIモデル自体に関連するものだといわれています。トレーニング時と実際運用時、どちらの場合もPETs(プライバシー保護強化技術)を加えたデータをAIモデルに投げることが必要です。ただし、AIモデル自身が脆弱ではそうした「穴」を狙われてしまうため、AIモデル自身も強くしていく必要があります。
また、公共性の高いAIモデルの場合、いろいろな人がいろいろなデータをAIモデルに投げ込めます。そのデータの投げ方・アウトプットされたデータの形などを追っていくことで、怪しい動きを検知していくことも必要です。
――実際にAIモデルが攻撃された例はありますか。
サイランス社の事例があります。機械学習・深層学習を検出エンジンに用いた攻撃検知・防御技術が強みで、セキュリティ分野の先端を行くといわれる同社のAIモデルですら、サイバー攻撃を受けています。同社のモデルは一般販売されているために購入者が自身でファイルをテストできるのですが、とある企業がそのAIモデルの穴を見つけて公表したことが大きなニュースとなりました。
最近、私はメタ(フェイスブック)のリードエンジニアと話をしたのですが、彼らも「大規模な機械学習モデルでユーザーの行動分析やプロファイリングをしているが、その穴を突いてくる攻撃が日々続く」と頭を抱えていましたね。
こうした状況から、世の流れはこれまでのような「データセキュリティ」ではなく、「AIセキュリティ」という考え方へとシフトしています。
AIセキュリティのポイントは「AIモデル自身」です。まずは、流れ込むデータの分布・結果分布の可視化・速度・処理コスト・データの種別に偏りはないかなどを確認し、パフォーマンスを上げていくことが重要です。
かつ、公平性や規制が保たれているアプリケーションを搭載すること。セキュリティ面ではデータソースのプライバシーが守られているかに加え、学習(トレーニング)時でのポイズニング・運用時のフーリング(AIモデルを騙す誤認識させる攻撃)・モデル自身のリバースエンジニアリングなどを防ぐ対策も必要となります。
こういった技術をもつスタートアップがこれから伸びていくと思うので、我々としても非常に興味深く注視していますね。
――最近では、自動車メーカーへのランサムウェア攻撃が大きなニュースとなりました。サプライチェーン全体として、どうセキュリティに取り組むべきでしょうか。
まさにそこが、現在のセキュリティ業界における大きな問題となっています。2020年末には、全米を震撼させた事件がありました。ネットワーク監視やシステム管理分野で約2万社ものクライアントをもつソーラーウィンズ社という企業が、サイバー攻撃の被害を受けたのです。国防総省をはじめ世界各地の政府機関や大手企業などが同社の製品を導入しており、被害は非常に深刻なものでした。
敵は「政府機関や大企業を直接攻撃することは難しいが、ソーラーウィンズ社であれば可能だ」と考えたのでしょう。同社の開発環境に入り込み、アプリケーションのアップデートに使われるパッチに悪質なコードを組み込んでいった。それによって、同社製品を導入している各企業の「内部からドアを開ける」ことに成功し、膨大な企業の膨大なデータが流出したのです。
サプライチェーンの上流部分の開発のサイクルに入ってコードを忍ばせるというこの方法は、発見が難しいのが実情です。現状では、「どれぐらいのエンタープライズがそのアプリケーションを使っているか」「そのパッチや構造はどれだけ安全なのか」「そもそもどれだけ堅牢な環境で開発されているか」といったことに対する正確なチェックができないからです。「サプライチェーンや開発環境の穴を突いた攻撃からどう守るか」とは、最もホットな領域であり、かつ難しい問題とされており、我々も必死に新しい企業を探している状況です。
――AIセキュリティ分野への投資を検討する際のポイントを教えてください。
ベースとするポイントは「AIモデルが消費を必要とするデータをいかに現実的(処理時間、コスト)に保護するか」「AIモデル自体が攻撃が受けているかの検知」「AIが消費するデータに偏りが生じていないか」と様々です。いずれにせよ難しいのは「タイミング」です。
この手の新分野の新技術の最大の難点はユーザー企業の優先度と予算確保になります。黎明期である現時点では、「大企業がAIセキュリティのために、10億円をポンと出して予算を確保する」という状況ではありません。AIモデル自体にサイバー攻撃がされるという事態が市場で起きていても、どの企業も自分たちが攻撃を受けるとは思っていないですし、攻撃によってどの程度の被害が生じるかもイメージできていません。ですから、「このAIモデルを守るためにこれだけの予算をつける」と明示されなかったり優先度が上がっていない可能性が大きいです。
スタートアップとしては、いくら良いものを作っても12~18ヵ月で結果を出さないと次の資金調達につながっていきません。これが新分野を作り出すスタートアップが直面する典型的な課題です。「セキュリティへの投資が必要だ」とはどの企業も分かってはいるものの、市場でこの分野に対する導入意志が強くなるのは、どのタイミングかを見極める必要があります。