AIはなぜ今転換点を迎えたのか？2024年の生成AIトレンドは？　シリコンバレー拠点のAI専門キャピタリストが解説

専門家インサイト

TECHBLITZ編集部

2024.03.27 Wed

「データ」「アーキテクチャ」「計算処理」。AI開発の歴史は、この3つの要素の発展が絶妙に組み合わさった結果、現在、私たちが目の当たりにしている転換点を迎えているという。AIの起源となる概念が1950年代に生まれてから約70年が経つが、なぜ今この大きな変化が訪れたのか。Translink CapitalでAI分野への投資を専門とするKelvin Mu氏が背景を紐解き、「生成AI元年」とも呼べる2023年から私たちは何を学んだのかについて語った。

※本記事は2024年1月に開催されたTranslink Capital主催、TECHBLITZ共催のイベントの基調講演「生成AIの現在地と2024年の展望」の内容を元に構成しました（役職名は開催時）。

目次
・AIの転換点はなぜ「今」なのか
・ただの成長ではない、指数関数的な成長
・パフォーマンスはすでに人間を上回っている
・「生成AI元年」から人々は何を学んだか
・2024年の生成AIトレンドは？

Translink CapitalのPrincipalとしてシリコンバレーを拠点にAIとML分野への投資に従事するKelvin Mu氏（TECHBLITZ編集部撮影）

AIの転換点はなぜ「今」なのか

　まず、背景情報としてちょっとした歴史から始めましょう。OpenAIのテクノロジーである「ChatGPT」については誰もが聞いたことがあると思います。そのChatGPTが公開からユーザー数100万人までスケールアップするのに要した日数は、わずか5日間でした。

　これを過去の他のテクノロジーと比較すると、iPhoneは74日間、Facebookは10カ月間、インターネット接続サービスのAOLは2年間、世界初の量産車であるFordの「Model T」は7年間です（下図）。日数こそ違いますが、100万人に到達するまでのモメンタムは良く似た曲線を描いていることがグラフから見て取れます。

　NVIDIAの創業者でCEOのJensen Huangは「私たちはiPhone登場に匹敵する、AI時代の新たなフェーズにいる（We are at the iPhone moment of AI）」と語っていますが、これはまさにその通りでしょう。

image: Translink Capital

　さて、本題です。AIの起源となる概念が作られたのは1950年代にさかのぼり、幾度かのAIブームのような盛り上がりもありました。AIは長い間、社会に存在していたのです。そこで、疑問として浮かぶのは「なぜ今、この時に」このようなAIの転換点が訪れたのかということです。これを議論するに当たっては、3つの要素があると考えています。

　まず「データ」、次に「アーキテクチャ」（あるいはアルゴリズム）、そして「計算処理」です。これら3つが同時に訪れた"パーフェクトストーム"が、今まさに起きています。

「データ」については、携帯電話やモノのインターネット（IoT）、各種センサーなどの普及により、世の中に存在するデータ量が爆発的に増加しています。世界のデータ総量は2～3年ごとに倍増していると言われているほどです。

「アーキテクチャ」に関しても、アテンションメカニズムを導入したトランスフォーマーアーキテクチャーなど、過去10年間でたくさんの進歩がありました。

　そして「計算処理」も同様です。AIワークロードに特化したGPUやTPUが登場しています。（ChatGPTのトレーニングに必要な計算量は、ディープラーニングを用いた画像認識の火付け役として知られるAlexNet（2012年当時）のトレーニングに必要な計算量の100万倍以上）

Kelvin Mu

Translink Capital

Principal

人工知能と機械学習分野への投資に従事。ハードウェア、基礎モデル、インフラストラクチャー、応用AIなど、AIエコシステム全体に注目。最近の投資先には、Solve Intelligence（LLMによる特許執筆）、Shadeform（サーバーレスGPU）、askLio（購買コパイロット）などがある。Translinkに入社する前は、Cartaで2つの事業部門の戦略と事業運営を指揮し、1億米ドル以上の収益を上げた。Carta入社以前は、米国とカナダでテクノロジーコンサルティングと投資銀行業務に従事。

ただの成長ではない、指数関数的な成長

　こうしたタイミングの重なりを追い風にして、AIモデルやAIシステムは、文字通り「指数関数的」に規模を増しています。

　こちらの図（下図）は各時代に登場したマイルストーン的な機械学習（ML）システムのFLOPS（コンピュータの計算処理の単位、1秒間に浮動小数点演算を何回できるかという能力）をグラフ化したものです。

　グラフの縦軸は指数表示で、メモリごとに100倍の増加幅を示しています。2000年代初期までの成長ペースと比較すると、青色の「深層学習時代」、赤色の「大規模時代」に入って成長ペースがさらに加速度的に勢いを増していることが分かります。

　さらに興味深いのは、2010年代以降になってマルチモーダル化が急速に進んでいることです。 1950年代から90年代にかけては、AIモデルのほとんどは画像認識のカテゴリーに属していました。直近10年間で言語や画像生成などが次々と登場しています。

image: “Compute Trends Across Three Eras of Machine Learning” by Jaime Sevilla et al., arXiv, 2022

　AIモデルの成長スピードは、実際の性能にもしっかりと反映されています。

　OpenAIがChatGPT-3.5とChatGPT-4に機械学習の性能を図るベンチマークテストを複数受けさせたところ、多くのテストでChatGPT-4がChatGPT-3.5を上回る結果が見られました。2022年11月にChatGPT-3.5が公開され、ChatGPT-4が登場するまでの期間が6カ月間だったということを考えると、非常に速いペースで進歩していることが分かります。

　ちなみに、私は個人的にもよくChatGPT-4に質問をしています。これは非常に興味深かったのですが、私が一般的な人の本を読むスピードについて質問したところ、ただ質問に回答しただけでなく、以前の質問内容から私がAI領域の投資家でノンフィクション本が好きなことを考慮して、「これは推定値です。あなたの専門領域とノンフィクション本が好きなことを考慮すると、あなたは平均的な人より時間がかかるかもしれません」と付け加えたのです。

　このような個人的な情報について入力したのは、この質問をする4カ月ほど前だったので、ChatGPT-4がユーザーに関する昔の知識を掘り起こし、特定のプロンプトに対してセマンティック接続をすることができたということですね。これは将来的に機能を拡張していく上で重要なことです。

パフォーマンスはすでに人間を上回っている

　このようなイノベーションは、テキスト生成だけでなく、画像生成や動画生成の領域でも起こっています。次の画像（下図）は、Midjourneyという独立系リサーチラボが提供する「Text-to-Image」のサービスを利用し、「Highly photorealistic image of an astronaut riding a horse（フォトリアリスティックな、馬に乗る宇宙飛行士の画像）」というプロンプトで生成した画像です。

　皆さんがプロンプトを入力すれば、よりよい画像が作成できるでしょうが、いずれにせよ簡単な文章からこれほどの画像が生成されました。

image: “Midjourney; prompt: photorealistic shot of astronaut riding a horse”

　さらに、こちらはRunwayというスタートアップの「Text-to-Video」のサービスを利用し、「Sunflowers in the field on a clear sunny day, photorealistic shot（晴天のフィールドに咲くたくさんのヒマワリをフォトリアリスティックに）」というプロンプトで生成した動画の切り抜きです。動画の尺は4秒と現時点ではそれほど長くはありませんが、今後どんどんリアルさを増し、長い動画の作成が可能になっていくでしょう。

　これらが現在、私たちが目の当たりにしているテクノロジーの水準です。音声認識や画像認識など、すでに多くのユースケースでAIが人間を上回るパフォーマンスを発揮しています。私が特に重要だと考えているのはコード生成で、複数の調査によると、今日の段階ですでに全コードの3分の1はAIによって生成されているとされています。この割合は、おそらく今後数年間で急速に増加すると考えられます。

image: “Runway ML; prompt: Sunflower on a open field in a sunny day”

　当然のことながら、AIは私たちの仕事に多くの影響を与えるはずです。世界銀行は、世界の雇用の最大40％がAIの影響を受けるだろうという見解を示しています。私たちの働き方、人々と仕事の進め方は否応なしに変わっていくでしょう。

　ただ、生成AIに欠陥がないわけではありません。最大の問題の1つ目は、AIの生成物が時として不正確な情報を含むこと、2つ目はサイバーセキュリティやデータセキュリティに関するものです。こうした問題は明日すぐに起きるわけではありませんが、多くの企業や関係機関がこれらに対処すべく解決に取り組んでいます。

「生成AI元年」から人々は何を学んだか

　さて、私たちは「生成AI元年」とも呼べる2023年から何を学んだのでしょう。

　繰り返しになりますが、これはiPhone登場に匹敵するAI時代の新たなフェーズです。まだ非常に早い段階のイニングではありますが。OpenAIは昨年の売上高ランレートが16億ドルに上り、今年末には20億～30億ドルに達すると予想されています。非常に速いペースで成長しています。

　企業の生成AI導入のペースは今のところゆっくりですが、今後数年間でこちらのペースも加速していくことでしょう。生成AIが過去のテクノロジーと異なる点は、皆が何かしらの形で生成AIと関わっているという点です。あらゆる大企業がこの領域に対して投資していて、生成AIをビジネスにどう生かせるか検討中です。これはスタートアップにとってチャンスでもあり、チャレンジでもあります。他社との差別化が重要になっていくでしょう。

　そして、AIには他のテクノロジーと全く同じ側面ももちろんあります。パソコンやインターネットなどを思い出してください。どんなテクノロジーにも常に浮き沈みがありますよね？従って、私は長期的にはAIに対して非常に楽観的な評価をしていますが、短期的には市場がどの方向に向かっていくかを注視し、自分たちが進むべき方向を決めなくてはなりません。

　投資の観点でも、「慎重ながらも楽観視している」という状態です。現時点では投資を控えたいという意味ではなく、私たちに課せられた役割はとても長い期間にわたるものになるだろうということです。そして、先行者が必ずしも勝者となるわけではないとも考えています。

生成AI登場後の業界の動向や今後の見通しを語るKelvin Mu氏（TECHBLITZ編集部撮影）

2024年の生成AIトレンドは？

　最後に、2024年の見立てをお伝えしたいと思います。昨年は一般ユーザーが生成AIに急速に慣れ親しみましたが、企業の導入事例は今ひとつでした。今年は企業の導入事例が進む年になるでしょう。

　また、オープンソースがより進化を遂げると考えています。ただ、オープンソースのモデルがすでにChatGPT-4の域に達していると言う人もいますが、まだ程遠いのが現状です。オープンソースは今後も技術力の向上に力を注ぐでしょうが、クローズドソースのモデルに遅れを取る状況は続くと思います。

　特定の言語モデルや、特定の業界向けなど、より細分化されたモデル、いわゆる「小規模言語モデル」の台頭も予想しています。こうした細分化が十分に進めば、スマートフォンやノートパソコン、家電、ウェアラブル端末などローカルでAIが稼働する世界がやって来るでしょう。近い将来、エッジAIがトレンドに挙がってくるはずです。

　マルチモーダル化も大きく進化するでしょう。先ほど、動画生成AIで4秒間の動画を作成したことを紹介しましたが、将来的に生成AIを用いて1分間、あるいは1時間の動画を制作できるとしたら、多くの産業が従来とは全く別物へと変革されるはずです。マルチモーダルAIは発展の余地を多く残した、エキサイティングな領域だと考えています。

　最後になりますが、データセンターがより巨大な市場となる見通しです。前述の通り、2023年は企業による生成AIの導入事例はとても小さな割合でした。ひとたび企業が導入へと舵を切れば需要は爆発的に増え、より多くのデータセンターが否応なしに必要となるでしょう。