【寄稿】中国でも熱帯びる大規模AIモデル、今知るべきテック大手4社の最新動向

専門家インサイト

TECHBLITZ編集部

2023.08.30 Wed

中国のテクノロジー動向を体現する企業の最新動向を取り上げる「中国テックジャイアント動向」。今回は、大規模AIモデルに焦点を当てる。2023年5月下旬に開催された科学技術関連のハイレベル国際会議「2023中関村フォーラム」において、10億個以上のパラメーターを持つ中国の大規模AIモデルの数量は、既に79個に上っていることが発表された。その大規模AIモデルを開発する企業のうち、画像認識大手である商湯集団（センスタイム）、音声認識大手の科大訊飛（アイフライテック）、インターネット検索最大手の百度（バイドゥ）、EC（電子商取引）最大手であるアリババ集団の4社の動向について紹介する。

※TECHBLITZのコンテンツパートナーであるジャンシン(匠新)の協力で、中国を代表する巨大テック企業4社（Baidu、Alibaba、Tencent、Huawei）をはじめとする中国テック企業の最新動向を紹介する。

田中年一（たなかとしかず）

日中でのスタートアップおよびイノベーション共創を推進するアクセラレーター「ジャンシン（匠新）」の創業者。2013年の独立以前はデロイトトーマツ東京/上海にてM&Aや投資コンサル、ベンチャー支援、IPO支援、上場企業監査等の業務に従事。東京大学工学部航空宇宙工学科卒、米国公認会計士、中国公認会計士科目合格（会計、税務）、中国ファンド従事者資格合格。

朱真明（しゅまさあき）

「ジャンシン（匠新）」のシニアマネージャー/アナリスト。中国国内で進むイノベーション動向を各業界トレンドからエコシステム事情、ベンチャー投資、スタートアップ、中国大手IT企業4強のBATH（バイドゥ、アリババ、テンセント、フアーウェイ）などの最新動向から調査・分析をする。上海理工大学材料工学科本科卒。

齋藤慶太（さいとうけいた）

「ジャンシン（匠新）」のアソシエイトマネージャー/アナリスト。中国エコシステム事情や中国の各業界のトレンドとスタートアップ、BATH（バイドゥ、アリババ、テンセント、ファーウェイ）の最新情報などについて調査/分析を担当。神戸大学経済学部中国経済専攻卒業。

センスタイム　最新AI製品を複数発表　新ビジネスモデルも提示

テクノロジー・デイ・イベントで大規模AIモデルシステム「日日新（SenseNova）」について紹介
Image: SenseTime

　センスタイムは2023年4月10日に開催したテクノロジー・デイ・イベントで、大規模AIモデルシステム「日日新（SenseNova）」を発表した。SenseNovaは、政府および企業のユーザーに、画像生成から、自然言語生成、視覚感知の汎用サービス、そしてデータのラベリングサービスまでを含む、多様かつ柔軟なAPIとそのサービスを提供できる。ユーザーは、実際の潜在的な応用シーンを対象に、SenseNovaが提供するAI能力を呼び出すことで、利用のハードルが低く、低コストかつ高効率に、多様なAIアプリケーションを実現することができる。

SenseNovaが提供できるアプリケーションとは

　SenseNovaは、AI対話モデルからAIGC（AI生成コンテンツ）モデルまでを対象とした、5つのAIアプリケーションを有する。今回は、そのうちの2つを主に紹介する。

　1つ目は、言語大規模AIモデル「商量（SenseChat）」だ。SenseChatは、千億レベルのパラメーターからなる自然言語処理モデルとして、大量のデータによるトレーニングを実施している。その上で、中国語独特の文脈を学習することにより、中国語のテキストをよりよく理解し、処理することができる。イベントで行われたSenseChatのデモンストレーションでは、パフォーマンスの高い対話能力と長めのテキストに対する優れた理解力を披露した。

SenseChatの操作画面
Image: SenseTime

　2つ目は、入力したテキストから画像を生成する創作プラットフォーム「秒画（SenseMirage）」だ。イベント時のデモンストレーションと紹介によれば、研究開発した大規模AIモデルは、10億以上のパラメーターを有し、2次元や3次元などの多様なコンテンツ生成スタイルに対応している。ユーザーは、複雑なプログラミング知識を必要とせず、意図する画像のイメージに関するテキストを入力するだけで、そのイメージに対応した画像を自動的に生成することができる。

SenseMirageの操作画面
Image: SenseTime

「MaaS」という新ビジネスを視野に

　センスタイムは、業界のパートナー企業に対して多様な大規模AIモデルをサービスとして提供するMaaS（Model-as-a-Service）という新たなビジネスの形を提示している。例えば、データの自動ラベリング処理やカスタマイズ型大規模AIモデルのトレーニング、モデルの推理配置、そして開発者の効率向上などをサービスとして提供できる。

　センスタイムは、フルスタック（領域横断）型の大規模AIモデルを研究開発できる体系を既に構築し、複数業界における応用シーンで実用化に踏み切り始めている。そのシーンの多様性やタスクの複雑さ、そしてデータの豊富さは、センスタイムの大規模AIモデルにおける現在の能力の優位性と将来の潜在性を十分に示している。

SenseNovaのオープンAPIについて紹介
Image: SenseTime

科大訊飛　最新大規模AIモデルを発表　チャットGPT超えか？

最新の大規模AIモデル「訊飛星火（iFLYTEK SPARK）」の発表会
Image: iFLYTEK

　科大訊飛は2023年5月6日、大規模AIモデル「訊飛星火（iFLYTEK SPARK）」の発表会を開催した。同社の研究院院長の劉聡（リュウ・ツォン）氏は、訊飛星火の7つの能力を実演。その7つの能力は、テキスト生成能力、言語理解能力、Q&A能力、論理推論能力、数学的能力、コード生成能力、そしてマルチモーダル（コンピュータービジョンなどの技術を利用して得た複数の情報を処理すること）能力となっている。今回はそのうち、米オープンAI開発の対話型AI「ChatGPT（チャットGPT）」と互角もしくはそれ以上のパフォーマンスを見せている訊飛星火の3つの能力について紹介したい。

科大訊飛が整理したAGIの注目すべき7つの主要能力を表示する様子
Image: iFLYTEK

チャットGPTと互角のパフォーマンスを見せるシーンも

　1つ目はテキスト生成能力で、スピーチ原稿やメール、ニュースリリース、マーケティングプランなど、さまざまな文書の作成を支援することができる。科大訊飛によると、この能力は、現在中国国内で試すことができる大規模AIモデルの中で、特別優れたパフォーマンスを示しており、中国語でのパフォーマンスは、チャットGPTのそれを上回っているという。一方で、英語でのパフォーマンスは、5点満点とした場合、チャットGPTは現在4.48点であるのに対し、訊飛星火は4.29点を記録。現在も、急速にそのパフォーマンスを改善し、チャットGPTを追いかけている。

訊飛星火のテキスト生成能力を発表会でデモンストレーションする様子
Image: iFLYTEK

　2つ目のQ&A能力は、オープンクエスチョンとも言われる開放型の質問に対しては、生活常識や科学知識、仕事の技術・コツ、医学知識など、多くの人々が共通して関心を持つさまざまな領域について、優れた回答を返すことができる。チャットGPTと比較した場合、わずかな能力差は確認されるものの、現在不断にその能力の改善を行っているという。

　3つ目の数学的能力は、基本的な計算、代数、幾何学、方程式の解法などについて高い能力を発揮できる。訊飛星火のこの能力は、現在中国国内で試すことができる大規模AIモデルの中で、大きく先を走っており、既にチャットGPTの能力を上回っていると科大訊飛は伝える。同社は、現在もこの能力の継続的な開発を続けており、次のバージョンにおいてさらなる能力の飛躍を目指している。

訊飛星火の数学的能力を発表会でデモンストレーションする様子
Image: iFLYTEK

科大訊飛の大規模AIモデル23年発展計画

　科大訊飛は発表当日、2023年における訊飛星火の発展計画も発表。その計画は3つの段階に分けられている。

科大訊飛の23年における大規模AIモデル「訊飛星火」の発展計画は、3つの段階に分かれている
Image: iFLYTEK

　第1段階では、科大訊飛の24周年記念日に当たる23年6月9日に、開放式のQ&A（リアルタイムQ&A）において技術的突破を目指す。つまり、現在主流のサーチエンジンを代表とする単純な検索ではなく、検索プラグインを使用して知識を収集することで、より個人に合わせてカスタマイズされた検索を実現する。同時に、マルチターンダイアローグの生成能力（対話の文脈を理解し、複数の相互に関係する質問や発言に対して、適切な返答を行う能力）を、ユーザーの状況に応じて強化していく。

　第2段階では、23年8月15日にコード生成能力を大幅に向上させ、開発者やパートナー企業が訊飛星火をより便利に組織内部で活用できるようにする。科大訊飛は既に、社内で訊飛星火のコード生成能力を、多くのプロセスで活用しているという。同時に、人間とのマルチモーダルなインタラクション能力も外部の顧客に正式に提供を開始する予定だ。

　そして第3段階では、科大訊飛の開発者イベント開催日である23年10月24日に、チャットGPTに匹敵する汎用型の能力を持ち合わせている状態を目指す。同社がこれを達成するためには、科学的かつ体系的な評価方法を引き続き使用し、中国語ではチャットGPTのパフォーマンスを超え、英語ではチャットGPTと同等のレベルに到達することが必要とされる。

　科大訊飛は今後、各業界の企業と連携し、AGIを取り巻く産業エコシステムを共同構築していく。今回の発表会開催前には、既に36の業界で3000社を超える企業と明確な連携の合意に達しており、その数は今も増加している。

発表会開催前に、科大訊飛が既に明確な連携の合意に達している36の業界・3000社を超える企業の一部。画像内の日系企業としては、電通グループが含まれる
Image: iFLYTEK

バイドゥ　300社以上を巻き込み　大規模AIモデルの普及を推進

2023年バイドゥAIクラウド連携パートナー大会時の大規模AIモデルプラットフォーム「文心千帆（ウェンシンチェンファン）」のエコシステムパートナーサイン式
Image: Baidu

　バイドゥは、AI生成式対話プロダクト「文心一言（ERNIE Bot）」のテスト版の提供を2023年3月に開始して以来、大規模AIモデルを取り巻く新たなエコシステムの構築を着々と進めている。23年５月中旬時点では、300社を超える企業が同社の大規模AIモデルプラットフォーム「文心千帆（ウェンシンチェンファン）」のテスト版利用に参加。文心千帆は、クラウドサービス「百度智能雲（バイドゥAIクラウド）」が2023年3月27日、顧客の大規模AIモデルの領域における研究開発と実際の利用というニーズに応えることを目的として発表した、企業向けの大規模AIモデルプラットフォームだ。

　このプラットフォームでは、文心一言を含む大規模AIモデルサービスと第三者企業の大規模AIモデルをともに提供。そのほか、さまざまなAIアプリケーション開発のためのツールや環境を揃えている。これにより、企業とその開発者が、最も簡単な方法で大規模AIモデルを最大限に活用できるようにしている。

　バイドゥは、その文心千帆の発表以降、大規模AIモデル「文心（ERNIE）」の技術交流会を、顧客やその他のパートナー企業向けに中国全土で開催。23年5月18日には、広東省広州市で23年バイドゥAIクラウド連携パートナー大会を実施し、28社のパートナー企業と契約を締結するに至っている。

文心千帆のサービス提供方法とその評価とは

　文心千帆は現在、パブリッククラウド（不特定多数の人がオープンな環境で利用する）とプライベートクラウド（特定の団体などに利用者を限る）の2つのサービスモデルを提供している。

　パブリッククラウドサービスモデルでは、推論（大規模AIモデルの推論能力を直接呼び出し利用する）、微調整（高品質な精密ビジネスデータを利用し、特定の業界向けの大規模AIモデルを効率的にトレーニングする）、管理（大規模AIモデルをバイドゥAIクラウド上に公開し、より安定した高効率な運用を実現する）の3種類のサービスを提供。これにより、企業が大規模AIモデルを実際に活用するためのハードルを大幅に下げることができる。

　プライベートクラウドモデルでは、企業環境で実行される大規模AIモデルサービスの提供、大規模AIモデルサービスと対応するハードウエアインフラストラクチャーを丸ごと提供、そしてリースという3つの方法で、顧客に文心千帆を提供可能だ。これにより、データ保護規制の面で厳しい要件を有している企業ユーザーについても、そのニーズを柔軟に満たすことができる。

バイドゥは23年3月16日に北京市の同社本部で開催したニュース発表会にて、文心一言を発表
Image: Baidu

大規模AIモデルを企業の内外部でフル活用

　文心千帆は、現在までにバイドゥ自社はもちろん、外部の300社を超えるパートナー企業でも、実際のビジネスシーンでそのテスト版の利用を進めている。

300社を超えるパートナー企業が文心千帆のテスト版利用に参加していることを示す
Image: Baidu

　バイドゥ内部では、自社のサービスである検索やニュースの推薦機能、バイドゥ傘下の地図サービス「百度地図（バイドゥマップ）」、スマート音声アシスタント「小度（シャオドゥ）」などに大規模AIモデルをアクセスさせることで、正確性や再現率、そして満足度などの多くのカギとなる数値が著しい上昇を見せている。とりわけ、自社内部のオフィスでのシーンでは、バイドゥの企業向けコミュニケーションツール「如流（INFOFLOW）」に大規模AIモデルの能力を組み込み、プロジェクトの企画やプロジェクトのアイデアの創出、開発コードの生成、そして企業内のコミュニケーションなどに応用している。

　バイドゥは、外部のパートナー企業とも、大規模AIモデルを通じた連携に多く取り組んでいる。例えば、中国自動車大手の長安汽車集団は、バイドゥの大規模AIモデルを基盤として、あるAI製品を現在開発中だ。長安汽車集団はこの製品を通じて、量産車種の機能を強化し、今までにない画期的なユーザーエクスペリエンスをつくり上げていく計画を進めている。

アリババ　画像生成大規模AIモデルを発表　「通義」シリーズを拡大

2023年世界人工知能大会（WAIC）にて、画像生成大規模AIモデル「通義万相（トンイーワンシャン）」を発表
Image: Alibaba

　アリババ集団のクラウドサービス「阿里雲（アリクラウド）」は、2023年7月6～8日の間に中国上海市で開催された世界人工知能大会（WAIC）にて、画像生成大規模AIモデル「通義万相（トンイーワンシャン）」とその内部テストの開始を発表。これは、23年4月11日に発表した大規模AIモデル「通義千問（トンイーチェンウェン）」と23年6月1日に中国初の「公開テスト版大規模AIモデル製品」として発表した、音声・動画向けのAI製品「通義聴悟（トンイーティンウー）」に続く、同社の大規模AIモデル「通義（トンイー）」シリーズ製品の最新版に当たる。

　加えて、アリクラウドの開発者向け大規模AIモデルコミュニティーである「魔搭（ModelScope）」上で、国内初の大規模AIモデル呼び出しツール「魔搭GPT（ModelScopeGPT）」を発表。このツールは、ユーザーの大規模AIモデルに関する要望やニーズを指令として受けた後、ツール内に組み込まれている「中枢モデル（ユ―ザーのニーズに従い、それに適切なAIモデルを探し出す意思決定を行うモデル）」をワンクリックで呼び出すことで、その他のAIモデルと連携し、複雑なタスクを完成させることができる。

国内初の大規模AIモデル呼び出しツール「魔搭GPT （ModelScopeGPT）」を発表したことを紹介
Image: Alibaba

アリババの画像生成大規模AIモデル　3つの機能とそのパフォーマンスとは

　通義万相は、意味理解と画像生成能力の2つの面で優れた性能を発揮。今回発表時の初期バージョンでは、以下の3つの主要機能を公開している。

　1つ目は、入力したテキストから画像を生成する基本的な機能だ。この機能では、ユーザーが通義万相に入力したテキストの内容に基づき、水彩画やフラットデザインを基調とする挿絵、2次元アニメ、油絵、中国絵画、3D漫画、そしてスケッチなどのさまざまなスタイルの画像を生成できる。

通義万相で、入力したテキストから画像を生成
Image: Alibaba

　2つ目は、入力した画像をもとにそれに類似した画像を生成する類似画像生成機能だ。ユーザーが任意の画像を通義万相にアップロードすると、別のスタイルや要素を組み込むことで、その内容やスタイルに似た画像を生成できる。

通義万相で、入力した画像をもとにそれに類似した画像を生成
Image: Alibaba

　3つ目は、入力した画像を自分の希望する特定のスタイルに変更することができる、画像スタイル転移機能だ。ユーザーが、スタイルを変更したい元の画像とスタイルを参照したい画像を通義万相へ同時にアップロード。通義万相は、ユーザーが参照したい画像のスタイルを学習し、そのスタイルを元の画像に反映させることで、希望する画像に自動加工することができる。

通義万相で、入力した画像を自分の希望する特定のスタイルに変更
Image: Alibaba

拡大する大規模AIモデルの製品群各業界に浸透

　アリクラウドは2022年のWAICにて、大規模AIモデル「通義」シリーズの製品を初公開。それ以降、複数のシリーズ製品を相次いでリリース。今回初登場した通義万相は、同社が大規模AIモデルの領域において、テキストや音声、そして画像などのマルチモーダル能力を備えていることを意味する。

　現在、アリクラウドの大規模AIモデルはあらゆる業界への展開を加速中。代表的な製品の1つである通義千問の公開テスト申請企業数は30万社を超えている。他にも、通義聴悟は累計ユーザー数が36万に達している。