|
編集者 | Yifeng 制作:51CTOテクノロジースタック(WeChat ID:blog) 今年初め、DeepSeek-R1 モデルのオープンソース化により、この目立たないテクノロジー ブランドは瞬く間にヒット商品となりました。 DeepSeek アプリケーションの急速な成長に伴い、AI 大手各社は共同でオープンソース モデルの商業的価値を再検討しています。これはもはや単に「宣伝のためにお金を失う」という問題ではなく、具体的な商業的利益をもたらす可能性があるものとなっています。 DeepSeekからの競争圧力は明白だ。OpenAIのAltman氏でさえ珍しく考えを変え、オープンソース/クローズドソース問題に関してOpenAIは「歴史の誤った側に立っていた」と認めた。Altman氏はXでアンケートを実施し、OpenAIの次のオープンソースプロジェクトはO3ミニスケールモデルにすべきか、エッジサイドモデルにすべきかを問うた。 国内では、かつてクローズドソース技術を信奉していた百度(バイドゥ)も圧力を感じています。2月中旬、百度は一連の大きな動きを発表しました。
最も驚くべき動きは、百度が「オープンソース vs. クローズドソース」問題に関して180度転換したことだ。以前、ロビン・リー氏は「オープンソースモデルは知性への課税だ」「オープンソースモデルはますます時代遅れになるだけだ」と率直に述べていた。しかし今、現実を直視した百度は「勝てないなら仲間になる」と決断し、オープンソースの潮流に積極的に追随している。 しかし、Baiduのオープンソース計画を詳しく見てみると、DeepSeekのアプローチとは根本的に異なる可能性があることがわかります。DeepSeekは「リリース&オープンソース化」モデルを採用していますが、Baiduのオープンソース計画はより慎重です。ユーザーは今後数ヶ月以内に製品版のWenxin 4.5シリーズを体験できる可能性がありますが、正式なオープンソース化は今年半ばまで完了しません。 2025年後半は百度の主な焦点となるでしょう。CNBCの報道によると、百度Ernie 5.0は今年後半にリリースされる予定で、マルチモーダル機能が大幅に強化されています。関係筋によると、この新モデルは、テキスト、画像、動画、音声の理解と変換において大きな進歩を遂げ、より自然なAI動画コンテンツの生成などを実現する可能性があるとのことです。 BaiduによるErnie 4.5のオープンソース化は、ある意味ではバージョン5.0への試金石と言えるかもしれません。オープンソースの世界に本格的に参入する前に、Baiduはまず市場の反応を確かめ、この道を追求する価値があるかどうかを見極めたいと考えているようです。 1. 月間アクティブユーザー数が上回った今、Baidu のモデルは本当に時代遅れなのでしょうか?Baidu の次のオープンソースが大きな話題になるかどうかに関して、避けられない疑問がある。それは、大規模モデル技術の面で Baidu は遅れをとっているのではないか、というものだ。 技術的な観点から見ると、Baidu は大手のモデルメーカーにそれほど遅れをとっていないかもしれない。 しかし、ネット上では百度の大型モデルが競争力を失ったとの見方が広まっており、その理由は以下の通りだ。 まず、国内市場への早期参入企業の一つである百度文暁聲は、首位の座を維持できなかった。さらに、「早起きは三文の徳」という議論がしばしば煽り立てられ、百度の壮大なビジネスモデルも「崩壊」するのではないかと懸念する声も上がっている。 2年前、百度は大規模モデルをいち早く開発した大手企業の一つでした。2023年3月、チャットボットアプリ「文心易言」の社内テストを開始し、試用を希望するユーザーが待機リストを埋め尽くしました。しかし、文心易言の月間アクティブユーザー数における首位はわずか1年で、その後は「Kimi」や「豆豬」といった新興企業に徐々に追い抜かれました。 しかし、AIアプリケーションの月間アクティブユーザー数はモデルメーカーの技術レベルを完全に反映するものではないものの、文鑫易燕のウェブアプリケーションは現在、国内AI製品の中でトラフィックランキング6位にとどまっており、DeepSeek、Nano AI Search(DeepSeekのトラフィックを継承)、トラフィック獲得に多額の投資を行っているDoubaoとKimi、そしてAIネイティブではないBaidu Wenkuに遅れをとっています。アプリケーションランキングのみに基づいて、Baiduの技術が著しく遅れていることを証明することは不可能です。 ここから2つ目の疑問が生まれます。百度文酷が月間アクティブユーザー数で追い上げ、商業化においても傑出した実績を上げていることは、文小彦が内部的に見捨てられたというシグナルを対外的に送っているように思われます。 例えば、1月初旬にロビン・リー氏が送った百度の社内文書では、「当社は大規模モデル応用の分野では他に類を見ない存在であり、文心ライブラリーの有料ユーザー4,000万人に比類のないコンテンツ制作を提供している」と述べられていたが、ネイティブAIベースの文心易言については触れられていなかった。 アプリケーション層において、WenXiaoyanの内部的な地位が低下したかどうかは不明であることを明確にしておく必要があります。しかし、モデル層においては、WenXinは依然としてBaidu Wenkuを支える技術基盤であり、放棄される可能性はゼロではありません。 第三に、百度の毎日のアクティブユーザー数が追い抜かれたのは、百度のクローズドソースエコシステムと時期尚早に開始されたサブスクリプションシステムも一因であると考えられる。 2023年11月、文心は会員制の有料化を発表しました。これは、無料ユーザーは最先端の文心4.0モデルにアクセスできなくなることを意味します。百度は、静かに大金を稼ぐ姿勢で、必要な技術プロモーションを無視し、さらにはクローズドソースを明確に支持し、「オープンソースモデルはますます時代遅れになるだろう」という一連の見解を発表しました。 この時点でオープンソースを発表しても、ユーザーに良い印象を与えることはほとんどないでしょう。 最後に、商業化を重視し、大規模モデルが「資金を燃やしている」という客観的な現実から、百度はかつて「事前トレーニングを終了した」と噂されました。 写真 これに対し、百度のCTOである王海鋒氏は「皆さんは基本大型モデルの進捗状況を非常に心配していると思います。文心大型モデルは現在も継続的なトレーニング中ですので、より強力な新バージョンにご期待ください」と述べ、噂を否定した。 では、基本モデルのトレーニングに関する真実とは一体何でしょうか?オープンソースのアプローチを採用したBaiduにはまだチャンスはあるのでしょうか? 2. 百度のモデルはどこまで進歩しているのか?どのような優位性を維持しているのか?前世代モデルERNIE 4.0とそのTurboバージョンのパフォーマンスに基づくと、 Baiduはまだ第1層または第2層に復帰するチャンスがあります。 Baidu の ERNIE 4.0 は、2023 年 10 月にリリースされ (GPT-4 より 7 か月遅れ)、2024 年 6 月にアップグレードされた ERNIE 4.0 Turbo は (GPT-4o より 1 か月遅れ)、Baidu の最も先進的なモデル テクノロジーを表しています。 ERNIE 4.0は、全体的なパフォーマンスにおいてGPT-4と明らかに匹敵します。後者と比較すると、ERNIE 4.0は中国語のコンテキストでは優れたパフォーマンスを発揮しますが、複雑な論理タスクでは後者に劣ります。 写真 昨年 6 月にリリースされた ERNIE 4.0 Turbo には明確なベンチマークがなく、公式の説明では「大幅なパフォーマンスの向上を達成した」と述べられています。 12月19日に人工知能研究院が発表したFlagEval「100モデル」の評価結果によると、ERNIE 4.0 Turboは確かに主観スコアではトップに立ち、同時期にリリースされたDoubao-pro-32k-previewに次ぐものだったが、客観的スコアは高くなかった。 以上のことから、文鑫は「科学よりも文学を重視する」モデルである可能性が示唆される。 上:北京人工知能研究院(BAAI)によるFlagEval「100モデル」の評価結果 大々的な宣伝活動は行われていないものの、百度はモデルの更新を止めていない。 Baidu 千帆大規模モデルサービスおよび開発プラットフォームのモデル更新履歴を調べると、1 月末には Baidu も推論機能の開発に忙しく、多数のモデル更新をリリースしていたことがわかります。 上:百度千帆大規模モデルサービス開発プラットフォーム https://ai.baidu.com/ai-doc/WENXINWORKSHOP/flxu4ej5u パフォーマンス面では、SuperCLUEのサードパーティレポートで、Baiduのモデル「ERNIE-4.0-Turbo-8K-Latest」が62.2点を獲得し、レポート内のモデルの中で「第4層」に位置付けられました。名前の通り、これは非常にパワフルな8K小型モデルです。このモデルはDeepSeek-V2.5と同層に位置し、GPT-4o-miniよりも優れた性能を発揮します。 注: 上記のデータはSuperCLUEから取得したものです さらに、Baidu は垂直シナリオとマルチモーダル テクノロジーにおいて大きな優位性を持っています。 商業化は技術蓄積の欠如を意味するものではありません。深く培われた垂直シナリオは、Baiduのモデルに貴重なフィードバック、特に専門的で高品質なデータをもたらす可能性があります。 百度の公式サイトに掲載されている業界レベルの大規模モデル分布マップによると、百度はすでに複数の業界向けにカスタマイズされたモデルを保有しています。報道によると、百度の文心モデルは、中国語のシナリオにおいて知識ベースの質問応答とマルチモーダル生成(テキスト、画像、音声)機能においてリードしており、特に金融分野と教育分野での応用成熟度が高いことが示されています。 画像出典:文鑫大型模型公式サイト 百度の最新の2024年度財務報告によると、「12月には、文心ビッグデータモデルの1日あたり利用回数が16.5億回に達し、1年間で33倍に増加した」とのことです。これは、百度の商業分野における独自の技術蓄積と高い信頼性を証明しています。 マルチモーダル分野におけるAppleのパートナー選択は、Baiduの強みを証明していると言えるでしょう。Appleは最終的に中国市場向けのAI機能開発でAlibabaと提携しましたが、海外メディアの報道によると、AI画像認識機能の開発パートナーとしてBaiduを選んだようです。 さらに、文鑫は国家潜水チームにも選ばれています。百度文鑫は、ダイバーの動きをリアルタイムで評価し、正確な定量分析を行い、トレーニングプランを策定するなど、高度な機能を備えたインテリジェントな潜水支援トレーニングシステムを開発しました。 百度のCTOである王海鋒氏はかつて、マルチモーダルコンピューティングの技術的障壁について論じた。「テキストの錯覚に比べて、画像の錯覚はより困難だ」と彼は述べ、百度は検索性能を向上させるテキスト画像変換技術をさらに開発し、正確な画像と一般化された画像の両方を生成できるようにした。 より詳しい技術的説明は以下の通りである。まず、大規模モデルがユーザーのニーズを分析・理解し、どのエンティティを強調表示する必要があるかなど、精密または一般化されたソリューションを自動的に計画する。次に、強調段階では、強調が必要なエンティティについて、対応する参照画像が検索・選択される。生成段階では、百度が自社開発したマルチモーダル制御画像生成モデルを用いる。一方では、局所的な注意計算により、ニュートンの肖像画に基づいて絵本風のニュートンを生成するなど、エンティティの特徴を維持しながら一般性の高い画像生成を実現する。他方では、全体的な注意計算により、車が元の画像と完全に同一の画像を生成するなど、高精度な画像生成を行う。 さらに、マルチモーダルコンピューティングはErnie 5.0の最も重要な機能の一つであるため、Baiduはこの分野で画期的な進歩を遂げ、もしかしたら「隠れた宝石」とも言える技術を保有している可能性もある。(興味深いことに、もう一つの検索エンジン大手であるGoogleも、マルチモーダル技術を強みとしており、最近リリースされたGemini 2.0は称賛に値するパフォーマンスを誇っている。) さらに、百度はコンピューティングパワーレイヤーにおいて真のハードウェアとソフトウェアのシナジーを実現しています。自社開発チップ(Kunlun Chip)と自社開発フレームワーク(PaddlePaddle)が高度に統合され、コンピューティングパワーの利用率を大幅に向上させています。今年2月には、百度AIクラウドが第3世代Kunlun Chipクラスターの稼働に成功したことを発表しました。これは中国で初めて公式に稼働した自社開発クラスターです。さらに、百度AIクラウドは次のステップとして、3万枚のカードを搭載したクラスターの稼働を開始することも明らかにしました。 これは、文心大型モデルの反復に十分な「弾薬」を提供するだけでなく、長期的には、百度のソリューションはNvidiaチップに依存しないため、事前にリスクを回避し、国内代替の波の中で重要な生態学的位置を占める可能性があります。 3. Baidu のオープンソースへの取り組み:それは本当に解決策となり得るのか?DeepSeek効果は引き続き広がり、国内外のモデルメーカーに衝撃を与えています。 「シックス・リトル・タイガース」のキミやミニマックスなど、一部の模型メーカーは技術主導のアプローチに戻っています。 DeepSeekがオープンソース化され、大きな成功を収めた後、Dark Side of the Moonは社内で戦略を再評価しました。その結果を検討した結果、チームはSOTA(最先端)ベースモデルという目標を堅持すべきだと確信しました。 MiniMaxのCEOであるヤン・ジュンジエ氏はインタビューの中で、半年以上にわたる不安の末、ついに決断を下したことを明らかにした。「MiniMaxの現在の最も重要な目標は、成長や収益ではなく、『技術の反復を加速すること』です。」 他のモデルベンダーもOpenAIなどのオープンソースイニシアチブを復活させています。アルトマン氏は、今後のオープンソースプロジェクトの候補を明らかにし、提供される選択肢は非常に魅力的だと述べました。 上記の 2 つのカテゴリには重複する部分もありますが、オープン ソースはテクノロジー主導とは異なる点に注意してください。 企業がオープンソースに取り組む動機は様々です。ヤン・ジュンジエ氏は、「もしもう一度選べるなら、初日からオープンソース化していたはずです。オープンソースは技術の進化を加速させるからです」と述べています。しかし、DeepSeekの奇跡は、オープンソースの価値が私たちが想像していたよりもはるかに深く多様であることを証明しました。オープンソースはテクノロジーブランドを構築し、モデルに評判と口コミをもたらし、さらには大手Bエンドクライアントにとって営業チームよりも効果的な商業化の原動力となることさえあります。 百度はオープンソースの価値を確かに認識している。18日の決算説明会で、ロビン・リー氏はDeepSeekの成功が百度に教訓を与えたと率直に述べた。「DeepSeekから学んだことが一つあります。最高のモデルをオープンソース化することで、そのモデルの利用や採用を大いに促進できるということです。モデルがオープンソース化されると、人々は自然と好奇心から試してみたくなり、それがより広範な採用につながります。文心モデル4.5は当社史上最高のモデルとなり、ユーザーや顧客がこれまで以上に簡単に試せるようになることを願っています。」 そのため、百度はユーザーの敷居を下げ、エコシステムの繁栄を促進することを期待して、できるだけ早く6月30日に文心4.5シリーズのオープンソースを発表することを選択しました。 しかし、オープンソース化は単に「技術を公開する」という単純なものではありません。ビジネス戦略、エコシステムの構築、さらにはプライバシーやセキュリティの境界についても考慮する必要があります。これまでアプリケーション開発に注力していなかったDeepSeekと比較すると、Baidu Wenxinは既に多くのエンドユーザーを獲得しています。モデルの学習には、ユーザーインタラクションデータだけでなく、Baiduが保有する検索やクラウドコンピューティングといったデータ資産も含まれる可能性があります。そのため、オープンソース化においては、データセキュリティとコンプライアンスを考慮する必要があります。 Baiduはオープンソースの境界を明確にする必要があります。推論の重みのみを公開すべきか、それとも学習方法をさらに公開すべきか?イノベーションを促進し、データの悪用を防止できるオープンソースライセンスをどのように設定すべきか?これらはすべて、オープンソースの有効性に影響を与える重要な問題です。 これまで締結した政府および企業との契約に関しては、百度は民間展開を通じて安定性を確保することができます。実際、オープンソースと政府および企業顧客は対立するものではなく、「オープンでありながら制御可能」という合理的な戦略は、企業顧客の信頼を高める可能性を秘めています。 結局のところ、百度のオープンソース戦略の核心的な課題は、「オープンソース化するかどうか」ではなく、オープンソース化後に文心大規模モデルの業界における影響力を真に高められるかどうかです。オープンソース化はブランド認知度、エコシステムの繁栄、そしてユーザーの増加をもたらす可能性がありますが、最終的にすべてを決定づけるのは、モデルの技術力とユーザーエクスペリエンスです。DeepSeekの爆発的な成長は、この前提の上に成り立っています。百度がオープンソース化後に同様の機会を捉えられるかどうかは、文心4.5の実際のパフォーマンスを見れば明らかです。 参考リンク:1. https://zhuanlan.zhihu.com/p/23667812307 2.https://finance.sina.com.cn/tech/discovery/2024-11-13/doc-incvxpff1200045.shtml 3.https://flageval.baai.ac.cn/#/home 4.https://cloud.tencent.com/developer/article/2495332 5.https://mp.weixin.qq.com/s/VmRFGJitPF9EXi0ZBDp3Pw 6.https://mp.weixin.qq.com/s/opWLjlQvWuf9mqKeP0D4Xg 7.https://cloud.baidu.com/article/3396976 |