当サイトではアフィリエイトリンクを使用しています

【中国製AIアプリ】DeepSeekV3とR1について考察してみた

2025年1月後半、Nvidiaの株価が一時17%下落しました。

きっかけは中国発の生成AI DeepSeek。

  • どうしてNvidiaの株価下落につながったのか?
  • DeepSeekはこれまでの生成AIと何が異なるのか?
  • トランプ氏もコメントしていたが、アメリカへの影響はどのようなものになるのか?

・・・などなど個人的に興味があったので、調べて記事にしてみました。

※具体的な使用方法には踏み込んでおりませんのでご了承くださいませ。

この記事を読むと分かること
DeepSeekの学習方法概要やアメリカへ与える影響について筆者個人の考察

こんな人に読んで欲しい
  • DeepSeekが原因でNvidia株がなぜ下落したのか興味がある方
  • DeepSeekが世界で広まるかどうかに興味のある方

Nvidia株が急落

V3モデルが低コストで開発された

中国に拠点を置くAI企業であるDeepSeek社は2024年末にV3というモデルをリリース。

同月に発表された技術報告書によれば1、V3のトレーニングではNvidiaのH800チップ(型遅れのチップ)が使用され、コストは600万ドル以下だったことが判明。

2025年1月下旬にかけて、上記V3の開発環境が徐々に知られていくことになりました。

Nvidiaの高性能GPUの必要性が疑問視される

「え、そんな性能のGPUで開発したの?NvidiaのGPUの需要が下がるのでは・・・」

そう考えたマーケット参加者はかなりいたのかもしれません。

マーケットは売りが売りを呼ぶ事態に。

Nvidiaの株価は一時17%の大幅下落となりました。

DeepSeekR1の特徴

V3を基盤に新たに開発されたのがR1というモデル。

V3がリリースされた翌月2025年1月にリリース。

とんでもない高性能なAIにも関わらず、安価で使用できることもあり大きな話題になりました。

強化学習(Reinforcement Learning)が採用されている

従来、多くの大規模言語モデル(LLM:Large language Models)は、教師ありファインチューニング(SFT:Supervised Fine-Tuning )に大きく依存していました。

しかし、DeepSeekR1は、強化学習2(RL:Reinforcement Learning)を中心としたトレーニング手法を採用し、特に推論能力の向上に成功。

このアプローチにより、特に数学プログラミングなどの複雑な推論タスクにおいて質の高いアウトプットを発揮できるとのことです。

たけぞー
たけぞー

人間の推論に近いアウトプットが出せるようになったとか!

同僚A
同僚A

デスクワークに携わる労働人口減少が加速しそうだね・・・。

群集相対方策最適化(Group Relative Policy Optimization)の導入

DeepSeekR1ではGRPO(Group Relative Policy Optimization)と呼ばれる新しいアルゴリズムが採用されています。

この手法は、従来の方策最適化手法と比較して、トレーニングの効率性と安定性を向上させることが可能に。

評価のためのベースラインを推定する際に、同じポリシーからの一連の出力を使用することで、計算コストを削減しつつ、性能を高めることに成功したとのこと。

同僚A
同僚A

つまりはどういうことなん?

たけぞー
たけぞー

いままでの方策最適化っていうトレーニングは結果を個別評価する方法だったみたいだね。
野球で例えるとすると、A君は打率3割5分だから良く打てたね。B君は打率2割だったからもっと頑張れ!っていう個別のフィードバックをする形。

同僚A
同僚A

GRPOとやらは?

たけぞー
たけぞー

上の例を使うと、チームの複数選手を相対的に評価する仕組み。
選手の打率をまとめて分析して、打率の良かった選手と悪かった選手を相対的に評価するみたい。

同僚A
同僚A

チーム内の野手における相対評価ってことかぁ。

自動評価可能な報酬設計

トレーニングにおいて、DeepSeekR1は回答の正確性や形式に基づく報酬設計を行っているようです。

例えば数学の問題では、特定の形式で答えを提供することで自動的に正確性を評価し、プログラミングの問題では、コードがテストケースを通過するかどうかまでチェック。

このような自動評価可能な報酬設計を使って、学習効率や性能を高めているとのこと。

オープンソースで公開

R1モデルはオープンソースで公開されており、自由な利用・改良が可能。

高性能なAIにも関わらず、仕組みを全て公開していることも大きな反響を呼びました。

たけぞー
たけぞー

随分太っ腹だなぁ。

DeepSeekの蒸留問題

「DeepSeekがすごい!」

「これは全世界へのギフトだ!」

トランプ氏までもDeepSeekを称賛する声を送っていました。

DeepSeek社の最新モデルで称賛の声が集まる中、疑念の声も持ち上がりました。

「DeepSeekはOpenAIのデータを蒸留したのではないか・・・?」と。

蒸留(Distillation)とは?

あるAIモデルの知識や機能を、他のAIモデルに移植することです。

言い換えると、AIモデルから出力されたデータを別のAIモデルの学習データとして使用し、性能を維持しながらも、リソースの削減や応答速度の向上を図ること。

同僚A
同僚A

つまりOpenAI使って得られた回答を学習データに使用したってこと?

たけぞー
たけぞー

2025年1月の段階だと相当疑わしいらしく、OpenAIと提携関係にあるマイクロソフトが調査中みたいよ。

アメリカ国内における中国製アプリ全面禁止の可能性も

DeepSeekの情報管理は中国国内のサーバーが使用されている

おそらくですがトランプ大統領がとても嫌うケースなのではないでしょうか。

これまでの言動から察するに、トランプ大統領ならDeepSeekのアメリカユーザー情報を国内にとどめておきたいはず。

イタリアに至っては2025年1月31時点で国内でのDeepSeekへのアクセスを遮断したとのこと。

たけぞー
たけぞー

DeepSeek側にデータの取り扱いについて情報提供を求めたところ、満足のいく回答が得られなかったんだって。

同僚A
同僚A

イタリア政府は対応早いね。
オープンソースで公開されているのなら、国内企業でも似たサービスを展開できる可能性あるだろうし、中国によるデータ収集のリスクを考えると妥当かもね。

欧州の他国やアメリカが後に続く可能性も大いにありそうです。

イタチごっこを嫌って全ての中国製アプリが使用禁止になる可能性

2025年2月2日現在、アメリカではTikTokが今後も使えるか・猶予期間後に使用が禁止されるか微妙な状態が続いています。

ただ、1月にTikTokが使用禁止になるかもというタイミングで「RedNote」という中国製アプリに乗り換えようとしたユーザーが多数確認されました。

そこにきて、この中国国内サーバーでデータを管理しているというDeepSeekの登場。

多くの人がこう思ったのではないでしょうか。

「アプリの1つや2つ規制したところで、中国がデータ収集していたとしても防げなくない?」

・・・と。

たけぞー
たけぞー

トランプ政権なら、アメリカで全ての中国アプリを使用禁止にしてもおかしくない・・・。

おわりに

まとめると以下のような感じでしょうか。

  • V3のトレーニングには型遅れのGPUが使われた上に低コストだった
  • R1の学習方法はオリジナリティーがあり革新的だった
  • R1は人間の推論・思考に近い高度なアウトプットが可能な質の高いAI
  • しかもオープンソースで世界に公開した
  • 学習材料はOpenAIから無断拝借した可能性がある
  • 情報管理が適切になされているか不明であり、各国が規制に乗り出す可能性がある

オープンソースで発表するあたり「嫌なら使う必要ないし、自分たちでサーバー用意して別のアプリ作ればいいじゃん」と言っているようにも感じました。

DeepSeekR1を作った人たちが本当にすごいのは間違いなさそうですね。

ただ不適切な情報管理の懸念から「DeepSeekR1が世界で広まっていくか?」といえばまだ何とも言えない状態。

トランプ氏の対応とアメリカ市場の株価に与える影響も個人的には気になるところなので、今後もニュースをチェックしていきたと思いました。

最後まで読んでいただき、ありがとうございました!


  1. ロイター通信(英語版)「DeepSeek leaves US AI firms racing to understand its success」より ↩︎
  2. 強化学習 (RL) は、最適な結果を得るための意思決定を行えるようにソフトウェアをトレーニングする機械学習の手法のこと。RL は、人間が目標を達成するために使用する試行錯誤の学習プロセスを模倣している。(AWS 「強化学習とは何ですか?」より) ↩︎

コメント

タイトルとURLをコピーしました