DeepSeekを考える|プロダクトの特徴、セキュリティー、そして今後

2025年1月にリリースされた大規模言語モデル(LLM)「DeepSeek-R1」。これまで人工知能(AI)、LLMの発展に必要だと考えられてきたハイエンドなGPUを必要とせず、公表されている開発費は$5.6m(約8億7000万円)と非常に低額となっている。
技術的な意味で軽量かつ低コストのLLMであることから、今後のAI時代を担うとされてきた企業の株価が下落。とりわけ、半導体設計のNVIDIAの時価総額は1月27日、$600b(94兆円)近く、下落した。
一方、DeepSeekの性能や中国のプロダクトであることから情報保全の面で不安を抱くとの声もある。この記事では、2024年2月時点で分かっている限りのDeepSeekと、それに関わる識者などの動きとコメント、そして今後のAI業界を読み解いていきたい。
プロダクトとしてのDeepSeek|総パラメーター数や特徴
最初に、DeepSeekのスペックなどのポイントを取り上げる。端的に、なおかつDeepSeekの説明通りにいえば、非常に大きな総パラメーター数でありながら、計算の効率化がされ、全能力を発揮する必要がないのがDeepSeekのポイントとなる。
LLMごとの総パラメーターの比較
まず、各LLMの能力の指標となる総パラメーターを比較したい。DeepSeekはV3のパラメーターを取り上げるが、単純な総パラメーター数においてはR1もV3と同等とされている。
主要LLMの総パラメーター数
LLM | 開発元 | 総パラメーター数 |
DeepSeek-V3 | DeepSeek(中国) | 6710億 |
LLaMA 3 | Meta(米国) | 700億 |
Mixtral 8x7B | Mistral AI(フランス) | 560億 |
ここで取り上げたのは、開発元が総パラメーター数を公表しているもののみだ。よって、OpenAIのChatGPTやAnthropicのClaudeなどは除外した。なお、参考としてChatGPT-4の総パラメーター数は1兆8000億と推定されている。
一方、総パラメーター数を取り上げたLLMも、補足が必要になる。
まず、LLaMA 3は700億であるが、総パラメーター数が4000億のモデルが現在、トレーニング中とされている。またMixtral 8x7Bは、一度の推論で活性化するパラメーター数が、140億だ。
そしてDeepSeekだが、こちらもMixtral 8x7Bと同様、総パラメーター数は6710億であるものの、実際に活性化するパラメーター数は370億となっている。この数字が表すのは、DeepSeekが推論の効率性を高めているということだ。
DeepSeekは、OpenAIのo1と同等の性能を実現していると訴求する。それが事実だとすれば、単純な総パラメーター数やGPUの性能などにとらわれず、推論の効率化がDeepSeek-V3(あるいは、R1も)の能力向上に寄与していると見られる。
DeepSeekの特徴となるMLAとMoE
DeepSeekのこうした推論、あるいは、計算を効率的に行うのが、「Multi-head Latent Attention (MLA)」と「DeepSeek Mixture-of-Experts (MoE)アーキテクチャー」だ。
まず、MLAについて。ディープラーニングやLLMにおいては、Attention機構と呼ばれる仕組みがある。端的にいえば、ユーザーの質問や要求で何が重要かを判断するもの。Attentionにはどの情報を参考にするかをラベリングする「キー」と、実際の情報の内容となる「バリュー」が存在し、MLAではこれらキーとバリューの値を圧縮する。すると、メモリの使用量削減につながり、計算資源の節約になる。
一方のMixture-of-Experts、MoEだが、直訳すれば「専門家の混合」となる。誤解を恐れずにいえば、LLMの中にさまざまな分野の専門家(モデル)を用意しておき、ユーザーの要求に応える推論を導き出すものだ。これも、計算資源の節約につながる。
DeepSeekが、果たして本当に「使える」ものであるかは次に述べるとして、ひとまず効率的な計算ができる仕組みを設計しているとはいえそうだ。
DeepSeekは「使える」のか?
前節の終わりで触れたDeepSeekの実用性について、ここで現状の評価を取り上げる。
まず質問に対して正確な答えが出せるかどうかにおいて、現状は信頼性が低いというのが一つの結論になる。
米国で情報の信頼性評価を行う企業であるNewsGuardは2025年1月末、DeepSeekと欧米の10のLLMとを比較調査。すると、DeepSeekは中国政府の意向に沿った回答になったという。ウクライナのブチャ虐殺やイラン革命防衛隊に関する質問を投げかけた結果によるものだ。
もっとも、こちらは調査をする側にも政治的バイアスが存在する可能性も否定できない。そこで、他者の意見も取り上げる。
Metaの主任AIサイエンティストであるYann LeCun氏は、自身のLinkedIn上で「DeepSeekを見て、考えている人へ」と前置きし、次のように述べている。
「中国はAIで米国を上回っている」
というのは間違った読みだ。
正しい読みは、
「オープンソースモデルはプロプライエタリなモデルを凌駕している」(中略)
彼ら(DeepSeek)は新しいアイデアを思いつき、他の人の作品の上に構築した。
彼らの作品は公開され、オープンソースであるため、誰もがそこから利益を得られる。
これがオープンリサーチとオープンソースの力だ。――Yann LeCun氏(LinkedIn)
また、投資ファンドのDeepwater Asset Managementでマネージングパートナーを務めるGene Munster氏は、株式市場のいわゆるDeepSeeekショックにつき、次のコメントをXに残している。
市場は DeepSeekの成功に過剰反応していると私は考える。なぜならば、アーキテクチャー上のブレークスルーにもかかわらず、AIインフラストラクチャーの必要性はほとんどの投資家が予想するよりも高い割合で継続しているからだ。
おそらく、DeepSeekの「ブレークスルー」は、チップアーキテクチャーの進歩を表しているのだと思う。(だがそれが)5%の改善なのか、500%の改善になるのかは不明だ。
――Gene Munster氏(X)
もしMunster氏の述べる通りインフラの必要性が変わらないのであれば、DeepSeekの前途は必ずしも明るいものとはいえない。冒頭で、DeepSeekは「ハイエンドなGPUを必要としない」と記したが、GPUが不要であるわけでもないからだ。
現在、DeepSeekはNVIDIAのGPU「H800」を、トレーニングで利用していると見られる。H800は、今の最先端GPUの一つであるH100を、米国の対中制裁に応じてスペックダウンしたものだ。
NVIDIAのH100(NVIDIAのメディアアセットより)
現状では最先端より一段劣るH800と最先端GPUとの差はそれほど広がっていないとしても、時間が経過すれば状況は変わってしまうだろう。また、対中制裁がさらに厳しくなれば、米国はもちろん、協調する各国から中国企業がGPUやその他の半導体関連製品を入手することは難しくなる。
これは米Trump政権の成立とは無関係といえる。そもそもH100の禁輸はBiden政権下でのことであるし、ここ数年の米議会は共和党、民主党といった党派性を問わず対中国の場面では厳しい姿勢が見て取れるからだ。
例えば、中国が行っているとされる少数民族への人権弾圧をけん制するため2021年に成立した米国の法律「Uyghur Forced Labor Prevention Act」は、下院では反対がわずか1票、そして上院は全会一致で可決した。同法は、ウイグル地域から米国への輸入品には強制労働によるプロダクトでないことを示さなければならないと義務付ける、経済制裁的要素を含めたものだ。
よって、現在の米政界の状況、同国の世論、さらに国際世論を考えると、DeepSeekの進化はどこかで鈍ってしまうことも否定できない。
一方で、技術として純粋にDeepSeekへ寄せられる期待もある。ここでは、Intel元CEOのPat Gelsinger氏がX上に寄せた「DeepSeekへの感謝」を引用し、本節を締めくくりたい。
知恵とは、私たちがすでに知っていると思っていた教訓をあらためて学ぶことだ。DeepSeekは、コンピューティングの歴史から得た 3 つの重要な教訓を思い出させてくれた。
1) コンピューティングは気体法則計算に従うものだ。コンピューティングを大幅に安くすることで、コンピューティングの市場が拡大する。市場は誤解しているが、これ(DeepSeek)により AI はより広範囲に導入されるようになる(註・あるパラメーターの変化が他のパラメーターに影響する気体法則計算を例に、コンピューティングの広がりを述べたもの)。
2) エンジニアリングには制約がつきものだ。中国のエンジニアはリソースが限られていたため、創造的な解決策を見つけなければならなかった。
3) オープンな勝利。DeepSeekは、基礎的なAIモデル作業のますます閉鎖的な世界をリセットするのに役立つ。DeepSeekチームに感謝する。――Pat Gelsinger氏(X)
Pat Gelsinger氏(Intelプレスリリースより)
もう一つの不安、セキュリティー
もう1点だけ、DeepSeekの負の側面にもなり得ることに触れなければならない。DeepSeekを導入すべきか、あるいは、DeepSeekを活用した何らかのソリューションを検討している企業にとっては、やはりセキュリティーが気になるのではないだろうか。
すでに広く知られていることではあるが、DeepSeekはプライバシーポリシーで「収集した情報を中華人民共和国にある安全なサーバーに保存する」と明記している。
一方、中国のサイバーセキュリティー法などの法律は、国家安全保障を理由に政府が情報やネットワークへアクセスすることを認めている。こうした事実から、DeepSeekの利用時にはセンシティブな情報の入力などを控えた方がベターだといえるだろう。もっとも、これは中国のITプロダクトに限った話ではないことも付け加えておく。
人民大会堂。中国の立法府である全国人民代表大会が開かれる場所(写真AC)
安全保障や経済安全保障とは無関係に、不安な側面もある。米CiscoがDeepSeek-R1の脆弱性を評価すべく自動攻撃を行ったところ、攻撃成功率は100%となった。なお、同様に攻撃成功率が高いLLMは、LLaMA 3.1が96%、ChatGPT-4oが86%だった。一方、攻撃耐性が高いLLMとしては、OpenAI o1の26%、Claude 3.5の36%が挙げられる。
では、DeepSeekを一切、使わない方が良いのだろうか。
この点で参考になりそうなのが、AIエンジニアでBEDORE(現PKSHA Communication)創業者の安野貴博氏の意見だ。
安野氏はXで、DeepSeekは危険なのかという問いに対する、4つの答えを提示。「LV.1 あんまり詳しくない人向けの答え」「LV.2 ちょっと詳しい人向けの答え」「LV.3 けっこう詳しい人向けの答え」「LV.4 前線で戦ってる人向けの答え」と、AIのリテラシーに応じた答えとなっている。
ここでは、LV.3とLV.4の部分を引用する。なお、LV.3の冒頭にある「セルフホスティング」とは、DeepSeekのプラットフォーム上ではなく個人所有のコンピューター上で利用をすることだ。セルフホスティングであれば、ただちにデータが中国のサーバーに保存されることはない。
LV.3 けっこう詳しい人向けの答え:
とはいえセルフホスティングだから大丈夫なのかというと必ずしもそうとは言えないよ。 AIの振る舞いをうまくトレーニングすれば特定条件下でバックドアのあるソースコードを出力したり、MCP連携などAgenticなユースケースで攻撃的な挙動をさせることができるかもしれないよ。まあR1レベルであれば問題にはなりにくいかもしれないけど、今後よりモデルが賢く複雑になり、ユースケースの自律性が高まる場合にはセルフホスティング安全論は終わる可能性あると思うよ。オープンウェイトモデルの振る舞い安全性確認のための研究や、ユーザー側がエージェントの挙動を監視するやり方がもっと成熟するといいね
LV.4 前線で戦ってる人向けの答え
モデルの安全性確認とかいってもゼロリスクを保証することは不可能だよね。しかもそれを待っていたらビジネス的にも技術開発競争的にも遅れてしまうよね。結局、適切なリスクの取り方をするのが大事であり、どこまでリスクをとるべきかはあなたの会社or個人の置かれた状況と、どこまでのリターンを目指すかによるけど、本気で勝ちにいくならそれなりのリスクは取らないとたぶん無理だよね
――安野貴博氏(X)
すでに触れたように、DeepSeekの利用には不安を感じる一面があるものの、技術的に注目すべき点があるのはたしかだ。AIの分野でイニシアチブを取っていく可能性も考えられる。
よって、リスクを覚悟してDeepSeekに乗るか、それとも別の方向性を見出すかの選択になるということだろう。
考え得るDeepSeekのユースケース
暗い話が続いてしまったが、DeepSeekのプラスの部分についても見ていきたい。まず、DeepSeekの特徴やすでに存在している活用例から、どのようなユースケースが考えられるかを取り上げる。
自動運転など交通関連やスマートシティ
著名メディアに掲載された例が見られない情報であるが、英語圏でAIを取り上げるウェブサイトの複数で、深センや成都など中国の都市にてDeepSeekが交通マネジメントに使われていると言及されている。道路の監視カメラや信号といった機器を統合的に運用しているようだ。
以上は裏取りに至らなかったものの、関連する分野ではBYDの新たな運転支援システムにDeepSeekが採用された。
2024年5月にメキシコで開かれたBYD製品発表会の模様(BYDプレスリリースより)
よって、自動運転をはじめとした交通関連がユースケースの一つとして挙げられる。また、交通マネジメントが実際に行われているとすれば、これを拡大させスマートシティの運用に使うといった方法もあるだろう。
医療
2025年2月、中国のヘルスケア企業であるClouDr GroupがDeepSeekを病院や薬局の業務効率化に導入すると発表した。同社はすでにClouDr Brainという医療向けのAIプラットフォームを開発しており、こちらにDeepSeekを統合していくという。
医療面に限らず、小売・ECやさまざまなサービスの販売でも同様の展開ができると考えられる。
また、DeepSeekは数学的推論に強みを持つとされ、企業としてのDeepSeek自身が数学の問題を解く際の優位性を示す論文を発表している。こうした側面を考えると、さらなる進化は必要になりそうだとはいえ、将来的にマテリアルズインフォマティクス的な方法で創薬に活用する、といった使い道も考えられそうだ。
教育、研究におけるコスト削減
ここまでAIが社会に浸透すると、教育機関、研究機関でも利用することが当たり前の状況になる。現状でAIを教育、研究に利用する上で問題となっているのが、コストだ。
ワシントン大学マケルビー校工学部のUmar Iqbal准教授は、自身の研究室でもAIプラットフォームを利用するだけで数万ドルを費やしているといい、DeepSeekのようなオープンソースのLLMが登場することで、あまりお金がなくても大規模な実験を行えるようになる、と語る。
もちろん、DeepSeekのプラットフォームを使うことで、自分のデータが自分の手から離れてしまうことへの懸念も、Iqbal氏は併せて述べている。
DeepSeekがスタンダードになったらどのような変化が起こるのか
今後、DeepSeekが真に価値あるLLMと認められ、そしてAIの世界のスタンダードになったら、何が起こるのか。AI業界で起きそうな変化をシミュレーションする。
オープンソースのLLMが定着
これまでのITの歴史を振り返ると、当初は大企業やイノベーターがつくったクローズドで比較的高価格なソフトウエアやアプリケーションから、オープンソースのプロダクトへとメインストリームが変遷してきた経緯がある。よって、DeepSeekが定着すれば、後を追うオープンソースLLMが登場し、それらもプレゼンスを発揮するかもしれない。
もちろん、従来のソフトウエアなどもオープンソースとクローズドソースですみ分けがされたケースがあった。よって、オープンソースでないからといって今後、生き残れないとは言い切れない。
端末側での計算処理
現在のLLMは、クラウド、API上で計算が行われ推論を導き出す。
現状のDeepSeekは前述のようにGPUそのものは必要であるものの、もし極めて高い計算能力を持つチップを必要としない状況になれば、端末側で計算を行える未来も考えられる。極端な話、スマートフォンが持つ機能だけでLLMの推論を受け取れるかもしれない。
また、ニーズがありそうなユースケースとしては生産設備にLLMを実装することがあり得る。そうなれば、モノのインターネット(IoT)のAI版、「AIoT」社会の到来も考えられる。
AIの浸透が想定以上に進む
DeepSeek、あるいは、同様のモデルで低価格にLLMが利用できるとなれば、利用する層が広がるのは自明だ。具体的には、ITや技術、研究とは直接関係のない小規模企業も利用しやすくなるし、発展途上国にとってもこれまでより利用のハードルが下がる。
よって、今まで想定されてきた以上のスピードでAIが浸透していくと、考えられる。
AI・半導体業界の再編や混乱
現在、GPU市場はNVIDIAが9割前後のシェアを有すると見られている。独占状態といってよいだろう。
繰り返しになるが、DeepSeekは最先端のGPUを使っていないだけで、GPUそのものは必要としている。また、その使っているGPUとは、おそらくNVIDIA製品だと見られている。
NVIDIA本社(NVIDIAのメディアアセットより)
しかし、NVIDIA以外の半導体メーカーにとってはチャンスとなるかもしれない。NVIDIAほどの競争力がなくても、LLMに最適化できる半導体をつくれれば、地位向上の可能性が生じる。また、広く半導体業界の再編にもつながり得る。
これは、AI業界にもいえることだ。つまり、オープンソースLLM企業が台頭したり、企業の再編が起きたり、といったことが起こり得る。
これらの動きは悪い方向へ考えると、例えば米中の溝がますます深まるなども想像してしまう。
まだ何が起きるのか分からない、というのが主たる結論
ここまで分かっている限りのことを、可能な限り記述し、また可能な限りのシミュレーションもした。
しかし、DeepSeekの真価がどれ程のものであるかは、分からない。AIの世界に身を置く人でもそう思う場合が、少なくないのではなかろうか。現に、AIに携わる企業は多額の投資を継続する方針を変えていないし、DeepSeekの利用を禁じる政府機関も存在する。反対に、DeepSeekがLLMのスタンダードとなる可能性も、もちろんある。
こうした、分からないという状況下では安野氏のコメントにもあったように、ユーザーそれぞれがどこまでリスクを負うか判断しながら利用する、あるいは、まったく利用しないという判断をするしかない。リスクを取る場合の例として挙げられるのは、データがほぼ入っていないインターネットのみにしか接続していない端末でDeepSeekを利用する、などだ。
参考文献:
※1:DeepSeek R1 Stuns the AI World, Ali Azhar, HPCwire(リンク)
※2:DeepSeek(リンク)
※3:Introducing Meta Llama 3: The most capable openly available LLM to date, Meta(リンク)
※4:Mixtral of experts, Mistral AI(リンク)
※5:研究者視点で見た「GPT-4o」の評価と謎、GPT-5に向けた「たった1秒」の伏線とは, ビジネス+IT(リンク)
※6:Meta の Llama 3 モデルが Amazon Bedrock でご利用いただけるようになりました, Amazon(リンク)
※7:Mixtral 8x7B: A Breakthrough in Sparse Mixture of Experts Models, インド工科大学マドラス校 AI Club, Medium(リンク)
※8:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model, DeepSeek-AI, arxiv(リンク)
※9:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models, Wenfeng Liang他, arxiv(リンク)
※10:Chinese Chatbot Phenom is a Disinformation Machine, NewsGuard(リンク)
※11:A look at the unbelievable Nvidia GPU that powers DeepSeek's AI global ambition, Wayne Williams, Techradar(リンク)
※12:ウイグル強制労働生産品は輸入禁止、米下院が法案可決 企業に影響か, 園田耕司他, 『朝日新聞』電子版2021年12月9日(リンク)
※13:米国、ウイグル産の輸入を全面禁止へ…中国への制裁拡大、人権重視で厳しさ増す, 吉田通夫他, 『東京新聞』電子版2021年12月17日(リンク)
※14:中国の個人情報保護法とデータ運用に関する法制度の論点, 松尾剛行, 『情報通信政策研究』5巻2号(リンク)
※15:Evaluating Security Risk in DeepSeek and Other Frontier Reasoning Models, Paul Kassianik他, Cisco(リンク)
※16:BYD shares hit record high after EV maker rolls out driver assistance tech with DeepSeek's AI help, Evelyn Cheng, NBC Boston(リンク)
※17:DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Daya Guo他, arxiv(リンク)
※18:WashU Expert: How DeepSeek changes the AI industry, Leah Shaffer, WashU MAGAZINE(リンク)
※19:Nvidia destroys the competition and achieves the highest GPU market share of its history, Mark Campbell, OC3D(リンク)
【世界のLLMの技術動向調査やコンサルティングに興味がある方】
世界のLLMの技術動向調査や、ロングリスト調査、大学研究機関も含めた先進的な技術の研究動向ベンチマーク、市場調査、参入戦略立案などに興味がある方はこちら。
先端技術調査・コンサルティングサービスの詳細はこちら
CONTACT
お問い合わせ・ご相談はこちら

