ソフトウェア

DeepSeekがOpenAIのデータを「蒸留」してAIを開発していた可能性が浮上、OpenAIは「証拠がある」と発言


「中国発のAI企業であり業界で注目を集めるDeepSeekは、OpenAIの利用規約違反に相当するデータの『蒸留』を行った上で独自のAIモデルのトレーニングに使用していた」と、OpenAIが発表しました。OpenAIは証拠もつかんでいるとのことです。

Microsoft Probing If DeepSeek-Linked Group Improperly Obtained OpenAI Data - Bloomberg
https://www.bloomberg.com/news/articles/2025-01-29/microsoft-probing-if-deepseek-linked-group-improperly-obtained-openai-data

OpenAI says it has evidence China’s DeepSeek used its model to train competitor
https://www.ft.com/content/a0dfedd1-5255-4fa9-8ccc-1fe01de87ea6


OpenAIは経済紙のFinancial Timesに対して、DeepSeekによるデータ「蒸留」の証拠をいくつか発見したことを明かしました。「蒸留」は、開発者がより大きく、より高性能なAIモデルの出力を使用して、より小さなAIモデルを優れた性能にするためトレーニングするという手法です。この手法を使うことで、AIモデルで特定のタスクをはるかに低いコストで実現可能となります。

「蒸留」は業界では一般的な手法ですが、OpenAIは利用規約で「ユーザーがOpenAIのサービスを『コピー』したり、『OpenAIと競合するモデルを開発するために出力を使用』することはできない」と明記しており、DeepSeekは独自のAIモデルを構築するためにOpenAIのデータを「蒸留」したのであれば、利用規約違反に当たります。


OpenAIに近い人物は、「問題なのは、自分自身の目的のため、自分自身のモデルを作るために、プラットフォームからそれを持ち出すケースです」と語りました。ただし、OpenAIはDeepSeekによる「蒸留」について、これ以上のコメントや詳細を提供することを拒否しました。

DeepSeekが発表した推論モデルの「DeepSeek-R1」は、シリコンバレーの投資家やテクノロジー企業だけでなく、市場も驚かせています。「R1」のトレーニングコストはOpenAIの推論モデルである「o1」の約3%程度とも伝えられており、非常に低コストでありながらアメリカの主要AIモデルと同等のパフォーマンスを実現しています。

R1の衝撃的なパフォーマンスを受け、AIチップ需要で業績を伸ばしているNVIDIAの株価は一時17%も下落しました。

中国のAI「DeepSeek」ショックでハイテク株がパニック売りに、NVIDIAの時価総額が91兆円消し飛んで暴落記録を2倍以上更新 - GIGAZINE


OpenAIとそのパートナーであるMicrosoftは、2024年にOpenAIのAPIを使用したDeepSeekのものと思われるアカウントを調査し、利用規約に違反する蒸留行為をブロックしています。これについてMicrosoftはコメントを拒否しており、OpenAIも詳細についてのコメントを返答していません。DeepSeekも中国の旧正月休暇中であるため、コメント要請に応じませんでした。

DeepSeekがOpenAIからデータを蒸留している疑いに対して、トランプ政権でAIおよび仮想通貨責任者に就任したデビッド・サックス氏は、知的財産の盗難が発生した可能性は「あり得る」と言及。「AIには蒸留と呼ばれる技術があり、あるモデルが別のモデルから学習することで、親モデルから知識を吸い上げることができる」とサックス氏はFox Newsに語っています。

DeepSeekはわずか2048枚のNVIDIA H800を使用して、6710億個のパラメータを持つ「DeepSeek-V3」をトレーニングするためにかかったコストがわずか560万ドル(約8億7000万円)だったと言及しています。一部の専門家によると、V3はOpenAIのGPT-4からの出力でトレーニングされたことを示す応答を生成しているそうです。


業界関係者によると、中国やアメリカのAI研究所では、OpenAIのような企業の出力を使用するのが一般的だそうです。AIモデルがより人間らしい応答を生成できるように、人材雇用に投資しており、「中小企業ではしばしばこの作業におんぶに抱っこ状態だ」と内部関係者は語っています。

カリフォルニア大学バークレー校のAI博士候補であるリトウィック・グプタ氏は、「スタートアップや学者が、ChatGPTのような人間と連携した商用大規模言語モデル(LLM)の出力を使って別のモデルをトレーニングすることは、ごく一般的なことです」「DeepSeekが同じようなことをしていても、私は驚きません。もしそうだとしたら、この行為を正確に止めるのは難しいかもしれません」と語りました。

なお、OpenAIは「中国を拠点とする企業やその他の企業が、アメリカの大手AI企業のモデルを常に抽出しようとしていることは承知しています」という声明を出しています。加えて、アメリカの技術を奪おうとする敵対者や競争相手による努力から最も高性能なAIモデルを守るため、アメリカ政府と緊密に協力することが重要だと語りました。

この記事のタイトルとURLをコピーする

・関連記事
アメリカ海軍が中国企業DeepSeekの開発したAIの使用を全面的に禁止 - GIGAZINE

DeepSeekはどのようにしてOpenAIの3%のコストでo1を超えたのか? - GIGAZINE

中国のAI「DeepSeek」ショックでハイテク株がパニック売りに、NVIDIAの時価総額が91兆円消し飛んで暴落記録を2倍以上更新 - GIGAZINE

中国のAI開発企業「DeepSeek」が急速に台頭してテクノロジー業界で話題に、App Storeの無料アプリランキングでも1位を獲得 - GIGAZINE

中国のAI企業・DeepSeekがGPT-4oに匹敵するAIモデル「DeepSeek-V3」をリリース、パラメーター数は脅威の6710億個 - GIGAZINE

in ソフトウェア, Posted by logu_ii

You can read the machine translated English article DeepSeek may have been 'distilling' Open….