新聞說:突然爆紅的DeepSeek嚇壞矽谷,美股期指和日晶片股大跌,美國股市期貨指數在27日亞洲早盤重挫,日本晶片類股也大跌,因為中國大陸AI新創公司DeepSeek以高性價比(CP值)的方式推出能夠媲美OpenAI性能的AI模型,震驚矽谷與科技界。在台灣時間27日上午接近10時30分,標普500指數期貨重挫近1%,那斯達克100指數期貨大跌1.8%。DeepSeek可謂一夕爆紅,該公司20日對外正式發表新的AI模型DeepSeek-R1,因性能與OpenAI最新的o1相媲美,引發轟動。在周末期間,有關這款AI模型的低成本、高性能,而且未依賴先進AI晶片的消息引發熱議,這令人質疑輝達等美國科技巨擘在AI產業的主導地位。瑞聯銀行的常務董事Vey-Sern Ling表示:「DeepSeek顯示出,用較低成本開發強大AI模型是可能的,這可能會破壞目前由少數幾家科技巨擘高額支出主導整個AI供應鏈的投資邏輯。」根據大陸媒體財聯社報導,DeepSeek僅用2,048組H800繪圖晶片、耗時兩個月,就訓練出了一個6,710億參數的DeepSeek-V3。相較下,Meta訓練參數量4,050億的Llama 3,用了16,384組更強的H100顯示卡,耗費54天。這代表DeepSeek的訓練效率提升了11倍。在日本,輝達的半導體測試設備供應商愛德萬測試股價今天盤中重挫8.3%,Disco下跌3.3%、東京威力科創跌逾4%。儘管軟銀計劃與OpenAI、甲骨文等公司合作投資美國AI基礎設施的消息在上周曾帶動科技與晶片相關類股大漲,但周一可能面臨獲利了結風險。軟銀今天重挫超過6%,逆轉上周飆漲16%的走勢,為資料中心生產電纜的古河電氣工業和藤倉公司分別崩跌9%和8%。住友生命保險平衡組合投資總經理Masayuki Murata表示:「大型科技公司在AI上投入了大量資金,幾乎達到了一國政府預算的規模,但一直存在一個問題,即能否產生符合投資規模的回報。」他說,DeepSeek可能引發科技股下跌。Ortus Advisors日本股票策略主管Andrew Jackson表示:「今天迄今全是和DeepSeek問題相關,但很難判斷接下來的影響性。顯然,古河電氣工業和藤倉這類過熱的股票受到了衝擊。」
一般討論區網友分享:前OpenAI大神,現已經離職去搞AI教育的Andrej Karpathy在快兩年前的2023年微軟大會上講解的OpenAI大模型訓練原理,仍然是至今為止最好的理解大模型訓練基礎機制的講稿:State of GPT:大神Andrej揭秘OpenAI大模型原理和訓練過程,簡單的說,OpenAI定義了大模型訓練的四個階段:預訓練,監督微調,獎勵建模,強化學習。用通俗的語言來解釋一下大模型訓練的這四個步驟。你可以把大模型想像成一個正在學習各種技能的學生。
1.預訓練:目標:讓模型“讀”大量的文字,學習語言的規律和知識。過程:把海量的文字資料(比如:網際網路上的網頁、書籍、文章等)喂給模型。模型就像一個好奇的學生,大量閱讀各種書籍,學習語法、詞彙、常識等。模型學習預測句子中的下一個單詞,或者掩蓋掉的單詞。例如,模型看到“The cat sat on the”, 它就會學習預測下一個詞是“mat”。
2. 監督微調:目標:讓模型學習如何完成特定任務,例如:寫文章、做翻譯、回答問題等。
過程:把標註好的“任務資料”喂給模型(比如,文章和對應的摘要,問題和對應的答案)。模型就像學生一樣,學習如何做特定類型的題目,同時對比自己答案和標準答案的差異,從而學習如何更好完成特定任務。模型學習如何根據輸入,生成正確的輸出。例如,模型看到一篇新聞,學習生成簡潔的摘要。
3.獎勵建模:目標:建立一個模型,可以評價其他模型生成的文字的好壞。過程:讓人類對模型生成的文字進行打分,例如:對於同一問題,哪個回答更好、更準確、更符合人類的偏好?然後進一步使用這些人類打分資料,訓練一個新的模型(獎勵模型),使其能夠模仿人類的評分標準。獎勵模型學習如何判斷哪個輸出更好,就像一個評委一樣。
4. 強化學習:目標:讓模型在“獎勵模型”的指導下,不斷生成更好的文字。強化學習的核心思想就是:在嘗試中學習,通過獎勵來改進。
用獎勵模型給生成的文字打分(獎勵模型認為文字好的,就給高分;認為不好的,就給低分),讓模型知道自己做得好還是不好。模型根據獎勵分數,不斷地調整自己的策略,讓模型學會如何獲得更高的分數。在這個過程中,模型會不斷嘗試不同的生成方式,逐漸找到最優的策略。自從OpenAI 公佈ChatGPT以來,以上這四大訓練步驟基本就是常識,大模型的訓練都大差不差按照這四步訓練法來。到後來,美國科技大廠都只堆算力,無腦買卡建資料中心給大模型喂資料,相信“大力出奇蹟”,資料就是一切;甚至於到今年,美國那邊曾一度吃香的深度學習博士開始找不到工作了。這大概有一個原因:大公司認為大模型不再需要繼續研究演算法了,只需要堆算力堆資料就夠了。反而言之,如果算力不夠,就可以躺平,直接不做大模型了:非我之過,實無卡也 。但是,這一次,DeepSeek直接提出了一個全新的優雅訓練思路,簡而言之,就是去除及極端弱化了其中第二個步驟“SFT監督微調”, 直接上強化學習。並且是反覆多次的強化學習,逼近最好結果。這是什麼概念呢,“監督微調”就是把人類的正確做題結果(問題+答案)用來調教大模型。這是此前通用大模型最佳化性能的很重要的一步。而現在DeepSeek說,我們完全不用人類知識去調教大模型,讓AI自己和自己PK尋找變強的路徑,我們只看結果。這很像當年下圍棋的AlphaGo,第一版AlphaGo就是用人類棋譜訓練的,我們可以類比常規用SFT監督微調來訓練大模型;而後續版本的AlphaGo Zero,則完全拋棄了人類先驗的圍棋知識,只是規定規則和勝負結果,然後AI互相對弈來實現模型的迭代進化。一切很順理成章:既然可以這樣這麼強化學習訓練出下圍棋的Alpha Zero,那麼也應該可以這麼訓練出通用大模型。明顯是向AlphaGo Zero致敬,在DeepSeek的論文中,也出現了R1 Zero這個純AI迭代得到的中間研究模型。(最終產出的R1 是用同一個訓練思路,基於DeepSeek V3多次強化訓練得到),有意思的是,上面引用演講的大神Andrej Karpathy對OpenAI所發明的RLHF微調技術本身就抱有保留態度。Andrej認為RLHF本質上是對人類偏好的模仿。他更傾向於像AlphaGo那樣的自博弈的強化學習方法,認為沒有人工干預的自我進化才是大模型的未來。大神還是說對了方向。有趣的是,同一天Kimi團隊也發佈了自己號稱媲美O1的大模型,其論文同樣揭露了依靠強化學習實現的思路(這是商量好的嗎) 但Kimi只拿出了論文, 沒有放出可以驗證的模型。