元宇宙生活科技

美中AI軍備競賽白熱化 DeepSeek讓邊緣運算快速發展

文/陳錦稷

本文作者陳錦稷

中國新創公司「深度求索」(DeepSeek)發表最新的人工智慧大語言模型R1,宣稱其訓練成本僅五六○萬美元,表現卻可以媲美Open AI花了數千萬美元訓練的o1模型,而且因為美國的出口管制措施,只能使用效能較差的輝達H800晶片,而不是美國同業普遍使用,算力更高的H100。此消息一出美國股市應聲大跌,輝達股價重挫十六‧九%、市值蒸發五八○○億美金(約十九兆台幣),台積電ADR也跌掉了十三%。

DeepSeek發布的R1模型並非橫空出世,背後的政府力量也不言可喻。該公司之前其實已經推出好幾個不同的AI模型,最早在二○二四年五月已經發表了V2模型,號稱性能對標Chat GPT-4,且已採用混合專家(MoE)模型,大量節省訓練成本,實現更強性能,並採用開源架構,公開技術內容,更能自由下載;之後有幾次更新,強化模型在程式設計、數學基礎測試與「多模態專家混合視覺語言模型」;去年十二月DeepSeek又發表V3,宣稱將訓練成本控制在數百萬美元,並對標Chat GPT-4o、Claude 3.5-Sonnet等閉源模型;到了今年一月更推出R1,性能直接對標OpenAI的o1,這次引起全球高度震撼。o1透過內建 CoT(Chain of Thought)思維鏈來做縝密推論,其邏輯思考推理能力高過GPT-4o。

有人將DeepSeek的成功,視為美國發展AI的重大挫敗,認為只要幾百萬美元就能訓練出AI,建立大語言模型,以後不需要建置大量昂貴的GPU。這也是DeepSeek發表R1模型,輝達股價立刻大跌的原因;甚至更有人認為中國大陸發展AI成功突破美國的技術封鎖,預言美國AI強權即將隕落。但事實上,DeepSeek宣稱的五六○萬美元成本只是「預訓練運行」(pre-Train)的GPU成本,之後必須再進行後訓練(post-Train)、反覆論證(Reasoning),再到深度研究(Deep Research),整體經過完整訓練的AI模型所需電費、人力成本絕非區區「五六○萬美元」。更何況DeepSeek只能在pre-Train階段使用既有AI模型透過知識蒸餾(knowledge distillation)得出小模型,之後的後訓練將面臨資料量不足的問題。

也有人認為,DeepSeek所用的GPU數量絕對不只二○四八顆H800晶片,而是用了五萬顆輝達GPU,其中甚至有美國出口管制前採購的H100,或是後來向黑市購買。無論DeepSeek的訓練成本是否真的如此低廉,其終端服務價格已經贏過他的所有美國對手,因此「便宜」絕對是DeepSeek值得引以為傲的點。不過DeepSeek對AI產業的重要意義並非價錢,而是「開源」及「知識蒸餾」技術。

首先DeepSeek有別於OpenAI等「閉源」AI廠商,而是將他們的模型「開源」,把程式碼放在網路上供大家下載、檢視,甚至是修改成自己需要的模型,這除了降低企業進入AI的門檻,也讓市場的競爭更加公平,AI產業將得益於開源而「遍地開花」。AI領域的「圖靈獎」得主,也是Meta AI首席科學家的楊立昆(Yann Le Cun)直言,DeepSeek不是中國大陸AI對美國AI的彎道超車,而是「開源模型正超越專有模型」,足見「開源」將成為未來AI產業的發展趨勢。

而蒸餾技術的運用,將已經完成訓練的大型複雜深度學習模型轉移至較小的簡單模型,得以在保持性能之下,減少計算資源和儲存空間需求。透過「蒸餾」大模型知識轉移到小模型上,而小模型足以應付多數的應用場景。「蒸餾」技術並非DeepSeek首創,但對邊緣運算(Edge Computing)或計算資源有限下,得以便宜快速訓練出表現不差的AI產品。這對模型不如人、算力不夠的後進國而言,的確是一條發展AI的新捷徑。

DeepSeek也正式敲響全球AI軍備競賽的戰鼓,就在DeepSeek發表R1隔天,川普馬上找來軟銀集團(SBG)會長孫正義、甲骨文董事長拉里·埃里森(Larry Ellison)、OpenAI執行長山姆·奧特曼(Sam Altman),共同宣布三家公司加上阿布達比的MGX投資公司,他們將共同推動「星際之門」(Stargate)計畫,該計劃將在川普的四年任期內,在美國的AI基礎設施上投資高達五千億美元,為超過十萬美國人創造就業機會,這也代表美國在AI領域發展的企圖心。美國副總統范斯二月十一日出席「巴黎AI峰會」,更警告各國獨裁國家取得AI技術的危險性,並提醒美國將主導AI發展,且是AI領域的標準制定者。這不僅象徵美中AI角力白熱化,更是美國在向歐洲國家表態其才是歐洲發展AI的最佳夥伴。

Deepseek的開源架構與低成本模型優勢,帶給各產業發展AI的新路徑,尤其對邊緣運算的發展更為有利,將加速拓展AI在各領域的應用。台灣原本就擁有全球最完整的AI相關供應鏈,如能廣泛運用「開源」模型與「蒸餾」技術,降低AI使用門檻之際,將其廣泛硬用於各領域,甚至發展新的商業模式,把握多元發展機會,加速推動「主權AI」,確保台灣在全球AI競爭中占有一席之地,AI的技術革命正是台灣行動的關鍵時刻。

延伸閱讀

Back to top button