世界性衝擊DeepSeek，與最尖端的Chat GPT相比？

文/金洪基

中國AI創業公司開發的DeepSeek究竟與美國和西方世界的AI相比如何呢? 部分功能超過了現有的AI模型，在硅谷，實際上還比較了最尖端的ChatGPT-4o或ChatGPT-o1，DeepSeek的R1模型或V3模型的性能，因此備受關注。

據外媒報導，Open AI內部也進行了性能比較的測試。

功能測試

首先，進行了AI功能的試驗。要求，ChatGPT o4和DeepSeek V3分別對起床鬧鐘、馬桶清潔時間、日常工作流程作出簡要的每日安排。結果，兩者都制定了比較好的日程。

但是，根據不同用戶，也有不同的評價：聊天GPT的存儲器功能更加一貫和系統性。與此相比，DeepSeek只能記住之前聊天的信息，不能拿來其他聊天信息用於回答。

接下來，就超級碗NFL季後賽向兩家AI聊天機器人詢問。要求DeepSeek和ChatGPT簡要說明NFL季後賽及其運作方式。對此，評價為：兩者都提供了能夠完美理解選手分配系統的運作方式和球隊進軍超級碗需要經歷的旅程的優秀信息。

但是聊天GPT選擇了200個單詞分量的段落，DeepSeek將信息按要點分類進行了回答。另外，雖然聊天GPT提供了團隊成為外卡的方法等，但兩者之間的差異微乎其微，根據用戶的個人喜好，可選擇其中一個。

特別提到，DeepSeek核心的推論模式DeepThink R1是免費，反而聊天GPT的最尖端版本o1是付費訂閱的部分。

試驗者們表示：為了測試AI聊天機器人的推論功能，提出了幾個最難的問題，對其中一部分答案感到震驚。

顏色單詞推論R1更勝一籌

首先提出了Apple、Red、Coal三個單詞，並詢問了字間遺漏的單詞。這個問題是完成表現多種顏色的句子。沒有提供客觀回答，而要求敘述型的回答。

結果，聊天GPT o1花了1分29秒的時間找出答案，找到了單詞和童話《白雪公主》之間的關聯性，還提出了她的嘴脣像血一樣紅，她的頭髮像煤一樣黑，她的皮膚像雪一樣白的引文。再次以該引文為基礎，o1選擇了Snow作為遺漏單詞的答案。被評價為：雖然思考過程很聰明，但不是在尋找的答案。

DeepThink R1僅用了1分14秒就猜出了正確的詞語。答案是Black。即給出了Apple is red; coal is black的正確答案。

單詞順序聯想問題，兩者都是錯誤的答案

下一個問題是完成房子、土星、狗、漢堡、？兩個推理模型都試圖找到？的答案，但給出了完全不同的答案。DeepThink R1認為單詞與顏色有關，所以回答是黃色，即認為白色房子、黃色土星、褐色狗、黃色漢堡。

ChatGPT o1則按照普通的拼圖方法推論答案，回答了汽車，即，將各個項目連接到更大的範疇。即住宅/建築物、土星/行星、狗/動物、漢堡/食物、汽車/車輛。但結果兩個推論模型都錯了，都沒有回答「因變數過多而難於提供正確答案」。

基準測試最高難度問題，R1的回答更接近正確答案

試驗者們還對兩個AI模型提出了最難的AI基準測試問題。即蜂鳥有幾根肋骨? 對於沒有解剖學知識的普通人來說，這個問題是很難回答的。

儘管如此，o1回答了4個，DeepThink R1回答了2個。在網上也很難找到這些AI聊天機器人能夠利用的內容。儘管如此，實驗者們還是得出結論： DeepThink可能是正確的，o1似乎有點偏了。

那麼，哪一方會更好呢？對此，多數試驗者認為： DeepThink R1是十分好的免費推論模型，使用戶開始懷著疑問，o1是否值得付錢訂閱的模型。

從這樣的測試結果來看，兩者的性能都差不多。但從普通用戶的立場來看，免費的DeepSeek可能會更好。但是DeepSeek只能在網絡、iOS App Store、Play商店使用。如果想用獨立型Mac應用程序或iPad應用程序，就要等到相關應用程序推出。

全球基準測試，以微小的差距R1更準確

據最高水平的全球標杆Humanitys Last Exam評價，開放AI的Chat GPTo1得分 9.1%，而DeepThink R1的準確度為9.4%，非常出色。雖然差距很小，但考慮到R1完全免費這一點，還是更勝一籌。

業界表示：對推論模型的要求不高，重視於AI聊天機器人參考之前對話的存儲器功能的用戶來說，可能繼續選擇聊天GPT，特別是聊天GPT可用於獨立型Mac或iPad應用程序上，並且還可以使用最佳AI圖像生成器之一的DALL-E也是優點。

相反，也有評價稱：「DeepSeek」純粹是基於文本，沒有多重模式功能，但也有很多其他新優點，可成為威脅開放AI的真正挑戰者。