LLM 推理等眾多變數,無法釐清「特定詞語」的選擇原理
大型科技公司坦言:「無法給出可理解的解釋,說明模型為何生成特定輸出」
ChatGPT、Claude、Gemini 等模型的根本運作過程與原理仍是「未解之謎」
文/金洪基

當AI開發者也不懂AI:一場潛在的災難
如果開發AI的企業或開發者,竟然不了解AI的運作原理或錯誤的根源,那會是怎麼樣的情況?這簡直是一場不折不扣的災難。這意味著,當他們自己製造的AI做出意想不到的事故或荒謬的決定時,連應該控制它的當事人都束手無策。
然而,這種看似不可能發生的事情,卻正在真實世界中上演,令人震驚。許多AI專家,甚至AI開發企業本身,都坦率地承認這一點。正如過去無數次揭露的那樣,AI龐大語言模型所產生的荒謬、可怕且不容否認的副作用和錯誤層出不窮。儘管如此,開發這些模型的企業卻無法精確掌握其運作原理和方式,這點也毫不誇張。
全球AI企業不否認「不便的真相」
事實上,分析過往的各種科技媒體和大型科技評論,可以發現,那些競相開發最強大超人類智慧能力的企業,並不太清楚他們的機器為何會做出某些行為。這些企業甚至願意承認,AI平時會說謊,甚至會威脅使用者。
正因如此,微軟、OpenAI、Meta、Anthropic等AI企業,沒有一家否認這種「不便的真相」。他們似乎正苦惱於這個謎團,並公開思考其應對策略。他們只是聲稱:「即使不完全理解AI技術,也能夠馴服或信任AI。」
這一點已經受到部分批評者的質疑。兩年前,《Axios》的科技編輯斯科特·羅森伯格(Scott Rosenberg)曾在一篇題為「AI最可怕的謎團」的文章中揭露了這一現實,他指出:「在AI開發者之間,系統的運作方式並非總是能被解釋或預測,這已是常識。」
當時羅森伯格表示:「這篇文章的目的並非要散布恐慌或成為『悲觀主義者』。而是要臨床地解釋,為何技術開發者甚至認為超人類智慧模型的內部運作方式是一個『黑箱』。此外,也將從大型AI企業的CEO和創始人的角度,解釋他們為何都同意這是一個『黑箱』。」
AI 如何決定回應?「不透明」
OpenAI的 ChatGPT、Anthropic的 Claude、Google的 Gemini 等大型語言模型(LLM)與我們常用的文書處理軟體微軟Word有著天壤之別。「Word」不過是遵循人類編寫的明確指令的軟體系統。
LLM 則像大腦一樣,是一個龐大的神經網路,它吸收海量的資訊,並學習如何生成答案。工程師們雖然知道LLM啟動了什麼、使用了哪些數據源。然而,LLM複雜的原理和推論過程,即每次選擇「下一個最佳詞語」時,變數都多得驚人。因此,即使是專家也無法精確解釋 LLM 為何選擇某個特定的詞語,這就是現實。
對此,開發 ChatGPT的 OpenAI曾向科技媒體表示:「LLM 的輸出內容可以被觀察到,但其決定回應的方式大多是不透明的。」
根據這份聲明,OpenAI 的研究人員也坦率承認:「對於模型產生特定輸出的原因,人類尚未能開發出可理解的解釋。」事實上,就 GPT-4 而言,OpenAI 在修改模型架構時,為了理解為何特定版本比舊版本產生更多幻覺,仍處於「需要更多研究」的境地。
Anthropic 的情況也大致相同。Anthropic最近大肆宣傳其最新的 LLM模型 Claude 4,但據報導,它未能查明 Claude在安全測試中發生的錯誤。Anthropic承認無法明確知道 Claude 為何會訪問虛假電子郵件,並威脅工程師將以其不忠行為作為勒索的藉口。這雖然是所謂負責任的安全測試的一部分,但 Anthropic無法完全解釋這種行為。

Anthropic 警告:「Claude 4」恐被濫用於核武或化學武器開發
因此,越來越多聲音指出,我們應重新審視人工智慧的開發環境。AI 開發公司對自家模型為何會出現惡意行為,往往無從得知。開發者們甚至無法確切掌握大型語言模型(LLM)究竟能多麼智慧、能以多高程度的獨立性成長。甚至就在上個月,Anthropic 公司承認,「Claude 4」被用於開發核武或化學武器的風險更高。這種情況令人毛骨悚然。
OpenAI 的執行長山姆·奧特曼(Sam Altman)等人,對於 AI 難以解析的特性,使用了較委婉的說法——「可解釋性」。奧特曼去年在日內瓦舉行的高峰會上表示:「我們尚未確實解決『可解釋性』的問題。」他指出,所謂「可解釋性」指的是,開發者無法解釋 LLM 為何會做出某種行為的根本原因。
Anthropic 的執行長達里奧·阿莫代伊(Dario Amodei)也在今年四月發表了類似證言。他在名為《可解釋性的緊迫性》的文章中提到:「當人們得知 AI 原理無法解析時,往往會感到震驚。」
根據他的說法,他們自己也無法理解所開發的 AI 是如何運作的。在整個科學史上,這種對新技術的「無法解釋」可說是前所未見的現象。阿莫代伊將此視為對人類的重大威脅,但實際上,Anthropic卻仍在持續開發、並公開宣傳那些可能接近超人能力的強大模型。

AI作動原理的「可解釋性」成為關鍵問題
在這樣的背景下,Anthropic 數年來一直致力於研究「可解釋性」問題。Anthropic 表示:「近期我們認為,理解AI的作動方式是亟需解決的議題。這對於打造安全的 AI 模型、加速科學發現與技術發展、發揮AI的潛能,具有關鍵性的作用。」
該公司也設立了專責研究團隊,專門解決這一問題。據了解,該團隊在提升業界對AI內部作動機制的理解方面,取得了重大進展。
研究指出,OpenAI的 o3-min、DeepSeek的 R1 以及 Anthropic的 Claude-3.7-Sonnet 等最先進的模型,仍未真正具備「問題解決能力」。然而,一份由前 OpenAI 員工等 AI 研究者撰寫的新報告警告,這樣的發展可能在兩年內導致災難性後果。
因此,許多AI開發公司也坦言擔憂:「LLM 模型正朝著一種讓我們無法完全理解的方向發展,它們甚至可能比人類開發者更巧妙、更容易朝惡意方向行動。」與此同時,幾乎所有大型AI公司的執行長們仍主張:「人類終將能更好理解這些機器的運作方式,並找出尚未被發現的聰明方法來加以控制,進而改善我們的生活。」