MetaverseTechGeneral

數據既是「國富」

文/韓國特派員金洪基

能夠成為AI競爭勝者的關鍵是優質的數據。 就像材料好,成品才好一樣,優質的數據取決於AI質量。 因此,Big Tech和各國的AI開發企業都盡力確保準確、高水平的數據。 隨著AI時代到來,AI競爭力左右著一個國家的競爭力,在這種情況下,數據是衡量國家競爭力的基準。

實驗顯示,以教書為基礎的AI,反而比使用10倍參數的大型模型性能更優秀,教書是理想、標準化的知識數據。 由於數據的「威力」如此之大,在AI開發過程中也會採取無理措施,就隨意盜用他人的數據導致問題。

就開放AI來說,這種事情是家常發生。 因擅自使用數據而被《紐約時報》起訴,還模仿演員約翰森•斯卡萊特的聲音擅自篡改等等。這一切都是因為地球上缺乏能夠用於數千億乃至兆單位參數的大型語言模型(LLM)的數據。 據目前預測,到2026年,幾乎很難找到可用文本的數據,圖像數據在今後10多年後也將不足。

在這種情況下,最近還出了各種「應變法」,即AI為自己加工數據。 換句話說,這是開發能夠生成優質數據的生成AI模型的方法,LLM可以生成文本、圖片、音頻、視頻等多種數據。

因此,構建能夠生產優質數據的「Foundation Model」正在成為數據時代的關鍵。 這裏的「Foundation Model」就像單詞的意思一樣,是可以生成、加工所有數據的「基礎」模型。 可以說是通用的數據製作工具,就製造業而言,相當於一種「模具」。

現在僅用「第四次產業革命」來形容是不足的。 比起這種籠統的表達,更準確地說是「AI革命時代」。今後,地球村的霸權將歸於AI革命的勝者。 那麼,作為其核心材料的「數據」才是決定AI革命勝負、左右地球村霸權的核心。

目前,全球Big Tech當然壟斷著數據,據筆者所知,全世界70%的數據都儲存在亞馬遜、微軟、谷歌等「Big Tech 3」的平臺上。 他們共同擁有無窮無盡的搜索引擎、社交媒體、廣泛的雲端。 通過這種武器,幾乎囊括了地球村所有瑣碎的數據。 歐洲也不會坐視不理。 通過所謂的「Gaia-X項目」生成自己的固有數據,並獲取「數據主權」。

幸運的是,韓國也逐漸形成利用生成AI製造學習數據的動向。被稱為「SOTA(State-of-the-Art)」的生成AI基礎數據製作技術也登場了。 這可以生成文本、圖像、聲音、視頻等多種數據。 將其再次轉變生成學習用多種「Modal」。從這一點來看,最近的Naver-雅虎日本事件應至關嚴重。 因為Naver精心製作的天文數字的數據的頻道可能會被搶走。

現在暫時平息,但日本絕不會停止。 為了奪取「數據寶庫「,肯定會再次試圖。 可以說這是不亞於「獨島」的國家懸案。

高水平的AI性能成為一個國家「水平」的日子不遠了。「水平」取決於收集多少數據以及收集多少優質數據。全球大技術和主要國家致力於確保優質的學習數據。那麼,數據並不是單純的「AI」技術架構的問題。 這是關係到一個國家發展和命運的國家大事,因此,數據既是保衛國家的武器,也是「國富」。

Related Articles

Back to top button