
人工智能的演進是當下最炙手可熱的話題,如何讓AI真正理解人類的語言與智慧,成為名符其實的“智能”?公認的標準“圖靈測試”如何真正得以實現?許多專家學者從不同角度進行了研究,提出了不同的見解。
在觀察者網“2026答案秀·思想者春晚”的講臺上,上海財經大學人文學院院長王獻華教授嘗試回到人類創造文明的起源——文字的發明——對人工智能進行一項“逆向工程”。他提出了名為“Nigiro Challenge”的測試方案——看這項“社會性虛擬造字測試”中,人工智能能否重新發明、創新并系統化構建一套對他們來說可外化的文字體系,來記錄他們的文明。
作為研究古代文明與楔形文字的專家,王獻華老師的“腦洞”或可以從文科的角度為熱門的“理科話題”提供一種可以借鑒的思路。

王獻華:非常榮幸來到這里,參加這樣一個活動。剛才曾毅老師、范勇鵬老師,分別從各自的專業角度討論了AI。用勇鵬老師的話講,“作為文科生也來湊一下這個話題”——我也是文科生,一個真正的老文科生,而且做的專業非常偏。
今天冒昧來參與這個話題,我一直在想,對于一個文科生來說,AI的相關研究是比較陌生的。但很幸運的是,對于絕大多數的聽眾來說,我自己的研究領域可能也是比較陌生的。那么,這雙重的陌生是不是反而就顯得“熟悉”一些了?
再加上我們最近的感受——這個世界好像還是那樣一個世界,但是時代好像不再是那個熟悉的時代了,所以我今天就冒昧地、站在這“雙重陌生”的“文化自信”的角度,從楔形文字起源研究的方向,提出一種針對通用人工智能的“終極”測試方案,我稱之為“Nigiro Challenge”。
我們先來一點背景知識。從楔形文字、文字起源的研究中,大家不要覺得我們好像已經知道幾千年前、上萬年前進程的真相了,我們其實沒那么有把握,歷史研究永遠如此,我們是逆推的。目前就楔形文字的起源來說,只能比較明確地講,與三種文字緣起前的現象有關:一個是所謂的“陶籌”,英文也叫Token;另一個是印章上的各種象形符號;再次是早期的數學系統。我們基本認為這三種現象和文字的緣起有關。

用來記錄交易的陶籌
先說陶籌。在公元前8000年,陶籌就已經在西亞、近東這一帶廣泛出現,主要功能是計數,比如羊的數量、糧食的收成。到公元前4000紀,陶籌變得復雜起來,有時會出現穿孔、刻痕。更有意思的是,人們會把陶籌放到黏土“信封”中間,有點類似于我們現在把錢或東西放在信封里然后封上蠟印,用來記錄交易或記錄財產。
在陶籌之外,印章是一個相對并行的技術系統。早在公元前7000紀,西亞地區的人們就已經開始使用印章,把它蓋在容器的封泥上,用來確認物品歸屬或保證交易安全。一開始印章圖案比較簡單,后來變得復雜,出現具體的圖像、動物、人物。
同樣在公元前4000紀中期,滾筒印章出現了。這種印章的優勢在于可以覆蓋更大的黏土表面,而且圖案更加精美。根據我們有依據的判斷,它們大多由當時的機構人員使用,比如寺廟的管理者,用來在容器封泥、房門封泥上蓋章。在這個意義上,它也象征著權力與信任,就像我們現在的公章,一旦蓋上就代表著某種權威和認可。

滾筒印章可覆蓋更大黏土表面, 多用于容器封泥 、房門封泥等 ,可能由機構人員使用 ,圖案含場景或簡單設計
再就是數學。這個過程從研究難度上更復雜,我們只能用后世的眼光來看。實際上,到了公元前4000紀末、公元前3500年到公元前3000年這個時期,理論上文字已經出現,我們仍然發現,在最初的文字系統中,多種數學計數系統是并行的。目前有的學者認為有5種,有的認為有6種甚至更多。比如,我們稱之為“S系統”的,用來記錄牛羊的數量;另外像?E“谷物系統”,是專門用來記錄容量的。
大約在公元前3500年到公元前3000多年,一般認為在這一時期,楔形文字在此前提到的陶籌、印章及數學系統發展的基礎上出現了。我們能看到這個結果:一開始是純數字的泥板,上面只有數字符號。后來人們會在數字旁邊加上一到兩個表意符號,這就成了“數字+表意符號”。比如,一個數字“5”旁邊加上一個代表“羊”的符號,意思就是有五只羊,這有點像我們到超市的購物賬單。這個時期我們稱之為烏魯克四期。同時,烏魯克四期還出現了“標簽”,上面沒有數字,但有糧食、布匹等其他一些我們不一定認得的符號,我們現在認為可能是商品標簽,甚至可能是名片。

烏魯克四期的標簽
根據現在的統計,大約在公元前3200-3300年,早期的楔形文字符號大概有1900個左右,包括象形符號和所謂的“矩陣符號”——矩陣符號類似于我們漢字中的偏旁,組合成一個符號以提供更多語義信息。雖然我們現在對早期的發音系統基本上一無所知,但我們知道這個時候的符號已經在使用轉喻原則。基本上可以判斷,表示植物的符號可以用來表示“花園”。但是否涉及音轉等問題?有些問題我們有明確回答,有些沒有。
我們大概回顧了這樣一個過程,這里面有一個非常關鍵的問題:學者們公認,文字的形成和發展、文字的起源,其實和社會復雜性的增長密切相關。到了公元前4000年紀的下半葉,南部美索不達米亞社會變得復雜,行政管理和社會管理的壓力越來越大。這時人們首先需要記錄生產、貨物、勞動力等各種情況,文字在這個意義上應運而生。人類發明文字的能力并不是到這個時期才有,但文字的大規模出現,其實和這個時期人類作為集體的發展有關系。從計數到表意,從圖畫符號到與語音系統結合,在這個意義上,從今天回望過去,書寫文字作為人類集體智能的結晶方式,正式登上了歷史舞臺。
恰恰也是從這個角度,我們的腦洞開始了。剛才我已經提到,當我們講“陶籌”時,在我們領域里用英文表達就是“Token”。而在現代AI的大語言模型中,一個極為重要的步驟事實上就是 Tokenization(詞元化/分詞)。正是從這里,作為一種啟發,莊閑和游戲我開始考慮這樣一個腦洞:如果說從陶籌到楔形文字、到文字的發明,人類完成了從具象計數到抽象符號的跨越,那么人工智能似乎正在嘗試通過對抽象符號的處理,回歸那個復雜的、難以言說的具象生活世界。
人工智能要理解人類語言,某種意義上像一個逆向工程。它把語言拆分成一個個最小的、有意義的單元,這就是他們講的Tokenization。最開始的詞元化是“詞級”的,就是以空格或標點來分割詞語,但這種辦法有很多問題,比如詞匯表規模太大,無法處理生僻詞或未登錄詞。后來人們發展出“字符級”詞元化,以字符為基本處理單元。這樣一來,詞匯表規模縮小了,但缺點也很明顯:生成的序列長度太大,機器很難捕捉語義信息。
現在的主流是在此基礎上發展的“子詞”詞元化,比如BPE、WordPiece、SentencePiece。它的特征是在詞和字符之間取得平衡:常見詞保留整體,罕見的詞可能分解成子單元。
在詞元化的基礎上,需要一個強大的模型來處理這些詞元,這就是所謂的Transformer架構。Transformer是一種基于自注意力機制的神經網絡架構,專為任務設計。在Transformer之前,人們常用的是循環神經網絡架構來處理詞元,但它有個缺點:處理長文本時效率很低,因為它需要一步步處理每個詞元,無法并行計算。Transformer不一樣,它可以并行處理輸入序列,同時捕捉長距離詞語之間的相互關系。這有點像我們閱讀文章時同時注意上下文——其實我們讀書也不是一個詞一個詞讀的,是一頁一頁、一片一片讀的。所以在這個意義上,Transformer好像有點“人味”了——它可以同時處理整個文本序列,從而更好地理解語義。這也是GPT等大型語言模型能夠生成連貫流暢文本的關鍵所在。

但事實上,早在上世紀90年代,就有哲學家提出:人工智能搞語言模型,真的能理解語言、擁有智能嗎?雖然今天我們看到人工智能在語言處理方面取得了很大成功,但哲學家們提出了“符號接地問題”:純粹的符號系統內部操作,真的能賦予符號指稱和意義嗎?這是個哲學問題:人工智能是真的理解了語言,還是只是在統計符號之間的關系?
比如說,當人工智能輸出“蘋果”的時候,它真的是知道蘋果可以吃、有紅色外皮、味道等屬性,還是僅僅因為“蘋果”這個詞經常和“水果”、“吃”這些詞一起出現?這是一個統計。我想,這是我們對于大語言模型、人工智能一個比較根本的質疑所在。這也是為什么現在像李飛飛老師他們提出,真正的人工智能應該通過“具身交互”學習,也就是通過感知、行動與世界互動,從而解決符號接地問題。好比我們通過觸摸、品嘗、觀察來認識蘋果,而不僅僅是通過書本上的文字。
作為一個文科生,看到AI的這種“茫然”,讓我有了一種沖動去尋找一個標準:什么樣的人工智能是我能夠接受的、我愿意承認的?那我就要動用一點我自己的專業背景了。我們需要一種測試方案,不管怎樣,來判斷人工智能(無論是基于大語言模型還是具身學習)是否真的擁有能夠和人類相比的智能水平。
但很遺憾,我查了半天,發現現在其實沒有公認的標準來檢驗可能到來的人工智能。例如,搭載人工智能程序的機器人,我們到底要不要把它當作人類社會的一員、真正的智能體呢?大家稍微注意一下都知道“圖靈測試”——1950年艾倫·圖靈提出的著名測試:在基于文本的自然語言對話中,如果機器的行為與人類無異,以至于測試者無法區分,那么是不是就可以認為機器具有智能?但現在根據報道,不少人工智能系統都試圖或聲稱已經通過圖靈測試,圖靈測試本身好像有問題了。

圖靈
通過對圖靈測試的反思,有學者提出:圖靈測試的問題在于,它應該叫做 “Gnirut”測試(把“圖靈”反過來寫)。因為你這個圖靈測試的游戲,事實上只不過是像一面鏡子測試提問者的水平:你漂亮,它照出來你就漂亮;你丑,它照出來就丑;你提的問題有深度,AI的回答就精彩;你的問題比較愚蠢,它出來的回答就比較愚蠢。
那么,考慮到對圖靈測試的這種反思,特別是考慮到我們剛才提到的人工智能的“社會性”,我隆重推出:有沒有一種真正具有終極意義的測試方案呢?這就是Nigiro Challenge。大家可能已經看到,Nigiro就是“Origin”(起源)的反寫,象征著對人類智能的逆向探索。是否有可能找到一種測試,不僅為測試AI通用智能提供一種可能方案,同時也讓我們重新審視人類智能誕生與發展的歷史?
{jz:field.toptypename/}學歷史的難免要“自戀”一些:人類的智能是在社會環境中逐漸發展起來的,文字的發明就是一個很好的例子。那么,具身的人工智能體,能不能在模擬的社會環境中,重新發明、創新并系統化構建一套對他們來說可外化的文字體系,來記錄他們的文明故事呢?
Nigiro Challenge 的內容其實非常簡單,就是針對所謂通用人工智能體的“社會性虛擬造字測試”。想象一下,人工智能體社會能否在與其他智能體的社會互動中,一步步發明出他們自己的文字?如果他們能夠做到這一點,那是不是就意味著他們擁有了(類似人類的)智能?從文字的角度,我愿意承認:如果一群智能機器人發明了一個他們的文字系統,我個人覺得也許可以承認這樣的智能體應該被接納為人類社會的“合格成員”。一個社會能夠獨立發明文字,雖然未必是人類擁有文明的唯一標志,但確實是人類文明有形的結晶。
從文字的起源開始,我們回顧了陶籌、印章、楔形文字,又探討了自然語言處理中的詞元和Transformer。最后,我們作為一個腦洞提出了 The Nigiro Challenge。我們已經講過,文字的出現體現了人類智能的發展。而人工智能的發展,事實上讓我們重新回過頭去思考智能本身的本質。也許我們在座的諸位永遠不知道“人是什么”,但我們也許可以借著這個契機去思考一下“智能是什么”。
從我們略知一二的楔形文字起源故事,用逆向工程的方式,我感覺我自己的專業好像忽然有了一個意外的高大上用處。沿著大語言模型的路徑繼續發展,還是通過具身學習?這都不是我的專業,都需要繼續研究。但是,Nigiro Challenge 至少也許會讓我們在向著人工智能狂奔的同時,不忘回望一下我們人類智能的過往。如果人類文明的歷史只是智能的升級,當通用人工智能體社會用我們不可能認得的、他們自己的文字記錄他們文明故事的時候,那我們這些有肉身的人類,是不是也許就真的可以退場了?
希望今天的分享能夠給大家一點樂趣。謝謝。

本文系觀察者網獨家稿件,文章內容純屬作者個人觀點,不代表平臺觀點,未經授權,不得轉載,否則將追究法律責任。關注觀察者網微信guanchacn,每日閱讀趣味文章。