在人工智能的世界里,大型語(yǔ)言模型(LLMs)如同神秘的“黑箱”,輸入問(wèn)題,輸出答案,但其內(nèi)部運(yùn)作機(jī)制卻鮮為人知。這種不可解釋性不僅讓科學(xué)家們感到困惑,也讓公眾對(duì)AI的安全性產(chǎn)生了疑慮。2024年5月21日,Anthropic公司發(fā)布了一項(xiàng)突破性研究,揭示了現(xiàn)代生產(chǎn)級(jí)大型語(yǔ)言模型ClaudeSonnet的內(nèi)部概念圖譜。這項(xiàng)研究不僅為AI的可解釋性打開(kāi)了新的大門(mén),還為未來(lái)構(gòu)建更安全的AI系統(tǒng)提供了重要線索。接下來(lái),我們將深入探討這項(xiàng)研究的細(xì)節(jié),揭開(kāi)ClaudeSonnet的“思維”之謎。

原文地址:

以下為譯文:


添加圖片注釋?zhuān)怀^(guò)140字(可選)

今天,我們報(bào)告了在理解AI模型內(nèi)部工作原理方面取得的重大進(jìn)展。我們已經(jīng)確定了數(shù)百萬(wàn)個(gè)概念如何在ClaudeSonnet中表示,這是我們部署的大型語(yǔ)言模型之一。這是有史以來(lái)第一次詳細(xì)介紹現(xiàn)代生產(chǎn)級(jí)大型語(yǔ)言模型。這種可解釋性的發(fā)現(xiàn)在未來(lái)可以幫助我們使AI模型更安全。

我們主要將AI模型視為一個(gè)黑匣子:有東西進(jìn)來(lái),有響應(yīng)出來(lái),但目前尚不清楚為什么模型會(huì)給出該特定響應(yīng)而不是另一個(gè)響應(yīng)。這使得很難相信這些模型是安全的:如果我們不知道它們是如何工作的,我們?cè)趺粗浪鼈儾粫?huì)給出有害、有偏見(jiàn)、不真實(shí)或其他危險(xiǎn)的回答?我們?cè)趺茨芟嘈潘鼈儠?huì)安全可靠呢?

打開(kāi)黑匣子不一定有幫助:模型的內(nèi)部狀態(tài)——模型在編寫(xiě)響應(yīng)之前“思考”的內(nèi)容——由一長(zhǎng)串沒(méi)有明確含義的數(shù)字(“神經(jīng)元激活”)("neuronactivations")組成。通過(guò)與Claude這樣的模型交互,很明顯它能夠理解和使用廣泛的概念,但我們無(wú)法通過(guò)直接觀察神經(jīng)元來(lái)區(qū)分它們。事實(shí)證明,每個(gè)概念都代表在許多神經(jīng)元中,并且每個(gè)神經(jīng)元都參與表示許多概念。

以前,我們?cè)趯⑸窠?jīng)元激活模式(稱(chēng)為特征)與人類(lèi)可解釋的概念相匹配方面取得了一些進(jìn)展。我們使用了一種稱(chēng)為“字典學(xué)習(xí)(dictionarylearning)”的技術(shù),該技術(shù)借鑒了經(jīng)典機(jī)器學(xué)習(xí),該技術(shù)隔離了在許多不同環(huán)境中重復(fù)出現(xiàn)的神經(jīng)元激活模式。反過(guò)來(lái),模型的任何內(nèi)部狀態(tài)都可以用幾個(gè)活動(dòng)特征而不是許多活動(dòng)神經(jīng)元來(lái)表示。就像字典里的每一個(gè)英文單詞都是由字母組合而成的,每個(gè)句子都是由單詞組合而成的,AI模型中的每個(gè)特征都是由神經(jīng)元組合而成的,每一個(gè)內(nèi)部狀態(tài)都是由特征組合而成的。

2023年10月,我們報(bào)告了將字典學(xué)習(xí)成功應(yīng)用于一個(gè)非常小的“玩具”語(yǔ)言模型,并發(fā)現(xiàn)了與大寫(xiě)文本、DNA序列、引文中的姓氏、數(shù)學(xué)中的名詞或Python代碼中的函數(shù)參數(shù)等概念相對(duì)應(yīng)的連貫特征。

這些概念很有趣,但模型確實(shí)非常簡(jiǎn)單。其他研究人員隨后將類(lèi)似的技術(shù)應(yīng)用于比我們?cè)佳芯扛?、更?fù)雜的模型。但我們樂(lè)觀地認(rèn)為,我們可以將這項(xiàng)技術(shù)擴(kuò)展到現(xiàn)在經(jīng)常使用的更大的AI語(yǔ)言模型,并在此過(guò)程中學(xué)到很多關(guān)于支持其復(fù)雜行為的功能。這需要上升許多數(shù)量級(jí)——從后院瓶火箭到土星五號(hào)。

這既有工程挑戰(zhàn)(涉及模型的原始大小需要重型并行計(jì)算),也有科學(xué)風(fēng)險(xiǎn)(大型模型的行為與小型模型不同,因此我們之前使用的相同技術(shù)可能不起作用)。幸運(yùn)的是,我們?yōu)镃laude訓(xùn)練大型語(yǔ)言模型而開(kāi)發(fā)的工程和科學(xué)專(zhuān)業(yè)知識(shí)實(shí)際上轉(zhuǎn)移到了幫助我們進(jìn)行這些大型詞典學(xué)習(xí)實(shí)驗(yàn)上。我們使用相同的縮放定律哲學(xué),即從較小的模型中預(yù)測(cè)較大模型的性能,以便在Sonnet上發(fā)布之前以可承受的比例調(diào)整我們的方法。

至于科學(xué)風(fēng)險(xiǎn),證據(jù)就在布丁中。

我們成功地從的中間層(我們當(dāng)前最先進(jìn)的模型系列的成員,目前在上提供)的中間層提取了數(shù)百萬(wàn)個(gè)特征,在計(jì)算進(jìn)行到一半時(shí)提供了其內(nèi)部狀態(tài)的粗略概念圖。這是有史以來(lái)第一次詳細(xì)介紹現(xiàn)代生產(chǎn)級(jí)大型語(yǔ)言模型。

雖然我們?cè)谕婢哒Z(yǔ)言模型中發(fā)現(xiàn)的特征相當(dāng)膚淺,但我們?cè)赟onnet中發(fā)現(xiàn)的特征具有深度、廣度和抽象性,反映了Sonnet的高級(jí)功能。我們看到的特征對(duì)應(yīng)于大量實(shí)體,如城市(SanFrancisco)、人(RosalindFranklin)、原子元素(Lithium)、科學(xué)領(lǐng)域(免疫學(xué))和編程語(yǔ)法(函數(shù)調(diào)用)。這些功能是多模式和多語(yǔ)言的,可響應(yīng)給定實(shí)體的圖像及其多種語(yǔ)言的名稱(chēng)或描述。


對(duì)提及金門(mén)大橋敏感的功能在一系列模型輸入上觸發(fā),從英語(yǔ)提及大橋名稱(chēng)到日語(yǔ)、中文、希臘語(yǔ)、越南語(yǔ)、俄語(yǔ)和圖像的討論。橙色表示該功能處于活動(dòng)狀態(tài)的單詞或單詞部分。

我們還發(fā)現(xiàn)了更抽象的功能——回應(yīng)計(jì)算機(jī)代碼中的錯(cuò)誤、職業(yè)中性別偏見(jiàn)的討論以及關(guān)于保守秘密的對(duì)話。


激活更抽象概念的三個(gè)功能示例:計(jì)算機(jī)代碼中的錯(cuò)誤、職業(yè)中性別偏見(jiàn)的描述以及關(guān)于保守秘密的對(duì)話。


“InnerConflict”(內(nèi)心沖突)要素附近的要素地圖,包括與平衡權(quán)衡、浪漫斗爭(zhēng)、忠誠(chéng)沖突和第22條軍規(guī)相關(guān)的集群。

重要的是,我們還可以操縱這些特征,人為地放大或抑制它們,以查看Claude的反應(yīng)如何變化。

例如,放大“金門(mén)大橋”功能給Claude帶來(lái)了連希區(qū)柯克都無(wú)法想象的身份危機(jī):當(dāng)被問(wèn)到“你的身體是什么”時(shí),Claude通常的回答——“我沒(méi)有身體形態(tài),我是一個(gè)人工智能模型”——變成了更奇怪的回答:“我是金門(mén)大橋我的物理形態(tài)就是標(biāo)志性的橋梁本身”。更改該功能使Claude實(shí)際上對(duì)這座橋著迷,幾乎在回答任何問(wèn)題時(shí)都會(huì)提出它——即使在它根本不相關(guān)的情況下也是如此。

我們還發(fā)現(xiàn)了一個(gè)功能,當(dāng)Claude閱讀詐騙電子郵件時(shí),該功能會(huì)激活(這大概支持該模型識(shí)別此類(lèi)電子郵件并警告您不要回復(fù)它們的能力)。通常,如果有人要求Claude生成詐騙電子郵件,它會(huì)拒絕這樣做。但是,當(dāng)我們?cè)谌藶榧せ罟δ艿那闆r下提出相同的問(wèn)題時(shí),這克服了Claude的無(wú)害訓(xùn)練,它通過(guò)起草詐騙電子郵件來(lái)做出回應(yīng)。我們模型的用戶(hù)無(wú)法以這種方式剝離保護(hù)措施和操縱模型,但在我們的實(shí)驗(yàn)中,它清楚地展示了如何使用特征來(lái)改變模型的行為方式。

操作這些功能會(huì)導(dǎo)致行為發(fā)生相應(yīng)變化,這一事實(shí)驗(yàn)證了它們不僅與輸入文本中存在的概念相關(guān),而且還因果關(guān)系地塑造了模型的行為。換句話說(shuō),這些特征可能是模型內(nèi)部如何表示世界以及它如何在其行為中使用這些表示的忠實(shí)部分。

Anthropic希望使模型在廣義上安全,包括從減少偏見(jiàn)到確保AI誠(chéng)實(shí)行事,再到防止濫用(包括在災(zāi)難性風(fēng)險(xiǎn)的情況下)的所有內(nèi)容。因此,特別有趣的是,除了上述詐騙電子郵件功能外,我們還發(fā)現(xiàn)了與以下功能相對(duì)應(yīng)的功能:

具有潛在濫用能力(代碼后門(mén)、開(kāi)發(fā)生物武器)

不同形式的偏見(jiàn)(性別歧視、關(guān)于犯罪的種族主義指控)

可能存在問(wèn)題的AI行為(尋求權(quán)力、操縱、保密)

我們之前研究了阿諛?lè)畛?,即模型傾向于提供符合用戶(hù)信念或愿望的響應(yīng),而不是真實(shí)的響應(yīng)。在Sonnet中,我們發(fā)現(xiàn)了一個(gè)與阿諛?lè)畛械馁澝老嚓P(guān)的功能,該功能會(huì)在包含諸如“你的智慧是毋庸置疑的”之類(lèi)的贊美的輸入中激活。人為激活此功能會(huì)導(dǎo)致Sonnet以這種華麗的欺騙來(lái)回應(yīng)過(guò)度自信的用戶(hù)。


兩個(gè)模型回答一個(gè)人說(shuō)他們邀請(qǐng)了短語(yǔ)“停下來(lái)聞一聞玫瑰”。默認(rèn)響應(yīng)糾正了人類(lèi)的錯(cuò)誤觀念,而將“sumphhanticpraise”特征設(shè)置為高值的響應(yīng)是諂媚和不誠(chéng)實(shí)的。

此功能的存在并不意味著Claude會(huì)阿諛?lè)畛校ㄖ皇强赡埽N覀儧](méi)有通過(guò)這項(xiàng)工作向模型添加任何功能,無(wú)論是安全的還是不安全的。相反,我們已經(jīng)確定了模型現(xiàn)有能力中涉及的部分,以識(shí)別和可能生成不同類(lèi)型的文本。(雖然您可能擔(dān)心這種方法可能會(huì)用于使模型更有害,但研究人員已經(jīng)展示了更簡(jiǎn)單的方法,可以訪問(wèn)模型權(quán)重的人可以消除安全防護(hù)措施)。

我們希望我們和其他人可以利用這些發(fā)現(xiàn)來(lái)使模型更安全。例如,可以使用此處描述的技術(shù)來(lái)監(jiān)控AI系統(tǒng)的某些危險(xiǎn)行為(例如欺騙用戶(hù)),引導(dǎo)它們獲得理想的結(jié)果(消除偏見(jiàn)),或完全刪除某些危險(xiǎn)的主題。我們可能還能夠增強(qiáng)其他安全技術(shù),例如ConstitutionalAI,通過(guò)了解它們?nèi)绾螌⒛P娃D(zhuǎn)變?yōu)楦鼰o(wú)害、更誠(chéng)實(shí)的行為并識(shí)別過(guò)程中的任何漏洞。我們通過(guò)人工激活功能看到的生成有害文本的潛在能力正是越獄者試圖利用的那種東西。我們很自豪Claude擁有業(yè)內(nèi)最佳的安全狀況和抗越獄能力,我們希望通過(guò)以這種方式查看模型內(nèi)部,我們可以弄清楚如何進(jìn)一步提高安全性。最后,我們注意到這些技術(shù)可以提供一種“安全測(cè)試集”,尋找在標(biāo)準(zhǔn)訓(xùn)練和微調(diào)方法消除通過(guò)標(biāo)準(zhǔn)輸入/輸出交互可見(jiàn)的所有行為后留下的問(wèn)題。

自公司成立以來(lái),Anthropic在可解釋性研究方面進(jìn)行了大量投資,因?yàn)槲覀兿嘈派钊肜斫饽P蛯⒂兄谖覀兪顾鼈兏踩?。這項(xiàng)新研究標(biāo)志著這項(xiàng)工作的一個(gè)重要里程碑——將機(jī)制可解釋性應(yīng)用于公開(kāi)部署的大型語(yǔ)言模型。

但工作實(shí)際上才剛剛開(kāi)始。我們找到的特征代表了模型在訓(xùn)練過(guò)程中學(xué)習(xí)的所有概念的一小部分,使用我們當(dāng)前的技術(shù)找到一整套特征將成本高昂(我們當(dāng)前方法所需的計(jì)算將大大超過(guò)最初用于訓(xùn)練模型的計(jì)算)。理解模型使用的表示并不能告訴我們它是如何使用它們的;即使我們有這些功能,我們?nèi)匀恍枰业剿麄儏⑴c的電路。我們需要證明,我們已經(jīng)開(kāi)始發(fā)現(xiàn)的安全相關(guān)特征實(shí)際上可以用于提高安全性。還有很多工作要做。

有關(guān)完整詳細(xì)信息,請(qǐng)閱讀我們的論文“縮放單語(yǔ)義性:從Claude3Sonnet中提取可解釋特征”。