*本文轉載自AI國際安全論壇公眾號
AI安全國際對話發(fā)起人,從左到右依次是StuartRussell,姚期智,YoshuaBengio,張亞勤
九月五日至八日,中國工程院院士,清華大學講席教授、智能產業(yè)研究院(AIR)院長張亞勤,聯(lián)合圖靈獎得主YoshuaBengio、姚期智教授,加州大學伯克利分校教授StuartRussell等多位全球頂尖的人工智能(AI)科學家匯聚威尼斯,出席了由AI安全國際論壇(SafeAIForum)和博古睿研究院共同舉辦的第三屆國際AI安全對話(InternationalDialoguesonAISafety),共同呼吁各國政府和研究人員聯(lián)手應對AI可能帶來的災難性風險。
圖靈獎得主YoshuaBengio
圖靈獎得主姚期智
在為期三天的會議中,與會科學家們共同達成了一份具有重要意義的共識聲明,其核心觀點強調了AI安全作為“全球公共產品”的重要性,建議各國應將AI安全納入學術與技術合作的核心領域。
共識指出,人工智能系統(tǒng)的濫用或失控可能給全人類帶來災難性后果。然而,我們尚未開發(fā)出必要的科學手段來管控和保障對高級智能的使用。由于人工智能帶來的風險具有全球性,我們必須將人工智能安全視為全球公共產品,并為實現(xiàn)這些風險的全球治理而努力。我們必須未雨綢繆,齊心防范任何隨時可能出現(xiàn)的災難性風險。國際社會的初步積極舉措表明,即使在緊張的地緣政治局勢下,在人工智能安全和治理方面開展合作也是可以實現(xiàn)的。然而,各國需要在現(xiàn)有的努力上邁出更大步伐。
清華大學智能產業(yè)研究院(AIR)院長張亞勤
北京智源人工智能研究院創(chuàng)始主席張宏江,與即任約翰·霍普金斯大學教授GillianHadfield
共識認為,作為第一步,各國應設立有能力在其境內監(jiān)測和應對人工智能事故與災難性風險的部門。各國監(jiān)管部門應協(xié)同合作,制定應對重大人工智能事故與災難性風險的全球應急計劃。長遠來看,各國應建立國際監(jiān)管機制,以防止出現(xiàn)可能帶來全球災難性風險的模型。
為了應對可能到來的由高級人工智能系統(tǒng)引發(fā)的災難性風險,科學家呼吁,國際社會應考慮啟動以下三項工作程序:
應急準備協(xié)議與制度
通過這一機制,各國的安全監(jiān)管部門可召集會議,合作制定并承諾實施模型注冊和披露制度、事故報告機制、預警觸發(fā)點及應急預案。
安全保障體系
當模型的能力超過特定閾值時,要求開發(fā)者為模型的安全性提供高度可信的論證。對于高性能的人工智能系統(tǒng),隨著它們的廣泛應用,部署后的監(jiān)控也將成為保障體系的關鍵組成部分。這些安全保障措施應接受獨立審計。
全球人工智能安全和驗證的獨立研究
應通過技術開發(fā),使各國能夠確認開發(fā)者以及其他國家提出的與人工智能安全相關的聲明是真實有效的。為了確保研究的獨立性,這項研究應在全球范圍內進行,并由多個國家的政府和慈善機構共同資助。
清華大學國際安全與戰(zhàn)略中心主任傅瑩,清華大學人工智能國際治理研究院院長薛瀾,中國科學院自動化研究所類腦智能研究中心副主任曾毅遠程參與了討論。
在會議的第二天,科學家們與政策制定者、前國家元首及其他領域的專家進行了深入討論,參會者包括前愛爾蘭總統(tǒng)MaryRobinson,卡內基國際和平基金會主席Mariano-Florentino(Tino)Cuéllar,歐盟人工智能標準CEN-CENELECJTC21主席SebastianHallensleben。面對人工智能技術的快速發(fā)展,專家們一致認為,盡快實施這些提案至關重要。此次聲明將呈交給多國政策制定者,并在會議中探討了國際社會應如何協(xié)同合作,實現(xiàn)這一目標的戰(zhàn)略路徑。
歐盟人工智能標準CEN-CENELECJTC21主席SebastianHallensleben
此次會議為全球AI安全領域注入了新的動力,也為未來AI治理架構的完善指明了方向。
以下為“聲明”官方中文翻譯
《AI安全國際對話威尼斯共識》人工智能系統(tǒng)能力的迅速發(fā)展,正將人類推向一個人工智能可以達到甚至超越人類智能的世界。專家普遍認同這些人工智能系統(tǒng)可能會在未來數(shù)十年內被開發(fā)出來,很多人認為它們的到來會更快。人工智能系統(tǒng)的濫用或失控可能給全人類帶來災難性后果。然而,我們尚未開發(fā)出必要的科學手段來管控和保障對高級智能的使用。由于人工智能帶來的風險具有全球性,我們必須將人工智能安全視為全球公共產品,并為實現(xiàn)這些風險的全球治理而努力。我們必須未雨綢繆,齊心防范任何隨時可能出現(xiàn)的災難性風險。
國際社會的初步積極舉措表明,即使在緊張的地緣政治局勢下,在人工智能安全和治理方面開展合作也是可以實現(xiàn)的。各國政府和人工智能開發(fā)者在兩次峰會上承諾遵循基礎性原則,以促進人工智能的負責任發(fā)展,并最大限度地減少風險。得益于這些峰會,各國陸續(xù)設立了人工智能安全研究所或相似機構,推進測評、研究和標準制定工作。
上述努力值得肯定,必須持續(xù)推進。各國需要為人工智能安全研究所提供足夠的資源,并繼續(xù)召開峰會,支持其他國際治理舉措。然而,各國需要在現(xiàn)有的努力上邁出更大步伐。作為第一步,各國應設立有能力在其境內監(jiān)測和應對人工智能事故與災難性風險的部門。各國監(jiān)管部門應協(xié)同合作,制定應對重大人工智能事故與災難性風險的全球應急計劃。長遠來看,各國應建立國際監(jiān)管機制,以防止出現(xiàn)可能帶來全球災難性風險的模型。
我們必須開展深入的基礎研究,以確保高級人工智能系統(tǒng)的安全性。這項工作刻不容緩,以確保我們擁有充足的時間來開發(fā)和驗證相關技術,在需要管控高級人工智能時應對自如。為此,我們呼吁各國將人工智能安全視為一個獨立于人工智能能力地緣戰(zhàn)略競爭的合作領域,專注于國際學術與技術合作。
為了應對可能到來的由高級人工智能系統(tǒng)引發(fā)的災難性風險,國際社會應考慮啟動以下三項工作程序:
應急準備協(xié)議和制度:通過這一機制,各國的安全監(jiān)管部門可召集會議,合作制定并承諾實施模型注冊和披露制度、事故報告機制、預警觸發(fā)點及應急預案。
安全保障體系:當模型的能力超過特定閾值時,要求開發(fā)者為模型的安全性提供高度可信的論證。對于高性能的人工智能系統(tǒng),隨著它們的廣泛應用,部署后的監(jiān)控也將成為保障體系的關鍵組成部分。這些安全保障措施應接受獨立審計。
全球人工智能安全與驗證的獨立研究:應通過技術開發(fā),使各國能夠確認開發(fā)者以及其他國家提出的與人工智能安全相關的聲明是真實有效的。為了確保研究的獨立性,這項研究應在全球范圍內進行,并由多個國家的政府和慈善機構共同資助。
應急準備協(xié)議和制度就應對先進人工智能系統(tǒng)所需的技術和制度措施,各國應達成一致,無論這些系統(tǒng)的開發(fā)時間線如何。為促進這些協(xié)議的達成,我們需要建立一個國際機構,將各國人工智能安全監(jiān)管部門聚集在一起,在制定和審核人工智能安全法規(guī)方面,推動不同司法管轄區(qū)的對話與合作。該機構將確保各國采納并實施一套基本的安全準備措施,包括模型注冊、信息披露與預警機制。
隨著時間推移,該機構還可以制定驗證方法的標準,并承諾使用這些方法來執(zhí)行各國對安全保障體系的本地化實施。各國可以通過獎懲機制來相互監(jiān)督這些方法的執(zhí)行,例如將市場準入與遵守全球標準掛鉤。專家和安全監(jiān)管機構應建立事故報告和應急預案,并定期交流,確保驗證過程中采用的方法反映出當前最新的科學理解。該機構將發(fā)揮關鍵的初步協(xié)調作用。然而,從長遠來看,各國需要進一步努力,確保對高級人工智能風險的有效全球治理。
安全保障體系前沿人工智能開發(fā)者必須向本國監(jiān)管部門證明,其所開發(fā)或部署的系統(tǒng)不會逾越紅線,例如在AI安全國際對話北京共識中所界定的紅線。
為實現(xiàn)這一目標,我們需要在風險和紅線問題上進一步建立科學共識。此外,我們應建立預警閾值,即模型的能力水平表明該模型可能會越過或接近越過紅線。該方法建立在現(xiàn)有的自愿承諾(如負責擴大政策)的基礎上,對不同框架進行統(tǒng)一和協(xié)調。能力低于預警閾值的模型只需有限的測試和評估,而對于超出這些預警閾值的高級人工智能系統(tǒng),我們則必須采用更嚴格的保障機制。
當前的部署前測試、評估和保障措施遠不夠充分。高級人工智能系統(tǒng)可能會逐漸增加與其他人工智能系統(tǒng)和用戶進行的復雜多智能體交互,而這可能導致難以預測的潛在風險。部署后的監(jiān)控是整個保障體系的關鍵部分,它可以包括對模型行為的持續(xù)自動評估、人工智能事故追蹤的集中數(shù)據(jù)庫,以及人工智能在關鍵系統(tǒng)中的應用報告。進一步的保障還可以通過自動化運行時驗證來實現(xiàn),例如確保安全報告中的假設條件依然成立,并在模型運行到超出預期范圍的環(huán)境時安全地關閉系統(tǒng)。
各國在確保安全保障的落地中發(fā)揮著關鍵作用。各國應要求開發(fā)者定期進行測試,判斷模型是否具備帶來潛在風險的能力,并通過第三方獨立的部署前審計保證透明度,確保這些第三方獲得必要的權限,包括開發(fā)者的員工、系統(tǒng)和記錄等必要證據(jù),以核實開發(fā)者的主張。此外,對于超出早期預警閾值的模型,各國政府可要求開發(fā)者在進一步訓練或部署這些模型前,必須獲得獨立專家對其安全報告的批準。各國可以幫助建立人工智能工程的倫理規(guī)范,例如要求工程師承擔類似于醫(yī)療或法律專業(yè)人士的個人責任,保護公眾利益。最后,各國還需要建立治理流程,以確保部署后的充分監(jiān)測。
盡管各國在安全保障體系上可能有所差異,國家間仍應合作,確保體系間的互認性與可比性。
全球人工智能安全和驗證的獨立研究AI安全和驗證的獨立研究對于開發(fā)確保安全的高級人工智能系統(tǒng)至關重要。國家、慈善機構、企業(yè)、和專家應設立一系列全球人工智能安全與驗證基金。這些資金應當逐步增加,直至其在全球人工智能研發(fā)支出中占據(jù)重要比例,以充分支持并增強獨立研究能力。
除了人工智能安全基礎研究,這些資金的其中一部分將專門用于隱私保護和安全驗證方法的研究,為國內治理和國際合作提供支持。這些驗證方法將允許各國可信地核實人工智能開發(fā)者的評估結果,以及他們在安全報告中指定的任何緩解措施是否到位。在未來,這些方法還可能允許各國驗證其他國家提出的相關安全聲明,包括對安全保障體系的遵守情況,以及重大訓練運行的申報。
全面的驗證最終可以通過多種方式進行,包括第三方治理(如獨立審計)、軟件(如審計跟蹤)以及硬件(如人工智能芯片上的硬件支持治理機制)。為確保全球信任,跨國聯(lián)合開發(fā)驗證方法,并對其進行壓力測試將變得尤為重要。
至關重要的一點是,全球廣受信賴的驗證方法,在過去曾使各國能在全球地緣政治緊張局勢下,對特定的國際協(xié)議作出承諾,而它在未來也可能再次發(fā)揮同樣的作用。
以下為“聲明”英文原文
ConsensusStatementonAISafetyasaGlobalPublicGoodRapidadvancesinartificialintelligence(AI)systems’capabilitiesarepushingdes,,wehavenotyetdevelopedthenecessafetyasaglobalpublicgood,,wemustpreparetoaverttheattantcatastrophicrisksthatcouldarriveatanytime.
Promisinginitialstepsbytheinternationalcommunityshowcooperatioiplestofosterresponsi,statesestablishedAISafetyInstitutesorsimilarinstitutionstoadvancetesting,researchandstandards-setting.
,,,statesshoulddevelopauthoritiestodetectandr,statesshoulddevelopaninternationalgovernanceregimetopreventthedevelopmentofmodelsthatcouldposeglobalcatastrophicrisks.
Deepandfoundationalre,wecallonstatestocarveoutAIsafetyasacooperativeareaofacademicandtechnicalactivity,distinctfrombroadergeostrategiccompetitionondevelopmentofAIcapabilities.
TheinternationalcommunityshouldconsidersettingupthreeclearprocessestoprepareforaworldwhereadvancedAIsystemsposecatastrophicrisks:
EmergencyPreparednessAgreementsandInstitutions,throughwhichdomesticAIsafetyauthoritiesconvene,collaborateon,andcommittoimplementmodelregistrationanddisclosures,incidentreporting,tripwires,andcontingencyplans.
ASafetyAssuranceFramework,requiringdeveloperstomakeahigh-confidencesafetycasep
IndepentGlobalAISafetyandVerificationResearch,developingtechniquesthatwouldallowstatestorigorouslyverifythatAIsafety-relatedclaimsmadebydevelopers,andpotentiallyotherstates,yandfundedbyawiderangeofgovernmentsandphilanthropists.
EmergencyPreparednessAgreementsandInstitutionsStatesshouldagreeontechnicalandinstitutionalmeasuresrequiredtoprepareforadvancedAIsystems,,weneedaninternationalbodytobringtogetherAIsafetyauthorities,fosteringdialogueandcollaborationinthedevelopmesafetypreparednessmeasures,includingmodelregistration,disclosure,andtripwires.
Overtime,thisbodycouldalsosetstandardsforandcommittousingverificationmethohanisms,sontingencyplans,andregularlyupdateth,however,stateswillneedtogofurthertoensuretrulyglobalgovernanceofrisksfromadvancedAI.
SafetyAssuranceFrameworkFrontierAIdevelopersmustdemonstratetodomesticauthoritiesthatthesystemstheydevelopordeploywillnotcrossredlinessuchasthosedefinedintheIDAIS-Beijingconsensusstatement.
Toimplementthis,,weshouldsetearly-warningthresholds:levelsofmodelcapabinlylimitedtestingandevaluation,whilemorerigorousassurancemechanismsareneededforadvancedAIsystemsexceedingtheseearly-warningthresholds.
Althoughtestingcanalertustorisks,,,aquantitativeanalysisthatwouldconvincethescientificcommunitythattheirsystemdesignissafe,,safetycasesforsufficientlyadvancedsystemsshoulddiscussorganizationalprocesses,includingincentivesandaccountabilitystructures,tofavorsafety.
Pre-deploymenttesting,mework,andcouldincludecontinuousautomatedassessmentofmodelbehavior,centralizedAIincidenttrackingdatabases,,suchasbyverifyingthattheassumptionsofasafetycasecontinuetoholdandsafelyshuttingdownamodelifoperatedinanout-of-scopeenvironment.
ningcapabilities,withtransparencyprovidedthroughindepentpre-deploymentauditsbythirdpartiesgrantedsufficientaccesstodevelopers’staff,systemsandrecordsnecessarytoverifythedeveloper’,formodelsexceedingearly-warningthresholds,statescouldrequirethatindepentexpertsapproveadeveloper’,statescanhelpinstituteethicalnormsforAIengineering,forexamplebystipulatingthatengineershaveanindividualdutytoprotectt,stateswillalsoneedtobuildgovernanceprocessestoensureadequatepost-deploymentmonitoring.
WhiletheremaybevariationsinSafetyAssuranceFrameworksrequirednationally,statesshouldcollaboratetoachievemutualrecognitionandcommensurabilityofframeworks.
IndepentGlobalAISafetyandVerificationResearchIndepentresearchintoAIsafetyandverificationis,philanthropists,corporationsandexpertsshouldenableglobalindepentAIsafetyandverificddevelopmentexpiturestoadequatelysupportandgrowindepentresearchcapacity.
InadditiontofoundationalAIsafetyresearch,thesefundswouldfocusondevelopingprivacy-preservingandsecureverificationmethods,whi’sevaluationresults,,thesemethodsmayalsoallowstatestoverifysafety-relatedclaimsmadebyotherstates,includingcompliancewiththeSafetyAssuranceFrameworksanddeclarationsofsignificanttrainingruns.
Eventually,comprehensiveverificationcouldtakeplacethroughseveralmethods,includingthirdpartygovernance(,indepentaudits),software(,audittrails)andhardware(,hardware-enabledmechanismsonAIchips).Toensureglobaltrust,itwillbeimportanttohaveinternationalcollaborationsdevelopingandstress-testingverificationmethods.
Critically,despitebroadergeopoliticaltensions,globallytrustedverificationmethodshaveallowed,andcouldallowagain,statestocommittospecificinternationalagreements.