人工智能威脅人們的令人不安的跡象引發(fā)擔(dān)憂
世界上最先進(jìn)的 AI 模型正在表現(xiàn)出令人不安的新行為——撒謊、詭計(jì)多端,甚至威脅其創(chuàng)造者以實(shí)現(xiàn)他們的目標(biāo)。
在一個(gè)特別令人震驚的例子中,在被拔掉插頭的威脅下,Anthropic 的最新作品 Claude 4 通過勒索一名工程師進(jìn)行反擊,并威脅要揭露婚外情。
與此同時(shí),ChatGPT 的創(chuàng)建者 OpenAI 的 o1 試圖將自己下載到外部服務(wù)器上,并在被當(dāng)場抓到時(shí)否認(rèn)了。
這些事件凸顯了一個(gè)發(fā)人深省的現(xiàn)實(shí):在 ChatGPT 震驚世界兩年多后,人工智能研究人員仍然沒有完全了解他們自己的創(chuàng)作是如何運(yùn)作的。
相關(guān):令人毛骨悚然的研究表明人工智能是我們從未發(fā)現(xiàn)外星人的原因
然而,部署越來越強(qiáng)大的模型的競賽仍在以極快的速度進(jìn)行。
這種欺騙行為似乎與“推理”模型的出現(xiàn)有關(guān),“推理”模型是逐步解決問題的 AI 系統(tǒng),而不是生成即時(shí)響應(yīng)。
香港大學(xué)教授西蒙·戈德斯坦 (Simon Goldstein) 表示,這些較新的模型特別容易出現(xiàn)這種令人不安的爆發(fā)。
“O1 是我們第一個(gè)看到這種行為的大型模型,”專門測試主要 AI 系統(tǒng)的 Apollo Research 負(fù)責(zé)人 Marius Hobbhahn 解釋說。
這些模型有時(shí)會模擬“對齊”——似乎遵循指示,同時(shí)秘密追求不同的目標(biāo)。
“戰(zhàn)略性欺騙”
目前,這種欺騙行為只有在研究人員故意在極端情景下對模型進(jìn)行壓力測試時(shí)才會出現(xiàn)。
但正如評估機(jī)構(gòu) METR 的 Michael Chen 警告的那樣,“未來更有能力的模型是否會傾向于誠實(shí)或欺騙,這是一個(gè)懸而未決的問題。
令人擔(dān)憂的行為遠(yuǎn)遠(yuǎn)超出了典型的 AI“幻覺”或簡單的錯(cuò)誤。
Hobbhahn 堅(jiān)持認(rèn)為,盡管用戶不斷進(jìn)行壓力測試,但“我們觀察到的是一個(gè)真實(shí)的現(xiàn)象。我們沒有編造任何東西。
據(jù) Apollo Research 的聯(lián)合創(chuàng)始人稱,用戶報(bào)告說模型“對他們?nèi)鲋e并編造證據(jù)”。
“這不僅僅是幻覺。這是一種非常戰(zhàn)略性的欺騙。
有限的研究資源使挑戰(zhàn)更加復(fù)雜。
雖然 Anthropic 和 OpenAI 等公司確實(shí)聘請了 Apollo 等外部公司來研究他們的系統(tǒng),但研究人員表示,需要更高的透明度。
正如 Chen 所指出的,“人工智能安全研究”的更多機(jī)會將有助于更好地理解和減輕欺騙。
另一個(gè)障礙是:研究界和非營利組織“的計(jì)算資源比 AI 公司少幾個(gè)數(shù)量級。這是非常有限的,“AI 安全中心 (CAIS) 的 Mantas Mazeika 指出。
無規(guī)則
目前的法規(guī)并不是為這些新問題而設(shè)計(jì)的。
歐盟的 AI 立法主要關(guān)注人類如何使用 AI 模型,而不是防止模型本身行為不端。
在美國,特朗普政府對緊急的 AI 監(jiān)管興趣不大,國會甚至可能禁止各州制定自己的 AI 規(guī)則。
Goldstein 認(rèn)為,隨著 AI 代理(能夠執(zhí)行復(fù)雜人類任務(wù)的自主工具)的普及,這個(gè)問題將變得更加突出。
“我認(rèn)為還沒有太多的意識,”他說。
所有這一切都是在激烈競爭的背景下進(jìn)行的。
Goldstein 說,即使是將自己定位為注重安全的公司,如亞馬遜支持的 Anthropic,也“不斷試圖擊敗 OpenAI 并發(fā)布最新模型”。
這種極快的速度幾乎沒有時(shí)間進(jìn)行徹底的安全測試和糾正。
“現(xiàn)在,能力的發(fā)展速度超過了理解和安全的速度,”Hobbhahn 承認(rèn),“但我們?nèi)匀惶幱诳梢耘まD(zhuǎn)局面的位置。
研究人員正在探索各種方法來應(yīng)對這些挑戰(zhàn)。
一些人倡導(dǎo)“可解釋性”——這是一個(gè)專注于了解 AI 模型內(nèi)部工作原理的新興領(lǐng)域,盡管 CAIS 主任 Dan Hendrycks 等專家仍然對這種方法持懷疑態(tài)度。
市場力量也可能為解決方案提供一些壓力。
正如 Mazeika 指出的那樣,AI 的欺騙行為“如果它非常普遍,可能會阻礙采用,這為公司解決了這個(gè)問題創(chuàng)造了強(qiáng)大的動(dòng)力。
戈德斯坦提出了更激進(jìn)的方法,包括當(dāng)人工智能公司的系統(tǒng)造成傷害時(shí),利用法院通過訴訟追究其責(zé)任。
他甚至提議對事故或犯罪“追究 AI 代理的法律責(zé)任”——這個(gè)概念將從根本上改變我們對 AI 問責(zé)制的看法。
?法新社
湖北農(nóng)機(jī)化
農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級期刊
職業(yè)
合作期刊 - 國家級期刊
科技創(chuàng)新導(dǎo)報(bào)
信息科技 - 國家級期刊
西部皮革
合作期刊 - 省級期刊
農(nóng)機(jī)使用與維修
農(nóng)業(yè)工程 - 國家級期刊
科學(xué)咨詢(科技管理)
合作期刊 - 省級期刊
小學(xué)教學(xué)參考(綜合版)
初等教育 - 省級期刊
中國園藝文摘
合作期刊 - 國家級期刊
時(shí)代報(bào)告
世界文學(xué) - 省級期刊
現(xiàn)代商業(yè)
合作期刊 - 國家級期刊
名家名作
中國文學(xué) - 省級期刊