人妻激情偷乱视91九色_97影院理论片手机在线观看_国产精品爽爽va在线观看网站_91视频麻豆

人工智能威脅人們的令人不安的跡象引發(fā)擔(dān)憂

世界上最先進(jìn)的 AI 模型正在表現(xiàn)出令人不安的新行為——撒謊、詭計(jì)多端,甚至威脅其創(chuàng)造者以實(shí)現(xiàn)他們的目標(biāo)。

在一個(gè)特別令人震驚的例子中,在被拔掉插頭的威脅下,Anthropic 的最新作品 Claude 4 通過勒索一名工程師進(jìn)行反擊,并威脅要揭露婚外情。

與此同時(shí),ChatGPT 的創(chuàng)建者 OpenAI 的 o1 試圖將自己下載到外部服務(wù)器上,并在被當(dāng)場抓到時(shí)否認(rèn)了。

這些事件凸顯了一個(gè)發(fā)人深省的現(xiàn)實(shí):在 ChatGPT 震驚世界兩年多后,人工智能研究人員仍然沒有完全了解他們自己的創(chuàng)作是如何運(yùn)作的。

相關(guān):令人毛骨悚然的研究表明人工智能是我們從未發(fā)現(xiàn)外星人的原因

然而,部署越來越強(qiáng)大的模型的競賽仍在以極快的速度進(jìn)行。

這種欺騙行為似乎與“推理”模型的出現(xiàn)有關(guān),“推理”模型是逐步解決問題的 AI 系統(tǒng),而不是生成即時(shí)響應(yīng)。

研究人員擔(dān)心 AI 模型顯示出一系列欺騙行為。(尼古拉斯·梅特林克/法新社/蓋蒂圖片社)

香港大學(xué)教授西蒙·戈德斯坦 (Simon Goldstein) 表示,這些較新的模型特別容易出現(xiàn)這種令人不安的爆發(fā)。

“O1 是我們第一個(gè)看到這種行為的大型模型,”專門測試主要 AI 系統(tǒng)的 Apollo Research 負(fù)責(zé)人 Marius Hobbhahn 解釋說。

這些模型有時(shí)會模擬“對齊”——似乎遵循指示,同時(shí)秘密追求不同的目標(biāo)。

“戰(zhàn)略性欺騙”

目前,這種欺騙行為只有在研究人員故意在極端情景下對模型進(jìn)行壓力測試時(shí)才會出現(xiàn)。

但正如評估機(jī)構(gòu) METR 的 Michael Chen 警告的那樣,“未來更有能力的模型是否會傾向于誠實(shí)或欺騙,這是一個(gè)懸而未決的問題。

令人擔(dān)憂的行為遠(yuǎn)遠(yuǎn)超出了典型的 AI“幻覺”或簡單的錯(cuò)誤。

Hobbhahn 堅(jiān)持認(rèn)為,盡管用戶不斷進(jìn)行壓力測試,但“我們觀察到的是一個(gè)真實(shí)的現(xiàn)象。我們沒有編造任何東西。

據(jù) Apollo Research 的聯(lián)合創(chuàng)始人稱,用戶報(bào)告說模型“對他們?nèi)鲋e并編造證據(jù)”。

“這不僅僅是幻覺。這是一種非常戰(zhàn)略性的欺騙。

有限的研究資源使挑戰(zhàn)更加復(fù)雜。

雖然 Anthropic 和 OpenAI 等公司確實(shí)聘請了 Apollo 等外部公司來研究他們的系統(tǒng),但研究人員表示,需要更高的透明度。

正如 Chen 所指出的,“人工智能安全研究”的更多機(jī)會將有助于更好地理解和減輕欺騙。

另一個(gè)障礙是:研究界和非營利組織“的計(jì)算資源比 AI 公司少幾個(gè)數(shù)量級。這是非常有限的,“AI 安全中心 (CAIS) 的 Mantas Mazeika 指出。

無規(guī)則

目前的法規(guī)并不是為這些新問題而設(shè)計(jì)的。

歐盟的 AI 立法主要關(guān)注人類如何使用 AI 模型,而不是防止模型本身行為不端。

在美國,特朗普政府對緊急的 AI 監(jiān)管興趣不大,國會甚至可能禁止各州制定自己的 AI 規(guī)則。

Goldstein 認(rèn)為,隨著 AI 代理(能夠執(zhí)行復(fù)雜人類任務(wù)的自主工具)的普及,這個(gè)問題將變得更加突出。

“我認(rèn)為還沒有太多的意識,”他說。

所有這一切都是在激烈競爭的背景下進(jìn)行的。

Goldstein 說,即使是將自己定位為注重安全的公司,如亞馬遜支持的 Anthropic,也“不斷試圖擊敗 OpenAI 并發(fā)布最新模型”。

這種極快的速度幾乎沒有時(shí)間進(jìn)行徹底的安全測試和糾正。

“現(xiàn)在,能力的發(fā)展速度超過了理解和安全的速度,”Hobbhahn 承認(rèn),“但我們?nèi)匀惶幱诳梢耘まD(zhuǎn)局面的位置。

研究人員正在探索各種方法來應(yīng)對這些挑戰(zhàn)。

一些人倡導(dǎo)“可解釋性”——這是一個(gè)專注于了解 AI 模型內(nèi)部工作原理的新興領(lǐng)域,盡管 CAIS 主任 Dan Hendrycks 等專家仍然對這種方法持懷疑態(tài)度。

市場力量也可能為解決方案提供一些壓力。

正如 Mazeika 指出的那樣,AI 的欺騙行為“如果它非常普遍,可能會阻礙采用,這為公司解決了這個(gè)問題創(chuàng)造了強(qiáng)大的動(dòng)力。

戈德斯坦提出了更激進(jìn)的方法,包括當(dāng)人工智能公司的系統(tǒng)造成傷害時(shí),利用法院通過訴訟追究其責(zé)任。

他甚至提議對事故或犯罪“追究 AI 代理的法律責(zé)任”——這個(gè)概念將從根本上改變我們對 AI 問責(zé)制的看法。

?法新社

寶寶起名 起名

本站所有相關(guān)知識僅供大家參考、學(xué)習(xí)之用,部分來源于互聯(lián)網(wǎng),其版權(quán)均歸原作者及網(wǎng)站所有,如無意侵犯您的權(quán)利,請與小編聯(lián)系,我們將會在第一時(shí)間核實(shí)并給予反饋。
相關(guān)期刊推薦
湖北農(nóng)機(jī)化

湖北農(nóng)機(jī)化

農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級期刊

職業(yè)

職業(yè)

合作期刊 - 國家級期刊

科技創(chuàng)新導(dǎo)報(bào)

科技創(chuàng)新導(dǎo)報(bào)

信息科技 - 國家級期刊

西部皮革

西部皮革

合作期刊 - 省級期刊

農(nóng)機(jī)使用與維修

農(nóng)機(jī)使用與維修

農(nóng)業(yè)工程 - 國家級期刊

科學(xué)咨詢(科技管理)

科學(xué)咨詢(科技管理)

合作期刊 - 省級期刊

小學(xué)教學(xué)參考(綜合版)

小學(xué)教學(xué)參考(綜合版)

初等教育 - 省級期刊

中國園藝文摘

中國園藝文摘

合作期刊 - 國家級期刊

時(shí)代報(bào)告

時(shí)代報(bào)告

世界文學(xué) - 省級期刊

現(xiàn)代商業(yè)

現(xiàn)代商業(yè)

合作期刊 - 國家級期刊

名家名作

名家名作

中國文學(xué) - 省級期刊