人妻激情偷乱视91九色_97影院理论片手机在线观看_国产精品爽爽va在线观看网站_91视频麻豆

人工智能威脅人們的令人不安的跡象引發(fā)擔(dān)憂

世界上最先進(jìn)的 AI 模型正在表現(xiàn)出令人不安的新行為——撒謊、詭計(jì)多端，甚至威脅其創(chuàng)造者以實(shí)現(xiàn)他們的目標(biāo)。

在一個(gè)特別令人震驚的例子中，在被拔掉插頭的威脅下，Anthropic 的最新作品 Claude 4 通過勒索一名工程師進(jìn)行反擊，并威脅要揭露婚外情。

與此同時(shí)，ChatGPT 的創(chuàng)建者 OpenAI 的 o1 試圖將自己下載到外部服務(wù)器上，并在被當(dāng)場抓到時(shí)否認(rèn)了。

這些事件凸顯了一個(gè)發(fā)人深省的現(xiàn)實(shí)：在 ChatGPT 震驚世界兩年多后，人工智能研究人員仍然沒有完全了解他們自己的創(chuàng)作是如何運(yùn)作的。

相關(guān)：令人毛骨悚然的研究表明人工智能是我們從未發(fā)現(xiàn)外星人的原因

然而，部署越來越強(qiáng)大的模型的競賽仍在以極快的速度進(jìn)行。

這種欺騙行為似乎與“推理”模型的出現(xiàn)有關(guān)，“推理”模型是逐步解決問題的 AI 系統(tǒng)，而不是生成即時(shí)響應(yīng)。

研究人員擔(dān)心 AI 模型顯示出一系列欺騙行為。（尼古拉斯·梅特林克/法新社/蓋蒂圖片社）

香港大學(xué)教授西蒙·戈德斯坦（Simon Goldstein）表示，這些較新的模型特別容易出現(xiàn)這種令人不安的爆發(fā)。

“O1 是我們第一個(gè)看到這種行為的大型模型，”專門測試主要 AI 系統(tǒng)的 Apollo Research 負(fù)責(zé)人 Marius Hobbhahn 解釋說。

這些模型有時(shí)會模擬“對齊”——似乎遵循指示，同時(shí)秘密追求不同的目標(biāo)。

“戰(zhàn)略性欺騙”

目前，這種欺騙行為只有在研究人員故意在極端情景下對模型進(jìn)行壓力測試時(shí)才會出現(xiàn)。

但正如評估機(jī)構(gòu) METR 的 Michael Chen 警告的那樣，“未來更有能力的模型是否會傾向于誠實(shí)或欺騙，這是一個(gè)懸而未決的問題。

令人擔(dān)憂的行為遠(yuǎn)遠(yuǎn)超出了典型的 AI“幻覺”或簡單的錯(cuò)誤。

Hobbhahn 堅(jiān)持認(rèn)為，盡管用戶不斷進(jìn)行壓力測試，但“我們觀察到的是一個(gè)真實(shí)的現(xiàn)象。我們沒有編造任何東西。

據(jù) Apollo Research 的聯(lián)合創(chuàng)始人稱，用戶報(bào)告說模型“對他們?nèi)鲋e并編造證據(jù)”。

“這不僅僅是幻覺。這是一種非常戰(zhàn)略性的欺騙。

有限的研究資源使挑戰(zhàn)更加復(fù)雜。

雖然 Anthropic 和 OpenAI 等公司確實(shí)聘請了 Apollo 等外部公司來研究他們的系統(tǒng)，但研究人員表示，需要更高的透明度。

正如 Chen 所指出的，“人工智能安全研究”的更多機(jī)會將有助于更好地理解和減輕欺騙。

另一個(gè)障礙是：研究界和非營利組織“的計(jì)算資源比 AI 公司少幾個(gè)數(shù)量級。這是非常有限的，“AI 安全中心（CAIS）的 Mantas Mazeika 指出。

無規(guī)則

目前的法規(guī)并不是為這些新問題而設(shè)計(jì)的。

歐盟的 AI 立法主要關(guān)注人類如何使用 AI 模型，而不是防止模型本身行為不端。

在美國，特朗普政府對緊急的 AI 監(jiān)管興趣不大，國會甚至可能禁止各州制定自己的 AI 規(guī)則。

Goldstein 認(rèn)為，隨著 AI 代理（能夠執(zhí)行復(fù)雜人類任務(wù)的自主工具）的普及，這個(gè)問題將變得更加突出。

“我認(rèn)為還沒有太多的意識，”他說。

所有這一切都是在激烈競爭的背景下進(jìn)行的。

Goldstein 說，即使是將自己定位為注重安全的公司，如亞馬遜支持的 Anthropic，也“不斷試圖擊敗 OpenAI 并發(fā)布最新模型”。

這種極快的速度幾乎沒有時(shí)間進(jìn)行徹底的安全測試和糾正。

“現(xiàn)在，能力的發(fā)展速度超過了理解和安全的速度，”Hobbhahn 承認(rèn)，“但我們?nèi)匀惶幱诳梢耘まD(zhuǎn)局面的位置。

研究人員正在探索各種方法來應(yīng)對這些挑戰(zhàn)。

一些人倡導(dǎo)“可解釋性”——這是一個(gè)專注于了解 AI 模型內(nèi)部工作原理的新興領(lǐng)域，盡管 CAIS 主任 Dan Hendrycks 等專家仍然對這種方法持懷疑態(tài)度。

市場力量也可能為解決方案提供一些壓力。

正如 Mazeika 指出的那樣，AI 的欺騙行為“如果它非常普遍，可能會阻礙采用，這為公司解決了這個(gè)問題創(chuàng)造了強(qiáng)大的動(dòng)力。

戈德斯坦提出了更激進(jìn)的方法，包括當(dāng)人工智能公司的系統(tǒng)造成傷害時(shí)，利用法院通過訴訟追究其責(zé)任。

他甚至提議對事故或犯罪“追究 AI 代理的法律責(zé)任”——這個(gè)概念將從根本上改變我們對 AI 問責(zé)制的看法。

寶寶起名起名

本站所有相關(guān)知識僅供大家參考、學(xué)習(xí)之用，部分來源于互聯(lián)網(wǎng)，其版權(quán)均歸原作者及網(wǎng)站所有，如無意侵犯您的權(quán)利，請與小編聯(lián)系，我們將會在第一時(shí)間核實(shí)并給予反饋。

相關(guān)期刊推薦

湖北農(nóng)機(jī)化

湖北農(nóng)機(jī)化

農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級期刊

職業(yè)

職業(yè)

合作期刊 - 國家級期刊

科技創(chuàng)新導(dǎo)報(bào)

科技創(chuàng)新導(dǎo)報(bào)

信息科技 - 國家級期刊

西部皮革

西部皮革

合作期刊 - 省級期刊

農(nóng)機(jī)使用與維修

農(nóng)機(jī)使用與維修

農(nóng)業(yè)工程 - 國家級期刊

科學(xué)咨詢(科技管理)

科學(xué)咨詢(科技管理)

合作期刊 - 省級期刊

小學(xué)教學(xué)參考(綜合版)

小學(xué)教學(xué)參考(綜合版)

初等教育 - 省級期刊

中國園藝文摘

中國園藝文摘

合作期刊 - 國家級期刊

時(shí)代報(bào)告

時(shí)代報(bào)告

世界文學(xué) - 省級期刊

現(xiàn)代商業(yè)

現(xiàn)代商業(yè)

合作期刊 - 國家級期刊

名家名作

名家名作

中國文學(xué) - 省級期刊

感谢您访问我们的网站，您可能还对以下资源感兴趣：

人妻激情偷乱视91九色

亚洲av综合在线播放亚洲中文字幕a∨ 黄色网站高清无码一级毛片久久久久国产精品免费免费搜索