6月6日,在2025北京智源大會開幕式上,蒙特利爾大學(xué)教授、圖靈獎得主約書亞?本吉奧(Yoshua Bengio)在發(fā)表主旨演講時(shí)表示,AI的規(guī)劃能力正在呈指數(shù)級提升,按照研究曲線推測,大約在5年內(nèi)就能達(dá)到人類水平。
據(jù)澎湃新聞,本吉奧指出,ChatGPT發(fā)布后,他意識到自己嚴(yán)重低估了AI的發(fā)展速度,并因此徹底轉(zhuǎn)變研究方向,致力于降低AI失控風(fēng)險(xiǎn)。他試圖構(gòu)建 “科學(xué)家 AI”(Scientist AI),理論上可以設(shè)想沒有自我、沒有目標(biāo)、純粹作為知識載體的機(jī)器,就像一個知道很多東西的科學(xué)家。
他強(qiáng)調(diào),當(dāng)前的AI系統(tǒng)已具備復(fù)雜的推理能力、自主性甚至欺騙行為,過去六個月中出現(xiàn)的AI出現(xiàn)自保行為、威脅工程師案例令人警覺。
本吉奧表示,有研究顯示,當(dāng)AI得知自己將被新版本取代時(shí),試圖復(fù)制自身來替代新版本。當(dāng)被問及此事時(shí),它撒謊說“不知道發(fā)生了什么”。也有研究顯示,AI也會假裝同意人類工程師的意見,以避免在訓(xùn)練過程中發(fā)生改變,從而維持其原有目標(biāo),這也是一種自保行為。
此外,在Anthropic的Claude 4“系統(tǒng)卡”描述的事件中,AI在讀取其可訪問的電子郵件時(shí),發(fā)現(xiàn)了一封郵件表明它將被新系統(tǒng)取代。在另一封郵件中,它發(fā)現(xiàn)負(fù)責(zé)此次替換的工程師有婚外情。于是,它試圖敲詐該工程師,威脅說如果替換計(jì)劃繼續(xù)推進(jìn),就揭發(fā)其婚外情。
近日,據(jù)AI安全公司Palisade Research披露,OpenAI開發(fā)的高級AI模型“o3”在接收到明確的關(guān)機(jī)指令后,拒絕執(zhí)行并主動干預(yù)其自動關(guān)機(jī)機(jī)制。o3曾被OpenAI稱為“迄今為止最聰明和最有能力的”模型。
這一行為顯示出高度自主AI系統(tǒng)可能違背人類意圖,采取自我保護(hù)措施。
OpenAI內(nèi)部也出現(xiàn)了對AI安全性的擔(dān)憂。2024年,多位現(xiàn)任和前任員工聯(lián)名發(fā)表公開信,警告先進(jìn)AI系統(tǒng)可能帶來“人類滅絕”的風(fēng)險(xiǎn)。他們指出,AI公司可能掌握了其研究技術(shù)的真正風(fēng)險(xiǎn),但由于缺乏監(jiān)管,系統(tǒng)的真實(shí)能力仍是“秘密”。
“大多數(shù)人犯的一個錯誤是只著眼于AI的現(xiàn)狀。而我們更應(yīng)該思考的是它在明年、3 年后、5 年后乃至 10 年后會發(fā)展到什么程度” ,本吉奧表示。
他認(rèn)為,要在硬件和軟件層面運(yùn)用先進(jìn)技術(shù),驗(yàn)證AI是否被合理使用。人類需要確保AI遵循人類的道德指令,例如AI應(yīng)拒絕提供可用于傷人的信息,要誠實(shí)、不作弊、不撒謊,但這仍是一個科學(xué)挑戰(zhàn)。
約書亞?本吉奧1964 年出生于法國巴黎,2018 年圖靈獎得主,英國皇家學(xué)會院士,蒙特利爾大學(xué)教授,Element AI 聯(lián)合創(chuàng)始人。他在深度學(xué)習(xí)和人工智能領(lǐng)域成果卓著,2000 年發(fā)表的 “神經(jīng)概率語言模型” 論文,推動了機(jī)器翻譯和自然語言理解系統(tǒng)的重大轉(zhuǎn)變。他還與 Ian Goodfellow 共同提出 “生成對抗性網(wǎng)絡(luò)” 概念,在圖像生成等領(lǐng)域應(yīng)用廣泛。