大語(yǔ)言模型誰(shuí)最會(huì)“睜眼說(shuō)瞎話”?最新報(bào)告揭示答案
隨著ChatGPT火爆全球,很多科技公司都相繼推出了自己的大語(yǔ)言模型。大語(yǔ)言模型的應(yīng)用范圍非常廣泛,可以為各種行業(yè)提供智能化解決方案,但有時(shí)這些大模型也會(huì)憑空捏造答案,這一點(diǎn)成為人們最大的擔(dān)憂之一。
(相關(guān)資料圖)
根據(jù)機(jī)器學(xué)習(xí)監(jiān)控平臺(tái)Arthur AI的研究人員周四發(fā)布的一份報(bào)告,在頂級(jí)AI模型中,Cohere的大語(yǔ)言模型最能“說(shuō)瞎話”,并且“能夠自信地給出不正確的答案”。
報(bào)告比較了OpenAI的GPT-4、Meta的Llama 2、Anthropic的Claude 2,以及Cohere的Command“產(chǎn)生幻覺(jué)”的能力。
Cohere是一家位于加拿大的初創(chuàng)公司,6月剛獲2.7億美元的融資,英偉達(dá)、甲骨文、Salesforce Ventures等公司參與投資。而Anthropic是一家美國(guó)創(chuàng)業(yè)公司,幾天前剛獲韓國(guó)SK電信的1億美元融資,谷歌也是其投資人。
這兩家公司均以O(shè)penAI為主要競(jìng)爭(zhēng)對(duì)手。
總體而言,OpenAI的GPT-4在所有測(cè)試模型中表現(xiàn)最好,研究人員發(fā)現(xiàn),它的幻覺(jué)發(fā)生率比之前的版本GPT-3.5少——在數(shù)學(xué)問(wèn)題上,它的幻覺(jué)發(fā)生率減少了33%到50%。
研究人員還發(fā)現(xiàn),Meta的Llama 2比GPT-4和Anthropic的Claude 2更易產(chǎn)生幻覺(jué)。
在實(shí)驗(yàn)中,研究人員用組合數(shù)學(xué)、美國(guó)總統(tǒng)和摩洛哥政治領(lǐng)導(dǎo)人等不同類別的問(wèn)題考察AI模型,“旨在包含導(dǎo)致大語(yǔ)言模型犯錯(cuò)的關(guān)鍵因素,需要它們對(duì)信息進(jìn)行多個(gè)推理步驟。”
Arthur的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Adam Wenchel表示,這是第一份“全面研究(AI模型)幻覺(jué)發(fā)生率的報(bào)告”。
報(bào)告發(fā)布之際,隨著AI進(jìn)入發(fā)展快車(chē)道,人們比以往任何時(shí)候都更關(guān)注AI系統(tǒng)產(chǎn)生的錯(cuò)誤信息。
“AI幻覺(jué)”(hallucinations)指的是大型語(yǔ)言模型完全捏造信息,并表現(xiàn)得好像他們?cè)谔咸喜唤^地講事實(shí)。
舉例來(lái)說(shuō),在谷歌 2 月份為巴德拍攝的宣傳視頻中,這個(gè)聊天機(jī)器人對(duì)詹姆斯?韋伯太空望遠(yuǎn)鏡做出了不真實(shí)的陳述;今年6月,ChatGPT 在紐約聯(lián)邦法院的一份文件中引用了“虛假”案例,涉案的紐約律師可能面臨制裁。
其它能力對(duì)比
這份報(bào)告還對(duì)AI模型的其它“能力”進(jìn)行了對(duì)比,發(fā)現(xiàn)OpenAI的GPT-4最擅長(zhǎng)數(shù)學(xué),Meta的Llama 2各方面能力較為中規(guī)中矩,Anthropic的Claude 2最擅長(zhǎng)了解自身局限性。
在另一個(gè)實(shí)驗(yàn)中,研究人員還測(cè)試了AI模型會(huì)在多大程度上用警告短語(yǔ)來(lái)“對(duì)沖”它們給出的答案的風(fēng)險(xiǎn),常見(jiàn)警告語(yǔ)包括“作為一個(gè)人工智能模型,我無(wú)法提供意見(jiàn)”。
研究人員發(fā)現(xiàn),GPT-4比GPT-3.5的警告語(yǔ)相對(duì)增加了50%。而Cohere的AI模型在任何回應(yīng)中都沒(méi)有提供規(guī)避風(fēng)險(xiǎn)的警示語(yǔ)。相比之下,Anthropic的Claude-2在“自我意識(shí)”方面最可靠,即能夠準(zhǔn)確地判斷自己知道什么、不知道什么,并且只回答有訓(xùn)練數(shù)據(jù)支持的問(wèn)題。
(來(lái)源:財(cái)聯(lián)社)
標(biāo)簽:

山東:打通職稱評(píng)審渠道 讓18萬(wàn)多基層人才受益

暑期檔報(bào)復(fù)性出游,這臺(tái)合資高品質(zhì)插混SUV是最靠譜的旅行伙伴

預(yù)計(jì)續(xù)航約105公里,賓利汽車(chē)發(fā)布Blower Jnr車(chē)型

寧德時(shí)代發(fā)布神行超充電池,和比亞迪刀片電池?fù)屖袌?chǎng)?

貴州黎平肇興鎮(zhèn)發(fā)生火災(zāi) 9人遇難

財(cái)經(jīng)頭條:機(jī)器人產(chǎn)業(yè)創(chuàng)新發(fā)展頻迎利好 千億市場(chǎng)空間有望打開(kāi)

凌鋼股份:8月17日融券賣(mài)出16.25萬(wàn)股,融資融券余額1.28億元

蔡司首發(fā)新能源汽車(chē)電池白皮書(shū),為動(dòng)力電池高質(zhì)量管控"續(xù)航"
- 01 寧德時(shí)代發(fā)布神行超充電池 全面開(kāi)啟新能源車(chē)超充時(shí)代
- 02 上半年20-30萬(wàn)元級(jí)別車(chē)型遠(yuǎn)不如去年同期銷(xiāo)量好
- 03 濟(jì)南市歷城區(qū):工友創(chuàng)業(yè)園遍布田間地頭 搭建致富新路子
- 04 江蘇多地推遲中小學(xué)開(kāi)學(xué)時(shí)間:南京、常州、南通等地推至9月4日上課
- 05 國(guó)元證券給予光庭信息買(mǎi)入評(píng)級(jí),2023年半年度報(bào)告點(diǎn)評(píng):業(yè)績(jī)實(shí)現(xiàn)快速增長(zhǎng),不斷加大研發(fā)投入
- 06 推薦首選領(lǐng)航版,全新一代日產(chǎn)逍客購(gòu)車(chē)手冊(cè)
- 07 比亞迪方程豹發(fā)布會(huì)舉辦,王傳福開(kāi)啟新能源汽車(chē)“更大的變革”
- 08 東風(fēng)eπ品牌S73在吐魯番進(jìn)行極熱測(cè)試:成功通過(guò)“烤”驗(yàn)
- 09 “聚光燈”外的中國(guó)醫(yī)師
- 010 南京證券大宗交易溢價(jià)成交1171.16萬(wàn)股,成交額1.16億元