當(dāng)大語(yǔ)言模型在醫(yī)師資格考試中都能取得高分時(shí),人們?cè)诖艹蔀橘N身的“AI健康助手”。然而《自然·醫(yī)學(xué)》發(fā)表的一項(xiàng)在英國(guó)展開(kāi)的研究表明,這些實(shí)驗(yàn)室里的“優(yōu)等生”在面對(duì)真實(shí)用戶時(shí),表現(xiàn)卻有可能意外“掉鏈子”——它們協(xié)助普通人作健康決策的效果,并未超越互聯(lián)網(wǎng)搜索引擎。這項(xiàng)發(fā)現(xiàn)為當(dāng)前火熱的AI醫(yī)療應(yīng)用,敲響了一記科學(xué)的警鐘:人們會(huì)不會(huì)高估了當(dāng)前大語(yǔ)言模型輔助普通人作健康決策的能力?
當(dāng)前全球醫(yī)療體系正嘗試將大語(yǔ)言模型打造為公眾的“第一道健康防線”,幫助人們?cè)诰驮\前進(jìn)行自我評(píng)估與管理。然而,該研究揭示了一個(gè)關(guān)鍵落差:在標(biāo)準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異的AI模型,一旦面對(duì)真實(shí)場(chǎng)景中的普通人,其表現(xiàn)可能大打折扣。
牛津互聯(lián)網(wǎng)研究所科學(xué)家設(shè)計(jì)了一個(gè)貼近生活的實(shí)驗(yàn):邀請(qǐng)近1300名英國(guó)參與者,模擬應(yīng)對(duì)感冒、貧血、膽結(jié)石等十種常見(jiàn)健康場(chǎng)景,并決定該采取何種行動(dòng)——是撥打急救電話,還是預(yù)約家庭醫(yī)生。參與者被隨機(jī)分配使用三種主流大語(yǔ)言模型(GPT-4o、Llama3或Command R+)之一,或使用互聯(lián)網(wǎng)搜索引擎作為對(duì)照。
結(jié)果出現(xiàn)了有趣的“人機(jī)鴻溝”:當(dāng)不用人類受試者進(jìn)行測(cè)試時(shí),AI表現(xiàn)非常出色,平均能識(shí)別94.9%的疾病,并在超過(guò)半數(shù)情況下給出恰當(dāng)建議。但當(dāng)普通人使用相同模型時(shí),疾病識(shí)別率驟降至不足35%,行動(dòng)建議準(zhǔn)確率也低于45%,甚至未顯著優(yōu)于互聯(lián)網(wǎng)搜索引擎。
科學(xué)家進(jìn)一步分析對(duì)話記錄,發(fā)現(xiàn)了兩組典型的“溝通盲區(qū)”:普通人往往難以準(zhǔn)確、完整地描述癥狀,而AI偶爾也會(huì)生成看似合理實(shí)則具有誤導(dǎo)性的回應(yīng)。這種雙向的信息偏差,讓原本在測(cè)試中表現(xiàn)優(yōu)秀的模型在實(shí)際應(yīng)用中打了折扣。
這也表明,當(dāng)前的大語(yǔ)言模型若直接應(yīng)用于公眾健康咨詢?nèi)孕柚?jǐn)慎,因?yàn)樵谡鎸?shí)的人機(jī)互動(dòng)中,存在大量實(shí)驗(yàn)室測(cè)試無(wú)法預(yù)測(cè)的復(fù)雜性。AI醫(yī)療助手的發(fā)展不僅需要技術(shù)迭代,更需要深入理解:當(dāng)健康遇到焦慮,當(dāng)專業(yè)術(shù)語(yǔ)遇到日常表達(dá)時(shí),人與機(jī)器該如何更好地“對(duì)話”。(記者 張夢(mèng)然)
(責(zé)任編輯:梁艷)