科技日報(bào)記者 劉霞
今年2月,加拿大蒙特利爾大學(xué)生態(tài)學(xué)家蒂莫西·波伊索在審閱自己論文的評審意見時(shí),意外發(fā)現(xiàn)其中一份評審報(bào)告可能由AI代筆。他對此感到憤怒并在博客中痛斥:我遞交論文參與評審,期待的是同行的思想碰撞。若這一前提不再,那么同行評審制度將淪為數(shù)字廢墟。
英國《自然》雜志網(wǎng)站在3月27日的報(bào)道中指出,AI系統(tǒng)正以驚人速度滲透同行評審體系。多家出版商紛紛測試各種AI審稿系統(tǒng),用于標(biāo)記稿件中的文本謬誤、數(shù)據(jù)漏洞,以及對文字進(jìn)行潤色等。一些平臺甚至能一鍵生成完整AI評審報(bào)告。一些擁躉認(rèn)為同行評審自動(dòng)化不可避免,另外一些科學(xué)家則憂心AI未來可能最終主導(dǎo)同行評審過程,弱化甚至完全取代人類審稿人的角色。
人工智能滲入評審生態(tài)
在ChatGPT等基于大語言模型(LLMs)的生成式AI工具掀起浪潮前,學(xué)術(shù)出版界已將AI技術(shù)引入同行評審環(huán)節(jié),用于數(shù)據(jù)校驗(yàn)、研究結(jié)論提煉等輔助工作。但隨著具備類人寫作能力的生成式AI工具橫空出世,這場技術(shù)革命也在學(xué)術(shù)界掀起一場風(fēng)浪。
美國威利出版集團(tuán)針對近5000名研究者的調(diào)研顯示,約19%的受訪者承認(rèn)嘗試過使用AI工具提高評審效率。更令人關(guān)注的是,對2023年—2024年AI領(lǐng)域會議論文的評審報(bào)告分析發(fā)現(xiàn),7%—17%的評審報(bào)告存在由AI工具“深度潤色”的跡象,這意味著修改幅度遠(yuǎn)超基礎(chǔ)語法校正范疇。
當(dāng)前,很多資助機(jī)構(gòu)和出版商明令禁止評審人員在論文或基金評審中使用AI工具,主要擔(dān)憂敏感信息經(jīng)聊天機(jī)器人外泄。不過,美國哥本哈根大學(xué)科學(xué)家塞巴斯蒂安·波斯達(dá)姆·曼認(rèn)為,若使用本地部署的離線AI工具,數(shù)據(jù)無需上傳云端即可處理完成,大大降低了泄密風(fēng)險(xiǎn)。葡萄牙里斯本天主教大學(xué)組織行為學(xué)研究員德里瓊·格魯達(dá)補(bǔ)充道,離線LLMs猶如智能文字助手,能加速并優(yōu)化評審意見的撰寫過程,前提是AI工具僅作幫手而非代寫全文。
盡管使用生成式AI工具日益普遍,但知名期刊仍對其持謹(jǐn)慎觀望態(tài)度。2024年底針對78種頂級醫(yī)學(xué)期刊AI評審指南的調(diào)查顯示,59%的期刊完全禁止評審環(huán)節(jié)使用AI技術(shù)。其余期刊允許使用,但提出了不同要求。三大出版集團(tuán)對AI評審的態(tài)度也大不相同。愛思唯爾集團(tuán)目前禁止審稿人使用生成式AI工具輔助審稿;威利和施普林格·自然集團(tuán)則允許“有限使用”,但須披露使用細(xì)節(jié),并嚴(yán)禁將論文上傳至在線平臺。
智能助手紛紛上線
鑒于主流學(xué)術(shù)期刊對AI自主評審持審慎態(tài)度,科研團(tuán)隊(duì)紛紛開發(fā)輔助人類評審的生成式AI工具。
比如,斯坦福大學(xué)計(jì)算生物學(xué)家詹姆斯·周團(tuán)隊(duì)打造的“反饋代理”審稿系統(tǒng),如同文字雕琢大師,能自動(dòng)識別評審報(bào)告中出現(xiàn)的語義模糊等問題,并給審稿人提供相關(guān)建議。
荷蘭阿姆斯特丹WBS公司開發(fā)的Eliza工具則展現(xiàn)出跨語言處理智能:不僅能向人類評審?fù)扑]參考文獻(xiàn),還能將其他語言的評審內(nèi)容實(shí)時(shí)翻譯成英文。創(chuàng)始人澤杰·卡爾森表示,這就像為審稿人配備了一款多語種秘書,但最終決策權(quán)仍在人類手中。據(jù)悉,該技術(shù)已經(jīng)幫助《歐洲物理評論》雜志處理了23%的非英語評審內(nèi)容。
由英論閣出版集團(tuán)和查爾斯沃思屬公司攜手開發(fā)的“審議助手”則能快速識別違反匿名規(guī)則的論文。不過,該工具也可能產(chǎn)生帶有偏見的評審意見,如誤認(rèn)為英語為母語作者的論文更具創(chuàng)新性。
英國初創(chuàng)公司Grounded AI打造的Veracity系統(tǒng)堪稱“打假利器”,可以驗(yàn)證引用文獻(xiàn)的真實(shí)性,以及文獻(xiàn)與文章觀點(diǎn)是否相符。此外,它還能標(biāo)記高重復(fù)率段落,防范抄襲風(fēng)險(xiǎn)。該公司聯(lián)合創(chuàng)始人尼克·莫利描述稱,這位不知疲倦的學(xué)術(shù)偵探,專治文獻(xiàn)注水。
Alchemist review則能快速提煉論文核心發(fā)現(xiàn),評估研究方法的創(chuàng)新性,并驗(yàn)證數(shù)據(jù)的可重復(fù)性。美國物理聯(lián)合會出版社目前正在旗下兩家期刊上試運(yùn)行該軟件。據(jù)悉,該系統(tǒng)已經(jīng)攔截了7篇涉嫌數(shù)據(jù)造假的投稿。
由澳大利亞認(rèn)知神經(jīng)科學(xué)家尚恩·伊爾哈特等人開發(fā)的Paper Wizard,能生成多頁評審報(bào)告,并對論文的方法論進(jìn)行系統(tǒng)性審查,開發(fā)者將其定位為這是一種“預(yù)審階段的智能助手”。
包括威利出版集團(tuán)在內(nèi)的一些出版商也在嘗試開發(fā)內(nèi)部AI工具助力同行評審。
學(xué)術(shù)批判力不可或缺
關(guān)于AI評審,人們最大的擔(dān)憂是,其未來會取代人類評審員。
加拿大非營利學(xué)術(shù)服務(wù)公司OurResearch聯(lián)合創(chuàng)始人賈森·普瑞姆是AI評審的狂熱擁躉,他表示,未來所有論文或都將由AI評審。
學(xué)術(shù)傳播顧問克里斯·萊昂納德也預(yù)測,盡管目前的AI系統(tǒng)無法完成人類評審員的全部工作,比如精準(zhǔn)判斷論文的原創(chuàng)性等。但是,隨著技術(shù)不斷精進(jìn),AI生成的評審報(bào)告的質(zhì)量將顯著優(yōu)于大多數(shù)人類評審。而且至關(guān)重要的是,AI的工作效率很高。
不過,他也強(qiáng)調(diào),就像自動(dòng)駕駛需要人類監(jiān)督一樣,AI評審必須配備“思想制動(dòng)系統(tǒng)”。在必要的情況下,啟動(dòng)二次評審。
包括波伊索在內(nèi)的一些科學(xué)家則認(rèn)為,AI不具備評審所需的批判性思維,提出的內(nèi)容大多是“泛泛而談”。華盛頓大學(xué)進(jìn)化生物學(xué)家卡爾·伯格斯特龍也表示,LLMs遠(yuǎn)不足以寫出合格的同行評審報(bào)告。寫作即思考,如果審稿人將評審工作外包給AI,會導(dǎo)致評審內(nèi)容流于膚淺。
波斯達(dá)姆·曼則聲稱,盡管AI確實(shí)能對某些評審人的報(bào)告進(jìn)行潤色。但LLMs基于訓(xùn)練數(shù)據(jù)和輸入內(nèi)容生成統(tǒng)計(jì)概率上看似合理的文本,其輸出幾乎總會包含錯(cuò)誤。
英國牛津大學(xué)學(xué)術(shù)倫理研究中心主任艾瑪·威爾遜更是警告稱:當(dāng)算法開始評判人類智慧,人們失去的不僅是審稿人的專業(yè)判斷,更是學(xué)術(shù)共同體最珍貴的批判性思維。
如果科學(xué)界開始接受AI審查,那么就需要制定強(qiáng)有力的透明度標(biāo)準(zhǔn),AI審查的每個(gè)細(xì)節(jié)、使用的每個(gè)提示詞等,都必須予以公開。