科技日報記者 劉霞
今年2月,加拿大蒙特利爾大學生態(tài)學家蒂莫西·波伊索在審閱自己論文的評審意見時,意外發(fā)現(xiàn)其中一份評審報告可能由AI代筆。他對此感到憤怒并在博客中痛斥:我遞交論文參與評審,期待的是同行的思想碰撞。若這一前提不再,那么同行評審制度將淪為數(shù)字廢墟。
英國《自然》雜志網(wǎng)站在3月27日的報道中指出,AI系統(tǒng)正以驚人速度滲透同行評審體系。多家出版商紛紛測試各種AI審稿系統(tǒng),用于標記稿件中的文本謬誤、數(shù)據(jù)漏洞,以及對文字進行潤色等。一些平臺甚至能一鍵生成完整AI評審報告。一些擁躉認為同行評審自動化不可避免,另外一些科學家則憂心AI未來可能最終主導同行評審過程,弱化甚至完全取代人類審稿人的角色。
AI悄然滲入評審生態(tài)
在ChatGPT等基于大語言模型(LLMs)的生成式AI工具掀起浪潮前,學術(shù)出版界已將AI技術(shù)引入同行評審環(huán)節(jié),用于數(shù)據(jù)校驗、研究結(jié)論提煉等輔助工作。但隨著具備類人寫作能力的生成式AI工具橫空出世,這場技術(shù)革命也在學術(shù)界掀起一場風浪。
美國威利出版集團針對近5000名研究者的調(diào)研顯示,約19%的受訪者承認嘗試過使用AI工具提高評審效率。更令人關(guān)注的是,對2023年—2024年AI領(lǐng)域會議論文的評審報告分析發(fā)現(xiàn),7%—17%的評審報告存在由AI工具“深度潤色”的跡象,這意味著修改幅度遠超基礎(chǔ)語法校正范疇。
當前,很多資助機構(gòu)和出版商明令禁止評審人員在論文或基金評審中使用AI工具,主要擔憂敏感信息經(jīng)聊天機器人外泄。不過,美國哥本哈根大學科學家塞巴斯蒂安·波斯達姆·曼認為,若使用本地部署的離線AI工具,數(shù)據(jù)無需上傳云端即可處理完成,大大降低了泄密風險。葡萄牙里斯本天主教大學組織行為學研究員德里瓊·格魯達補充道,離線LLMs猶如智能文字助手,能加速并優(yōu)化評審意見的撰寫過程,前提是AI工具僅作幫手而非代寫全文。
盡管使用生成式AI工具日益普遍,但知名期刊仍對其持謹慎觀望態(tài)度。2024年底針對78種頂級醫(yī)學期刊AI評審指南的調(diào)查顯示,59%的期刊完全禁止評審環(huán)節(jié)使用AI技術(shù)。其余期刊允許使用,但提出了不同要求。三大出版集團對AI評審的態(tài)度也大不相同。愛思唯爾集團目前禁止審稿人使用生成式AI工具輔助審稿;威利和施普林格·自然集團則允許“有限使用”,但須披露使用細節(jié),并嚴禁將論文上傳至在線平臺。
智能助手紛紛上線
鑒于主流學術(shù)期刊對AI自主評審持審慎態(tài)度,科研團隊紛紛開發(fā)輔助人類評審的生成式AI工具。
比如,斯坦福大學計算生物學家詹姆斯·周團隊打造的“反饋代理”審稿系統(tǒng),如同文字雕琢大師,能自動識別評審報告中出現(xiàn)的語義模糊等問題,并給審稿人提供相關(guān)建議。
荷蘭阿姆斯特丹WBS公司開發(fā)的Eliza工具則展現(xiàn)出跨語言處理智能:不僅能向人類評審推薦參考文獻,還能將其他語言的評審內(nèi)容實時翻譯成英文。創(chuàng)始人澤杰·卡爾森表示,這就像為審稿人配備了一款多語種秘書,但最終決策權(quán)仍在人類手中。據(jù)悉,該技術(shù)已經(jīng)幫助《歐洲物理評論》雜志處理了23%的非英語評審內(nèi)容。
由英論閣出版集團和查爾斯沃思屬公司攜手開發(fā)的“審議助手”則能快速識別違反匿名規(guī)則的論文。不過,該工具也可能產(chǎn)生帶有偏見的評審意見,如誤認為英語為母語作者的論文更具創(chuàng)新性。
英國初創(chuàng)公司Grounded AI打造的Veracity系統(tǒng)堪稱“打假利器”,可以驗證引用文獻的真實性,以及文獻與文章觀點是否相符。此外,它還能標記高重復率段落,防范抄襲風險。該公司聯(lián)合創(chuàng)始人尼克·莫利描述稱,這位不知疲倦的學術(shù)偵探,專治文獻注水。
Alchemist review則能快速提煉論文核心發(fā)現(xiàn),評估研究方法的創(chuàng)新性,并驗證數(shù)據(jù)的可重復性。美國物理聯(lián)合會出版社目前正在旗下兩家期刊上試運行該軟件。據(jù)悉,該系統(tǒng)已經(jīng)攔截了7篇涉嫌數(shù)據(jù)造假的投稿。
由澳大利亞認知神經(jīng)科學家尚恩·伊爾哈特等人開發(fā)的Paper Wizard,能生成多頁評審報告,并對論文的方法論進行系統(tǒng)性審查,開發(fā)者將其定位為這是一種“預審階段的智能助手”。
包括威利出版集團在內(nèi)的一些出版商也在嘗試開發(fā)內(nèi)部AI工具助力同行評審。
學術(shù)批判力不可或缺
關(guān)于AI評審,人們最大的擔憂是,其未來會取代人類評審員。
加拿大非營利學術(shù)服務(wù)公司OurResearch聯(lián)合創(chuàng)始人賈森·普瑞姆是AI評審的狂熱擁躉,他表示,未來所有論文或都將由AI評審。
學術(shù)傳播顧問克里斯·萊昂納德也預測,盡管目前的AI系統(tǒng)無法完成人類評審員的全部工作,比如精準判斷論文的原創(chuàng)性等。但是,隨著技術(shù)不斷精進,AI生成的評審報告的質(zhì)量將顯著優(yōu)于大多數(shù)人類評審。而且至關(guān)重要的是,AI的工作效率很高。
不過,他也強調(diào),就像自動駕駛需要人類監(jiān)督一樣,AI評審必須配備“思想制動系統(tǒng)”。在必要的情況下,啟動二次評審。
包括波伊索在內(nèi)的一些科學家則認為,AI不具備評審所需的批判性思維,提出的內(nèi)容大多是“泛泛而談”。華盛頓大學進化生物學家卡爾·伯格斯特龍也表示,LLMs遠不足以寫出合格的同行評審報告。寫作即思考,如果審稿人將評審工作外包給AI,會導致評審內(nèi)容流于膚淺。
波斯達姆·曼則聲稱,盡管AI確實能對某些評審人的報告進行潤色。但LLMs基于訓練數(shù)據(jù)和輸入內(nèi)容生成統(tǒng)計概率上看似合理的文本,其輸出幾乎總會包含錯誤。
英國牛津大學學術(shù)倫理研究中心主任艾瑪·威爾遜更是警告稱:當算法開始評判人類智慧,人們失去的不僅是審稿人的專業(yè)判斷,更是學術(shù)共同體最珍貴的批判性思維。
如果科學界開始接受AI審查,那么就需要制定強有力的透明度標準,AI審查的每個細節(jié)、使用的每個提示詞等,都必須予以公開。