AI論文“抄觀點(diǎn)不抄字”引激辯

2025年09月22日 16:49　來源：科技日?qǐng)?bào)

大字體

小字體

分享到：

　　【今日視點(diǎn)】

　　◎本報(bào)記者張夢(mèng)然實(shí)習(xí)生周思彤

　　人工智能（AI）生成的科研成果正引發(fā)學(xué)界對(duì)“思想抄襲”的激烈爭(zhēng)論。

　　《自然》雜志日前一則報(bào)道稱，部分研究人員發(fā)現(xiàn)，一些標(biāo)注為大型語(yǔ)言模型生成的論文，雖未直接復(fù)制文字，卻存在挪用他人研究方法或核心觀點(diǎn)且不標(biāo)注出處的情況，即“抄觀點(diǎn)不抄字”。

　　但對(duì)這種“思想抄襲”或“思想挪用”的指控，有學(xué)者及AI研發(fā)團(tuán)隊(duì)予以否認(rèn)。

　　“思想挪用”案例頻引爭(zhēng)議

　　今年1月，韓國(guó)高等科學(xué)技術(shù)研究院研究員樸炳俊收到印度班加羅爾科學(xué)研究所“揭發(fā)團(tuán)隊(duì)”的郵件，被告知一款名為“The AI Scientist”的工具生成的未正式發(fā)表手稿，疑似使用了他論文中的研究方法，卻并未署名。“The AI Scientist”由東京Sakana AI公司于2024年推出，是計(jì)算機(jī)科學(xué)領(lǐng)域全自動(dòng)科研工具的代表，能通過大型語(yǔ)言模型生成思路、自主編寫運(yùn)行代碼，并撰寫研究論文，且會(huì)明確標(biāo)注為“AI生成”。

　　樸炳俊核查后發(fā)現(xiàn)，該AI手稿雖提出了新架構(gòu)，與他的論文主題不同，但兩篇論文的核心方法高度相似。

　　發(fā)現(xiàn)這一問題的印度“揭發(fā)團(tuán)隊(duì)”指出，類似情況并非個(gè)例。他們?cè)诮衲?月發(fā)表的研究中提到，經(jīng)外部專家評(píng)估，多個(gè)AI生成手稿存在未直接復(fù)制文字，卻挪用他人觀點(diǎn)且不署名的現(xiàn)象。這些由大型語(yǔ)言模型生成的研究觀點(diǎn)表面看似新穎，實(shí)則是“巧妙地抄襲”，其原創(chuàng)性難以驗(yàn)證。

　　此外，“揭發(fā)團(tuán)隊(duì)”還發(fā)現(xiàn)，Sakana AI今年3月宣布的、首篇通過國(guó)際學(xué)習(xí)表征會(huì)議研討會(huì)同行評(píng)審的全AI生成論文，疑似挪用了2015年發(fā)表的一項(xiàng)研究中的核心成果，且未標(biāo)引用，同時(shí)，其還借鑒了另一篇2015年的未署名手稿。專家評(píng)估認(rèn)為，這篇AI論文與2015年的研究相似性達(dá)到了5級(jí)，即具有極高的相似性。

　　為進(jìn)一步驗(yàn)證，“揭發(fā)團(tuán)隊(duì)”選取了美國(guó)斯坦福大學(xué)團(tuán)隊(duì)2024年發(fā)布的4份AI生成研究方案、Sakana AI的10份AI手稿，以及與Sakana AI使用相同方法生成的36份新方案，邀請(qǐng)13位領(lǐng)域?qū)＜野础?級(jí)相似度量表”評(píng)估（5級(jí)為方法完全對(duì)應(yīng)，4級(jí)為融合2—3項(xiàng)前人成果）。結(jié)果顯示，24%的AI生成作品達(dá)到4—5級(jí)相似度。

　　如何定義“抄襲”仍存分歧

　　針對(duì)上述指控，“The AI Scientist”研發(fā)團(tuán)隊(duì)予以否認(rèn)，稱“抄襲指控不實(shí)，毫無根據(jù)且應(yīng)被無視”。團(tuán)隊(duì)表示，被質(zhì)疑的AI手稿與前人研究假設(shè)不同、應(yīng)用領(lǐng)域各異，即便方法存在部分關(guān)聯(lián)，也只是“未引用相關(guān)文獻(xiàn)”，這在人類研究者中也屬常見現(xiàn)象，且團(tuán)隊(duì)已承認(rèn)工具存在引用不足問題，但強(qiáng)調(diào)AI生成成果并非抄襲。

　　學(xué)界對(duì)“是否構(gòu)成抄襲”的判斷也存在分歧。美國(guó)佐治亞理工學(xué)院機(jī)器學(xué)習(xí)研究員本·胡佛認(rèn)為，樸炳俊提及的AI論文與他本人的研究相似度僅為3級(jí)，“遠(yuǎn)不足以構(gòu)成抄襲”。韓國(guó)高等科學(xué)技術(shù)研究院研究生白真宥則指出，新穎性本身就具有主觀性，人類評(píng)審在學(xué)術(shù)會(huì)議中也常就何為原創(chuàng)爭(zhēng)論不休。

　　樸炳俊本人雖認(rèn)為其研究與AI論文的方法相似度達(dá)5級(jí)，但也表示“這未必符合法律或倫理層面的抄襲定義”。

　　柏林應(yīng)用科學(xué)大學(xué)專家德博拉·韋伯-伍爾夫指出，爭(zhēng)議根源在于“抄襲”定義的認(rèn)知差異：部分計(jì)算機(jī)科學(xué)家認(rèn)為抄襲需“主觀故意欺詐”，但她主張“意圖不應(yīng)作為判斷標(biāo)準(zhǔn)”，因?yàn)锳I沒有主觀意識(shí)，且現(xiàn)有AI系統(tǒng)無法追溯觀點(diǎn)來源。她引用國(guó)際學(xué)術(shù)誠(chéng)信中心前主任泰迪·菲什曼的定義：“未恰當(dāng)標(biāo)注他人可識(shí)別的觀點(diǎn)或成果，且存在原創(chuàng)性預(yù)期時(shí)，即構(gòu)成抄襲”。

　　現(xiàn)有學(xué)術(shù)體系飽受沖擊

　　爭(zhēng)議背后，是AI科研對(duì)現(xiàn)有學(xué)術(shù)體系的深層挑戰(zhàn)。德國(guó)錫根大學(xué)機(jī)器學(xué)習(xí)專家喬拉恩·比爾指出，計(jì)算機(jī)科學(xué)等領(lǐng)域每年論文數(shù)量激增，研究者本就難以驗(yàn)證自身觀點(diǎn)的新穎性；而大型語(yǔ)言模型通過重組訓(xùn)練數(shù)據(jù)生成觀點(diǎn)的特性，會(huì)加劇學(xué)術(shù)信用流失，因?yàn)锳I天然傾向于借鑒前人成果。

　　更關(guān)鍵的是，“思想抄襲”的驗(yàn)證尚無有效解決方案。韋伯-伍爾夫坦言，目前沒有統(tǒng)一方法能證明“思想抄襲”與“文字抄襲”不同，觀點(diǎn)挪用難以量化。新加坡南洋理工大學(xué)AI研究員劉陽(yáng)也表示，現(xiàn)有技術(shù)可檢測(cè)句子語(yǔ)義相似度，但“觀點(diǎn)或概念層面的相似度檢測(cè)研究極少”。

　　研究測(cè)試顯示，商業(yè)抄襲檢測(cè)工具Turnitin未能識(shí)別出專家判定的AI論文來源文獻(xiàn)，學(xué)術(shù)搜索大型語(yǔ)言模型工具OpenScholar僅識(shí)別出1篇。

　　“The AI Scientist”雖會(huì)通過“大型語(yǔ)言模型生成關(guān)鍵詞+語(yǔ)義學(xué)者搜索引擎+大型語(yǔ)言模型評(píng)估”的流程驗(yàn)證原創(chuàng)性，但比爾認(rèn)為，該過程過于簡(jiǎn)化，因?yàn)殛P(guān)鍵詞難以完整概括觀點(diǎn)，搜索引擎可能遺漏關(guān)鍵文獻(xiàn)，無法媲美領(lǐng)域?qū)＜业呐袛唷?/p>

　　AI使用標(biāo)準(zhǔn)亟待明晰

　　面對(duì)爭(zhēng)議，學(xué)界普遍認(rèn)為需規(guī)范AI科研工具的使用。

　　新加坡國(guó)立大學(xué)計(jì)算機(jī)科學(xué)家靳民彥表示，AI工具終將普及，關(guān)鍵是找到正確的使用方式。“The AI Scientist”研發(fā)團(tuán)隊(duì)則表示，其成果僅是“概念驗(yàn)證”，旨在證明“AI生成科研論文已具備可行性”，未來這類系統(tǒng)有望實(shí)現(xiàn)“重大原創(chuàng)發(fā)現(xiàn)”。團(tuán)隊(duì)同時(shí)承認(rèn)AI生成論文存在質(zhì)量問題，建議當(dāng)前階段僅將這一工具用于“啟發(fā)思路”，研究者需自行驗(yàn)證其輸出內(nèi)容的可靠性。

　　目前，關(guān)于AI生成科研成果的學(xué)術(shù)規(guī)范尚未成形，如何平衡AI的科研輔助價(jià)值與學(xué)術(shù)誠(chéng)信，仍是學(xué)界亟待解決的課題。（科技日?qǐng)?bào)）

【編輯:付子豪】

更多精彩內(nèi)容請(qǐng)進(jìn)入社會(huì)新聞