查重軟件真的會(huì)對論文做出客觀的測評嗎?對于許多期刊編輯、教授及管理人員對此似乎給出的答案是肯定的。不過,最近署名為 的在自然官網(wǎng)發(fā)表了一篇題為的文章,文中其結(jié)合自身的經(jīng)歷,再次提醒那些過分依賴查重軟件的編輯學(xué)者們要慎重對待查重結(jié)果。
Debora Weber-Wulff在過去的15年里,一直在測試盜版檢測軟件。結(jié)果往往難以解釋,難以理解,有時(shí)甚至是錯(cuò)誤的。許多系統(tǒng)誤報(bào)了常見短語、機(jī)構(gòu)的長名稱甚至參考信息。軟件也會(huì)產(chǎn)生漏報(bào)。如果被剽竊文本的來源未被數(shù)字化、包含拼寫錯(cuò)誤或軟件系統(tǒng)無法使用,則系統(tǒng)可能無法發(fā)現(xiàn)剽竊。許多剽竊的案例是發(fā)生在材料被翻譯或從多個(gè)來源剽竊時(shí),這些都沒有被發(fā)現(xiàn)。評估取決于所使用的算法和可供比較的數(shù)據(jù)庫。對于檢查隨機(jī)樣本的系統(tǒng),幾分鐘后重復(fù)文檔測試可能會(huì)產(chǎn)生不同的結(jié)果。她也曾見過不同的查重系統(tǒng)把一篇文章列為完全或部分抄襲,或不抄襲。
然而,這些測試系統(tǒng)產(chǎn)生的數(shù)字——被稱為“原創(chuàng)性評分”、“非獨(dú)特內(nèi)容”或“水平”——通常只是表面價(jià)值。盡管有幾十種可用的系統(tǒng),但很少尋求第二種意見。實(shí)際上,仔細(xì)閱讀軟件生成的報(bào)告可以發(fā)現(xiàn)正確引用的材料,比如正確引用的方法部分,被標(biāo)記為剽竊。
但是時(shí)間緊迫的編輯、教授和管理人員在做出對學(xué)者和學(xué)術(shù)界至關(guān)重要的決定時(shí),往往只關(guān)注這個(gè)簡單的數(shù)字。如果查重軟件報(bào)告的數(shù)字很低,評估論文的人可能會(huì)忽略明顯的剽竊跡象,比如風(fēng)格的變化、拼寫錯(cuò)誤、字體的變化或加下劃線的單詞,這些都表明文章是從維基百科上粘貼過來的。她聲稱在幾十篇博士論文和科學(xué)出版物中都看到了這一點(diǎn)。
如果軟件報(bào)告的數(shù)字很高,編輯或教授可能會(huì)不公正地認(rèn)為提交的論文是明確的剽竊。大學(xué)正式定義了“可接受的”剽竊水平,由軟件對不同學(xué)位水平的論文進(jìn)行評估。老師們希望軟件能標(biāo)記出“壞”論文,這樣他們就不用閱讀它們了。但是,學(xué)生們擔(dān)心自己不小心被軟件判定為剽竊,所以使用相同的系統(tǒng)重寫作業(yè),用同義詞替換單詞,重新排列句子,直到數(shù)字看起來不錯(cuò)為止,但這不利于文章的可讀性。
期刊編輯們把這些數(shù)字作為輔助他們的拐杖,借此迅速過濾掉那些他們可以直接拒絕的論文,或者那些他們可以毫不擔(dān)心地發(fā)表的論文(如果審稿人表示贊同)。一些期刊和會(huì)議甚至在網(wǎng)上發(fā)布他們的門檻。
復(fù)制和剽竊論文是有害的:它們扭曲了學(xué)者們真實(shí)的學(xué)術(shù)成果,使文獻(xiàn)更難以探索理解。這是無法容忍的,但這些可疑的數(shù)字并不是解決方案。多年來,Debora Weber-Wulff一直與期刊編輯就有問題的出版物進(jìn)行溝通。重復(fù)發(fā)表是指那些本質(zhì)上具有相同文本(甚至數(shù)據(jù))并且共享至少一個(gè)作者的出版物。在一些情況下,標(biāo)題和摘要是不同的,作者被添加、刪除或打亂。抄襲的文章沒有共同的作者。
Debora Weber-Wulff聯(lián)系的一些編輯都很驚訝。他們使用查重軟件,所以他們希望自己不受牽連。但是由于許多原因,重復(fù)無法被檢測到。潛在的資源,如博士論文,可能存儲(chǔ)在存儲(chǔ)庫或付費(fèi)墻后面,無法進(jìn)行比較。那些經(jīng)過巧妙(甚至是算法)改寫的文章也將低于閾值。
今年,提交給世界研究誠信會(huì)議的摘要通過軟件進(jìn)行了分析,文本重疊閾值設(shè)定為30%。事實(shí)上,在449個(gè)提交的摘要中,有38個(gè)提交的摘要超過這個(gè)級別。 調(diào)查后,15人被認(rèn)為是抄襲,23人包含了作者之前發(fā)表的研究文本。 大多數(shù)摘要都被拒了; 在一些作者循環(huán)回收自己文章的情況下,摘要被降格為海報(bào)。 這種剽竊和重復(fù)是令人震驚的,特別是對于學(xué)術(shù)誠信會(huì)議而言; 它也可能被低估了。
軟件不能判定抄襲;它只能指向一些匹配文本的情況。這些系統(tǒng)可以用來標(biāo)記問題,但不能用來區(qū)分原創(chuàng)和抄襲。這個(gè)判斷必須人來做。發(fā)現(xiàn)剽竊最重要的方法是閱讀一篇文章,并研究參考文獻(xiàn)中的不一致之處。使用互聯(lián)網(wǎng)搜索引擎進(jìn)行抽查,從一段話中使用三到五個(gè)單詞,或者一個(gè)特別好的短語,可以發(fā)現(xiàn)抄寫者。搜索一個(gè)看起來很奇怪的引用可能會(huì)找到一個(gè)以同樣方式破壞引用的源。只有當(dāng)文本以某種方式關(guān)閉,在線搜索沒有幫助時(shí),才應(yīng)該咨詢軟件系統(tǒng)。在這些情況下,最好使用兩個(gè)或三個(gè)測試系統(tǒng),并閱讀報(bào)告,而不要只看數(shù)字的表面價(jià)值。
學(xué)術(shù)誠信是一個(gè)社會(huì)問題;不能把盡職調(diào)查甩給仍然存疑的算法。保持科學(xué)的真誠依賴于科學(xué)家愿意努力工作,以保護(hù)文獻(xiàn)資料。