國外從20世紀(jì)70年代初,就開始有研究防止程序抄襲的軟件,但直至1991年第一個自然語言文本抄襲識別軟件WordCheck才誕生,目前廣泛應(yīng)用并具有代表性的軟件有很多。如論文作業(yè)抄襲檢查平臺,系統(tǒng)采用基于數(shù)字指紋的抄襲檢測方法,檢測資源包括網(wǎng)絡(luò)資源ProQuest論文庫、論文作業(yè)庫等。提供的英文反剽竊服務(wù)目前已經(jīng)服務(wù)于包括美國加州大學(xué)伯克利分校、杜克大學(xué)、德國漢堡大學(xué)等在內(nèi)的2500多所高校和科研機構(gòu),,檢索網(wǎng)頁數(shù)量超66億,用戶達650萬。

據(jù)稱,該網(wǎng)站目前已阻止了世界范圍內(nèi)將近600萬的學(xué)生和教育者的剽竊行為,在使用的高峰期,每天可以收到2萬篇論文。由CrossRef與iParadigms共同開發(fā)的抄襲檢測平臺CrossCheck,于2008年6月19日正式啟動。CrossCheck的功能由兩部分組成:一個基于全球?qū)W術(shù)出版物所組成的龐大數(shù)據(jù)庫和一個基于網(wǎng)頁的檢驗工具。這個基于網(wǎng)頁的工具可用于編輯過程中去鑒別相似文檔,生成對比報告,并通過分析去判斷是否存有學(xué)術(shù)剽竊行為。截止2010年3月,正式會員包括 Elsevier,Springer,牛津出版社,美國科學(xué)進步協(xié)會(AAAS),美國物理學(xué)會(APS),植物生物學(xué)會、《浙江大學(xué)學(xué)報》(英文版)等75家單位。
國內(nèi)已研發(fā)出兩款較成熟的專門軟件,且兩款軟件的核心都是基于數(shù)字指紋的抄襲檢測方法進行文檔相似性檢測。一款是武漢大學(xué)沈陽副教授研制的“ROST反剽竊系統(tǒng)”軟件,目前已在全國20多所高校院系推廣和100多家期刊社使用。另一款是中國學(xué)術(shù)期刊電子雜志社與中國知網(wǎng)共同研制的“學(xué)術(shù)不端文獻檢測系統(tǒng)”,目前全國已有3000多家期刊和360所高校的研究生院免費使用這個軟件。ROST系統(tǒng)和CNKI系統(tǒng)當(dāng)前的一個主要差異在于其使用的參照文檔數(shù)據(jù)庫不同。
中國知網(wǎng)從2006年開始立項研發(fā)基于全文的“學(xué)術(shù)不端文獻檢測系統(tǒng)”,以《中國學(xué)術(shù)文獻網(wǎng)絡(luò)出版總庫》為全文比對數(shù)據(jù)庫,采用基于數(shù)字指紋的多階快速檢測方法,支持從詞到句子、篇章級別的數(shù)字指紋,可對圖、表等特殊檢測對象進行基于標(biāo)題、上下文、圖表內(nèi)容結(jié)合的相似性檢測處理,還可根據(jù)特定的概念、觀點、結(jié)論等內(nèi)容進行智能信息分類處理,實現(xiàn)語義級別內(nèi)容的檢測。
中國知網(wǎng)擁有文獻量居國際國內(nèi)同類產(chǎn)品之首,這為其進行檢測提供了豐富的對比文獻資源。科技期刊檢測系統(tǒng)已經(jīng)檢測的10多萬篇科技文獻中,文字復(fù)制比超過30%的超過1萬篇;學(xué)位論文檢測系統(tǒng)檢測5000篇學(xué)位論文,重合字數(shù)超過1萬篇的論文約1000篇。
