運(yùn)用信息技術(shù)反剽竊是國(guó)內(nèi)規(guī)范學(xué)術(shù)行為的有效措施之一。④國(guó)外從20世紀(jì)70年代初,就開(kāi)始有研究防止程序抄襲的軟件,但直至1991年第一個(gè)自然語(yǔ)言文本抄襲識(shí)別軟件WordCheck才誕生,目前廣泛應(yīng)用并具有代表性的軟件有很多。如論文作業(yè)抄襲檢查平臺(tái),由 iParadigms開(kāi)發(fā),系統(tǒng)采用基于數(shù)字指紋的抄襲檢測(cè)方法,檢測(cè)資源包括網(wǎng)絡(luò)資源ProQuest論文庫(kù)、論文作業(yè)庫(kù)等。

提供的英文反剽竊服務(wù)目前已經(jīng)服務(wù)于包括美國(guó)加州大學(xué)伯克利分校、杜克大學(xué)、德國(guó)漢堡大學(xué)等在內(nèi)的2500多所高校和科研機(jī)構(gòu),遍及九十多個(gè)國(guó)家,檢索網(wǎng)頁(yè)數(shù)量超66億,用戶達(dá)650萬(wàn)。據(jù)稱,該網(wǎng)站目前已阻止了世界范圍內(nèi)將近600萬(wàn)的學(xué)生和教育者的剽竊行為,在使用的高峰期,每天可以收到2萬(wàn)篇論文。由CrossRef與iParadigms共同開(kāi)發(fā)的抄襲檢測(cè)平臺(tái)CrossCheck,于2008年6月19日正式啟動(dòng)。CrossCheck的功能由兩部分組成:一個(gè)基于全球?qū)W術(shù)出版物所組成的龐大數(shù)據(jù)庫(kù)和一個(gè)基于網(wǎng)頁(yè)的檢驗(yàn)工具。這個(gè)基于網(wǎng)頁(yè)的工具可用于編輯過(guò)程中去鑒別相似文檔,生成對(duì)比報(bào)告,并通過(guò)分析去判斷是否存有學(xué)術(shù)剽竊行為。截止2010年3月,正式會(huì)員包括 Elsevier,Springer,牛津出版社,美國(guó)科學(xué)進(jìn)步協(xié)會(huì)(AAAS),美國(guó)物理學(xué)會(huì)(APS),植物生物學(xué)會(huì)、《浙江大學(xué)學(xué)報(bào)》(英文版)等75家單位。
國(guó)內(nèi)已研發(fā)出兩款較成熟的專門軟件,且兩款軟件的核心都是基于數(shù)字指紋的抄襲檢測(cè)方法進(jìn)行文檔相似性檢測(cè)。一款是武漢大學(xué)沈陽(yáng)副教授研制的“ROST反剽竊系統(tǒng)”軟件,目前已在全國(guó)20多所高校院系推廣和100多家期刊社使用。另一款是中國(guó)學(xué)術(shù)期刊電子雜志社與中國(guó)知網(wǎng)共同研制的“學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)”,目前全國(guó)已有3000多家期刊和360所高校的研究生院免費(fèi)使用這個(gè)軟件。ROST系統(tǒng)和CNKI系統(tǒng)當(dāng)前的一個(gè)主要差異在于其使用的參照文檔數(shù)據(jù)庫(kù)不同。
“ROST反剽竊系統(tǒng)”軟件通過(guò)將切割文檔后混合引擎將其與188億個(gè)網(wǎng)頁(yè)和490萬(wàn)篇文獻(xiàn)進(jìn)行模糊匹配,標(biāo)示出每個(gè)文本塊與文獻(xiàn)庫(kù)中的某些文獻(xiàn)的最大相似度。
中國(guó)知網(wǎng)從2006年開(kāi)始立項(xiàng)研發(fā)基于全文的“學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)”,以《中國(guó)學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫(kù)》為全文比對(duì)數(shù)據(jù)庫(kù),采用基于數(shù)字指紋的多階快速檢測(cè)方法,支持從詞到句子、篇章級(jí)別的數(shù)字指紋,可對(duì)圖、表等特殊檢測(cè)對(duì)象進(jìn)行基于標(biāo)題、上下文、圖表內(nèi)容結(jié)合的相似性檢測(cè)處理,還可根據(jù)特定的概念、觀點(diǎn)、結(jié)論等內(nèi)容進(jìn)行智能信息分類處理,實(shí)現(xiàn)語(yǔ)義級(jí)別內(nèi)容的檢測(cè)。中國(guó)知網(wǎng)擁有文獻(xiàn)量居國(guó)際國(guó)內(nèi)同類產(chǎn)品之首,這為其進(jìn)行檢測(cè)提供了豐富的對(duì)比文獻(xiàn)資源。科技期刊檢測(cè)系統(tǒng)已經(jīng)檢測(cè)的10多萬(wàn)篇科技文獻(xiàn)中,文字復(fù)制比超過(guò)30%的超過(guò)1萬(wàn)篇;學(xué)位論文檢測(cè)系統(tǒng)檢測(cè)5000篇學(xué)位論文,重合字?jǐn)?shù)超過(guò)1萬(wàn)篇的論文約1000篇。
目前Internet上還有一些提供文本抄襲檢測(cè)服務(wù)的網(wǎng)站和工具。例如,Plagiarism、mydropbox、WordCheck等。針對(duì)中文的paperpass提供法學(xué)論文和教育社科類論文的免費(fèi)檢測(cè)服務(wù);中國(guó)搜網(wǎng)站的文章照妖鏡工具基于谷歌和百度提供免費(fèi)的檢測(cè)服務(wù);拷克提供針對(duì)網(wǎng)頁(yè)內(nèi)容抄襲的免費(fèi)檢測(cè)服務(wù)。
