專利名稱:一種引文自動(dòng)標(biāo)引方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)工具領(lǐng)域,特別是涉及一種引文自動(dòng)標(biāo)引方法。
背景技術(shù):
標(biāo)引的形式有兩種,其一是參考文獻(xiàn),其二是腳注或尾注,參考文獻(xiàn)是在 學(xué)術(shù)研究過程中,對(duì)某一著作或論文的整體的參考或借鑒, 一般列于文章最后; 腳注和尾注是對(duì)文本的補(bǔ)充說明。腳注一般位于頁面的底部,可以作為文檔某 處內(nèi)容的注釋;尾注一般位于文檔的末尾,列出引文的出處等。參考文獻(xiàn)、腳 注和尾注都由兩個(gè)關(guān)聯(lián)的部分組成,其一為引用標(biāo)記,其二為對(duì)應(yīng)的注釋文本 或出處說明,本發(fā)明簡(jiǎn)稱為引文出處。引用標(biāo)記常見的格式如*, [1],[1]等,對(duì) 應(yīng)的注釋文本或出處說明常見的格式有[18]同注4引書,第153頁?;蛉?Heider, E. R. & D.C.Oliver. The structure of color space in naming and memory of two languages [J]. Foreign Language Teaching and Research, 1999,
(3): 62 - 67.
在編寫教材或者撰寫論文時(shí),人們常常會(huì)復(fù)制粘貼一些文字材料到自己的 作品中,而到成稿時(shí),卻因?yàn)檫z失了材料出處而無法對(duì)引文進(jìn)行標(biāo)引,將造成 主觀上無剽竊意識(shí),客觀上卻發(fā)生了剽竊行為的遺憾。
目前EndNote、 NoteExpress等軟件實(shí)現(xiàn)的功能是幫助用戶收集整理文獻(xiàn)資 料,在撰寫學(xué)術(shù)論文、學(xué)位論文、專著或報(bào)告時(shí),可在正文中的指定位置方便 地添加文中注釋,然后按照不同的期刊格式要求自動(dòng)生成參考文獻(xiàn)。上述方式可以非常方便的實(shí)現(xiàn)對(duì)用戶己知的參考文獻(xiàn)進(jìn)行插入或者修改,但是卻無法解
決因?yàn)檫z失了材料出處而無法對(duì)引文進(jìn)行標(biāo)引的問題。
發(fā)明內(nèi)容
本發(fā)明目的在于針對(duì)現(xiàn)有技術(shù)的不足,提供一種引文自動(dòng)標(biāo)引的方法,替代效率低下的手工檢索標(biāo)引方式。
本發(fā)明的技術(shù)方案包括以下步驟,步驟1,對(duì)提交文檔進(jìn)行切割得到文本塊,對(duì)文本塊提取特征詞句串或信息指紋;然后將特征詞句串或信息指紋提交給檢索引擎;
步驟2,對(duì)于被提交的特征詞句串或信息指紋,當(dāng)檢索引擎返回與特征詞句串或信息指紋相應(yīng)的檢索結(jié)果時(shí),記錄檢索結(jié)果作為相應(yīng)文本塊的引文出處,并記錄文本塊在文檔中的終止位置,記錄文本塊的引文出處與終止位置的關(guān)聯(lián)關(guān)系;步驟3,結(jié)合提交文檔中已有引用標(biāo)引和檢索結(jié)果去除重復(fù)的引文出處后,按照在提交文檔中的位置前后關(guān)系對(duì)所有引文出處排序后進(jìn)行標(biāo)引;
所述結(jié)合提交文檔中已有引用標(biāo)引和檢索結(jié)果去除重復(fù)的引文出處具體實(shí)現(xiàn)方式如下,
從提交文檔中提取已有引用標(biāo)引的相關(guān)信息,與步驟2所得檢索結(jié)果的相關(guān)信息比較,所述己有引用標(biāo)引的相關(guān)信息包括已有引用標(biāo)引的引用標(biāo)記位置、引文出處、引用標(biāo)記位置和引文出處的關(guān)聯(lián)關(guān)系,所述檢索結(jié)果的相關(guān)信息即文本塊在文檔中的終止位置、文本塊的引文出處,以及文本塊的引文出處與終止位置的關(guān)聯(lián)關(guān)系;
當(dāng)出現(xiàn)重復(fù)的引文出處時(shí),根據(jù)引用標(biāo)記位置和引文出處的關(guān)聯(lián)關(guān)系或文本塊的引文出處和終止位置的關(guān)聯(lián)關(guān)系,查到與引文出處相應(yīng)的已有引用標(biāo)引的引用標(biāo)記位置或文本塊在文檔中的終止位置,保留位置在提交文檔內(nèi)最前的一條引文出處,其它重復(fù)的引文出處去除;
所述按照在提交文檔中的位置前后關(guān)系對(duì)所有引文出處排序后,進(jìn)行標(biāo)引的具體實(shí)現(xiàn)方式如下,
在文檔中按照排序在已有引用標(biāo)引的引用標(biāo)記位置或文本塊的終止位置添加引用標(biāo)記,并根據(jù)引用標(biāo)記位置和引文出處的關(guān)聯(lián)關(guān)系或文本塊的引文出處與終止位置的關(guān)聯(lián)關(guān)系將引文出處添加到提交文檔中。
而且,當(dāng)步驟1中將信息指紋提交給檢索引擎時(shí),采用字符串剛性匹配技術(shù)對(duì)信息指紋進(jìn)行檢索,在步驟2中記錄信息指紋相符的檢索結(jié)果作為相應(yīng)文本塊的引文出處。
而且,當(dāng)步驟1中將特征詞句串提交給檢索引擎時(shí),采用字符串柔性匹配技術(shù)或字符串信息相關(guān)性技術(shù)對(duì)特征詞句串進(jìn)行檢索,在步驟2中僅記錄相關(guān)性高于預(yù)設(shè)相關(guān)閾值的檢索結(jié)果作為相應(yīng)文本塊的引文出處。
而且,記錄文本塊在文檔中的起始位置;當(dāng)檢索引擎返回有與步驟1所提交特征詞句串相關(guān)性高于預(yù)設(shè)相符閾值的檢索結(jié)果時(shí),根據(jù)文本塊在文檔中的起始位置和終止位置,在提交文檔中為該文本塊加上弓I用符號(hào)。
而且,當(dāng)步驟l從文本塊中提取得到一個(gè)以上特征詞句串時(shí),
對(duì)所有特征詞句串循環(huán)執(zhí)行步驟2,在對(duì)所有特征詞句串執(zhí)行步驟2完畢之后執(zhí)行步驟3;或者,對(duì)特征詞句串逐個(gè)順序執(zhí)行步驟2和步驟3。
而且,當(dāng)檢索引擎返回與特征詞句串或信息指紋相應(yīng)的檢索結(jié)果后,統(tǒng)計(jì)當(dāng)前所有引文出處的相應(yīng)文本塊占提交文檔總數(shù)比例并向用戶提供顯示。
而且,在執(zhí)行步驟3之前,通過人機(jī)界面向用戶提供三種邏輯跳轉(zhuǎn),包括標(biāo)注文本塊、修改文本塊以及刪除文本塊;當(dāng)用戶選擇標(biāo)注文本塊時(shí),允許執(zhí)行步驟3。
而且,在步驟2中,記錄文本塊在文檔中的起始位置;當(dāng)用戶選擇修改文本塊時(shí),不允許執(zhí)行步驟3,根據(jù)文本塊在文檔中的起始位置和終止位置,將該
文本塊在提交文檔中突出顯示供用戶修改,并在用戶修改保存后返回至步驟1,基于修改后的文本塊重新進(jìn)行自動(dòng)標(biāo)引。
而且,在步驟2中,記錄文本塊在文檔中的起始位置;當(dāng)用戶選擇刪除文
本塊時(shí),不允許執(zhí)行步驟3,根據(jù)文本塊在文檔中的起始位置和終止位置,從提
交文檔中自動(dòng)刪除該文本塊。
而且,當(dāng)進(jìn)行邏輯跳轉(zhuǎn)并執(zhí)行完相應(yīng)處理后,統(tǒng)計(jì)當(dāng)前所有引文出處的相應(yīng)文本塊占提交文檔總數(shù)比例并向用戶提供顯示。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)
1. 本發(fā)明克服了現(xiàn)有手工方法效率十分底下,基本無法實(shí)施的弱點(diǎn),并能極
大彌補(bǔ)EndNote之類的引文標(biāo)注系統(tǒng)只能對(duì)已知文獻(xiàn)或封閉文獻(xiàn)庫使用的缺陷。
2. 本發(fā)明通過引文去重合并技術(shù),提升了引文標(biāo)注的唯一性,在減少重復(fù)引文數(shù)量的同時(shí),提升了標(biāo)引速度和準(zhǔn)確性。
3. 本發(fā)明通過柔性匹配以及信息相關(guān)性技術(shù),即使引用的文字有所修改也可以準(zhǔn)確標(biāo)注出來。這樣就解決了一旦用戶修改過引用文字的情況下,無法再找尋到自己曾經(jīng)引用的文獻(xiàn)出處問題。
4. 本發(fā)明面向整個(gè)互聯(lián)網(wǎng)以及文獻(xiàn)資源數(shù)據(jù)庫,通過元檢索引擎、垂直檢索引擎、文獻(xiàn)資源數(shù)據(jù)庫中的信息相關(guān)性(含信息相似性)檢測(cè)引擎以及深網(wǎng)挖掘引擎四個(gè)基礎(chǔ)引擎構(gòu)成的聯(lián)合檢索引擎,從而從根本上解決了自動(dòng)標(biāo)引時(shí),信息源的海量覆蓋。
圖1本發(fā)明實(shí)施例的流程圖。
具體實(shí)施例方式
本發(fā)明提供的引文自動(dòng)標(biāo)引方法包括以下步驟,具體實(shí)施時(shí)可以采用計(jì)算 機(jī)軟件技術(shù)實(shí)現(xiàn)自動(dòng)運(yùn)行-
步驟1,對(duì)提交文檔進(jìn)行切割得到文本塊,對(duì)文本塊提取特征詞句串或信息指紋; 然后將特征詞句串或信息指紋提交給檢索引擎。
具體實(shí)施時(shí),可以建立供用戶輸入文檔或文檔來源的交互窗口以接受用戶 提交的文本或者來源鏈接,從而確定提交文檔以待標(biāo)引。用戶可以直接提交一 篇Doc、 Txt或Docx等格式的文檔文件,同時(shí)用戶也可以在在線辦公系統(tǒng)中如 直接將某個(gè)在線文檔的地址或內(nèi)容提交過來,例如在線辦公系統(tǒng)Google Doc。
對(duì)提交文檔進(jìn)行切割得到文本塊,對(duì)文本塊提取特征詞句串或信息指紋可 采用現(xiàn)有技術(shù),例如Rost反剽竊系統(tǒng)、Turnitin就提供文檔切分模塊和文本塊 特征詞句提取模塊。在切塊時(shí),用戶可以自定義切塊的大小或切塊規(guī)則,既可 以以字?jǐn)?shù)為切塊依據(jù),也可以以自然段,句子或某一特定符號(hào)為依據(jù)。在待査 文檔很小的情況下,切割得到的文本塊可直接作為特征詞句串,但更多的情況 是對(duì)每個(gè)文本塊切割得到多個(gè)特征詞句串,那么可以對(duì)特征詞句串逐個(gè)順序執(zhí) 行步驟2和步驟3。即具體實(shí)施時(shí),當(dāng)每從文本塊中切割出一個(gè)特征詞句串時(shí), 就將該特征詞句串提交給檢索引擎、執(zhí)行步驟2和步驟3,然后將切割出的下一 個(gè)特征詞句串提交給檢索引擎、執(zhí)行步驟2和步驟3。也可以進(jìn)行流程上的簡(jiǎn)化 對(duì)所有特征詞句串循環(huán)提交給檢索引擎后執(zhí)行步驟2,在對(duì)所有特征詞句串循環(huán)執(zhí)行步驟2完畢之后執(zhí)行步驟3,從而在最后綜合所有檢索結(jié)果對(duì)引文出處排序
后進(jìn)行標(biāo)引。這種方式效率更高,可以避免在去除重復(fù)的引文出處、所有引文出處排序后進(jìn)行標(biāo)引的工作上浪費(fèi)資源。
本發(fā)明實(shí)施例采用上述簡(jiǎn)化方式,將文檔切分為若干文本塊K、 K2…Kw,從這些文本塊中共提取出若干特征詞句串S" S2…Sw,然后將所有特征詞句串S,、S2…Sw循環(huán)提交至查詢服務(wù)器進(jìn)行查詢,當(dāng)對(duì)提交文檔的所有特征詞句串循環(huán)査詢結(jié)束后,然后執(zhí)行步驟2,得到一個(gè)與特征詞句串所在文本塊起始終止位置記錄集(Pn P2…PJ相互關(guān)聯(lián)的引文出處記錄集(仏、仏…IU,及兩者的相關(guān)度記錄集{&、 IV"R"??紤]到如果連續(xù)的兩個(gè)或兩個(gè)以上的文本塊所提取的特征詞句串檢索獲得同一個(gè)出處來源,則可以將若干連續(xù)文本塊合并成一個(gè)新的文本塊,并獲得合并后的新的文本塊在文檔中的終止位置(某些情況下還需記錄起始位置),因此可以進(jìn)行進(jìn)一步綜合簡(jiǎn)化處理。處理方式為對(duì)起始終止位置記錄集(P,、P2…PJ和引文出處記錄集0K、 U2…lU進(jìn)行分析比較,若有同一引文出處的在前文本塊的終止位置與在后文本塊的起始位置連續(xù)時(shí),將文本塊合并,用在前文
本塊的起始位置和在后文本塊的終止位置更新起始終止位置記錄集{Ph P2…PJ
中相應(yīng)位置記錄,并和原來這些文本塊對(duì)應(yīng)的同一引文出處相關(guān)聯(lián),更新引文
出處記錄集UL、 U2…UJ中的相應(yīng)記錄。最后在綜合簡(jiǎn)化處理基礎(chǔ)上進(jìn)行步驟3。
具體實(shí)施時(shí),可以將特征詞句串或信息指紋提交至Internet或Intranet上的查詢服務(wù)器實(shí)現(xiàn)檢索。査詢服務(wù)器既可以是多個(gè)現(xiàn)有檢索引擎的服務(wù)器,也可以是為了實(shí)現(xiàn)引文標(biāo)注自建的服務(wù)器,還可以是某個(gè)文獻(xiàn)信息資源數(shù)據(jù)庫服務(wù)器(如萬方數(shù)據(jù)查詢服務(wù)器之類)、支持查詢?nèi)蝿?wù)轉(zhuǎn)發(fā)的論壇或深網(wǎng)數(shù)據(jù)庫或者百科、問答以及社會(huì)網(wǎng)絡(luò)類査詢服務(wù)器。本發(fā)明建議由元檢索引擎、垂直檢索引擎、文獻(xiàn)資源數(shù)據(jù)庫中的信息相關(guān) 性檢測(cè)引擎以及深網(wǎng)挖掘引擎等四個(gè)基礎(chǔ)檢索引擎搜集數(shù)據(jù),這樣能夠海量覆 蓋被引文獻(xiàn)。其中元檢索引擎指的是調(diào)用其它獨(dú)立檢索引擎的引擎,元檢索引 擎就是對(duì)多個(gè)獨(dú)立檢索引擎的整合、調(diào)用、控制和優(yōu)化利用。而垂直檢索引擎 是針對(duì)某一個(gè)行業(yè)的專業(yè)檢索引擎,是檢索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁庫中 的某類專門的信息進(jìn)行一次整合,因此可以針對(duì)某個(gè)特定文獻(xiàn)領(lǐng)域,針對(duì)某些 特定網(wǎng)站或者本地文件進(jìn)行檢索査詢。文獻(xiàn)資源數(shù)據(jù)庫中的信息相關(guān)性檢測(cè)引 擎,其檢測(cè)范圍包含的文獻(xiàn)總量達(dá)萬篇。文獻(xiàn)類型包括學(xué)術(shù)期刊、博士學(xué)位 論文、優(yōu)秀碩士學(xué)位論文、工具書、重要會(huì)議論文、年鑒、專著、報(bào)紙、專 利、標(biāo)準(zhǔn)、科技成果、知識(shí)元、評(píng)論數(shù)據(jù)庫、古籍等。深網(wǎng)挖掘引擎,1996年
Dr. Jill Ellsworth最先提出De印Web,即隱形Web或深網(wǎng)資源普通的檢索 引擎不能發(fā)現(xiàn)其中的信息內(nèi)容,但它們的數(shù)據(jù)量又是十分龐大,往往具有較高 的權(quán)威性和高質(zhì)量。這恰恰是用戶最喜歡引用的內(nèi)容,根據(jù)Gary Price研究, 目前WWW上De印Web的數(shù)量是Visible Web數(shù)量的2-50倍,并且質(zhì)量比Visible Web高得多。因此為了追蹤某個(gè)文獻(xiàn)的引文來源,構(gòu)建能夠檢索上述De印Web 文獻(xiàn)的深網(wǎng)挖掘引擎很有用處。
將特征詞句串提交給檢索引擎前,可以設(shè)定對(duì)特征詞句串的搜查査詢采用 現(xiàn)有的字符串柔性匹配技術(shù)、字符串剛性匹配技術(shù)或字符串信息相關(guān)性技術(shù)。 其中柔性匹配和信息相關(guān)性技術(shù)的優(yōu)勢(shì)在于可以標(biāo)注經(jīng)過修改的部分引文,而 字符串剛性匹配則速度較快。字符串剛性匹配技術(shù)是將特征詞句串提交至查詢 服務(wù)器,查詢服務(wù)器檢索的是與提交的特征詞句串完全相同的相關(guān)信息內(nèi)容, 而字符串的柔性匹配則可以檢索與提交的特征詞句有所差異的相關(guān)文獻(xiàn)信息,并給出一個(gè)提交特征詞句串與查詢匹配的相關(guān)詞句的相關(guān)度,如提交的特征詞句串為"自動(dòng)引文標(biāo)注",經(jīng)過柔性匹配后,查詢服務(wù)器不但可以查詢"自動(dòng)引文標(biāo)注",還可以査詢"手動(dòng)引文標(biāo)注",并且還將給出一個(gè)"自動(dòng)引文標(biāo)注"和"手動(dòng)引文標(biāo)注"的相關(guān)度,這樣即使是經(jīng)過修改的部分引文,也可識(shí)別并標(biāo)注出來,增加準(zhǔn)確率和查全率。字符串信息相關(guān)性技術(shù)與字符串柔性匹配技術(shù)類似,檢測(cè)得到的檢索結(jié)果不僅有與特征詞句串完全相同的相關(guān)信息內(nèi)容,還有與提交的特征詞句存在相關(guān)性的相關(guān)文獻(xiàn)信息,同樣為檢索結(jié)果給出相關(guān)度。本發(fā)明所說的相關(guān),除了語句相似外,還包括內(nèi)容相關(guān)。將信息指紋提交給檢索引擎則適合用字符串剛性匹配技術(shù),信息指紋就是一串對(duì)文本塊進(jìn)行指紋提取后得到的Hash數(shù)值。
步驟2,對(duì)于被提交的特征詞句串或信息指紋,當(dāng)檢索引擎返回與特征詞句串或信息指紋相應(yīng)的檢索結(jié)果時(shí),記錄檢索結(jié)果作為相應(yīng)文本塊的引文出處,并記錄文本塊在文檔中的終止位置,記錄文本塊的引文出處與終止位置的關(guān)聯(lián)關(guān)系。本發(fā)明還提供了進(jìn)一步技術(shù)方案當(dāng)步驟1中將特征詞句串提交給檢索引擎時(shí),若采用字符串柔性匹配技術(shù)或字符串信息相關(guān)性技術(shù)對(duì)特征詞句串進(jìn)行
檢索,在步驟2中僅記錄相關(guān)性高于預(yù)設(shè)相關(guān)閾值A(chǔ)的檢索結(jié)果作為相應(yīng)文本
塊的引文出處,即特征詞句串所在文本塊的引文出處,其它相關(guān)性低的檢索結(jié)果被排除。這樣可以提高自動(dòng)標(biāo)引準(zhǔn)確率。對(duì)于被提交的信息指紋,檢索引擎
則是返回與該信息指紋的hash值相等的檢索結(jié)果,記錄檢索結(jié)果作為文本塊的引文出處,并記錄hash值所屬文本塊在文檔中的終止位置,記錄文本塊的引文出處與終止位置的關(guān)聯(lián)關(guān)系。本發(fā)明所稱引文出處,可以采用說明引文來源詳細(xì)信息的形式,例如說明文獻(xiàn)名稱、作者、發(fā)明日期等等,也可釆用簡(jiǎn)單直接的來源鏈接形式。
根據(jù)引文表述習(xí)慣,如果當(dāng)引用內(nèi)容與文獻(xiàn)原文完全相同時(shí),在文檔中要 為引用內(nèi)容加上引用符號(hào)表示直接引用, 一般為雙引號(hào)。本發(fā)明也提供了相應(yīng) 自動(dòng)處理方案記錄文本塊在文檔中的起始位置;當(dāng)檢索引擎返回有與步驟1 所提交特征詞句串相關(guān)性高于預(yù)設(shè)相符閾值B的檢索結(jié)果時(shí),根據(jù)文本塊在文 檔中的起始位置和終止位置,在提交文檔中為該文本塊加上引用符號(hào)。預(yù)設(shè)相
符閾值B應(yīng)當(dāng)高于預(yù)設(shè)相關(guān)閾值A(chǔ),可以通過設(shè)置預(yù)設(shè)相符閾值B來限制得到與
特征詞句串完全相符的檢索結(jié)果時(shí),相應(yīng)文本塊才能被加上引用符號(hào)。 當(dāng)步驟1中是對(duì)文本塊提取信息指紋并提交給檢索引擎時(shí),可以采用字符
串剛性匹配技術(shù)對(duì)信息指紋進(jìn)行檢索,在步驟2中記錄信息指紋相符的檢索結(jié) 果作為相應(yīng)文本塊的引文出處。因?yàn)樾畔⒅讣y檢索一般是匹配完全相等的Hash 值,返回的檢索結(jié)果應(yīng)當(dāng)與文本塊的引用內(nèi)容完全相同,因此返回信息指紋相 符的檢索結(jié)果時(shí)可以直接根據(jù)文本塊在文檔中的起始位置和終止位置,在提交 文檔中為該文本塊加上引用符號(hào)。
本發(fā)明實(shí)施例在將從提交文檔中提取的所有特征詞句串Si、 S2…S,循環(huán)提交 至査詢服務(wù)器進(jìn)行査詢后,將得到的引文出處記錄至引文出處記錄集^、U2…UJ 中,將査詢到的檢索結(jié)果與相應(yīng)特征詞句串所在文本塊的相關(guān)度記錄至相關(guān)度 記錄集(R,、 R2…R"中,并將引文出處記錄集UJ,、 U2***UN}、特征詞句串所在文本 塊的起始終止位置記錄集(Ph P2…PJ及相關(guān)度記錄集(R,、 R2…IU中相對(duì)應(yīng)的來 源出處、文本塊起始終止位置及兩者相關(guān)度相互關(guān)聯(lián)起來。對(duì)相關(guān)度進(jìn)行關(guān)聯(lián) 可以支持后續(xù)應(yīng)用工作。特征詞句串所在文本塊的起始位置和終止位置可在步 驟1進(jìn)行切割提取處理時(shí)得到,起始位置除用于自動(dòng)為文本塊加上引用符號(hào)外,還可輔助實(shí)現(xiàn)其他操作。例如在執(zhí)行步驟3之前,通過人機(jī)界面向用戶提供三種邏輯跳轉(zhuǎn),包括標(biāo)注文本塊、修改文本塊以及刪除文本塊。只有當(dāng)用戶選擇
標(biāo)注文本塊時(shí),允許執(zhí)行步驟3。當(dāng)用戶選擇修改文本塊時(shí),不允許執(zhí)行步驟3,
根據(jù)文本塊在文檔中的起始位置和終止位置,將該文本塊在提交文檔中突出顯示供用戶修改,并在用戶修改保存后返回至步驟l,基于修改后的文本塊重新進(jìn)
行自動(dòng)標(biāo)引。當(dāng)用戶選擇刪除文本塊時(shí),不允許執(zhí)行步驟3,根據(jù)文本塊在文檔
中的起始位置和終止位置,從提交文檔中自動(dòng)刪除該文本塊。
這三種邏輯跳轉(zhuǎn)也可通過實(shí)現(xiàn)設(shè)置跳轉(zhuǎn)條件,實(shí)現(xiàn)自動(dòng)跳轉(zhuǎn),而不需用戶選擇。本發(fā)明建議具體實(shí)施時(shí),根據(jù)用戶的需要設(shè)置閾值或文本塊位置作為進(jìn)行跳轉(zhuǎn)判斷的跳轉(zhuǎn)。通過設(shè)置文本塊位置,用戶可以指定具體處理方式,例如當(dāng)針對(duì)處于提交文檔特定位置(如中后部)的文本塊得到檢索結(jié)果時(shí),自動(dòng)刪除該文本塊。本發(fā)明實(shí)施例提供了實(shí)現(xiàn)自動(dòng)邏輯跳轉(zhuǎn)并進(jìn)行相應(yīng)處理的具體方
式如下
實(shí)施例默認(rèn)當(dāng)不出現(xiàn)修改文本塊和刪除文本塊跳轉(zhuǎn)時(shí),自動(dòng)跳轉(zhuǎn)到標(biāo)注文
本塊,即進(jìn)行步驟3,將該文本塊的終止位置與提交文檔的中已有引用標(biāo)引(包
括文末參考文獻(xiàn)和腳注、尾注文獻(xiàn)的文檔標(biāo)注)的引用標(biāo)記位置進(jìn)行綜合整理,
根據(jù)引文出處記錄集UJt、 U2…uj將非第一條出現(xiàn)的重復(fù)的參考文獻(xiàn)去除后重新
排序。同時(shí)在提交文檔的該文本塊終止位置處添加如"[2]、 [2]"之類的引用
標(biāo)記。同時(shí)修改、刪除或備份提交文檔原參考文獻(xiàn),將檢索所得的引文出處插入到文檔尾部或腳注相應(yīng)位置。所述文本塊的終止位置從起始終止位置記錄集
{Pn P2…P"中提取。具體實(shí)施時(shí),也可將是否滿足預(yù)設(shè)相符閥值B作為進(jìn)行標(biāo)注文本塊的跳轉(zhuǎn)條件,從而只在檢索結(jié)果所含文獻(xiàn)內(nèi)容與文本塊的引用內(nèi)容完全相同時(shí),將文本塊加上引用符號(hào)并進(jìn)行標(biāo)注。
當(dāng)檢索引擎返回有與步驟1所提交特征詞句串相關(guān)性高于預(yù)設(shè)某閾值c的 檢索結(jié)果時(shí),自動(dòng)跳轉(zhuǎn)到提醒用戶選擇修改文本,從文本塊的起始終止位置記 錄集化、P2…PJ中提取被提交査詢的特征詞句所在文本塊起始地址,在待查文 檔中定位該文本塊并突出顯示,用戶則可對(duì)該文本塊內(nèi)容進(jìn)行修改。然后在用 戶修改保存后,自動(dòng)返回步驟1對(duì)修改后的內(nèi)容再次進(jìn)行檢索,看相似度是否
仍高于預(yù)設(shè)某閾值。如仍高于預(yù)設(shè)某閾值c,則又可跳轉(zhuǎn)到提醒用戶選擇修改文本。
當(dāng)檢索引擎返回有與步驟1所提交特征詞句串相關(guān)性高于預(yù)設(shè)某閾值D的 檢索結(jié)果時(shí),自動(dòng)將相應(yīng)文本塊在文檔中的位置從起始終止位置記錄集化、 P "PJ中提取出來,在提交文檔中檢索、定位該文本塊并直接從原文刪除或標(biāo) 記刪除標(biāo)識(shí)。
步驟3,結(jié)合提交文檔中已有引用標(biāo)引和檢索結(jié)果去除重復(fù)的引文出處后,按照 在提交文檔中的位置前后關(guān)系對(duì)所有引文出處排序后進(jìn)行標(biāo)引;
所述結(jié)合提交文檔中己有引用標(biāo)引和檢索結(jié)果去除重復(fù)的引文出處具體實(shí) 現(xiàn)方式如下,
從提交文檔中提取已有引用標(biāo)引的相關(guān)信息,與步驟2所得檢索結(jié)果的相關(guān)信 息比較,所述已有引用標(biāo)引的相關(guān)信息包括已有引用標(biāo)引的引用標(biāo)記位置、引 文出處、引用標(biāo)記位置和引文出處的關(guān)聯(lián)關(guān)系,所述檢索結(jié)果的相關(guān)信息即文 本塊在文檔中的終止位置、文本塊的引文出處,以及文本塊的引文出處與終止 位置的關(guān)聯(lián)關(guān)系;
當(dāng)出現(xiàn)重復(fù)的引文出處時(shí),根據(jù)引用標(biāo)記位置和引文出處的關(guān)聯(lián)關(guān)系或文本塊的引文出處和終止位置的關(guān)聯(lián)關(guān)系,査到與引文出處相應(yīng)的己有引用標(biāo)引的引 用標(biāo)記位置或文本塊在文檔中的終止位置,保留位置在提交文檔內(nèi)最前的一條 引文出處,其它重復(fù)的引文出處去除;
所述按照在提交文檔中的位置前后關(guān)系對(duì)所有引文出處排序后,進(jìn)行標(biāo)引 的具體實(shí)現(xiàn)方式如下,
在文檔中按照排序在已有引用標(biāo)引的引用標(biāo)記位置或文本塊的終止位置添加引 用標(biāo)記,并根據(jù)引用標(biāo)記位置和引文出處的關(guān)聯(lián)關(guān)系或文本塊的引文出處與終 止位置的關(guān)聯(lián)關(guān)系將引文出處添加到提交文檔中。
對(duì)于該步驟,本發(fā)明實(shí)施例的實(shí)現(xiàn)方式為將提交文檔的已有引用標(biāo)引提 取出來,提取已有引用標(biāo)引的相關(guān)信息記錄在原引文記錄集 {Reference/Footnote/Annotation'"}中,相關(guān)信息包括己有引用標(biāo)引的引用標(biāo) 記位置、引文出處、引用標(biāo)記位置和引文出處的關(guān)聯(lián)關(guān)系,因?yàn)橐脴?biāo)記都是 放于所指文本塊的終止位置,因此引用標(biāo)記位置可用于與特征詞句串所在文本 塊在文檔中的終止位置比較。根據(jù)常用標(biāo)注格式,文檔被提交時(shí)已有引用標(biāo)引 可能包括三種Reference參考文獻(xiàn)(引文出處置于文章最后)、Footnote尾注 (引文出處一般置于文章尾部、參考文獻(xiàn)之前)、Annotation腳注(引文出處置 于頁腳最后)。將相關(guān)度記錄集(P^ P2…PJ中所記錄相關(guān)性高于預(yù)設(shè)相關(guān)閾值A(chǔ) 的相對(duì)應(yīng)的引文出處記錄集OL、仏…IU中的引文出處與原引文記錄集 {Reference/Footnote/Annotation-}中的記錄相比較,如果存在重復(fù)出現(xiàn)的引 文出處,則需要重新排序、去重并合并。依照一定的參考文獻(xiàn)格式(可參見國 標(biāo)或期刊社標(biāo)準(zhǔn)),以參考文獻(xiàn)、尾注或腳注等形式進(jìn)行標(biāo)注。
若具體實(shí)施時(shí),采用的方式是每從文本塊中切割出一個(gè)特征詞句串時(shí),就將該特征詞句串提交給檢索引擎、執(zhí)行步驟2和步驟3,然后將切割出的下一個(gè)
特征詞句串提交給檢索引擎、執(zhí)行步驟2和步驟3。那么所謂己有引用標(biāo)引的相
關(guān)信息除了提交文檔在提交時(shí)就有的已有引用標(biāo)引外,還存在之前的標(biāo)引輪次中添加的標(biāo)弓l。所添標(biāo)引的引用標(biāo)記位置、引文出處、引用標(biāo)記位置和引文出
處的關(guān)聯(lián)關(guān)系,分別直接來源于之前標(biāo)引輪次的步驟2中所記錄的文本塊在文檔中的終止位置、引文出處,及文本塊的引文出處與終止位置的關(guān)聯(lián)關(guān)系;并在之前標(biāo)引輪次的步驟3中記錄到原引文記錄集中。
目前有些文章發(fā)表規(guī)定是引用文字不能超過全文一定百分比,因此本發(fā)明提供了進(jìn)一步技術(shù)方案,統(tǒng)計(jì)當(dāng)前所有引文出處的相應(yīng)文本塊占提交文檔總數(shù)比例并向用戶提供顯示。所謂當(dāng)前所有引文出處,既包括檢索結(jié)果構(gòu)成的新引文出處,也包括提交文檔中已有引用標(biāo)引的引文出處。可以在當(dāng)檢索引擎返回與特征詞句串或信息指紋相應(yīng)的檢索結(jié)果后進(jìn)行統(tǒng)計(jì)顯示,也可以在當(dāng)進(jìn)行邏輯跳轉(zhuǎn)并執(zhí)行完相應(yīng)處理后進(jìn)行統(tǒng)計(jì)顯示。及時(shí)反應(yīng)比例能夠便于用戶實(shí)時(shí)掌握當(dāng)前引用或者拷貝字?jǐn)?shù)是多少,具體實(shí)施時(shí)可以將統(tǒng)計(jì)所得當(dāng)前所有引文出處的相應(yīng)文本塊占提交文檔總數(shù)比例緩存在計(jì)算機(jī)內(nèi)存中,通過顯示屏等人機(jī)交互界面向用戶顯示提供。
權(quán)利要求
1.一種引文自動(dòng)標(biāo)引方法,其特征是包括以下步驟,步驟1,對(duì)提交文檔進(jìn)行切割得到文本塊,對(duì)文本塊提取特征詞句串或信息指紋;然后將特征詞句串或信息指紋提交給檢索引擎;步驟2,對(duì)于被提交的特征詞句串或信息指紋,當(dāng)檢索引擎返回與特征詞句串或信息指紋相應(yīng)的檢索結(jié)果時(shí),記錄檢索結(jié)果作為相應(yīng)文本塊的引文出處,并記錄文本塊在文檔中的終止位置,記錄文本塊的引文出處與終止位置的關(guān)聯(lián)關(guān)系;步驟3,結(jié)合提交文檔中已有引用標(biāo)引和檢索結(jié)果去除重復(fù)的引文出處后,按照在提交文檔中的位置前后關(guān)系對(duì)所有引文出處排序后進(jìn)行標(biāo)引;所述結(jié)合提交文檔中已有引用標(biāo)引和檢索結(jié)果去除重復(fù)的引文出處具體實(shí)現(xiàn)方式如下,從提交文檔中提取已有引用標(biāo)引的相關(guān)信息,與步驟2所得檢索結(jié)果的相關(guān)信息比較,所述已有引用標(biāo)引的相關(guān)信息包括已有引用標(biāo)引的引用標(biāo)記位置、引文出處、引用標(biāo)記位置和引文出處的關(guān)聯(lián)關(guān)系,所述檢索結(jié)果的相關(guān)信息即文本塊在文檔中的終止位置、文本塊的引文出處,以及文本塊的引文出處與終止位置的關(guān)聯(lián)關(guān)系;當(dāng)出現(xiàn)重復(fù)的引文出處時(shí),根據(jù)引用標(biāo)記位置和引文出處的關(guān)聯(lián)關(guān)系或文本塊的引文出處和終止位置的關(guān)聯(lián)關(guān)系,查到與引文出處相應(yīng)的已有引用標(biāo)引的引用標(biāo)記位置或文本塊在文檔中的終止位置,保留位置在提交文檔內(nèi)最前的一條引文出處,其它重復(fù)的引文出處去除;所述按照在提交文檔中的位置前后關(guān)系對(duì)所有引文出處排序后,進(jìn)行標(biāo)引的具體實(shí)現(xiàn)方式如下,在文檔中按照排序在已有引用標(biāo)引的引用標(biāo)記位置或文本塊的終止位置添加引用標(biāo)記,并根據(jù)引用標(biāo)記位置和引文出處的關(guān)聯(lián)關(guān)系或文本塊的引文出處與終止位置的關(guān)聯(lián)關(guān)系將引文出處添加到提交文檔中。
2. 根據(jù)權(quán)利要求l所述的引文自動(dòng)標(biāo)引方法,其特征是當(dāng)步驟l中將信息指 紋提交給檢索引擎時(shí),采用字符串剛性匹配技術(shù)對(duì)信息指紋進(jìn)行檢索,在步驟2 中記錄信息指紋相符的檢索結(jié)果作為相應(yīng)文本塊的引文出處。
3. 根據(jù)權(quán)利要求l所述的引文自動(dòng)標(biāo)引方法,其特征是當(dāng)步驟l中將特征詞 句串提交給檢索引擎時(shí),采用字符串柔性匹配技術(shù)或字符串信息相關(guān)性技術(shù)對(duì) 特征詞句串進(jìn)行檢索,在步驟2中僅記錄相關(guān)性高于預(yù)設(shè)相關(guān)閾值的檢索結(jié)果 作為相應(yīng)文本塊的引文出處。
4. 根據(jù)權(quán)利要求3所述的引文自動(dòng)標(biāo)引方法,其特征是記錄文本塊在文檔中 的起始位置;當(dāng)檢索引擎返回有與步驟1所提交特征詞句串相關(guān)性高于預(yù)設(shè)相 符閾值的檢索結(jié)果時(shí),根據(jù)文本塊在文檔中的起始位置和終止位置,在提交文 檔中為該文本塊加上引用符號(hào)。
5. 根據(jù)權(quán)利要求1或3或4所述的引文自動(dòng)標(biāo)引方法,其特征是當(dāng)步驟l從 文本塊中提取得到一個(gè)以上特征詞句串時(shí),對(duì)所有特征詞句串循環(huán)執(zhí)行步驟2,在對(duì)所有特征詞句串執(zhí)行步驟2完畢之 后執(zhí)行步驟3;或者,對(duì)特征詞句串逐個(gè)順序執(zhí)行步驟2和步驟3。
6. 根據(jù)權(quán)利要求1或2或3或4所述的引文自動(dòng)標(biāo)引方法,其特征是當(dāng)檢索 引擎返回與特征詞句串或信息指紋相應(yīng)的檢索結(jié)果后,統(tǒng)計(jì)當(dāng)前所有引文出處 的相應(yīng)文本塊占提交文檔總數(shù)比例并向用戶提供顯示。
7. 根據(jù)權(quán)利要求1或2或3或4所述的引文自動(dòng)標(biāo)引方法,其特征是在執(zhí)行 步驟3之前,通過人機(jī)界面向用戶提供三種邏輯跳轉(zhuǎn),包括標(biāo)注文本塊、修改 文本塊以及刪除文本塊;當(dāng)用戶選擇標(biāo)注文本塊時(shí),允許執(zhí)行步驟3。
8. 根據(jù)權(quán)利要求7所述的引文自動(dòng)標(biāo)引方法,其特征是在步驟2中,記錄文 本塊在文檔中的起始位置;當(dāng)用戶選擇修改文本塊時(shí),不允許執(zhí)行步驟3,根據(jù) 文本塊在文檔中的起始位置和終止位置,將該文本塊在提交文檔中突出顯示供 用戶修改,并在用戶修改保存后返回至步驟l,基于修改后的文本塊重新進(jìn)行自 動(dòng)標(biāo)引。
9. 根據(jù)權(quán)利要求7所述的引文自動(dòng)標(biāo)引方法,其特征是在步驟2中,記錄文 本塊在文檔中的起始位置;當(dāng)用戶選擇刪除文本塊時(shí),不允許執(zhí)行步驟3,根據(jù) 文本塊在文檔中的起始位置和終止位置,從提交文檔中自動(dòng)刪除該文本塊。
10. 根據(jù)權(quán)利要求7所述的引文自動(dòng)標(biāo)引方法,其特征是當(dāng)進(jìn)行邏輯跳轉(zhuǎn)并執(zhí) 行完相應(yīng)處理后,統(tǒng)計(jì)當(dāng)前所有引文出處的相應(yīng)文本塊占提交文檔總數(shù)比例并 向用戶提供顯示。
全文摘要
本發(fā)明提供了一種引文自動(dòng)標(biāo)引方法,其特征是包括以下步驟步驟1,對(duì)提交文檔進(jìn)行切割得到文本塊,對(duì)文本塊提取特征詞句串或信息指紋;然后將特征詞句串或信息指紋提交給檢索引擎;步驟2,對(duì)于被提交的特征詞句串或信息指紋,當(dāng)檢索引擎返回與特征詞句串或信息指紋相應(yīng)的搜索結(jié)果時(shí),記錄搜索結(jié)果作為相應(yīng)文本塊的引文出處,并記錄文本塊在文檔中的終止位置,記錄文本塊的引文出處與終止位置的關(guān)聯(lián)關(guān)系;步驟3,結(jié)合提交文檔中已有引用標(biāo)引和搜索結(jié)果去除重復(fù)的引文出處后,按照在提交文檔中的位置前后關(guān)系對(duì)所有引文出處排序后進(jìn)行標(biāo)引。本發(fā)明克服了現(xiàn)有手工方法效率十分低下的弱點(diǎn),提高了標(biāo)引速度和準(zhǔn)確性。
文檔編號(hào)G06F17/30GK101539904SQ20091006171
公開日2009年9月23日 申請(qǐng)日期2009年4月21日 優(yōu)先權(quán)日2009年4月21日
發(fā)明者陽 沈, 沈勁枝, 田晨耕 申請(qǐng)人:武漢大學(xué)