两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于對(duì)文本進(jìn)行處理的方法和系統(tǒng)的制作方法

文檔序號(hào):6577979閱讀:172來(lái)源:國(guó)知局
專利名稱:用于對(duì)文本進(jìn)行處理的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù),尤其涉及用于對(duì)文本進(jìn)行處理的方法和系統(tǒng)。
背景技術(shù)
在過(guò)去的二十多年的時(shí)間里,隨著電子技術(shù)的迅猛發(fā)展,計(jì)算機(jī)網(wǎng)絡(luò),尤其是互聯(lián) 網(wǎng)的性能和容量發(fā)生了爆炸性的增長(zhǎng)。用戶每天利用計(jì)算機(jī)處理各種信息,編輯形成大量 的電子文本。這些電子文本(下文簡(jiǎn)稱為文本)包括以文檔方式存儲(chǔ)的文本以及以記錄和 表格等方式存儲(chǔ)在數(shù)據(jù)庫(kù)中的文本。這些文本中的信息是個(gè)人或企業(yè)的重要資產(chǎn)。以文檔 或記錄等電子化的方式存儲(chǔ)和處理這些文本,為用戶重復(fù)利用其中的信息提供了便利并提 高了工作效率。但是,在一些情況下,文本可能會(huì)被損壞(例如,文本文檔被損壞),從而影響對(duì)文 本中信息的重復(fù)利用。這浪費(fèi)了為形成文本而投入的時(shí)間等資源。造成文本被損壞的原因 有多種,例如通信故障、存儲(chǔ)介質(zhì)故障等。操作系統(tǒng)故障、處理文檔的應(yīng)用程序中的缺陷,也 會(huì)損壞文檔。文檔損壞是一種可以盡量減少,但是卻很難完全避免的問(wèn)題。當(dāng)文檔被損壞后,用戶經(jīng)常希望可以從該文檔中找回未被損壞的部分,而不必重 新編輯全部文檔內(nèi)容。對(duì)于文字處理類型的文檔,文本往往是其中比較重要的內(nèi)容,而格式 和其它非文本信息往往相對(duì)不重要。因此,恢復(fù)文檔中的文本比較重要。文本在文檔中,一 般根據(jù)預(yù)定的字符集以字符編碼的方式存儲(chǔ)。字符集指特定字符的集合,分為單字符集(即單字節(jié)編碼字符集)和多字符集 (雙字節(jié)或多字節(jié)編碼字符集)。單字符集主要包括ASCII,Latin-l等編碼字符集,主要用 于英文等字母語(yǔ)言。多字符集主要包括GB2312,GBK, GB18030, Shit-JIS,IS02022等編碼 字符集,主要用于中文、日文和韓國(guó)文等。微軟的視窗操作系統(tǒng),其核心用UTF-16編碼,為 雙字節(jié)編碼,外層應(yīng)用可以隨著使用語(yǔ)言設(shè)置(locale)的不同而不同。比如中文Windows, 就可以用GB2312編碼或者GB18030編碼。用于存儲(chǔ)信息的數(shù)據(jù)庫(kù)也可以使用不同的編碼。數(shù)據(jù)庫(kù)系統(tǒng)軟件安裝時(shí)可以設(shè)定 一個(gè)默認(rèn)編碼,但是在建不同的數(shù)據(jù)庫(kù)時(shí)可以指定成用戶需要的編碼。安裝數(shù)據(jù)庫(kù)系統(tǒng)軟 件后,如建了兩個(gè)數(shù)據(jù)庫(kù),一個(gè)用于處理員工信息,一個(gè)用于處理機(jī)器設(shè)備信息。員工信息 可以用GB2312編碼或UTF-16編碼以便支持中文,或者使用Shit-JIS編碼以便支持日文。 機(jī)器設(shè)備信息可以使用ASCII編碼,因?yàn)闄C(jī)器設(shè)備名稱、IP地址等信息都是ASCII編碼的。文本損壞的一個(gè)重要原因是字節(jié)丟失。放在硬盤、優(yōu)盤等存儲(chǔ)設(shè)備上的文檔。受 到震動(dòng)、復(fù)雜環(huán)境等不可預(yù)知的因素的影響,可能會(huì)導(dǎo)致文檔的某些字節(jié)損壞而造成丟失 字節(jié)。數(shù)據(jù)庫(kù)之間的文檔復(fù)制,尤其是采用不同編碼的數(shù)據(jù)庫(kù)之間進(jìn)行文檔復(fù)制,也可 能造成字節(jié)丟失。例如,如果復(fù)制的緩存發(fā)生數(shù)據(jù)溢出,就會(huì)發(fā)生字節(jié)丟失。一個(gè)跨國(guó)公司 的多個(gè)協(xié)作服務(wù)器,由于需要支持不同國(guó)家中的英文、中文、日文和韓國(guó)文用戶,其中的文 本采用單字節(jié)編碼和雙字節(jié)或多字節(jié)編碼。在這種協(xié)作服務(wù)器系統(tǒng)之間同步或備份時(shí),如果方法不當(dāng),發(fā)生溢出,可能會(huì)丟失字節(jié)。例如,一種使用多字節(jié)編碼的數(shù)據(jù)庫(kù),每個(gè)字符的 編碼字節(jié)數(shù)為1至3個(gè)。在拷貝一串字符時(shí),使用了一個(gè)512個(gè)字節(jié)的緩沖區(qū)。當(dāng)存滿這 個(gè)緩沖區(qū)時(shí),由于程序設(shè)計(jì)問(wèn)題或內(nèi)存分配問(wèn)題,最后一個(gè)字符可能沒有復(fù)制完整,即丟失 了字節(jié)。比如“ABC中國(guó)”這幾個(gè)字,如果ABC各使用單字節(jié)編碼,占用3個(gè)字節(jié),中國(guó)兩個(gè) 字采用三字節(jié)編碼,分別需要占用三個(gè)字節(jié)。如果將上述編碼的“ABC中國(guó)”存到一個(gè)最后 的8字節(jié)空間里,會(huì)導(dǎo)致最后一個(gè)字的最后一個(gè)字節(jié)丟失。不同文檔格式或數(shù)據(jù)格式進(jìn)行格式轉(zhuǎn)換,尤其是不同編碼的系統(tǒng)或應(yīng)用之間對(duì)包 括文本的內(nèi)容進(jìn)行格式轉(zhuǎn)換,也可能發(fā)生丟失字節(jié)。由于軟硬件技術(shù)的發(fā)展,以及多年使用計(jì)算機(jī)處理各種信息,一些企業(yè)用戶可能 積累了多種不同的文檔,這些文檔基于不同的軟硬件系統(tǒng)。由于需要處理的情況復(fù)雜,在重 復(fù)利用這些積累的文檔的過(guò)程中,文本中丟失字節(jié)的現(xiàn)象時(shí)有發(fā)生。因此,有必要針對(duì)上述不同的情況,采取必要的技術(shù)處理措施,以便盡可能恢復(fù)受 到損壞的文本。并且,需要一種機(jī)制,來(lái)檢測(cè)涉及文本的處理,對(duì)該文本是否安全。

發(fā)明內(nèi)容
鑒于已有技術(shù)的不足,本發(fā)明提供了一種對(duì)文本進(jìn)行處理的方法,包括確定一文 本中的至少部分字符;利用所述至少部分字符作為分隔符,將所述文本劃分為多個(gè)文本片 段;以及對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼。本發(fā)明還提供了一種對(duì)文本進(jìn)行處理的系統(tǒng),包括字符確定模塊,用于確定一文 本中的至少部分字符;文本片段劃分模塊,用于利用所述至少部分字符作為分隔符,將所述 文本劃分為多個(gè)文本片段;以及譯碼模塊,用于對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼。上述對(duì)文本進(jìn)行處理的方法和系統(tǒng),可以將文本劃分為多個(gè)片段,然后對(duì)每個(gè)片 段分別進(jìn)行譯碼。這樣,如果文本中存在亂碼,可以進(jìn)行有效的隔離。


圖1示出了根據(jù)本發(fā)明一實(shí)施例對(duì)文本進(jìn)行處理的流程圖。圖2a、圖2b示出了一文本發(fā)生亂碼前后的示意圖。圖3示出了根據(jù)本發(fā)明另一實(shí)施例的對(duì)文本片段進(jìn)行譯碼的流程圖。圖4示出了根據(jù)本發(fā)明另一實(shí)施例的用于對(duì)文本進(jìn)行處理的流程圖。圖5示出了根據(jù)本發(fā)明另一實(shí)施例的用于確定文本受損壞程度的流程圖。圖6示出了根據(jù)本發(fā)明另一實(shí)施例的對(duì)文本進(jìn)行處理的系統(tǒng)方框圖。
具體實(shí)施例方式以下參照按照本發(fā)明實(shí)施例的方法、裝置描述本發(fā)明。其中,流程圖和/或框圖的 每個(gè)方框以及流程圖和/或框圖中各方框的組合,都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì) 算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器, 從而生產(chǎn)出一種機(jī)器,使得通過(guò)計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置執(zhí)行的這些指令,產(chǎn)生 實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置(means)。也可以把這些計(jì)算機(jī)程序指令存儲(chǔ)在能指令計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置
6以特定方式工作的計(jì)算機(jī)可讀介質(zhì)中,這樣,存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的指令產(chǎn)生一個(gè)包 括實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instruction means) 的制造品。還可以把計(jì)算機(jī)程序指令加載到計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置上,使得在計(jì) 算機(jī)或其它可編程數(shù)據(jù)處理裝置上執(zhí)行一系列操作步驟,以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,從而 在計(jì)算機(jī)或其它可編程裝置上執(zhí)行的指令就提供實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定 的功能/操作的過(guò)程。在本發(fā)明實(shí)施例的描述中,字符可以是字母、文字或標(biāo)點(diǎn)符號(hào)中的一種或多種。對(duì) 于使用日文的情況,文本中的字符還可以是字母、平假名、片假名和漢字中的一種或多種。圖1示出了根據(jù)本發(fā)明一實(shí)施例對(duì)文本進(jìn)行處理的流程圖。其中,示出了一種對(duì) 文本進(jìn)行譯碼的方法100。在步驟S110,首先確定需要譯碼的文本中的至少部分字符???以通過(guò)字符的編碼來(lái)確定文本中的字符。例如,可以通過(guò)字符的編碼來(lái)識(shí)別文本中的字符, 并記錄這些字符在所述文本中的位置。例如,“的”的GB2312編碼為0xB50xC4,根據(jù)該編碼 可以識(shí)別出文本中多個(gè)“的”,并記錄每個(gè)“的”在文本中的存儲(chǔ)位置。其中,所述至少部分 字符可以為至少部分標(biāo)點(diǎn)符號(hào)??梢酝ㄟ^(guò)標(biāo)點(diǎn)符號(hào)的編碼來(lái)確定文本中的至少部分標(biāo)點(diǎn)符 號(hào)。例如,可以通過(guò)標(biāo)點(diǎn)符號(hào)的編碼來(lái)識(shí)別文本中的至少部分標(biāo)點(diǎn)符號(hào),并記錄每個(gè)標(biāo)點(diǎn)符 號(hào)在所述文本中的位置。例如,常用的標(biāo)點(diǎn)符號(hào)的GB2312編碼如下 圖2示出了一文本發(fā)生亂碼前后的示意圖。其中,圖2a示出了使用GB2312編碼的 一段文本及其譯碼結(jié)果。其中,每個(gè)漢字的編碼用兩個(gè)字節(jié)。例如,床的編碼為0xB4 0xB2, 前的編碼為0xC7 OxBO,上的編碼為0xC9 OxCF,標(biāo)點(diǎn)符號(hào)“,”的編碼為0xA3 OxAC,標(biāo)點(diǎn)符 號(hào)“。”的編碼為OxAl 0xA3。圖2b示出了發(fā)生字節(jié)丟失后,丟失字節(jié)之后的文本發(fā)生了亂碼。其中,上的第一個(gè)字節(jié)0xC9丟失,導(dǎo)致了從上字開始后續(xù)文本的亂碼,即亂碼范圍被擴(kuò) 大了。本領(lǐng)域的技術(shù)人員可以理解,如果文本中多出了字節(jié),如多了一個(gè)字節(jié),也會(huì)發(fā)生亂碼。根據(jù)本發(fā)明圖1的實(shí)施例,標(biāo)點(diǎn)符號(hào)作為分隔符,用于將一長(zhǎng)段文本分隔為多個(gè) 較短的文本片段。然后對(duì)每個(gè)文本片段分別進(jìn)行譯碼。這樣,一個(gè)文本片段中的亂碼,就不 會(huì)影響到對(duì)其它文本片段進(jìn)行的譯碼。因此,可以根據(jù)具體需要來(lái)選擇部分標(biāo)點(diǎn)符號(hào)。例 如,可以僅僅選擇逗號(hào)“,,,和句號(hào)“?!薄H绻谋局斜粨p壞的字節(jié)較多,也可以選擇多種標(biāo) 點(diǎn)符號(hào),以便將該文本分隔為更多的文本片段,如選擇上表中所列出的7種標(biāo)點(diǎn)符號(hào)。還可 以確定不同的標(biāo)點(diǎn)符號(hào)選擇方案,以便將文本以不同的方式劃分為多個(gè)文本片段。對(duì)于使用上述7種標(biāo)點(diǎn)符號(hào),在被損壞的文本中發(fā)生標(biāo)點(diǎn)符號(hào)選擇錯(cuò)誤的概率可 以用以下公式進(jìn)行估算,大約為0.54%。艮口,(7/(Oxff-0xa0))2xl00% = 0. 54%這個(gè)公式要說(shuō)明的問(wèn)題是錯(cuò)誤識(shí)別標(biāo)點(diǎn)符號(hào)的概率是多少。因?yàn)樯鲜鲎g碼方法是 通過(guò)識(shí)別標(biāo)點(diǎn)符號(hào)來(lái)糾正亂碼。所以需要考量正確識(shí)別標(biāo)點(diǎn)符號(hào)的概率大小。以下以中文GB2312字符集為例子計(jì)算概率,GB2312的碼表如http://aSh. jp/ code/cn/gb2312tbl. htm 所示,共有 6763 個(gè)字符,從 OxAlOxAO 到 OxFE OxFF。假設(shè)需要識(shí) 別常用的7個(gè)標(biāo)點(diǎn)符號(hào)“,。;! ?、”,那么識(shí)別錯(cuò)誤的概率可以通過(guò)上述公式進(jìn)行估算。出現(xiàn)錯(cuò)誤識(shí)別標(biāo)點(diǎn)符號(hào)的情況可能是,兩個(gè)漢字,漢字1和漢字2,兩個(gè)漢字緊挨 著,并且漢字1的第二個(gè)字節(jié)是某個(gè)標(biāo)點(diǎn)的第一個(gè)字節(jié),漢字2的第一個(gè)字節(jié)是某個(gè)標(biāo)點(diǎn)的 第二個(gè)字節(jié)。出現(xiàn)這種情況的概率可如下計(jì)算。其中一個(gè)字節(jié)有0至OxFF個(gè)值,除去中文里沒有的值0至0xA0。所以每個(gè)字 節(jié)可以取OxFF-OxaO個(gè)值,只有當(dāng)這個(gè)值是7個(gè)標(biāo)點(diǎn)中的一個(gè)時(shí)才會(huì)錯(cuò),所以一個(gè)字節(jié)出 現(xiàn)這種情況是7/(Oxff-OxaO),因?yàn)槊總€(gè)字符由兩個(gè)字節(jié)組成,所以兩個(gè)相乘就得到(7/ (0xff-0xa0))2xl00%= 0. 54%。如果考慮到上述漢字1和漢字2在實(shí)際上下文中相鄰的 可能性,則識(shí)別標(biāo)點(diǎn)符號(hào)錯(cuò)誤的概率更小。如果僅僅采用兩個(gè)最常用的標(biāo)點(diǎn)符號(hào)“,,,和“?!保瑯?biāo)點(diǎn)符號(hào)選擇錯(cuò)誤的概率大約 為0. 04%。如上文所述,如果考慮到上述漢字1和漢字2在實(shí)際上下文中相鄰的可能性,則 識(shí)別標(biāo)點(diǎn)符號(hào)錯(cuò)誤的概率更小。因此,采用標(biāo)點(diǎn)符號(hào)作為分隔符,可以有效地隔離亂碼的影 響。在步驟S120,利用所述至少部分字符作為分隔符,將所述文本劃分為多個(gè)文本片 段。例如,利用所述標(biāo)點(diǎn)符號(hào)作為分隔符,將所述文本劃分為多個(gè)文本片段。在確定所述文 本中的至少部分標(biāo)點(diǎn)符號(hào)之后,兩個(gè)標(biāo)點(diǎn)符號(hào)之間的部分文本就成為可以單獨(dú)進(jìn)行譯碼的 文本片段??梢愿鶕?jù)識(shí)別出的至少部分標(biāo)點(diǎn)符號(hào)及它們?cè)谖谋局械南鄳?yīng)位置,將兩個(gè)標(biāo)點(diǎn) 符號(hào)之間的部分文本作為一個(gè)文本片段。如圖2所示,如果選擇了標(biāo)點(diǎn)符號(hào)“,”和“。”作 為分隔符,則所述文本可以被劃分為4個(gè)文本片段。這樣,每個(gè)文本片段中的亂碼,不會(huì)影 響到其它文本片段,即亂碼范圍通過(guò)隔離被縮小了。本領(lǐng)域的技術(shù)人員可以理解,確定文 本中標(biāo)點(diǎn)符號(hào)的目的,是為了利用所述標(biāo)點(diǎn)符號(hào)作為分隔符,將所述文本劃分為多個(gè)文本 片段。因此,如上文所述,可以根據(jù)需要確定不同數(shù)量的標(biāo)點(diǎn)符號(hào)。例如,可以選擇常用的 幾個(gè)標(biāo)點(diǎn)符號(hào),或者所述文本中用的較多的標(biāo)點(diǎn)符號(hào)。其中,至少部分標(biāo)點(diǎn)符號(hào)可以包括“,” “?!?“ ;” “ ” “;” “?”或“、”。還可以在確定標(biāo)點(diǎn)符號(hào)之后,進(jìn)一步確定劃分文本
片段的策略。 在步驟S130,對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼。由于標(biāo)點(diǎn)符號(hào)作為分隔符,可以 有效地隔離亂碼的影響。因此,根據(jù)該實(shí)施例對(duì)損壞的文本進(jìn)行譯碼的結(jié)果,將明顯優(yōu)于采 用已有技術(shù)進(jìn)行譯碼的結(jié)果。根據(jù)圖1實(shí)施例的方法,對(duì)圖2b中的文本進(jìn)行處理,可以得 到如下譯碼結(jié)果。其中,無(wú)法確定的字符用空格代替?!按睬懊髟鹿?,疑是地纖—,舉頭望明月,低頭思故鄉(xiāng)?!憋@然,亂碼的范圍通過(guò)標(biāo)點(diǎn) 符號(hào)作為分隔符進(jìn)行隔離,被限制在一個(gè)文本片段中。其它的文本片段被正確譯碼。所述對(duì)文本進(jìn)行譯碼方法可以適用于對(duì)包含雙字節(jié)編碼字符或多字節(jié)編碼字符 的文本。所述文本可以選自中文文本、日文文本或韓國(guó)語(yǔ)文本中的一種。所述文本還可以 是包含雙字節(jié)編碼字符或多字節(jié)編碼字符的其它語(yǔ)言的文本。根據(jù)本發(fā)明的另一實(shí)施例,所述方法用于對(duì)受到損壞的包含雙字節(jié)編碼字符或多 字節(jié)編碼字符的文本進(jìn)行譯碼、顯示的方法。本領(lǐng)域的技術(shù)人員可以理解,對(duì)于數(shù)據(jù)庫(kù)或其它格式的文檔中包括的文本(如演 示文稿中的文本或表格中的文本),可以采用相應(yīng)的方法讀取其中的文本,然后對(duì)文本進(jìn)行 譯碼。圖3示出了根據(jù)本發(fā)明另一實(shí)施例的對(duì)文本片段進(jìn)行譯碼的流程圖。在步驟 S310,輸入需要譯碼的一文本片段。在步驟S320,從所述文本片段頭部開始進(jìn)行譯碼,得到 的譯碼結(jié)果作為所述文本片段的第一譯碼結(jié)果。在步驟S330,從所述文本片段的尾部開始 進(jìn)行譯碼,得到的譯碼結(jié)果作為所述文本片段的第二譯碼結(jié)果。在程序員參與修復(fù)受損壞的文檔的情況下,可以將上述第一譯碼結(jié)果和第二譯碼 結(jié)果顯示給程序員。程序員可以根據(jù)實(shí)際的上下文確定如何處理上述第一譯碼結(jié)果和第二 譯碼結(jié)果,以便得到最終的譯碼結(jié)果。在計(jì)算機(jī)自動(dòng)修復(fù)受損壞的文本的情況下,可以繼續(xù)執(zhí)行以下步驟來(lái)確定最終的 譯碼結(jié)果。在步驟S340,從所述第一譯碼結(jié)果中確定文本片段前部成分。在步驟S350,從所 述第二譯碼結(jié)果中確定文本片段后部成分。對(duì)于其中存在亂碼的文本片段,在第一譯碼結(jié) 果中,發(fā)生亂碼字符之后的部分很可能是沒有語(yǔ)義含義或規(guī)律的一串字,發(fā)生亂碼字符之 前的部分將是有語(yǔ)義關(guān)系的多個(gè)字。在第二譯碼結(jié)果中,發(fā)生亂碼字符之前的部分很可能 是沒有語(yǔ)義含義或規(guī)律的一串字,發(fā)生亂碼字符之后的部分將是有語(yǔ)義關(guān)系的多個(gè)字。這 樣就可以根據(jù)語(yǔ)義關(guān)系確定文本片段的前部成分和后部成分。例如,可以采用下文所述的 分詞技術(shù)從所述第一譯碼結(jié)果中確定文本片段的前部成分和后部成分。在步驟S360,將所述文本片段前部成分和所述文本片段后部成分,組合為所述文 本片段的最終的譯碼結(jié)果。其中,可以從第一譯碼結(jié)果中確定存在可能性最大的文本片段 前部成分;以及從第二譯碼結(jié)果中確定存在可能性最大的文本片段后部成分。對(duì)于確定存在可能性最大的文本片段前部成分以及從第二譯碼結(jié)果中確定存在 可能性最大的文本片段后部成分,可以采用已有技術(shù)中的多種文本或句子分析方法。例如, 可以利用分詞技術(shù)對(duì)可能性最大的前半部分和后半部分進(jìn)行判斷。當(dāng)連續(xù)的幾個(gè)字并不能 組成正確的詞時(shí),這幾個(gè)字成為文本片段有效成分的可能性將降低,根據(jù)這種可能性可以 分別確定文本片段的前部成分和后部成分。
比如“中國(guó)航天官員應(yīng)邀到美國(guó)與太空總署官員開會(huì)”這句話,如果“與”的后半 個(gè)字節(jié)丟了。那么,第一種譯碼結(jié)果是中國(guó)航天官員應(yīng)邀到美國(guó)猶□兆蓯鴯僭笨□帷第二種譯碼結(jié)果是(從右向左讀)會(huì)開員官署總空太庸□賴窖口 u憊傯旌焦其中,可以得到分詞,如中國(guó)航天官員、應(yīng)邀、到美國(guó)、太空總署、官員、開會(huì)。所以 把第一譯碼結(jié)果得到的前半部分和第二譯碼結(jié)果的得到的后半部分組合在一起就是改進(jìn) 后的譯碼結(jié)果,其中亂碼用空格標(biāo)識(shí)。中國(guó)航天官員應(yīng)邀到美國(guó)_太空總署官員開會(huì)分詞技術(shù)屬于自然語(yǔ)言處理技術(shù)。對(duì)于一句話,計(jì)算機(jī)通過(guò)語(yǔ)料庫(kù)的知識(shí)來(lái)確定 哪些是詞,哪些不是詞,其處理過(guò)程就是分詞算法。該技術(shù)在語(yǔ)音識(shí)別、智能翻譯、搜索引擎 等領(lǐng)域有廣泛的應(yīng)用。分詞方法的一種叫字符串匹配分詞法,又叫做機(jī)械分詞方法,它是按照一定的策 略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字 符串,則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向 匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最小(最 短)匹配;按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié) 合的一體化方法。常用的幾種機(jī)械分詞方法如1)正向最大匹配法(由左到右的方向);2) 逆向最大匹配法(由右到左的方向);和3)最少切分(使每一句中切出的詞數(shù)最小)。還可以將上述各種分詞方法相互組合,例如,可以將正向最大匹配方法和逆向最 大匹配方法結(jié)合起來(lái)構(gòu)成雙向匹配法。由于漢語(yǔ)單字成詞的特點(diǎn),正向最小匹配和逆向最 小匹配一般很少使用。一般說(shuō)來(lái),逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也 較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的 錯(cuò)誤率為1/245。實(shí)際使用的分詞系統(tǒng),可以把機(jī)械分詞作為一種初分手段,然后通過(guò)利用 各種其它的語(yǔ)言信息來(lái)進(jìn)一步提高切分的準(zhǔn)確率。例如,一種分詞方法是改進(jìn)掃描方式,稱為特征掃描或標(biāo)志切分,優(yōu)先在待分析字 符串中識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小 的串再來(lái)進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率。另一種方法是將分詞和詞類標(biāo)注結(jié)合起來(lái), 利用豐富的詞類信息對(duì)分詞決策提供幫助,并且在標(biāo)注過(guò)程中又反過(guò)來(lái)對(duì)分詞結(jié)果進(jìn)行檢 驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。對(duì)于機(jī)械分詞方法,還可以建立一個(gè)一般的模型, 在這方面有許多已有技術(shù),這里不做詳細(xì)論述。根據(jù)本發(fā)明的另一實(shí)施例,將圖1所示的文本處理方法用于包括雙字節(jié)編碼字符 的文本片段。圖1所述的譯碼方法可以進(jìn)一步包括確定所述雙字節(jié)編碼的文本片段包括 的字節(jié)數(shù)是否為奇數(shù)。對(duì)于采用雙字節(jié)編碼的文本片段,其包括的字節(jié)數(shù)應(yīng)當(dāng)為偶數(shù)個(gè)字 節(jié),如果所述文本片段包括的字節(jié)數(shù)為奇數(shù),說(shuō)明其中可能有字節(jié)丟失的情況。在實(shí)際損壞 的文本中,丟失字節(jié)的情況比較常見,而多出字節(jié)的情況則非常罕見。如果所述文本片段包 括的字節(jié)數(shù)為奇數(shù),可以從所述文本片段的頭部開始向后進(jìn)行譯碼,作為第一譯碼結(jié)果;并 且可以從所述文本片段的尾部開始向前進(jìn)行譯碼,作為第二譯碼結(jié)果。根據(jù)本發(fā)明的另一實(shí)施例,還可以進(jìn)一步根據(jù)文本中包括的單字節(jié)字符,如ASCII編碼字符,進(jìn)行進(jìn)一步的譯碼改進(jìn),如改進(jìn)圖1所示的譯碼方法。首先,確定一文本片段是 否包括單字節(jié)字符,如ASCII編碼字符。如果所述文本片段中包括一 ASCII編碼字符,則利 用所述ASCII編碼字符作為分隔符將所述文本片段進(jìn)一步劃分為兩個(gè)子文本片段,并且對(duì) 所述兩個(gè)子文本片段分別進(jìn)行譯碼。因?yàn)閱巫止?jié)字符不會(huì)出現(xiàn)亂碼問(wèn)題,所以當(dāng)雙字節(jié)和多字節(jié)混合在一起的數(shù)據(jù)出 現(xiàn)丟失字節(jié)的情況時(shí),單字節(jié)字符可以充當(dāng)同步因子。在此,同步是指譯碼程序?qū)τ谝淮?碼,不管從哪個(gè)位置開始譯碼,都可以正確的譯碼。非同步是指譯碼程序?qū)τ谝淮幋a,從 第一個(gè)字節(jié)開始譯碼,不能從中間開始譯碼,否則容易發(fā)生錯(cuò)誤。因?yàn)橐粋€(gè)字符集在制定編碼標(biāo)準(zhǔn)時(shí),將考慮兼容ASCII編碼。ASCII編碼的內(nèi)碼范 圍是0-0x79,所以其他字符集一般避開0-0x79,選擇0x80-0xFF中的值用于編碼。例如,當(dāng) 譯碼程序讀取到IBM的I這個(gè)字符時(shí),根據(jù)ASCII編碼會(huì)識(shí)別出這個(gè)字符,可以正確的譯碼 出這個(gè)字符。所以如果I之前的文本中的亂碼,不會(huì)影響到I之后的文本譯碼。亦即,亂碼 的范圍會(huì)停在I這個(gè)字符,不會(huì)繼續(xù)亂下去,所以ASCII編碼字符充當(dāng)了同步因子的作用。圖4示出了根據(jù)本發(fā)明另一實(shí)施例的用于對(duì)文本進(jìn)行處理的流程圖。其中的方法 適用于確定文本是否受到損壞,以及受損壞程度。因此,該實(shí)施例的方法還可以用于檢測(cè)對(duì) 于一文本進(jìn)行的預(yù)定處理,是否會(huì)損壞該文本。其中,對(duì)于需要處理的文本,在步驟S410,確定文本中的至少部分標(biāo)點(diǎn)符號(hào)。在步 驟S420,利用所述至少部分標(biāo)點(diǎn)符號(hào)作為分隔符,將所述文本劃分為多個(gè)文本片段。在步 驟S430,分別從每個(gè)文本片段的頭部開始對(duì)所述多個(gè)文本片段進(jìn)行譯碼,以便得到所述文 本的第一譯碼結(jié)果。在步驟S440,分別從每個(gè)文本片段的尾部開始對(duì)所述多個(gè)文本片段進(jìn) 行譯碼,以便得到所述文本的第二譯碼結(jié)果。在步驟S450,將所述文本的第一譯碼結(jié)果,與 所述文本的第二譯碼結(jié)果進(jìn)行比較,以便確定譯碼差別。如果第一譯碼結(jié)果和第二譯碼結(jié) 果相同,即譯碼差別為0,可以確定沒有發(fā)生亂碼,可以認(rèn)為文本未受到損壞。如果存在譯碼 差別,則在所述文本的第一譯碼結(jié)果和第二譯碼結(jié)果中,發(fā)生亂碼的字符產(chǎn)生的亂碼范圍 不同,而未發(fā)生亂碼的部分相同。因此,上述譯碼差別反應(yīng)了文本的受損壞程度。譯碼差別 越大,文本的受損壞程度越大。這樣,根據(jù)譯碼差別可以確定文本受損壞的程度。數(shù)據(jù)庫(kù)系 統(tǒng)管理員可以確定文本是否受到損壞,并根據(jù)受損壞程度對(duì)文本進(jìn)行相應(yīng)的標(biāo)識(shí)、進(jìn)一步 處理或管理。對(duì)文本進(jìn)行預(yù)定處理之后,如果譯碼差別為0,則可以確定上述預(yù)定處理對(duì)于文本 是安全的。如果譯碼差別越大,上述預(yù)定處理對(duì)于文本越不安全。例如,如果一預(yù)定處理 方法存在缺陷(bug),處理系統(tǒng)或者處理程序中存在的破壞正常運(yùn)轉(zhuǎn)能力的問(wèn)題或者缺陷 (如處理程序中的缺陷或者處理程序在一種執(zhí)行環(huán)境中可能存在缺陷),則可以針對(duì)經(jīng)過(guò) 預(yù)定處理的文本,用上述方法確定譯碼差別。使用上述確定譯碼差別的方法,針對(duì)的是文本 的最終使用狀態(tài)是否有問(wèn)題以及問(wèn)題大小。對(duì)于需要處理的文本較多的情況,使用上述確 定譯碼差別的方法,來(lái)檢測(cè)文本是否受損,或者檢測(cè)對(duì)于文本進(jìn)行的一預(yù)定處理方法是否 會(huì)損壞文本,可以發(fā)現(xiàn)其它方法或人工檢測(cè)無(wú)法發(fā)現(xiàn)的一些問(wèn)題,技術(shù)效果更加明顯。圖5示出了根據(jù)本發(fā)明另一實(shí)施例的用于確定文本受損壞程度的流程圖。其中, 在步驟S505,輸入需要處理的文本。在步驟S510,確定文本中的第一部分標(biāo)點(diǎn)符號(hào)。在步 驟S520,利用所述第一部分標(biāo)點(diǎn)符號(hào)作為分隔符,將所述文本劃分為第一多個(gè)文本片段。在步驟S530,對(duì)所述第一多個(gè)文本片段分別進(jìn)行譯碼,以便獲得所述文本的第一譯碼結(jié)果。在 步驟S540,確定文本中的第二部分標(biāo)點(diǎn)符號(hào)。所述第二部分標(biāo)點(diǎn)符號(hào)可以與所述第一部分 標(biāo)點(diǎn)符號(hào)不同或部分相同。在步驟S550,利用所述第二部分標(biāo)點(diǎn)符號(hào)作為分隔符,將所述文 本劃分為第二多個(gè)文本片段。在步驟S560,對(duì)所述第二多個(gè)文本片段分別進(jìn)行譯碼,以便獲 得所述文本的第二譯碼結(jié)果。在步驟S570,將所述文本的第一譯碼結(jié)果,與所述文本的第二 譯碼結(jié)果進(jìn)行比較,以便確定譯碼差別。本領(lǐng)域的技術(shù)人員可以理解,上述實(shí)施例的方法可以用于損壞文檔的恢復(fù)。也可 以作為一種檢驗(yàn)方法,用于驗(yàn)證對(duì)文本處理的方法,如系統(tǒng)之間的復(fù)制方法對(duì)數(shù)據(jù)庫(kù)文本 內(nèi)容、文檔內(nèi)容是否安全,是否會(huì)對(duì)文本造成字節(jié)丟失。不同文檔格式或數(shù)據(jù)格式進(jìn)行格式 轉(zhuǎn)換,尤其是在不同編碼的系統(tǒng)或應(yīng)用之間進(jìn)行格式轉(zhuǎn)換,對(duì)其中的文本是否安全。例如, 將一種業(yè)務(wù)的文本或內(nèi)容從一系統(tǒng)中轉(zhuǎn)移到另一系統(tǒng);從一應(yīng)用(一種多字節(jié)編碼)中復(fù) 制到另一應(yīng)用(另一種兩字節(jié)或多字節(jié)編碼)之中。本領(lǐng)域的技術(shù)人員可以理解,上述使用標(biāo)點(diǎn)符號(hào)作為分隔符的處理方法,也適用 于使用其它字符(如使用頻率比較高的常用文字)作為分隔符對(duì)文本進(jìn)行處理。對(duì)于使用 日文的情況,文本中的字符還可以是字母、平假名、片假名和漢字中的一種或多種。圖6示出了根據(jù)本發(fā)明另一實(shí)施例的對(duì)文本進(jìn)行處理的系統(tǒng)方框圖。其中,對(duì)文 本進(jìn)行處理的系統(tǒng)600包括字符確定模塊610,用于確定一文本中的至少部分字符;文本 片段劃分模塊620,用于利用所述至少部分字符作為分隔符,將所述文本劃分為多個(gè)文本片 段;以及譯碼模塊630,用于對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼。其中,所述文本可以至少包括雙字節(jié)編碼字符和多字節(jié)編碼字符其中之一。其中, 所述至少部分字符可以為至少部分標(biāo)點(diǎn)符號(hào),字符確定模塊620可以進(jìn)一步配置為,根據(jù) 標(biāo)點(diǎn)符號(hào)的編碼確定所述文本中的至少部分標(biāo)點(diǎn)符號(hào)。其中,所述譯碼模塊630可以進(jìn)一步配置為根據(jù)第一譯碼方法對(duì)所述多個(gè)文本 片段分別進(jìn)行譯碼,以便得到所述文本的第一譯碼結(jié)果;以及根據(jù)第二譯碼方法對(duì)所述多 個(gè)文本片段分別進(jìn)行譯碼,以便得到所述文本的第二譯碼結(jié)果。所述系統(tǒng)600可以進(jìn)一步 包括譯碼差別比較模塊,用于將所述文本的第一譯碼結(jié)果,與所述文本的第二譯碼結(jié)果進(jìn) 行比較,以便確定譯碼差別。其中,所述譯碼模塊630可以分別從每個(gè)文本片段的頭部開始對(duì)所述多個(gè)文本片 段進(jìn)行譯碼,以便得到所述文本的第一譯碼結(jié)果;所述譯碼模塊630可以分別從每個(gè)文本 片段的尾部開始對(duì)所述多個(gè)文本片段進(jìn)行譯碼,以便得到所述文本的第二譯碼結(jié)果。其中,所述譯碼模塊630對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼,以便得到所述文本 的第一譯碼結(jié)果。所述系統(tǒng)600可以進(jìn)一步配置為所述字符確定模塊610,進(jìn)一步用于確 定所述文本中的另一部分字符;所述文本片段劃分模塊620,進(jìn)一步利用所述另一部分字 符作為分隔符,將所述文本劃分為第二多個(gè)文本片段;所述譯碼模塊630,進(jìn)一步對(duì)所述第 二多個(gè)文本片段分別進(jìn)行譯碼,以便得到所述文本的第二譯碼結(jié)果。所述系統(tǒng)600可以進(jìn) 一步包括譯碼差別比較模塊,用于將所述文本的第一譯碼結(jié)果,與所述文本的第二譯碼結(jié) 果進(jìn)行比較,以便確定譯碼差別。其中所述譯碼模塊630可以進(jìn)一步配置為從一文本片段的頭部開始向后進(jìn)行譯 碼,作為所述文本片段的第一譯碼結(jié)果,并且從所述文本片段的尾部開始向前進(jìn)行譯碼,作為所述文本片段的第二譯碼結(jié)果。其中,所述文本可以包括具有雙字節(jié)編碼的文本片段,所述系統(tǒng)600進(jìn)一步包括 字節(jié)數(shù)確定模塊,用于確定所述雙字節(jié)編碼的文本片段包括的字節(jié)數(shù)是否為奇數(shù)。如果所 述文本片段包括的字節(jié)數(shù)是奇數(shù),所述譯碼模塊630可以從所述文本片段的頭部開始向后 進(jìn)行譯碼,作為所述文本片段的第一譯碼結(jié)果,并且所述譯碼模塊630可以從所述文本片 段的尾部開始向前進(jìn)行譯碼,作為所述文本片段的第二譯碼結(jié)果。其中,系統(tǒng)600還可以進(jìn)一步包括文本片段的前部成分確定模塊,用于從所述第 一譯碼結(jié)果中確定所述文本片段的前部成分;文本片段的后部成分確定模塊,用于從所述 第二譯碼結(jié)果中確定所述文本片段的后部成分;以及成分組合模塊,用于將所述前部成分 和所述后部成分組合為所述文本片段的最終譯碼結(jié)果。其中,系統(tǒng)600還可以進(jìn)一步包括字符確定模塊,用于確定一文本片段是否包括 ASCII編碼字符。如果所述文本片段中包括一 ASCII編碼字符,則文本片段劃分模塊620可 以利用所述ASCII編碼字符作為分隔符將所述文本片段進(jìn)一步劃分為兩個(gè)子文本片段,并 且所述譯碼模塊630可以對(duì)所述兩個(gè)子文本片段分別進(jìn)行譯碼。其中,上述至少部分標(biāo)點(diǎn)符號(hào)可以包括“,”“?!薄?;” “ ”“! ”“? ”或“、”;所
述文本可以至少包括中文文本、日文文本和韓國(guó)語(yǔ)文本中的一種。本發(fā)明還提供了一種存儲(chǔ)介質(zhì)或信號(hào)載體,其中包括用于執(zhí)行根據(jù)本發(fā)明的方法 的指令。附圖中的流程圖和框圖,圖示了按照本發(fā)明實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn) 品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一 個(gè)模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個(gè)或多個(gè)用于 實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注 的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)接連地表示的方框?qū)嶋H上可 以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意 的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí) 行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來(lái)實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令 的組合來(lái)實(shí)現(xiàn)。所屬技術(shù)領(lǐng)域的技術(shù)人員知道,本發(fā)明可以體現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。 因此,本發(fā)明可以具體實(shí)現(xiàn)為以下形式,即,可以是完全的硬件、完全的軟件(包括固件、駐 留軟件、微代碼等)、或者本文一般稱為“電路”、“模塊”或“系統(tǒng)”的軟件部分與硬件部分的 組合。此外,本發(fā)明還可以采取體現(xiàn)在任何有形的表達(dá)介質(zhì)(medium of expression)中的 計(jì)算機(jī)程序產(chǎn)品的形式,該介質(zhì)中包含計(jì)算機(jī)可用的程序碼??梢允褂靡粋€(gè)或多個(gè)計(jì)算機(jī)可用的或計(jì)算機(jī)可讀的介質(zhì)的任何組合。計(jì)算機(jī)可 用的或計(jì)算機(jī)可讀的介質(zhì)例如可以是——但不限于——電的、磁的、光的、電磁的、紅外線 的、或半導(dǎo)體的系統(tǒng)、裝置、器件或傳播介質(zhì)。計(jì)算機(jī)可讀介質(zhì)的更具體的例子(非窮舉的 列表)包括以下有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器 (RAM)、只讀存儲(chǔ)器(ROM)、可擦式可編程只讀存儲(chǔ)器(EPR0M或閃存)、光纖、便攜式緊湊磁 盤只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)器件、諸如支持因特網(wǎng)或內(nèi)部網(wǎng)的傳輸介質(zhì)、或者磁存儲(chǔ)器 件。注意計(jì)算機(jī)可用的或計(jì)算機(jī)可讀的介質(zhì)甚至可以是上面印有程序的紙張或者其它合適
13的介質(zhì),這是因?yàn)椋缈梢酝ㄟ^(guò)電掃描這種紙張或其它介質(zhì),以電子方式獲得程序,然后 以適當(dāng)?shù)姆绞郊右跃幾g、解釋或處理,并且必要的話在計(jì)算機(jī)存儲(chǔ)器中存儲(chǔ)。在本文件的語(yǔ) 境中,計(jì)算機(jī)可用的或計(jì)算機(jī)可讀的介質(zhì)可以是任何含有、存儲(chǔ)、傳達(dá)、傳播、或傳輸供指令 執(zhí)行系統(tǒng)、裝置或器件使用的或與指令執(zhí)行系統(tǒng)、裝置或器件相聯(lián)系的程序的介質(zhì)。計(jì)算機(jī) 可用的介質(zhì)可包括在基帶中或者作為載波一部分傳播的、由其體現(xiàn)計(jì)算機(jī)可用的程序碼的 數(shù)據(jù)信號(hào)。計(jì)算機(jī)可用的程序碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于——無(wú)線、 電線、光纜、RF等等。用于執(zhí)行本發(fā)明的操作的計(jì)算機(jī)程序碼,可以以一種或多種程序設(shè)計(jì)語(yǔ)言的任何 組合來(lái)編寫,所述程序設(shè)計(jì)語(yǔ)言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言——諸如Java、Smalltalk, C++之類,還包括常規(guī)的過(guò)程式程序設(shè)計(jì)語(yǔ)言——諸如” C”程序設(shè)計(jì)語(yǔ)言或類似的程序設(shè)計(jì) 語(yǔ)言。程序碼可以完全地在用戶的計(jì)算上執(zhí)行、部分地在用戶的計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú) 立的軟件包執(zhí)行、部分在用戶的計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算 機(jī)或服務(wù)器上執(zhí)行。在后一種情形中,遠(yuǎn)程計(jì)算機(jī)可以通過(guò)任何種類的網(wǎng)絡(luò)——包括局域 網(wǎng)(LAN)或廣域網(wǎng)(WAN)——連接到用戶的計(jì)算機(jī),或者,可以(例如利用因特網(wǎng)服務(wù)提供 商來(lái)通過(guò)因特網(wǎng))連接到外部計(jì)算機(jī)。以上結(jié)合優(yōu)選法方案對(duì)本發(fā)明進(jìn)行了詳細(xì)的描述,但是可以理解,以上實(shí)施例僅 用于說(shuō)明而非限定本發(fā)明。本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明的所示方案進(jìn)行修改而不脫離 本發(fā)明的范圍和精神。
權(quán)利要求
一種對(duì)文本進(jìn)行處理的方法,包括確定一文本中的至少部分字符;利用所述至少部分字符作為分隔符,將所述文本劃分為多個(gè)文本片段;以及對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述文本至少包括雙字節(jié)編碼字符和多字節(jié)編 碼字符其中之一;所述至少部分字符為至少部分標(biāo)點(diǎn)符號(hào),所述確定一文本中的至少部分 字符進(jìn)一步配置為,根據(jù)標(biāo)點(diǎn)符號(hào)的編碼確定所述文本中的至少部分標(biāo)點(diǎn)符號(hào)。
3.根據(jù)權(quán)利要求1或2所述的方法,其中對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼包括根據(jù)第一譯碼方法對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼,以便得到所述文本的第一譯碼 結(jié)果;以及根據(jù)第二譯碼方法對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼,以便得到所述文本的第二譯碼 結(jié)果;所述方法進(jìn)一步包括將所述文本的第一譯碼結(jié)果,與所述文本的第二譯碼結(jié)果進(jìn)行比較,以便確定譯碼差別。
4.根據(jù)權(quán)利要求3所述的方法,其中,分別從每個(gè)文本片段的頭部開始對(duì)所述多個(gè)文本片段進(jìn)行譯碼,以便得到所述文本的第一譯碼結(jié)果;分別從每個(gè)文本片段的尾部開始對(duì)所述多個(gè)文本片段進(jìn)行譯碼,以便得到所述文本的第二譯碼結(jié)果。
5.根據(jù)權(quán)利要求1或2所述的方法,其中,對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼,以便得 到所述文本的第一譯碼結(jié)果;所述方法進(jìn)一步包括 確定所述文本中的另一部分字符;利用所述另一部分字符作為分隔符,將所述文本劃分為第二多個(gè)文本片段; 對(duì)所述第二多個(gè)文本片段分別進(jìn)行譯碼,以便得到所述文本的第二譯碼結(jié)果;以及 將所述文本的第一譯碼結(jié)果,與所述文本的第二譯碼結(jié)果進(jìn)行比較,以便確定譯碼差別。
6.根據(jù)權(quán)利要求2所述的方法,其中對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼進(jìn)一步包括 從一文本片段的頭部開始向后進(jìn)行譯碼,作為所述文本片段的第一譯碼結(jié)果,并且從所述文本片段的尾部開始向前進(jìn)行譯碼,作為所述文本片段的第二譯碼結(jié)果。
7.根據(jù)權(quán)利要求2所述的方法,其中所述文本包括具有雙字節(jié)編碼的文本片段,所述 方法進(jìn)一步包括確定所述雙字節(jié)編碼的文本片段包括的字節(jié)數(shù)是否為奇數(shù);如果所述文本片段包括的字節(jié)數(shù)是奇數(shù),從所述文本片段的頭部開始向后進(jìn)行譯碼, 作為所述文本片段的第一譯碼結(jié)果,并且從所述文本片段的尾部開始向前進(jìn)行譯碼,作為 所述文本片段的第二譯碼結(jié)果。
8.根據(jù)權(quán)利要求6或7所述的方法,其中進(jìn)一步包括 從所述第一譯碼結(jié)果中確定所述文本片段的前部成分;從所述第二譯碼結(jié)果中確定所述文本片段的后部成分;以及 將所述前部成分和所述后部成分組合為所述文本片段的最終譯碼結(jié)果。
9.根據(jù)權(quán)利要求8所述的方法,其中進(jìn)一步包括 確定一文本片段是否包括ASCII編碼字符;如果所述文本片段中包括一 ASCII編碼字符,則利用所述ASCII編碼字符作為分隔 符將所述文本片段進(jìn)一步劃分為兩個(gè)子文本片段,并且對(duì)所述兩個(gè)子文本片段分別進(jìn)行譯碼。
10.根據(jù)權(quán)利要求2、6和7中任一項(xiàng)所述的方法,其中至少部分標(biāo)點(diǎn)符號(hào)包括 “,” “?!?“ ;” “ ” “ ;” “? ”或“、”;所述文本至少包括中文文本、日文文本和韓國(guó)語(yǔ)文本 中的一種。
11.一種對(duì)文本進(jìn)行處理的系統(tǒng),包括字符確定模塊,用于確定一文本中的至少部分字符;文本片段劃分模塊,用于利用所述至少部分字符作為分隔符,將所述文本劃分為多個(gè) 文本片段;以及譯碼模塊,用于對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述文本至少包括雙字節(jié)編碼字符和多字節(jié) 編碼字符其中之一;所述至少部分字符為至少部分標(biāo)點(diǎn)符號(hào),所述字符確定模塊進(jìn)一步配 置為,根據(jù)標(biāo)點(diǎn)符號(hào)的編碼確定所述文本中的至少部分標(biāo)點(diǎn)符號(hào)。
13.根據(jù)權(quán)利要求11或12所述的系統(tǒng),其中所述譯碼模塊進(jìn)一步配置為根據(jù)第一譯碼方法對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼,以便得到所述文本的第一譯碼 結(jié)果;以及根據(jù)第二譯碼方法對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼,以便得到所述文本的第二譯碼 結(jié)果;所述系統(tǒng)進(jìn)一步包括譯碼差別比較模塊,用于將所述文本的第一譯碼結(jié)果,與所述文本的第二譯碼結(jié)果進(jìn) 行比較,以便確定譯碼差別。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述譯碼模塊,分別從每個(gè)文本片段的頭部開始對(duì)所述多個(gè)文本片段進(jìn)行譯碼,以便 得到所述文本的第一譯碼結(jié)果;所述譯碼模塊,分別從每個(gè)文本片段的尾部開始對(duì)所述多個(gè)文本片段進(jìn)行譯碼,以便 得到所述文本的第二譯碼結(jié)果。
15.根據(jù)權(quán)利要求11或12所述的系統(tǒng),其中,所述譯碼模塊對(duì)所述多個(gè)文本片段分別 進(jìn)行譯碼,以便得到所述文本的第一譯碼結(jié)果;所述系統(tǒng)進(jìn)一步配置為所述字符確定模塊,進(jìn)一步用于確定所述文本中的另一部分字符; 所述文本片段劃分模塊,進(jìn)一步利用所述另一部分字符作為分隔符,將所述文本劃分 為第二多個(gè)文本片段;所述譯碼模塊,進(jìn)一步對(duì)所述第二多個(gè)文本片段分別進(jìn)行譯碼,以便得到所述文本的 第二譯碼結(jié)果;以及所述系統(tǒng)進(jìn)一步包括譯碼差別比較模塊,用于將所述文本的第一譯碼結(jié)果,與所述文 本的第二譯碼結(jié)果進(jìn)行比較,以便確定譯碼差別。
16.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述譯碼模塊進(jìn)一步配置為從一文本片段的頭部開始向后進(jìn)行譯碼,作為所述文本片段的第一譯碼結(jié)果,并且從 所述文本片段的尾部開始向前進(jìn)行譯碼,作為所述文本片段的第二譯碼結(jié)果。
17.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述文本包括具有雙字節(jié)編碼的文本片段,所 述系統(tǒng)進(jìn)一步包括字節(jié)數(shù)確定模塊,用于確定所述雙字節(jié)編碼的文本片段包括的字節(jié)數(shù)是否為奇數(shù); 如果所述文本片段包括的字節(jié)數(shù)是奇數(shù),所述譯碼模塊從所述文本片段的頭部開始向 后進(jìn)行譯碼,作為所述文本片段的第一譯碼結(jié)果,并且所述譯碼模塊從所述文本片段的尾 部開始向前進(jìn)行譯碼,作為所述文本片段的第二譯碼結(jié)果。
18.根據(jù)權(quán)利要求16或17所述的系統(tǒng),其中進(jìn)一步包括文本片段的前部成分確定模塊,用于從所述第一譯碼結(jié)果中確定所述文本片段的前部 成分;文本片段的后部成分確定模塊,用于從所述第二譯碼結(jié)果中確定所述文本片段的后部 成分;以及成分組合模塊,用于將所述前部成分和所述后部成分組合為所述文本片段的最終譯碼結(jié)果。
19.根據(jù)權(quán)利要求18所述的系統(tǒng),其中,字符確定模塊進(jìn)一步配置為,用于確定一文本片段是否包括ASCII編碼字符; 如果所述文本片段中包括一 ASCII編碼字符,則文本片段劃分模塊利用所述ASCII編 碼字符作為分隔符將所述文本片段進(jìn)一步劃分為兩個(gè)子文本片段,并且所述譯碼模塊對(duì)所 述兩個(gè)子文本片段分別進(jìn)行譯碼。
20.根據(jù)權(quán)利要求12、16和17中任一項(xiàng)所述的系統(tǒng),其中至少部分標(biāo)點(diǎn)符號(hào)包括 “,” “。” “ ;” “ ” “ ;” “? ”或“、”;所述文本至少包括中文文本、日文文本和韓國(guó)語(yǔ)文本 中的一種。
全文摘要
本發(fā)明提供了一種對(duì)文本進(jìn)行處理的方法和系統(tǒng)。所述方法包括確定一文本中的至少部分字符;利用所述至少部分字符作為分隔符,將所述文本劃分為多個(gè)文本片段;以及對(duì)所述多個(gè)文本片段分別進(jìn)行譯碼。
文檔編號(hào)G06F17/22GK101876965SQ20091013695
公開日2010年11月3日 申請(qǐng)日期2009年4月30日 優(yōu)先權(quán)日2009年4月30日
發(fā)明者左志波, 龐麗群, 李彬, 沙志強(qiáng) 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
环江| 辉县市| 原阳县| 武冈市| 潼关县| 根河市| 乐陵市| 宁南县| 武宁县| 秦安县| 佛冈县| 南丰县| 富蕴县| 什邡市| 阿城市| 广水市| 桑日县| 衡东县| 金堂县| 栾川县| 隆昌县| 郓城县| 泗洪县| 新乡市| 商水县| 虞城县| 兴海县| 江川县| 新宾| 辽中县| 元氏县| 昭苏县| 中宁县| 中山市| 大连市| 涪陵区| 商丘市| 韩城市| 林西县| 义乌市| 通海县|