一種文檔內(nèi)容結(jié)構(gòu)化的方法及裝置制造方法
【專(zhuān)利摘要】本申請(qǐng)?zhí)峁┝艘环N文檔內(nèi)容結(jié)構(gòu)化的方法及裝置,所述方法包括:基于第一文檔中樣式為預(yù)設(shè)樣式的第一schema文件以及一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一XML文件,生成與所述第一文檔對(duì)應(yīng)的第一實(shí)例化規(guī)則;基于所述第一文檔中的已結(jié)構(gòu)化的第一內(nèi)容的第一標(biāo)簽結(jié)構(gòu)樹(shù),獲得與所述第一內(nèi)容對(duì)應(yīng)的第一標(biāo)簽列表;從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本,其中,所述不連續(xù)內(nèi)容為不包含在所述已結(jié)構(gòu)化的第一內(nèi)容中的未結(jié)構(gòu)化內(nèi)容;判斷獲得所述M個(gè)文本對(duì)應(yīng)的M個(gè)標(biāo)簽中可以與所述已結(jié)構(gòu)化的第一內(nèi)容匹配的N個(gè)標(biāo)簽;基于所述N個(gè)標(biāo)簽,將所述N個(gè)標(biāo)簽對(duì)應(yīng)的N個(gè)文本結(jié)構(gòu)化,獲得第二標(biāo)簽結(jié)構(gòu)樹(shù)。
【專(zhuān)利說(shuō)明】一種文檔內(nèi)容結(jié)構(gòu)化的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及印刷領(lǐng)域,尤其涉及一種文檔內(nèi)容結(jié)構(gòu)化的方法及裝置。
【背景技術(shù)】
[0002]出版社收到大量來(lái)稿,需要將大量的來(lái)稿制作成圖書(shū)或者期刊等印制品時(shí),需要投入大量的精力來(lái)整理來(lái)稿內(nèi)容結(jié)構(gòu),對(duì)于文檔中不連續(xù)的內(nèi)容,例如,試題和答案的分離時(shí),試卷中的答案部分為相對(duì)于該試卷的不連續(xù)內(nèi)容,概況內(nèi)容與具體內(nèi)容的分離時(shí),具體內(nèi)容為相對(duì)于整個(gè)內(nèi)容文檔托不連續(xù)內(nèi)容,在對(duì)這些文檔內(nèi)容整理時(shí),需要將這些分離的答案對(duì)應(yīng)試題的結(jié)構(gòu)化,以及具體信息對(duì)應(yīng)于具體信息的結(jié)構(gòu)化,其中,這些需要結(jié)構(gòu)化的部分有很相似之處,也具有一定的規(guī)律性。
[0003]現(xiàn)有技術(shù)中針對(duì)文檔中的不連續(xù)內(nèi)容的結(jié)構(gòu)化,只能采用人工結(jié)構(gòu)化的方式。
[0004]但本申請(qǐng)發(fā)明人在實(shí)現(xiàn)本申請(qǐng)實(shí)施例中發(fā)明技術(shù)方案的過(guò)程中,發(fā)現(xiàn)上述技術(shù)至少存在如下技術(shù)問(wèn)題:
[0005]由于文檔中的不連續(xù)內(nèi)容有很多相似之處,而人工結(jié)構(gòu)化需要對(duì)不連續(xù)內(nèi)容結(jié)構(gòu)化時(shí)會(huì)進(jìn)行很多重復(fù)性的勞動(dòng),存在結(jié)構(gòu)化效率低,錯(cuò)誤率高,以及結(jié)構(gòu)化率低的技術(shù)問(wèn)題。
【發(fā)明內(nèi)容】
[0006]本申請(qǐng)實(shí)施例通過(guò)提供一種文檔內(nèi)容結(jié)構(gòu)化的方法及裝置,用于解決現(xiàn)有技術(shù)中存在結(jié)構(gòu)化效率低,錯(cuò)誤率高的技術(shù)問(wèn)題。
[0007]一方面,本申請(qǐng)實(shí)施例提供了一種文檔內(nèi)容結(jié)構(gòu)化的方法,所述方法包括:基于第一文檔中樣式為預(yù)設(shè)樣式的第一 schema文件以及一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,生成與所述第一文檔對(duì)應(yīng)的第一實(shí)例化規(guī)則;
[0008]基于所述第一文檔中的已結(jié)構(gòu)化的第一內(nèi)容的第一標(biāo)簽結(jié)構(gòu)樹(shù),獲得與所述第一內(nèi)容對(duì)應(yīng)的第一標(biāo)簽列表;
[0009]從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本,其中,所述不連續(xù)內(nèi)容為不包含在所述已結(jié)構(gòu)化的第一內(nèi)容中的未結(jié)構(gòu)化內(nèi)容,M為大于等于I的正整數(shù);
[0010]判斷獲得所述M個(gè)文本對(duì)應(yīng)的M個(gè)標(biāo)簽中可以與所述已結(jié)構(gòu)化的第一內(nèi)容匹配的N個(gè)標(biāo)簽;
[0011]基于所述N個(gè)標(biāo)簽,將所述N個(gè)標(biāo)簽對(duì)應(yīng)的N個(gè)文本結(jié)構(gòu)化,獲得第二標(biāo)簽結(jié)構(gòu)樹(shù)。
[0012]優(yōu)選地,所述基于第一文檔中樣式為預(yù)設(shè)樣式的第一 schema文件以及一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,生成與所述第一文檔對(duì)應(yīng)的第一實(shí)例化規(guī)則,具體包括:
[0013]獲取所述樣式為預(yù)設(shè)樣式的第一 schema文件以及所述一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件;[0014]基于所述樣式為預(yù)設(shè)樣式的第一 schema文件以及所述一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一結(jié)構(gòu)化規(guī)則匹配的所述M個(gè)文本,以及從所述第一內(nèi)容中獲得與所述M個(gè)文本對(duì)應(yīng)的多個(gè)匹配節(jié)點(diǎn),其中,所述匹配節(jié)點(diǎn)的個(gè)數(shù)大于M個(gè);
[0015]從所述第一內(nèi)容中獲得與所述M個(gè)文本對(duì)應(yīng)的至少一個(gè)不匹配節(jié)點(diǎn),以生成第二結(jié)構(gòu)化規(guī)則;
[0016]基于所述多個(gè)匹配節(jié)點(diǎn)及所述第二結(jié)構(gòu)化規(guī)則,組成所述第一實(shí)例化規(guī)則。
[0017]優(yōu)選地,所述第一結(jié)構(gòu)化規(guī)則,具體為:格式匹配方式規(guī)則;和/或
[0018]樣式匹配方式規(guī)則;和/或
[0019]大綱級(jí)別匹配方式規(guī)則;和/或
[0020]自定義通配符匹配方式規(guī)則。
[0021]優(yōu)選地,所述從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本,具體包括:
[0022]遍歷所述第一標(biāo)簽列表;
[0023]基于第一標(biāo)簽列表,在所述不連續(xù)內(nèi)容中定位到與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本。
[0024]優(yōu)選地,所述基于第一標(biāo)簽列表,在所述不連續(xù)內(nèi)容中定位到與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本之后,所述方法還包括:
[0025]將與所述第一實(shí)例化規(guī)則匹配的所述M個(gè)文本存入堆棧中;
[0026]將所述第一實(shí)例化規(guī)則匹配的所述M個(gè)文本的樣式設(shè)置為所述第一內(nèi)容中的節(jié)點(diǎn)的樣式。
[0027]優(yōu)選地,所述基于所述N個(gè)標(biāo)簽,將所述N個(gè)標(biāo)簽對(duì)應(yīng)的N個(gè)文本結(jié)構(gòu)化,具體包括:
[0028]獲得所述N個(gè)文本中滿(mǎn)足一預(yù)設(shè)規(guī)律的K個(gè)文本,基于與所述K個(gè)文本對(duì)應(yīng)的K個(gè)標(biāo)簽,將所述K個(gè)文本自動(dòng)結(jié)構(gòu)化;
[0029]在檢測(cè)到用戶(hù)的輔助操作時(shí),響應(yīng)所述輔助操作,選擇不滿(mǎn)足所述預(yù)設(shè)規(guī)律的(N-K)個(gè)文本對(duì)應(yīng)的第一標(biāo)簽列表中的(N-K)個(gè)父標(biāo)簽,以對(duì)所述(N-K)個(gè)文本輔助結(jié)構(gòu)化。
[0030]優(yōu)選地,所述獲得所述N個(gè)文本中滿(mǎn)足一預(yù)設(shè)規(guī)律的K個(gè)文本,基于與所述K個(gè)文本對(duì)應(yīng)的K個(gè)標(biāo)簽,將所述K個(gè)文本自動(dòng)結(jié)構(gòu)化,具體包括:
[0031]將所述K個(gè)標(biāo)簽及與所述K個(gè)標(biāo)簽對(duì)應(yīng)匹配成功的K個(gè)所述節(jié)點(diǎn)添加到所述第一標(biāo)簽列表;
[0032]在所述第一標(biāo)簽列表中生成與所述K個(gè)文本對(duì)應(yīng)的K個(gè)子標(biāo)簽,以將所述K個(gè)標(biāo)簽對(duì)應(yīng)的K個(gè)文本自動(dòng)結(jié)構(gòu)化。
[0033]優(yōu)選地,在所述基于所述N個(gè)標(biāo)簽,將所述N個(gè)標(biāo)簽對(duì)應(yīng)的N個(gè)文本結(jié)構(gòu)化,獲得第二標(biāo)簽結(jié)構(gòu)樹(shù)之后,所述方法還包括:
[0034]驗(yàn)證所述第二標(biāo)簽結(jié)構(gòu)樹(shù)是否正確,獲得一驗(yàn)證結(jié)果;
[0035]當(dāng)所述驗(yàn)證結(jié)果表明所述第二標(biāo)簽結(jié)構(gòu)樹(shù)正確時(shí),顯示所述第二標(biāo)簽結(jié)構(gòu)樹(shù)。
[0036]另一方面,本申請(qǐng)實(shí)施例提供了一種裝置,所述裝置包括:[0037]生成模塊,用于基于第一文檔中樣式為預(yù)設(shè)樣式的第一 schema文件以及一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,生成與所述第一文檔對(duì)應(yīng)的第一實(shí)例化規(guī)則;
[0038]第一獲得模塊,用于基于所述第一文檔中的已結(jié)構(gòu)化的第一內(nèi)容的第一標(biāo)簽結(jié)構(gòu)樹(shù),獲得與所述第一內(nèi)容對(duì)應(yīng)的第一標(biāo)簽列表;
[0039]第二獲得模塊,用于從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本,其中,所述不連續(xù)內(nèi)容為不包含在所述已結(jié)構(gòu)化的第一內(nèi)容中的未結(jié)構(gòu)化內(nèi)容,M為大于等于I的正整數(shù);
[0040]第三獲得模塊,用于判斷獲得所述M個(gè)文本對(duì)應(yīng)的M個(gè)標(biāo)簽中可以與所述已結(jié)構(gòu)化的第一內(nèi)容匹配的N個(gè)標(biāo)簽;
[0041]結(jié)構(gòu)化模塊,用于基于所述N個(gè)標(biāo)簽,將所述N個(gè)標(biāo)簽對(duì)應(yīng)的N個(gè)文本結(jié)構(gòu)化,獲得第二標(biāo)簽結(jié)構(gòu)樹(shù)。
[0042]優(yōu)選地,所述生成模塊,具體包括:
[0043]獲取子模塊,用于獲取所述樣式為預(yù)設(shè)樣式的第一 schema文件以及所述一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件;
[0044]第一獲得子模塊,用于基于所述樣式為預(yù)設(shè)樣式的第一 schema文件以及所述一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一結(jié)構(gòu)化規(guī)則匹配的所述M個(gè)文本,以及從所述第一內(nèi)容中獲得與所述M個(gè)文本對(duì)應(yīng)的多個(gè)匹配節(jié)點(diǎn),其中,所述匹配節(jié)點(diǎn)的個(gè)數(shù)大于M個(gè);
[0045]第二獲得子模塊,用于從所述第一內(nèi)容中獲得與所述M個(gè)文本對(duì)應(yīng)的至少一個(gè)不匹配節(jié)點(diǎn),以生成第二結(jié)構(gòu)化規(guī)則;
[0046]組成子模塊,用于基于所述多個(gè)匹配節(jié)點(diǎn)及所述第二結(jié)構(gòu)化規(guī)則,組成所述第一實(shí)例化規(guī)則。
[0047]優(yōu)選地,所述第二獲得模塊,具體包括:
[0048]遍歷子模塊,用于遍歷所述第一標(biāo)簽列表;
[0049]定位子模塊,用于基于第一標(biāo)簽列表,在所述不連續(xù)內(nèi)容中定位到與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本。
[0050]優(yōu)選地,所述第二獲得模塊,還包括:
[0051]存入子模塊,用于將與所述第一實(shí)例化規(guī)則匹配的所述M個(gè)文本存入堆棧中;
[0052]設(shè)置子模塊,用于將所述第一實(shí)例化規(guī)則匹配的所述M個(gè)文本的樣式設(shè)置為所述第一內(nèi)容中的節(jié)點(diǎn)的樣式。
[0053]優(yōu)選地,所述結(jié)構(gòu)化模塊,具體包括:
[0054]自動(dòng)結(jié)構(gòu)化子模塊,用于獲得所述N個(gè)文本中滿(mǎn)足一預(yù)設(shè)規(guī)律的K個(gè)文本,基于與所述K個(gè)文本對(duì)應(yīng)的K個(gè)標(biāo)簽,將所述K個(gè)文本自動(dòng)結(jié)構(gòu)化;
[0055]輔助結(jié)構(gòu)化子模塊,用于在檢測(cè)到用戶(hù)的輔助操作時(shí),響應(yīng)所述輔助操作,選擇不滿(mǎn)足所述預(yù)設(shè)規(guī)律的(N-K)個(gè)文本對(duì)應(yīng)的第一標(biāo)簽列表中的(N-K)個(gè)父標(biāo)簽,以對(duì)所述(N-K)個(gè)文本輔助結(jié)構(gòu)化。
[0056]優(yōu)選地,所述自動(dòng)結(jié)構(gòu)化子模塊,具體包括:
[0057]添加單元,用于將所述K個(gè)標(biāo)簽及與所述K個(gè)標(biāo)簽對(duì)應(yīng)匹配成功的K個(gè)所述節(jié)點(diǎn)添加到所述第一標(biāo)簽列表;[0058]生成單元,用于在所述第一標(biāo)簽列表中生成與所述K個(gè)文本對(duì)應(yīng)的K個(gè)子標(biāo)簽,以將所述K個(gè)標(biāo)簽對(duì)應(yīng)的K個(gè)文本自動(dòng)結(jié)構(gòu)化。
[0059]優(yōu)選地,所述裝置還包括:
[0060]驗(yàn)證模塊,用于驗(yàn)證所述第二標(biāo)簽結(jié)構(gòu)樹(shù)是否正確,獲得一驗(yàn)證結(jié)果;
[0061]顯示模塊,用于當(dāng)所述驗(yàn)證結(jié)果表明所述第二標(biāo)簽結(jié)構(gòu)樹(shù)正確時(shí),顯示所述第二標(biāo)簽結(jié)構(gòu)樹(shù)。
[0062]本申請(qǐng)實(shí)施例中提供的一個(gè)或多個(gè)技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點(diǎn):
[0063]1、由于采用了在不連續(xù)內(nèi)容中獲得與實(shí)例化規(guī)則匹配的文本,并基于該文本的標(biāo)簽將該文本結(jié)構(gòu)化的技術(shù)手段,所以,有效解決了現(xiàn)有技術(shù)中對(duì)不連續(xù)內(nèi)容的結(jié)構(gòu)化效率低,錯(cuò)誤率高的技術(shù)問(wèn)題,進(jìn)而實(shí)現(xiàn)了在不改變文檔內(nèi)容結(jié)構(gòu)的基礎(chǔ)上,快速完成對(duì)不連續(xù)內(nèi)容的結(jié)構(gòu)化的技術(shù)效果,所以,提高不連續(xù)內(nèi)容的結(jié)構(gòu)化效率,降低結(jié)構(gòu)化錯(cuò)誤率。
[0064]2、由于采用基于第一文檔中樣式為預(yù)設(shè)樣式的第一 schema文件以及一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,生成與所述第一文檔對(duì)應(yīng)的第一實(shí)例化規(guī)則的技術(shù)手段,生成的第一實(shí)例化規(guī)則可以匹配基于開(kāi)發(fā)人員確定的結(jié)構(gòu)化規(guī)則不能匹配的文本,所以,有效解決了現(xiàn)有技術(shù)中對(duì)不連續(xù)內(nèi)容的結(jié)構(gòu)化率低的技術(shù)問(wèn)題,進(jìn)而,實(shí)現(xiàn)提高了不連續(xù)內(nèi)容的匹配率的技術(shù)效果。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0065]圖1為本申請(qǐng)實(shí)施例中文檔內(nèi)容結(jié)構(gòu)化的方法的流程圖;
[0066]圖2為本申請(qǐng)實(shí)施例中文檔內(nèi)容結(jié)構(gòu)化的方法步驟SlOl細(xì)化流程圖;
[0067]圖3為本申請(qǐng)實(shí)施例中文檔內(nèi)容結(jié)構(gòu)化的方法步驟S103細(xì)化流程圖;
[0068]圖4為本申請(qǐng)實(shí)施例中試卷內(nèi)容結(jié)構(gòu)化的方法框圖;
[0069]圖5為本申請(qǐng)實(shí)施例中試卷內(nèi)容結(jié)構(gòu)化的優(yōu)選實(shí)現(xiàn)方法流程圖;
[0070]圖6為本申請(qǐng)實(shí)施例中裝置的模塊圖。
【具體實(shí)施方式】
[0071]本申請(qǐng)實(shí)施例通過(guò)提供一種文檔內(nèi)容結(jié)構(gòu)化的方法及裝置,解決了現(xiàn)有技術(shù)中對(duì)不連續(xù)內(nèi)容的結(jié)構(gòu)化效率低,錯(cuò)誤率高的技術(shù)問(wèn)題。
[0072]本申請(qǐng)實(shí)施例中的技術(shù)方案為解決上述不連續(xù)內(nèi)容的結(jié)構(gòu)化效率低,錯(cuò)誤率高的問(wèn)題,總體思路如下:
[0073]基于第一文檔中樣式為預(yù)設(shè)樣式的第一 schema文件以及一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,生成與所述第一文檔對(duì)應(yīng)的第一實(shí)例化規(guī)則;基于所述第一文檔中的已結(jié)構(gòu)化的第一內(nèi)容的第一標(biāo)簽結(jié)構(gòu)樹(shù),獲得與所述第一內(nèi)容對(duì)應(yīng)的第一標(biāo)簽列表;從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本,其中,所述不連續(xù)內(nèi)容為不包含在所述已結(jié)構(gòu)化的第一內(nèi)容中的未結(jié)構(gòu)化內(nèi)容,M為大于等于I的正整數(shù);判斷獲得所述M個(gè)文本對(duì)應(yīng)的M個(gè)標(biāo)簽中可以與所述已結(jié)構(gòu)化的第一內(nèi)容匹配的N個(gè)標(biāo)簽;基于所述N個(gè)標(biāo)簽,將所述N個(gè)標(biāo)簽對(duì)應(yīng)的N個(gè)文本結(jié)構(gòu)化,獲得第二標(biāo)簽結(jié)構(gòu)樹(shù)。
[0074]在不連續(xù)內(nèi)容中獲得與實(shí)例化規(guī)則匹配的文本,所以減少了人工在查找需要結(jié)構(gòu)化的文本時(shí)出錯(cuò)的問(wèn)題,然后,獲得與實(shí)例化匹配的文本對(duì)應(yīng)的標(biāo)簽,對(duì)需要結(jié)構(gòu)化的進(jìn)行內(nèi)容結(jié)構(gòu)化,所以,這種非人工化的結(jié)構(gòu)化方法提高了結(jié)構(gòu)化的效率,以及降低了錯(cuò)誤率。
[0075]為了更好的理解上述技術(shù)方案,下面將結(jié)合說(shuō)明書(shū)附圖以及具體的實(shí)施方式對(duì)上述技術(shù)方案進(jìn)行詳細(xì)的說(shuō)明。
[0076]本申請(qǐng)一實(shí)施例提供了一種文檔內(nèi)容結(jié)構(gòu)化的方法,參考圖1,所述方法包括如下步驟:
[0077]步驟SlOl:基于第一文檔中樣式為預(yù)設(shè)樣式的第一 schema文件以及一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,生成與所述第一文檔對(duì)應(yīng)的第一實(shí)例化規(guī)則;
[0078]在具體實(shí)施過(guò)程中,第一文檔為schema實(shí)例文檔,第一 schema文件以及XML文件為內(nèi)嵌于所述第一文檔中的文件中,其中,xml文件通常由開(kāi)發(fā)人員開(kāi)發(fā)的文件,在具體實(shí)施過(guò)程中,可以直接采用開(kāi)發(fā)人員開(kāi)發(fā)的xml文件對(duì)應(yīng)的結(jié)構(gòu)化規(guī)則,也可以生成新的實(shí)例化規(guī)則。
[0079]具體的,在一具體實(shí)施例中,為了不連續(xù)內(nèi)容與第一內(nèi)容中的節(jié)點(diǎn)匹配率更好,會(huì)生成新的實(shí)例化規(guī)則,具體步驟參考圖2,即:圖2為本申請(qǐng)實(shí)施例中文檔內(nèi)容結(jié)構(gòu)化的方法步驟SlOl細(xì)化流程圖。
[0080]S201:獲取所述樣式為預(yù)設(shè)樣式的第一 schema文件以及所述一規(guī)則為結(jié)構(gòu)化規(guī)則的第一 XML文件;
[0081]S202:基于所述樣式為預(yù)設(shè)樣式的第一 schema文件以及所述一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一結(jié)構(gòu)化規(guī)則匹配的所述M個(gè)文本,以及從所述第一內(nèi)容中獲得與所述M個(gè)文本對(duì)應(yīng)的多個(gè)匹配節(jié)點(diǎn),其中,所述匹配節(jié)點(diǎn)的個(gè)數(shù)大于M個(gè);
[0082]具體的,第一結(jié)構(gòu)化規(guī)則為:格式匹配方式規(guī)則;和/或樣式匹配方式規(guī)則;和/或大綱級(jí)別匹配方式規(guī)則;和/或自定義通配符匹配方式規(guī)則。
[0083]S203:從所述第一內(nèi)容中獲得與所述M個(gè)文本對(duì)應(yīng)的至少一個(gè)不匹配節(jié)點(diǎn),以生成第二結(jié)構(gòu)化規(guī)則;
[0084]具體的,第二結(jié)構(gòu)化規(guī)則也可以為:格式匹配方式規(guī)則,樣式匹配方式規(guī)則,大綱級(jí)別匹配方式規(guī)則,自定義通配符匹配方式規(guī)則中的一種或多中。
[0085]S204:基于所述多個(gè)匹配節(jié)點(diǎn)及所述第二結(jié)構(gòu)化規(guī)則,組成所述第一實(shí)例化規(guī)則。
[0086]具體的,在本具體實(shí)施例中,會(huì)基于文檔中的XML文件的結(jié)構(gòu)化規(guī)則對(duì)第一內(nèi)容中與所述M個(gè)文本對(duì)應(yīng)匹配不成功的節(jié)點(diǎn)設(shè)置第二結(jié)構(gòu)化規(guī)則,然后基于匹配成功的節(jié)點(diǎn)以及第二結(jié)構(gòu)化規(guī)則生成第一實(shí)例化規(guī)則,以提高不連續(xù)內(nèi)容與第一內(nèi)容中的節(jié)點(diǎn)的的匹配率,例如,XML文件的結(jié)構(gòu)化規(guī)則為樣式匹配方式,基于該匹配方式只能獲得少數(shù)匹配節(jié)點(diǎn),然后就會(huì)基于匹配不成功的節(jié)點(diǎn)生成一個(gè)結(jié)構(gòu)化規(guī)則,例如:匹配不成功的節(jié)點(diǎn)的匹配方式為通配符匹配方式,就將通配符方式設(shè)置為第二結(jié)構(gòu)化規(guī)則,所以就可以同時(shí)基于通配符匹配方式以及樣式匹配方式兩種匹配方式結(jié)合成第一實(shí)例化規(guī)則。
[0087]在具體實(shí)施過(guò)程中,還可以對(duì)形成的第一實(shí)例化規(guī)則進(jìn)行進(jìn)一步的設(shè)置,形成滿(mǎn)足用戶(hù)需求的結(jié)構(gòu)化規(guī)則。
[0088]執(zhí)行步驟S102,即:基于所述第一文檔中的已結(jié)構(gòu)化的第一內(nèi)容的第一標(biāo)簽結(jié)構(gòu)樹(shù),獲得與所述第一內(nèi)容對(duì)應(yīng)的第一標(biāo)簽列表;[0089]在具體實(shí)施過(guò)程中,執(zhí)行步驟SlOl與S102的順序不分先后,所以本申請(qǐng)不對(duì)步驟SlOl以及S102的執(zhí)行順序構(gòu)成限制。
[0090]具體的,本申請(qǐng)不限制第一文檔的內(nèi)容,例如,第一文檔可以為一試卷文檔,則第一內(nèi)容為已經(jīng)結(jié)構(gòu)化的試題部分,不連續(xù)內(nèi)容為答案部分。
[0091]執(zhí)行完步驟S102或者SlOl之后,執(zhí)行步驟S103,即:從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本,其中,所述不連續(xù)內(nèi)容為不包含在所述已結(jié)構(gòu)化的第一內(nèi)容中的未結(jié)構(gòu)化內(nèi)容,M為大于等于I的正整數(shù);
[0092]在一具體實(shí)施例中,從不連續(xù)內(nèi)容中獲得與第一實(shí)例化規(guī)則匹配的M個(gè)文本的方法參考圖3,圖3為本申請(qǐng)實(shí)施例中文檔內(nèi)容結(jié)構(gòu)化的方法步驟S103細(xì)化流程圖,包括如下步驟:
[0093]S301:遍歷所述第一標(biāo)簽列表;
[0094]S302:基于第一標(biāo)簽列表,在所述不連續(xù)內(nèi)容中定位到與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本
[0095]S303:將與所述第一實(shí)例化規(guī)則匹配的所述M個(gè)文本存入堆棧中;
[0096]S304:將所述第一實(shí)例化規(guī)則匹配的所述M個(gè)文本的樣式設(shè)置為所述第一內(nèi)容中的節(jié)點(diǎn)的樣式。
[0097]具體來(lái)講,遍歷所述第一標(biāo)簽列表,就是對(duì)應(yīng)整個(gè)第一文檔的標(biāo)簽列表的每一個(gè)標(biāo)簽,在不連續(xù)內(nèi)容中找到與該標(biāo)簽對(duì)應(yīng)的文本。
[0098]然后將找到的文本依次以堆棧的方式存儲(chǔ),并將與該標(biāo)簽對(duì)應(yīng)的文本設(shè)置成該與文本匹配成功的節(jié)點(diǎn)的樣式。
[0099]執(zhí)行完步驟S103之后,執(zhí)行步驟S104,即:判斷獲得所述M個(gè)文本對(duì)應(yīng)的M個(gè)標(biāo)簽中可以與所述已結(jié)構(gòu)化的第一內(nèi)容匹配的N個(gè)標(biāo)簽;
[0100]在一具體實(shí)施例中,步驟S104具體可以通過(guò)如下具體步驟實(shí)現(xiàn):
[0101]步驟1:獲得所述N個(gè)文本中滿(mǎn)足一預(yù)設(shè)規(guī)律的K個(gè)文本,基于與所述K個(gè)文本對(duì)應(yīng)的K個(gè)標(biāo)簽,將所述K個(gè)文本自動(dòng)結(jié)構(gòu)化;
[0102]具體的,首先,將所述K個(gè)標(biāo)簽及與所述K個(gè)標(biāo)簽對(duì)應(yīng)匹配成功的K個(gè)所述節(jié)點(diǎn)添加到所述第一標(biāo)簽列表;然后,在所述第一標(biāo)簽列表中生成與所述K個(gè)文本對(duì)應(yīng)的K個(gè)子標(biāo)簽,以將所述K個(gè)標(biāo)簽對(duì)應(yīng)的K個(gè)文本自動(dòng)結(jié)構(gòu)化。
[0103]步驟2:然后在檢測(cè)到用戶(hù)的輔助操作時(shí),響應(yīng)所述輔助操作,選擇不滿(mǎn)足所述預(yù)設(shè)規(guī)律的(N-K)個(gè)文本對(duì)應(yīng)的第一標(biāo)簽列表中的(N-K)個(gè)父標(biāo)簽,以對(duì)所述(N-K)個(gè)文本輔助結(jié)構(gòu)化。
[0104]在具體實(shí)施過(guò)程中,一優(yōu)選實(shí)施方式為:先執(zhí)行步驟1,對(duì)不連續(xù)內(nèi)容自動(dòng)結(jié)構(gòu)化,自動(dòng)結(jié)構(gòu)化完后,再執(zhí)行步驟2:對(duì)自動(dòng)結(jié)構(gòu)化失敗的(N-K)個(gè)文本執(zhí)行輔助結(jié)構(gòu)化,以提高結(jié)構(gòu)化的速率。當(dāng)然,在具體實(shí)施例過(guò)程中,也可以同時(shí)執(zhí)行步驟I和步驟2,所以,該優(yōu)選實(shí)施方式并不對(duì)本申請(qǐng)做出限制。
[0105]執(zhí)行完步驟S104之后,執(zhí)行步驟S105,即:基于所述N個(gè)標(biāo)簽,將所述N個(gè)標(biāo)簽對(duì)應(yīng)的N個(gè)文本結(jié)構(gòu)化,獲得第二標(biāo)簽結(jié)構(gòu)樹(shù)。
[0106]在具體實(shí)施過(guò)程中,在所述基于所述N個(gè)標(biāo)簽,將所述N個(gè)標(biāo)簽對(duì)應(yīng)的N個(gè)文本結(jié)構(gòu)化,獲得第二標(biāo)簽結(jié)構(gòu)樹(shù)之后,為了驗(yàn)證對(duì)不連續(xù)內(nèi)容的結(jié)構(gòu)化效果,會(huì)對(duì)生成的第二標(biāo)簽結(jié)構(gòu)樹(shù)進(jìn)行驗(yàn)證。具體步驟為:
[0107]驗(yàn)證所述第二標(biāo)簽結(jié)構(gòu)樹(shù)是否正確,獲得一驗(yàn)證結(jié)果;
[0108]當(dāng)所述驗(yàn)證結(jié)果表明所述第二標(biāo)簽結(jié)構(gòu)樹(shù)正確時(shí),顯示所述第二標(biāo)簽結(jié)構(gòu)樹(shù)。
[0109]下面以一試卷中答案部分的結(jié)構(gòu)化方法為例,參考圖4,圖5,對(duì)不連續(xù)內(nèi)容的一優(yōu)選結(jié)構(gòu)化方法做進(jìn)一步詳細(xì)的描述,其中,試題部分為已經(jīng)結(jié)構(gòu)化的連續(xù)部分。首先,參考圖4,基于試卷文檔中內(nèi)嵌的schema文件以及XML文件,生成對(duì)該試卷文檔中的答案部分結(jié)構(gòu)化的實(shí)例化規(guī)則。然后,基于試題部分的標(biāo)簽結(jié)構(gòu)樹(shù),獲得試題部分的標(biāo)簽列表,然后匹配得到答案中與實(shí)例化規(guī)則匹配的文本。
[0110]匹配的具體實(shí)施過(guò)程請(qǐng)參考圖5,下面結(jié)合圖5對(duì)匹配的過(guò)程進(jìn)行詳細(xì)描述:
[0111]首先,選定需要標(biāo)引答案節(jié)點(diǎn)的范圍,即試題范圍,對(duì)應(yīng)該試題范圍,選擇答案標(biāo)弓丨,匹配的時(shí)候基于四點(diǎn)判斷:
[0112]第一點(diǎn):判斷試題范圍是否為存在;
[0113]第二點(diǎn):范圍內(nèi)的試題部分是否含有標(biāo)簽標(biāo)記,即該試題部分對(duì)應(yīng)的答案部分是否已經(jīng)結(jié)構(gòu)化;
[0114]第三點(diǎn):范圍內(nèi)的試題部分是否已經(jīng)結(jié)構(gòu)化;
[0115]第四點(diǎn):答案規(guī)則是否正確。
[0116]然后,當(dāng)同時(shí)滿(mǎn)足以上四點(diǎn)時(shí),依次取得答案中可匹配的答案標(biāo)簽,然后將答案標(biāo)簽以及對(duì)應(yīng)的父節(jié)點(diǎn)添加到試題部分對(duì)應(yīng)的標(biāo)簽列表中。
[0117]接著,依次在已經(jīng)生成的標(biāo)簽上添加答案子標(biāo)簽,以完成答案的結(jié)構(gòu)化。
[0118]最后,即:結(jié)構(gòu)化完成后,在校對(duì)模式下進(jìn)行對(duì)答案部分結(jié)構(gòu)化后的結(jié)構(gòu)樹(shù)驗(yàn)證。
[0119]基于同一發(fā)明構(gòu)思,本申請(qǐng)另一實(shí)施例提供一種裝置,該裝置用于實(shí)施本實(shí)施例中文檔內(nèi)容結(jié)構(gòu)化的方法,該裝置模塊圖請(qǐng)參考圖6,所述裝置具體包括如下模塊:
[0120]生成模塊601,用于基于第一文檔中樣式為預(yù)設(shè)樣式的第一 schema文件以及一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,生成與所述第一文檔對(duì)應(yīng)的第一實(shí)例化規(guī)則;
[0121]第一獲得模塊602,用于基于所述第一文檔中的已結(jié)構(gòu)化的第一內(nèi)容的第一標(biāo)簽結(jié)構(gòu)樹(shù),獲得與所述第一內(nèi)容對(duì)應(yīng)的第一標(biāo)簽列表;
[0122]第二獲得模塊603,用于從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本,其中,所述不連續(xù)內(nèi)容為不包含在所述已結(jié)構(gòu)化的第一內(nèi)容中的未結(jié)構(gòu)化內(nèi)容,M為大于等于I的正整數(shù);
[0123]第三獲得模塊604,用于判斷獲得所述M個(gè)文本對(duì)應(yīng)的M個(gè)標(biāo)簽中可以與所述已結(jié)構(gòu)化的第一內(nèi)容匹配的N個(gè)標(biāo)簽;
[0124]結(jié)構(gòu)化模塊605,用于基于所述N個(gè)標(biāo)簽,將所述N個(gè)標(biāo)簽對(duì)應(yīng)的N個(gè)文本結(jié)構(gòu)化,獲得第二標(biāo)簽結(jié)構(gòu)樹(shù)。
[0125]進(jìn)一步,在具體實(shí)施例中,所述生成模塊,具體包括:
[0126]獲取子模塊,用于獲取所述樣式為預(yù)設(shè)樣式的第一 schema文件以及所述一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件;
[0127]第一獲得子模塊,用于基于所述樣式為預(yù)設(shè)樣式的第一 schema文件以及所述一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一結(jié)構(gòu)化規(guī)則匹配的所述M個(gè)文本,以及從所述第一內(nèi)容中獲得與所述M個(gè)文本對(duì)應(yīng)的多個(gè)匹配節(jié)點(diǎn),其中,所述匹配節(jié)點(diǎn)的個(gè)數(shù)大于M個(gè);
[0128]第二獲得子模塊,用于從所述第一內(nèi)容中獲得與所述M個(gè)文本對(duì)應(yīng)的至少一個(gè)不匹配節(jié)點(diǎn),以生成第二結(jié)構(gòu)化規(guī)則;
[0129]組成子模塊,用于基于所述多個(gè)匹配節(jié)點(diǎn)及所述第二結(jié)構(gòu)化規(guī)則,組成所述第一實(shí)例化規(guī)則。
[0130]進(jìn)一步,在具體實(shí)施例中,所述第二獲得模塊,具體包括:
[0131]遍歷子模塊,用于遍歷所述第一標(biāo)簽列表;
[0132]定位子模塊,用于基于第一標(biāo)簽列表,在所述不連續(xù)內(nèi)容中定位到與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本。
[0133]進(jìn)一步,在具體實(shí)施例中,所述第二獲得模塊,還包括:
[0134]存入子模塊,用于將與所述第一實(shí)例化規(guī)則匹配的所述M個(gè)文本存入堆棧中;
[0135]設(shè)置子模塊,用于將所述第一實(shí)例化規(guī)則匹配的所述M個(gè)文本的樣式設(shè)置為所述第一內(nèi)容中的節(jié)點(diǎn)的樣式。
[0136]進(jìn)一步,在具體實(shí)施例中,所述結(jié)構(gòu)化模塊,具體包括:
[0137]自動(dòng)結(jié)構(gòu)化子模塊,用于獲得所述N個(gè)文本中滿(mǎn)足一預(yù)設(shè)規(guī)律的K個(gè)文本,基于與所述K個(gè)文本對(duì)應(yīng)的K個(gè)標(biāo)簽,將所述K個(gè)文本自動(dòng)結(jié)構(gòu)化;
[0138]輔助結(jié)構(gòu)化子模塊,用于在檢測(cè)到用戶(hù)的輔助操作時(shí),響應(yīng)所述輔助操作,選擇不滿(mǎn)足所述預(yù)設(shè)規(guī)律的(N-K)個(gè)文本對(duì)應(yīng)的第一標(biāo)簽列表中的(N-K)個(gè)父標(biāo)簽,以對(duì)所述(N-K)個(gè)文本輔助結(jié)構(gòu)化。
[0139]進(jìn)一步,在具體實(shí)施例中,所述自動(dòng)結(jié)構(gòu)化子模塊,具體包括:
[0140]添加單元,用于將所述K個(gè)標(biāo)簽及與所述K個(gè)標(biāo)簽對(duì)應(yīng)匹配成功的K個(gè)所述節(jié)點(diǎn)添加到所述第一標(biāo)簽列表;
[0141]生成單元,用于在所述第一標(biāo)簽列表中生成與所述K個(gè)文本對(duì)應(yīng)的K個(gè)子標(biāo)簽,以將所述K個(gè)標(biāo)簽對(duì)應(yīng)的K個(gè)文本自動(dòng)結(jié)構(gòu)化。
[0142]進(jìn)一步,在具體實(shí)施例中,所述裝置還包括:
[0143]驗(yàn)證模塊,用于驗(yàn)證所述第二標(biāo)簽結(jié)構(gòu)樹(shù)是否正確,獲得一驗(yàn)證結(jié)果;
[0144]顯示模塊,用于當(dāng)所述驗(yàn)證結(jié)果表明所述第二標(biāo)簽結(jié)構(gòu)樹(shù)正確時(shí),顯示所述第二標(biāo)簽結(jié)構(gòu)樹(shù)。
[0145]上述本申請(qǐng)實(shí)施例中的一個(gè)或技術(shù)方案,至少具有如下的技術(shù)效果或優(yōu)點(diǎn):
[0146]1、由于采用了在不連續(xù)內(nèi)容中獲得與實(shí)例化規(guī)則匹配的文本,并基于該文本的標(biāo)簽將該文本結(jié)構(gòu)化的技術(shù)手段,所以,有效解決了現(xiàn)有技術(shù)中對(duì)不連續(xù)內(nèi)容的結(jié)構(gòu)化效率低,錯(cuò)誤率高的技術(shù)問(wèn)題,進(jìn)而實(shí)現(xiàn)了在不改變文檔內(nèi)容結(jié)構(gòu)的基礎(chǔ)上,快速完成對(duì)不連續(xù)內(nèi)容的結(jié)構(gòu)化的技術(shù)效果,所以,提高不連續(xù)內(nèi)容的結(jié)構(gòu)化效率,降低結(jié)構(gòu)化錯(cuò)誤率。
[0147]2、由于采用基于第一文檔中樣式為預(yù)設(shè)樣式的第一 schema文件以及一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,生成與所述第一文檔對(duì)應(yīng)的第一實(shí)例化規(guī)則的技術(shù)手段,生成的第一實(shí)例化規(guī)則可以匹配基于開(kāi)發(fā)人員確定的結(jié)構(gòu)化規(guī)則不能匹配的文本,所以,有效解決了現(xiàn)有技術(shù)中對(duì)不連續(xù)內(nèi)容的結(jié)構(gòu)化率低的技術(shù)問(wèn)題,進(jìn)而,實(shí)現(xiàn)提高了不連續(xù)內(nèi)容的匹配率的技術(shù)效果。
[0148]盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
[0149]顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
【權(quán)利要求】
1.一種文檔內(nèi)容結(jié)構(gòu)化的方法,其特征在于,所述方法包括: 基于第一文檔中樣式為預(yù)設(shè)樣式的第一 schema文件以及一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,生成與所述第一文檔對(duì)應(yīng)的第一實(shí)例化規(guī)則; 基于所述第一文檔中的已結(jié)構(gòu)化的第一內(nèi)容的第一標(biāo)簽結(jié)構(gòu)樹(shù),獲得與所述第一內(nèi)容對(duì)應(yīng)的第一標(biāo)簽列表; 從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本,其中,所述不連續(xù)內(nèi)容為不包含在所述已結(jié)構(gòu)化的第一內(nèi)容中的未結(jié)構(gòu)化內(nèi)容,M為大于等于I的正整數(shù); 判斷獲得所述M個(gè)文本對(duì)應(yīng)的M個(gè)標(biāo)簽中可以與所述已結(jié)構(gòu)化的第一內(nèi)容匹配的N個(gè)標(biāo)簽; 基于所述N個(gè)標(biāo)簽,將所述N個(gè)標(biāo)簽對(duì)應(yīng)的N個(gè)文本結(jié)構(gòu)化,獲得第二標(biāo)簽結(jié)構(gòu)樹(shù)。
2.如權(quán)利要求1所述的方法,其特征在于,所述基于第一文檔中樣式為預(yù)設(shè)樣式的第一 schema文件以及一規(guī)則為結(jié)構(gòu)化規(guī)則的第一 XML文件,生成與所述第一文檔對(duì)應(yīng)的第一實(shí)例化規(guī)則,具體包括: 獲取所述樣式為預(yù)設(shè)樣式的第一 schema文件以及所述一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件; 基于所述樣式為預(yù)設(shè)樣式的第一 schema文件以及所述一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一結(jié)構(gòu)化規(guī)則匹配的所述M個(gè)文本,以及從所述第一內(nèi)容中獲得與所述M個(gè)文本對(duì)應(yīng)的多個(gè)匹配節(jié)點(diǎn),其中,所述匹配節(jié)點(diǎn)的 個(gè)數(shù)大于M個(gè); 從所述第一內(nèi)容中獲得與所述M個(gè)文本對(duì)應(yīng)的至少一個(gè)不匹配節(jié)點(diǎn),以生成第二結(jié)構(gòu)化規(guī)則; 基于所述多個(gè)匹配節(jié)點(diǎn)及所述第二結(jié)構(gòu)化規(guī)則,組成所述第一實(shí)例化規(guī)則。
3.如權(quán)利要求2所述的方法,其特征在于,所述第一結(jié)構(gòu)化規(guī)則,具體為:格式匹配方式規(guī)則;和/或 樣式匹配方式規(guī)則;和/或 大綱級(jí)別匹配方式規(guī)則;和/或 自定義通配符匹配方式規(guī)則。
4.如權(quán)利要求1所述的方法,其特征在于,所述從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本,具體包括: 遍歷所述第一標(biāo)簽列表; 基于第一標(biāo)簽列表,在所述不連續(xù)內(nèi)容中定位到與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本。
5.如權(quán)利要求4所述的方法,其特征在于,所述基于第一標(biāo)簽列表,在所述不連續(xù)內(nèi)容中定位到與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本之后,所述方法還包括: 將與所述第一實(shí)例化規(guī)則匹配的所述M個(gè)文本存入堆棧中; 將所述第一實(shí)例化規(guī)則匹配的所述M個(gè)文本的樣式設(shè)置為所述第一內(nèi)容中的節(jié)點(diǎn)的樣式。
6.如權(quán)利要求1所述的方法,其特征在于,所述基于所述N個(gè)標(biāo)簽,將所述N個(gè)標(biāo)簽對(duì)應(yīng)的N個(gè)文本結(jié)構(gòu)化,具體包括: 獲得所述N個(gè)文本中滿(mǎn)足一預(yù)設(shè)規(guī)律的K個(gè)文本,基于與所述K個(gè)文本對(duì)應(yīng)的K個(gè)標(biāo)簽,將所述K個(gè)文本自動(dòng)結(jié)構(gòu)化; 在檢測(cè)到用戶(hù)的輔助操作時(shí),響應(yīng)所述輔助操作,選擇不滿(mǎn)足所述預(yù)設(shè)規(guī)律的(N-K)個(gè)文本對(duì)應(yīng)的第一標(biāo)簽列表中的(N-K)個(gè)父標(biāo)簽,以對(duì)所述(N-K)個(gè)文本輔助結(jié)構(gòu)化。
7.如權(quán)利要求4所述的方法,其特征在于,所述獲得所述N個(gè)文本中滿(mǎn)足一預(yù)設(shè)規(guī)律的K個(gè)文本,基于與所述K個(gè)文本對(duì)應(yīng)的K個(gè)標(biāo)簽,將所述K個(gè)文本自動(dòng)結(jié)構(gòu)化,具體包括: 將所述K個(gè)標(biāo)簽及與所述K個(gè)標(biāo)簽對(duì)應(yīng)匹配成功的K個(gè)所述節(jié)點(diǎn)添加到所述第一標(biāo)簽列表; 在所述第一標(biāo)簽列表中生成與所述K個(gè)文本對(duì)應(yīng)的K個(gè)子標(biāo)簽,以將所述K個(gè)標(biāo)簽對(duì)應(yīng)的K個(gè)文本自動(dòng)結(jié)構(gòu)化。
8.如權(quán)利要求1-7中任一權(quán)項(xiàng)所述的方法,其特征在于,在所述基于所述N個(gè)標(biāo)簽,將所述N個(gè)標(biāo)簽對(duì)應(yīng)的N個(gè)文本結(jié)構(gòu)化,獲得第二標(biāo)簽結(jié)構(gòu)樹(shù)之后,所述方法還包括: 驗(yàn)證所述第二標(biāo)簽結(jié)構(gòu)樹(shù)是否正確,獲得一驗(yàn)證結(jié)果; 當(dāng)所述驗(yàn)證結(jié)果表明所述第二標(biāo)簽結(jié)構(gòu)樹(shù)正確時(shí),顯示所述第二標(biāo)簽結(jié)構(gòu)樹(shù)。
9.一種裝置,其特征在于,所述裝置包括: 生成模塊,用于基于第一文檔中樣式為預(yù)設(shè)樣式的第一 schema文件以及一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,生成與所述第一文檔對(duì)應(yīng)的第一實(shí)例化規(guī)則; 第一獲得模塊,用于基于所述第一 文檔中的已結(jié)構(gòu)化的第一內(nèi)容的第一標(biāo)簽結(jié)構(gòu)樹(shù),獲得與所述第一內(nèi)容對(duì)應(yīng)的第一標(biāo)簽列表; 第二獲得模塊,用于從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本,其中,所述不連續(xù)內(nèi)容為不包含在所述已結(jié)構(gòu)化的第一內(nèi)容中的未結(jié)構(gòu)化內(nèi)容,M為大于等于I的正整數(shù); 第三獲得模塊,用于判斷獲得所述M個(gè)文本對(duì)應(yīng)的M個(gè)標(biāo)簽中可以與所述已結(jié)構(gòu)化的第一內(nèi)容匹配的N個(gè)標(biāo)簽; 結(jié)構(gòu)化模塊,用于基于所述N個(gè)標(biāo)簽,將所述N個(gè)標(biāo)簽對(duì)應(yīng)的N個(gè)文本結(jié)構(gòu)化,獲得第二標(biāo)簽結(jié)構(gòu)樹(shù)。
10.如權(quán)利要求9所述的裝置,其特征在于,所述生成模塊,具體包括: 獲取子模塊,用于獲取所述樣式為預(yù)設(shè)樣式的第一 schema文件以及所述一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件; 第一獲得子模塊,用于基于所述樣式為預(yù)設(shè)樣式的第一 schema文件以及所述一規(guī)則為第一結(jié)構(gòu)化規(guī)則的第一 XML文件,從與所述第一標(biāo)簽列表對(duì)應(yīng)的不連續(xù)內(nèi)容中獲得與所述第一結(jié)構(gòu)化規(guī)則匹配的所述M個(gè)文本,以及從所述第一內(nèi)容中獲得與所述M個(gè)文本對(duì)應(yīng)的多個(gè)匹配節(jié)點(diǎn),其中,所述匹配節(jié)點(diǎn)的個(gè)數(shù)大于M個(gè); 第二獲得子模塊,用于從所述第一內(nèi)容中獲得與所述M個(gè)文本對(duì)應(yīng)的至少一個(gè)不匹配節(jié)點(diǎn),以生成第二結(jié)構(gòu)化規(guī)則; 組成子模塊,用于基于所述多個(gè)匹配節(jié)點(diǎn)及所述第二結(jié)構(gòu)化規(guī)則,組成所述第一實(shí)例化規(guī)則。
11.如權(quán)利要求9所述的裝置,其特征在于,所述第二獲得模塊,具體包括:遍歷子模塊,用于遍歷所述第一標(biāo)簽列表; 定位子模塊,用于基于第一標(biāo)簽列表,在所述不連續(xù)內(nèi)容中定位到與所述第一實(shí)例化規(guī)則匹配的M個(gè)文本。
12.如權(quán)利要求11所述的裝置,其特征在于,所述第二獲得模塊,還包括: 存入子模塊,用于將與所述第一實(shí)例化規(guī)則匹配的所述M個(gè)文本存入堆棧中; 設(shè)置子模塊,用于將所述第一實(shí)例化規(guī)則匹配的所述M個(gè)文本的樣式設(shè)置為所述第一內(nèi)容中的節(jié)點(diǎn)的樣式。
13.如權(quán)利要求9所述的裝置,其特征在于,所述結(jié)構(gòu)化模塊,具體包括: 自動(dòng)結(jié)構(gòu)化子模塊,用于獲得所述N個(gè)文本中滿(mǎn)足一預(yù)設(shè)規(guī)律的K個(gè)文本,基于與所述K個(gè)文本對(duì)應(yīng)的K個(gè)標(biāo)簽,將所述K個(gè)文本自動(dòng)結(jié)構(gòu)化; 輔助結(jié)構(gòu)化子模塊,用于在檢測(cè)到用戶(hù)的輔助操作時(shí),響應(yīng)所述輔助操作,選擇不滿(mǎn)足所述預(yù)設(shè)規(guī)律的(N-K)個(gè)文本對(duì)應(yīng)的第一標(biāo)簽列表中的(N-K)個(gè)父標(biāo)簽,以對(duì)所述(N-K)個(gè)文本輔助結(jié)構(gòu)化。
14.如權(quán)利要求13所述的裝置,其特征在于,所述自動(dòng)結(jié)構(gòu)化子模塊,具體包括: 添加單元,用于將所述K個(gè)標(biāo)簽及與所述K個(gè)標(biāo)簽對(duì)應(yīng)匹配成功的K個(gè)所述節(jié)點(diǎn)添加到所述第一標(biāo)簽列表; 生成單元,用于在所述第一標(biāo)簽列表中生成與所述K個(gè)文本對(duì)應(yīng)的K個(gè)子標(biāo)簽,以將所述K個(gè)標(biāo)簽對(duì) 應(yīng)的K個(gè)文本自動(dòng)結(jié)構(gòu)化。
15.如權(quán)利要求9-14中任一權(quán)項(xiàng)所述的裝置,其特征在于,所述裝置還包括: 驗(yàn)證模塊,用于驗(yàn)證所述第二標(biāo)簽結(jié)構(gòu)樹(shù)是否正確,獲得一驗(yàn)證結(jié)果; 顯示模塊,用于當(dāng)所述驗(yàn)證結(jié)果表明所述第二標(biāo)簽結(jié)構(gòu)樹(shù)正確時(shí),顯示所述第二標(biāo)簽結(jié)構(gòu)樹(shù)。
【文檔編號(hào)】G06F17/30GK103885972SQ201210560708
【公開(kāi)日】2014年6月25日 申請(qǐng)日期:2012年12月20日 優(yōu)先權(quán)日:2012年12月20日
【發(fā)明者】孫明明 申請(qǐng)人:北大方正集團(tuán)有限公司, 北京北大方正電子有限公司