這樣,通過獲取版式文檔的元數(shù)據(jù),進(jìn)而根據(jù)所述版式文檔的元數(shù)據(jù),獲得所述版式文檔的標(biāo)題,使得能夠根據(jù)所述版式文檔的標(biāo)題,獲得所述版式文檔的目標(biāo)目錄數(shù)據(jù),無需人工參與,操作簡單,而且正確率高,從而提高了版式文檔處理的效率和可靠性。
[0056]可選地,在本實施例的一個可能的實現(xiàn)方式中,在101中,所獲取的版式文檔的元數(shù)據(jù)可以包括但不限于所述版本文檔的目錄頁面的元數(shù)據(jù)和版本文檔的正文頁面的元數(shù)據(jù)中的至少一項,本實施例對此不進(jìn)行特別限定。
[0057]版式文檔是指符合版式文檔格式規(guī)范的文檔,它采用一種絕對描述方式,在自定義的坐標(biāo)系中,明確記錄了每個頁面元素顯示的位置、尺寸和樣式等。版式文檔的元數(shù)據(jù)可以包括但不限于版式文檔中每個頁面元素(如文字、圖片或超鏈接等)的位置、尺寸、顏色和樣式等數(shù)據(jù)。
[0058]本實施例中,版式文檔的元數(shù)據(jù)的存儲格式可以為多種格式,例如,JavaScript對象表不法(JavaScript Object Notat1n, JS0N)格式等。
[0059]JS0N,是一種輕量的數(shù)據(jù)表示方法。JSON格式采用鍵值(key-value)對的方式記錄數(shù)據(jù),非常直觀,比可擴展標(biāo)記語言(Extensible Markup Language,XML)簡潔。
[0060]所謂的目錄頁面,是指其上包含結(jié)構(gòu)化的目錄信息的頁面。例如,包含目錄、
Contents等具有目錄特征的關(guān)鍵詞的頁面;或者,再例如,包含“..................XX”、
“------------------XX,,gg “-----------------------------------XX,,
等具有目錄特征的字符的頁面,其中,XX表示阿拉伯?dāng)?shù)字、英文數(shù)字等頁碼字符。
[0061]所謂的正文頁面,是指其上包含正文信息的頁面。
[0062]可選地,在本實施例的一個可能的實現(xiàn)方式中,所述版式文檔的元數(shù)據(jù)包括所述版本文檔的目錄頁面的元數(shù)據(jù);相應(yīng)地,在101中,具體可以獲取目錄頁面的起始部分的元數(shù)據(jù)、目錄頁面的結(jié)束部分的元數(shù)據(jù)和目錄頁面的結(jié)構(gòu)特征的元數(shù)據(jù)中的至少一項,進(jìn)而則可以根據(jù)所述目錄頁面的起始部分的元數(shù)據(jù)、所述目錄頁面的結(jié)束部分的元數(shù)據(jù)和所述目錄頁面的結(jié)構(gòu)特征的元數(shù)據(jù)中的至少一項,獲取所述版本文檔的目錄頁面的元數(shù)據(jù)。
[0063]一般來說,目錄頁都設(shè)置在版式文檔的前幾頁,因此,具體可以將預(yù)先設(shè)置的前N頁,N為大于或等于I的整數(shù),作為目錄頁面可能存在的區(qū)域,只在這些區(qū)域獲取版本文檔的目錄頁面的元數(shù)據(jù)即可。
[0064]在一個具體的實現(xiàn)過程中,具體可以獲取版式文檔的前N頁的元數(shù)據(jù)。
[0065]然后,可以根據(jù)起始特征數(shù)據(jù),例如,“目錄”、“Contents”或“MULU”等數(shù)據(jù),在所獲取的前N頁的元數(shù)據(jù)中,獲取目錄頁面的起始部分的元數(shù)據(jù)。
[0066]或者,還可以根據(jù)結(jié)束特征數(shù)據(jù),例如,“附錄”或“結(jié)束語”等數(shù)據(jù),在所獲取的前N頁的元數(shù)據(jù)中,獲取目錄頁面的結(jié)束部分的元數(shù)據(jù)。
[0067]或者,還可以根據(jù)預(yù)先設(shè)置的目錄頁面結(jié)構(gòu)特征數(shù)據(jù),在所獲取的前N頁的元數(shù)據(jù)中,獲取目錄頁面的結(jié)構(gòu)特征的元數(shù)據(jù)。
[0068]這樣,則可以根據(jù)所述目錄頁面的起始部分的元數(shù)據(jù)所在的頁面、所述目錄頁面的結(jié)束部分的元數(shù)據(jù)所在的頁面和所述目錄頁面的結(jié)構(gòu)特征的元數(shù)據(jù)所在的頁面中的至少一項,確定若干個連續(xù)的候選頁面,以作為所述版式文檔的目錄頁面。
[0069]接著,可以在所確定的候選頁面中,獲取該候選頁面的元數(shù)據(jù),以作為所述版本文檔的目錄頁面的元數(shù)據(jù)。
[0070]所獲取的所述版式文檔的目錄頁面的元數(shù)據(jù),可以包括但不限于版式文檔的候選目錄數(shù)據(jù)。所述候選目錄數(shù)據(jù),是指版式文檔中所包含的目錄數(shù)據(jù)。
[0071]可選地,在本實施例的一個可能的實現(xiàn)方式中,在102中,具體可以利用各個等級目錄的特征數(shù)據(jù),從所述版式文檔的元數(shù)據(jù)中,獲得所述版式文檔的標(biāo)題。
[0072]其中,各個等級目錄的特征數(shù)據(jù),是指每個等級的目錄所對應(yīng)的標(biāo)題字符的布局特點數(shù)據(jù),可以包括但不限于每個等級的目錄所對應(yīng)的標(biāo)題字符的字體、尺寸、顏色、樣式和排版格式中的至少一項,本實施例對此不進(jìn)行特別限定。
[0073]所述每個等級的目錄所對應(yīng)的標(biāo)題字符的字體,是指每個等級的目錄所對應(yīng)的標(biāo)題字符的外在形式特征,就是字符的風(fēng)格,是字符的外衣,例如,宋體、楷體或隸書等。
[0074]所述每個等級的目錄所對應(yīng)的標(biāo)題字符的尺寸,是指每個等級的目錄所對應(yīng)的標(biāo)題字符的大小,例如,四號(14鎊)、小四號(12號)或五號(10.5鎊)等。
[0075]所述每個等級的目錄所對應(yīng)的標(biāo)題字符的顏色,是指每個等級的目錄所對應(yīng)的標(biāo)題字符的顏色,例如,紅色或藍(lán)色等。
[0076]所述每個等級的目錄所對應(yīng)的標(biāo)題字符的樣式,是指每個等級的目錄所對應(yīng)的標(biāo)題字符的風(fēng)格,例如,加粗或斜體等。
[0077]所述每個等級的目錄所對應(yīng)的標(biāo)題字符的排版格式,是指每個等級的目錄所對應(yīng)的標(biāo)題字符的布局形式,例如,居中、每行最多不超過S(s為大于或等于I的整數(shù))個字符或每行的結(jié)尾沒有標(biāo)點符號等。
[0078]具體地,具體可以根據(jù)版式文檔的布局,預(yù)先設(shè)置各個等級目錄的特征數(shù)據(jù)。
[0079]在一個具體的實現(xiàn)過程中,所述版式文檔的元數(shù)據(jù)包括所述版本文檔的目錄頁面的元數(shù)據(jù);相應(yīng)地,在102中,具體可以獲取預(yù)先設(shè)置的第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)字體、第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)尺寸、第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)顏色、第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)樣式和第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)排版格式中的至少一項,進(jìn)而則可以根據(jù)所述第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)字體、所述第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)尺寸、所述第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)顏色、所述第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)樣式和所述第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)排版格式中的至少一項,從所述版本文檔的目錄頁面的元數(shù)據(jù)中,獲得所述版式文檔的標(biāo)題。
[0080]其中,第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)字體、第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)尺寸、第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)顏色、第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)樣式和第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)排版格式中的至少一項,是指目錄頁面上,每個等級的目錄所對應(yīng)的標(biāo)題字符的布局特點數(shù)據(jù)。
[0081]在另一個具體的實現(xiàn)過程中,所述版式文檔的元數(shù)據(jù)包括所述版本文檔的正文頁面的元數(shù)據(jù);相應(yīng)地,在102中,具體可以獲取預(yù)先設(shè)置的第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)字體、第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)尺寸、第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)顏色、第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)樣式和第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)排版格式中的至少一項,進(jìn)而則可以根據(jù)所述第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)字體、所述第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)尺寸、所述第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)顏色、所述第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)樣式和所述第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)排版格式中的至少一項,從所述版本文檔的正文頁面的元數(shù)據(jù)中,獲得所述版式文檔的標(biāo)題。
[0082]其中,第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)字體、第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)尺寸、第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)顏色、第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)樣式和第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)排版格式中的至少一項,是指正文頁面上,每個等級的目錄所對應(yīng)的標(biāo)題字符的布局特點數(shù)據(jù)。
[0083]在另一個具體的實現(xiàn)過程中,所述版式文檔的元數(shù)據(jù)包括所述版本文檔的目錄頁面的元數(shù)據(jù)和所述版本文檔的正文頁面的元數(shù)據(jù);相應(yīng)地,在102中,具體可以獲取預(yù)先設(shè)置的第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)字體、第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)尺寸、第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)顏色、第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)樣式和第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)排版格式中的至少一項,進(jìn)而則可以根據(jù)所述第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)字體、所述第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)尺寸、所述第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)顏色、所述第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)樣式和所述第一目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)排版格式中的至少一項,從所述版本文檔的目錄頁面的元數(shù)據(jù)中,獲得所述版式文檔的第一候選標(biāo)題。以及,還可以獲取預(yù)先設(shè)置的第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)字體、第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)尺寸、第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)顏色、第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)樣式和第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)排版格式中的至少一項,進(jìn)而則可以根據(jù)所述第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)字體、所述第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)尺寸、所述第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)顏色、所述第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)樣式和所述第二目錄所對應(yīng)的標(biāo)題字符預(yù)設(shè)排版格式中的至少一項,從所述版本文檔的正文頁面的元數(shù)據(jù)中,獲得所述版式文檔的第二候選標(biāo)題。接著,根據(jù)所述第一候選標(biāo)題和所述第二候選標(biāo)題,確定所述版式文檔的標(biāo)題。
[0084]具體地,獲取所述第一候選標(biāo)題與所述第二候選標(biāo)題中對應(yīng)的第一組標(biāo)題字符即標(biāo)題字符A和標(biāo)題字符B,確定對應(yīng)的標(biāo)題字符是否一致,若二者的內(nèi)容一致,則將對應(yīng)的標(biāo)題字符即標(biāo)題字符A或標(biāo)題字符B作為版式文檔的一個標(biāo)題;若二者的內(nèi)容不一致,則進(jìn)一步確定哪個標(biāo)題字符是正確的標(biāo)題,進(jìn)而將正確的標(biāo)題字符作為版式文檔的一個標(biāo)題。如果沒有正確的標(biāo)題字符,則放棄對應(yīng)的標(biāo)題字符。依次類推,獲取所述第一候選標(biāo)題與所述第二候選標(biāo)題中對應(yīng)的下一組標(biāo)題字符,直到將所述第一候