本發(fā)明屬于pdf文件解析,具體地說,是涉及一種pdf轉word頁眉頁腳提取方法、裝置及計算機可讀存儲介質。
背景技術:
1、在翻譯行業(yè)中,各種格式文件的解析和還原是至關重要的一環(huán),pdf文件由于其格式的特殊性,無法直接進行解析和還原,所以文件解析過程中,需要將pdf文件轉換成word文件。
2、由于在pdf格式的文件中,不存在word文件里的頁眉、頁腳的設置概念,所以在pdf轉換成word文件過程中,如何將pdf格式文件中實際為頁眉和頁腳的內容進行識別并提取出來,以便于在轉換后的word文件中以頁眉和頁腳的形式呈現(xiàn),就成為了本領域亟需解決了技術問題。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供一種pdf轉word頁眉頁腳提取方法,以解決現(xiàn)有技術所存在的技術問題。
2、為了實現(xiàn)上述目的,本發(fā)明采取的技術方案如下:
3、一種pdf轉word頁眉頁腳提取方法,包括以下步驟:
4、步驟s1:對pdf文件進行前置處理,完成字符與圖形的嵌套、布局處理和元素排序,得到每一頁內容都有序的pdf預處理文件;
5、步驟s2:頁面拆分:將pdf預處理文件拆分為奇數(shù)頁文件和偶數(shù)頁文件;
6、步驟s3:識別并劃定每頁文件的頁眉和頁腳的有效區(qū)域;
7、步驟s4:在有效區(qū)域內,從第二頁開始匹配每一頁的公共元素,并判斷pdf頁面的頁眉和頁腳類型,頁眉和頁腳類型包括類型a和類型c,其中,類型a是指每頁頁眉頁腳都相同,類型c是指奇偶頁頁眉頁腳不同;其中,判斷頁眉和頁腳類型的方法如下:
8、(41)在匹配過程中,若每一頁之間的公共元素所在的索引都相同,則判斷當前pdf文件中的頁眉頁腳類型為類型a,即每頁頁眉頁腳都相同;
9、(42)在匹配過程中,若某一頁的公共元素與之前的匹配結果不同,則終止匹配,然后,單獨使用奇數(shù)頁進行匹配,單獨使用偶數(shù)頁進行匹配,若所有的奇數(shù)頁的公共元素的索引都相同,且偶數(shù)頁的公共元素的索引也相同,則判斷當前pdf文件中頁眉頁腳類型為類型c,即奇偶頁頁眉頁腳不同;
10、(43)若不滿足所述(41)或(42),則判斷當前pdf文件中不存在頁眉和頁腳;
11、步驟s5:判斷所有頁面的頁眉頁腳類型:
12、(51)若根據步驟s4確定當前pdf頁面的頁眉、頁腳類型為類型a,則判斷pdf文件的首頁與第二頁的公共元素是否相同,若相同,則確定pdf文件的所有頁面的頁眉頁腳類型為類型a,若不相同,則確定pdf文件的所有頁面的頁眉頁腳類型為類型a和類型b,其中,類型b是指首頁頁眉頁腳不同;
13、(52)若根據步驟s4確定當前pdf頁面的頁眉、頁腳類型為類型c,則判斷pdf文件的首頁與第三頁的公共元素是否相同,若相同,則確定pdf文件的所有頁面的頁眉頁腳類型為類型c,若不相同,則確定pdf文件的所有頁面的頁眉頁腳類型為類型c和類型b,其中,類型b是指首頁頁眉頁腳不同。
14、步驟s6:根據所有頁面的頁眉頁腳類型,生成每一頁的頁眉頁腳信息,實現(xiàn)頁眉頁腳提取。
15、在一種實施方案中,所述步驟s3中有效區(qū)域為不超過頁面高度的1/3。
16、在一種實施方案中,所述步驟s4中,所述公共元素是指:在相同索引下,如果元素的類型相同,并且值相同,則屬于公共元素。
17、在一種實施方案中,所述(42)中匹配結果不同是指任一三頁之間的公共元素不相同。
18、在一種實施方案中,所述步驟s4中,匹配的方法如下:將元素排序后,從頭到尾遍歷,根據索引對比相同索引的數(shù)據是否相同,提取出所有頁具有相同元素的索引位置。
19、為了實現(xiàn)上述目的,本發(fā)明還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行,以實現(xiàn)所述的pdf轉word頁眉頁腳提取方法。
20、為了實現(xiàn)上述目的,本發(fā)明還提供了一種pdf轉word頁眉頁腳提取裝置,包括:處理器和存儲器;所述存儲器用于存儲計算機程序;所述處理器與所述存儲器相連,用于執(zhí)行所述存儲器存儲的計算機程序,以使得所述pdf轉word頁眉頁腳提取裝置執(zhí)行所述的pdf轉word頁眉頁腳提取方法。
21、與現(xiàn)有技術相比,本發(fā)明具備以下有益效果:
22、本發(fā)明通過判斷相同索引位置的元素是否相同,提取每一頁的公共元素,通過區(qū)分首頁、奇、偶頁的公共元素來確定頁眉、頁腳的類型,由此可以實現(xiàn)高效率的完成頁眉、頁腳的識別。
1.一種pdf轉word頁眉頁腳提取方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的pdf轉word頁眉頁腳提取方法,其特征在于,所述步驟s3中有效區(qū)域為不超過頁面高度的1/3。
3.根據權利要求2所述的pdf轉word頁眉頁腳提取方法,其特征在于,所述步驟s4中,所述公共元素是指:在相同索引下,如果元素的類型相同,并且值相同,則屬于公共元素。
4.根據權利要求3所述的pdf轉word頁眉頁腳提取方法,其特征在于,所述步驟s4中,匹配的方法如下:將元素排序后,從頭到尾遍歷,根據索引對比相同索引的數(shù)據是否相同,提取出所有頁具有相同元素的索引位置。
5.根據權利要求4所述的pdf轉word頁眉頁腳提取方法,其特征在于,所述(42)中匹配結果不同是指任一三頁之間的公共元素不相同。
6.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行,以實現(xiàn)如權利要求1~5中任一項所述的pdf轉word頁眉頁腳提取方法。
7.一種pdf轉word頁眉頁腳提取裝置,其特征在于,包括:處理器和存儲器;所述存儲器用于存儲計算機程序;所述處理器與所述存儲器相連,用于執(zhí)行所述存儲器存儲的計算機程序,以使得所述pdf轉word頁眉頁腳提取裝置執(zhí)行如權利要求1~5中任一項所述的pdf轉word頁眉頁腳提取方法。