两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種PDF轉Word頁眉頁腳提取方法、裝置及計算機可讀存儲介質與流程

文檔序號:40656543發(fā)布日期:2025-01-10 19:08閱讀:14來源:國知局
一種PDF轉Word頁眉頁腳提取方法、裝置及計算機可讀存儲介質與流程

本發(fā)明屬于pdf文件解析,具體地說,是涉及一種pdf轉word頁眉頁腳提取方法、裝置及計算機可讀存儲介質。


背景技術:

1、在翻譯行業(yè)中,各種格式文件的解析和還原是至關重要的一環(huán),pdf文件由于其格式的特殊性,無法直接進行解析和還原,所以文件解析過程中,需要將pdf文件轉換成word文件。

2、由于在pdf格式的文件中,不存在word文件里的頁眉、頁腳的設置概念,所以在pdf轉換成word文件過程中,如何將pdf格式文件中實際為頁眉和頁腳的內容進行識別并提取出來,以便于在轉換后的word文件中以頁眉和頁腳的形式呈現(xiàn),就成為了本領域亟需解決了技術問題。


技術實現(xiàn)思路

1、本發(fā)明的目的在于提供一種pdf轉word頁眉頁腳提取方法,以解決現(xiàn)有技術所存在的技術問題。

2、為了實現(xiàn)上述目的,本發(fā)明采取的技術方案如下:

3、一種pdf轉word頁眉頁腳提取方法,包括以下步驟:

4、步驟s1:對pdf文件進行前置處理,完成字符與圖形的嵌套、布局處理和元素排序,得到每一頁內容都有序的pdf預處理文件;

5、步驟s2:頁面拆分:將pdf預處理文件拆分為奇數(shù)頁文件和偶數(shù)頁文件;

6、步驟s3:識別并劃定每頁文件的頁眉和頁腳的有效區(qū)域;

7、步驟s4:在有效區(qū)域內,從第二頁開始匹配每一頁的公共元素,并判斷pdf頁面的頁眉和頁腳類型,頁眉和頁腳類型包括類型a和類型c,其中,類型a是指每頁頁眉頁腳都相同,類型c是指奇偶頁頁眉頁腳不同;其中,判斷頁眉和頁腳類型的方法如下:

8、(41)在匹配過程中,若每一頁之間的公共元素所在的索引都相同,則判斷當前pdf文件中的頁眉頁腳類型為類型a,即每頁頁眉頁腳都相同;

9、(42)在匹配過程中,若某一頁的公共元素與之前的匹配結果不同,則終止匹配,然后,單獨使用奇數(shù)頁進行匹配,單獨使用偶數(shù)頁進行匹配,若所有的奇數(shù)頁的公共元素的索引都相同,且偶數(shù)頁的公共元素的索引也相同,則判斷當前pdf文件中頁眉頁腳類型為類型c,即奇偶頁頁眉頁腳不同;

10、(43)若不滿足所述(41)或(42),則判斷當前pdf文件中不存在頁眉和頁腳;

11、步驟s5:判斷所有頁面的頁眉頁腳類型:

12、(51)若根據步驟s4確定當前pdf頁面的頁眉、頁腳類型為類型a,則判斷pdf文件的首頁與第二頁的公共元素是否相同,若相同,則確定pdf文件的所有頁面的頁眉頁腳類型為類型a,若不相同,則確定pdf文件的所有頁面的頁眉頁腳類型為類型a和類型b,其中,類型b是指首頁頁眉頁腳不同;

13、(52)若根據步驟s4確定當前pdf頁面的頁眉、頁腳類型為類型c,則判斷pdf文件的首頁與第三頁的公共元素是否相同,若相同,則確定pdf文件的所有頁面的頁眉頁腳類型為類型c,若不相同,則確定pdf文件的所有頁面的頁眉頁腳類型為類型c和類型b,其中,類型b是指首頁頁眉頁腳不同。

14、步驟s6:根據所有頁面的頁眉頁腳類型,生成每一頁的頁眉頁腳信息,實現(xiàn)頁眉頁腳提取。

15、在一種實施方案中,所述步驟s3中有效區(qū)域為不超過頁面高度的1/3。

16、在一種實施方案中,所述步驟s4中,所述公共元素是指:在相同索引下,如果元素的類型相同,并且值相同,則屬于公共元素。

17、在一種實施方案中,所述(42)中匹配結果不同是指任一三頁之間的公共元素不相同。

18、在一種實施方案中,所述步驟s4中,匹配的方法如下:將元素排序后,從頭到尾遍歷,根據索引對比相同索引的數(shù)據是否相同,提取出所有頁具有相同元素的索引位置。

19、為了實現(xiàn)上述目的,本發(fā)明還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行,以實現(xiàn)所述的pdf轉word頁眉頁腳提取方法。

20、為了實現(xiàn)上述目的,本發(fā)明還提供了一種pdf轉word頁眉頁腳提取裝置,包括:處理器和存儲器;所述存儲器用于存儲計算機程序;所述處理器與所述存儲器相連,用于執(zhí)行所述存儲器存儲的計算機程序,以使得所述pdf轉word頁眉頁腳提取裝置執(zhí)行所述的pdf轉word頁眉頁腳提取方法。

21、與現(xiàn)有技術相比,本發(fā)明具備以下有益效果:

22、本發(fā)明通過判斷相同索引位置的元素是否相同,提取每一頁的公共元素,通過區(qū)分首頁、奇、偶頁的公共元素來確定頁眉、頁腳的類型,由此可以實現(xiàn)高效率的完成頁眉、頁腳的識別。



技術特征:

1.一種pdf轉word頁眉頁腳提取方法,其特征在于,包括以下步驟:

2.根據權利要求1所述的pdf轉word頁眉頁腳提取方法,其特征在于,所述步驟s3中有效區(qū)域為不超過頁面高度的1/3。

3.根據權利要求2所述的pdf轉word頁眉頁腳提取方法,其特征在于,所述步驟s4中,所述公共元素是指:在相同索引下,如果元素的類型相同,并且值相同,則屬于公共元素。

4.根據權利要求3所述的pdf轉word頁眉頁腳提取方法,其特征在于,所述步驟s4中,匹配的方法如下:將元素排序后,從頭到尾遍歷,根據索引對比相同索引的數(shù)據是否相同,提取出所有頁具有相同元素的索引位置。

5.根據權利要求4所述的pdf轉word頁眉頁腳提取方法,其特征在于,所述(42)中匹配結果不同是指任一三頁之間的公共元素不相同。

6.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行,以實現(xiàn)如權利要求1~5中任一項所述的pdf轉word頁眉頁腳提取方法。

7.一種pdf轉word頁眉頁腳提取裝置,其特征在于,包括:處理器和存儲器;所述存儲器用于存儲計算機程序;所述處理器與所述存儲器相連,用于執(zhí)行所述存儲器存儲的計算機程序,以使得所述pdf轉word頁眉頁腳提取裝置執(zhí)行如權利要求1~5中任一項所述的pdf轉word頁眉頁腳提取方法。


技術總結
本發(fā)明屬于PDF文件解析技術領域,提供了一種PDF轉Word頁眉頁腳提取方法、裝置及計算機可讀存儲介質,方法包括以下步驟:步驟S1:對PDF文件進行前置處理,完成字符與圖形的嵌套、布局處理和元素排序,得到每一頁內容都有序的PDF預處理文件;步驟S2:頁面拆分:將PDF預處理文件拆分為奇數(shù)頁文件和偶數(shù)頁文件;步驟S3:識別并劃定每頁文件的頁眉和頁腳的有效區(qū)域;步驟S4:在有效區(qū)域內,從第二頁開始匹配每一頁的公共元素,并判斷PDF頁面的頁眉和頁腳類型;步驟S5:判斷所有頁面的頁眉頁腳類型:步驟S6:根據所有頁面的頁眉頁腳類型,生成每一頁的頁眉頁腳信息,實現(xiàn)頁眉頁腳提取。本發(fā)明可以實現(xiàn)高效率的完成頁眉、頁腳的識別。

技術研發(fā)人員:蘭元,朱憲超,霍展羽,李晶
受保護的技術使用者:四川語言橋信息技術有限公司
技術研發(fā)日:
技術公布日:2025/1/9
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
乡宁县| 仁化县| 庆阳市| 博爱县| 锡林浩特市| 华容县| 保德县| 青州市| 江西省| 那曲县| 桓台县| 内丘县| 游戏| 鄂托克前旗| 丹棱县| 西安市| 潍坊市| 长葛市| 武平县| 甘孜| 闽侯县| 洪泽县| 宁波市| 开封市| 宁明县| 通州区| 富宁县| 鄂尔多斯市| 安仁县| 旅游| 渝中区| 胶南市| 北宁市| 综艺| 盐亭县| 沭阳县| 万荣县| 宁蒗| 衡阳市| 周宁县| 鱼台县|