基于PDF文件的段落識別方法、裝置及相關(guān)介質(zhì)與流程

文檔序號：40610421發(fā)布日期：2025-01-07 20:53閱讀：6來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及文件處理，特別涉及基于pdf文件的段落識別方法、裝置及相關(guān)介質(zhì)。

背景技術(shù)：

1、目前，市面上的pdf編輯器大多采用基于傳統(tǒng)條件識別方法(如if...else...)來劃分pdf文件中的段落。這種基于條件識別的段落劃分技術(shù)對開發(fā)人員的邏輯思維能力要求較高，且其識別效果依賴于段落在文件中的位置排布，當(dāng)段落的排布較為混亂時，會導(dǎo)致該技術(shù)的識別準(zhǔn)確性大幅下降，容易出現(xiàn)錯誤劃分，進(jìn)而影響開發(fā)人員的工作效率。因此，亟需一種新的段落識別方案來提高開發(fā)人員的工作效率。

技術(shù)實現(xiàn)思路

1、本發(fā)明實施例提供了基于pdf文件的段落識別方法、裝置及相關(guān)介質(zhì)，旨在解決現(xiàn)有技術(shù)中的開發(fā)人員識別文件中段落的工作效率低下的問題。

2、第一方面，本發(fā)明實施例提供一種基于pdf文件的段落識別方法，包括：

3、加載pdf文件，并從所述pdf文件中提取所有文字對象，將所述文字對象按順序存儲至文字容器；

4、遍歷所述文字容器中的所述文字對象，得到所有所述文字對象對應(yīng)的基線信息；

5、判斷當(dāng)前所述文字對象的基線信息與上一個所述文字對象的基線信息之間的差距是否滿足組合條件，若滿足，則判定為同一行；

6、將同一行的所述文字對象組合為行對象，并將所述行對象存儲至行容器，直至所有所述文字對象判斷完畢；

7、遍歷所述行容器中的所述行對象，得到所有所述行對象對應(yīng)的基礎(chǔ)參數(shù)；

8、根據(jù)所述基礎(chǔ)參數(shù)計算得到組合參數(shù)，并將所述行對象、基礎(chǔ)參數(shù)和組合參數(shù)傳入訓(xùn)練好的預(yù)測模型進(jìn)行預(yù)測，得到段落；

9、遍歷所述段落中的所述文字對象的文字位置并進(jìn)行拼接，得到對應(yīng)的段落位置。

10、第二方面，本發(fā)明實施例提供一種基于pdf文件的段落識別裝置，包括：

11、數(shù)據(jù)讀取單元，用于加載pdf文件，并從所述pdf文件中提取所有文字對象，將所述文字對象按順序存儲至文字容器；

12、文字遍歷單元，用于遍歷所述文字容器中的所述文字對象，得到所有所述文字對象對應(yīng)的基線信息；

13、數(shù)據(jù)判斷單元，用于判斷當(dāng)前所述文字對象的基線信息與上一個所述文字對象的基線信息之間的差距是否滿足組合條件，若滿足，則判定為同一行；

14、文本合并單元，用于將同一行的所述文字對象組合為行對象，并將所述行對象存儲至行容器，直至所有所述文字對象判斷完畢；

15、行數(shù)遍歷單元，用于遍歷所述行容器中的所述行對象，得到所有所述行對象對應(yīng)的基礎(chǔ)參數(shù)；

16、數(shù)據(jù)預(yù)測單元，用于根據(jù)所述基礎(chǔ)參數(shù)計算得到組合參數(shù)，并將所述行對象、基礎(chǔ)參數(shù)和組合參數(shù)傳入訓(xùn)練好的預(yù)測模型進(jìn)行預(yù)測，得到段落；

17、段落輸出單元，用于遍歷所述段落中的所述文字對象的文字位置并進(jìn)行拼接，得到對應(yīng)的段落位置。

18、第三方面，本發(fā)明實施例提供了一種計算機(jī)設(shè)備，包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機(jī)程序，所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)所述第一方面的基于pdf文件的段落識別方法。

19、第四方面，本發(fā)明實施例提供了一種計算機(jī)可讀存儲介質(zhì)，其中，所述計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)程序，所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)所述第一方面的基于pdf文件的段落識別方法。

20、本發(fā)明實施例提供了一種基于pdf文件的段落識別方法，包括從pdf文件中提取所有文字對象并按順序存儲至文字容器；遍歷文字容器中的文字對象得到基線信息；判斷當(dāng)前基線信息與上一個基線信息之間的差距是否滿足組合條件，若滿足，則判定為同一行；將同一行的文字對象組合為行對象并存儲至行容器；遍歷行容器中的行對象的基礎(chǔ)參數(shù)；根據(jù)基礎(chǔ)參數(shù)計算得到組合參數(shù)，并將行對象、基礎(chǔ)參數(shù)和組合參數(shù)傳入預(yù)測模型預(yù)測得到段落；遍歷段落中的文字位置并進(jìn)行拼接，得到段落位置。本發(fā)明將獲取到的行對象、基礎(chǔ)參數(shù)和組合參數(shù)傳入預(yù)測模型進(jìn)行預(yù)測，得到段落，再將段落中的文字位置進(jìn)行拼接得到最終的段落位置，如此，大大提高開發(fā)人員的工作效率。

21、本發(fā)明實施例還提供一種基于pdf文件的段落識別裝置、計算機(jī)設(shè)備和存儲介質(zhì)，同樣具有上述有益效果。

技術(shù)特征：

1.一種基于pdf文件的段落識別方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的基于pdf文件的段落識別方法，其特征在于，所述加載pdf文件，并從所述pdf文件中提取所有文字對象，將所述文字對象按順序存儲至文字容器，包括：

3.根據(jù)權(quán)利要求1所述的基于pdf文件的段落識別方法，其特征在于，所述判斷當(dāng)前所述文字對象的基線信息與上一個所述文字對象的基線信息之間的差距是否滿足組合條件，若滿足，則判定為同一行，包括：

4.根據(jù)權(quán)利要求1所述的基于pdf文件的段落識別方法，其特征在于，所述將同一行的所述文字對象組合為行對象，并將所述行對象存儲至行容器，直至所有所述文字對象判斷完畢，包括：

5.根據(jù)權(quán)利要求1所述的基于pdf文件的段落識別方法，其特征在于，所述遍歷所述行容器中的所述行對象，得到所有所述行對象對應(yīng)的基礎(chǔ)參數(shù)，包括：

6.根據(jù)權(quán)利要求5所述的基于pdf文件的段落識別方法，其特征在于，所述根據(jù)所述基礎(chǔ)參數(shù)計算得到組合參數(shù)，包括：

7.根據(jù)權(quán)利要求1所述的基于pdf文件的段落識別方法，其特征在于，所述遍歷所述段落中的所述文字對象的文字位置并進(jìn)行拼接，得到對應(yīng)的段落位置，包括：

8.一種基于pdf文件的段落識別裝置，其特征在于，包括：

9.一種計算機(jī)設(shè)備，其特征在于，包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機(jī)程序，所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如權(quán)利要求1-7任一項所述的基于pdf文件的段落識別方法。

10.一種計算機(jī)可讀存儲介質(zhì)，其特征在于，所述計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)程序，所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7任一項所述的基于pdf文件的段落識別方法。

技術(shù)總結(jié)
本發(fā)明公開了基于PDF文件的段落識別方法、裝置及相關(guān)介質(zhì)，該方法包括從PDF文件中提取所有文字對象并按順序存儲至文字容器；遍歷文字容器的文字對象得到基線信息；判斷當(dāng)前基線信息與上一個基線信息之間的差距是否滿足組合條件，若滿足則判定為同一行；將同一行的文字對象組合為行對象并存儲至行容器；遍歷行容器的行對象的基礎(chǔ)參數(shù)；根據(jù)基礎(chǔ)參數(shù)計算得到組合參數(shù)，并將行對象、基礎(chǔ)參數(shù)和組合參數(shù)傳入預(yù)測模型預(yù)測得到段落；遍歷段落中的文字位置并進(jìn)行拼接，得到段落位置。本發(fā)明將獲取到的行對象、基礎(chǔ)參數(shù)和組合參數(shù)傳入預(yù)測模型進(jìn)行預(yù)測，得到段落，再將段落中的文字位置進(jìn)行拼接得到最終的段落位置，如此，大大提高開發(fā)人員的工作效率。

技術(shù)研發(fā)人員：龍逸翔
受保護(hù)的技術(shù)使用者：深圳錦牛科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：龍逸翔
技術(shù)所有人：深圳錦牛科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于PDF文件的段落識別方法、裝置及相關(guān)介質(zhì)與流程

基于PDF文件的段落識別方法、裝置及相關(guān)介質(zhì)與流程