本發(fā)明涉及文件處理,特別涉及基于pdf文件的段落識別方法、裝置及相關(guān)介質(zhì)。
背景技術(shù):
1、目前,市面上的pdf編輯器大多采用基于傳統(tǒng)條件識別方法(如if...else...)來劃分pdf文件中的段落。這種基于條件識別的段落劃分技術(shù)對開發(fā)人員的邏輯思維能力要求較高,且其識別效果依賴于段落在文件中的位置排布,當(dāng)段落的排布較為混亂時,會導(dǎo)致該技術(shù)的識別準(zhǔn)確性大幅下降,容易出現(xiàn)錯誤劃分,進(jìn)而影響開發(fā)人員的工作效率。因此,亟需一種新的段落識別方案來提高開發(fā)人員的工作效率。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例提供了基于pdf文件的段落識別方法、裝置及相關(guān)介質(zhì),旨在解決現(xiàn)有技術(shù)中的開發(fā)人員識別文件中段落的工作效率低下的問題。
2、第一方面,本發(fā)明實施例提供一種基于pdf文件的段落識別方法,包括:
3、加載pdf文件,并從所述pdf文件中提取所有文字對象,將所述文字對象按順序存儲至文字容器;
4、遍歷所述文字容器中的所述文字對象,得到所有所述文字對象對應(yīng)的基線信息;
5、判斷當(dāng)前所述文字對象的基線信息與上一個所述文字對象的基線信息之間的差距是否滿足組合條件,若滿足,則判定為同一行;
6、將同一行的所述文字對象組合為行對象,并將所述行對象存儲至行容器,直至所有所述文字對象判斷完畢;
7、遍歷所述行容器中的所述行對象,得到所有所述行對象對應(yīng)的基礎(chǔ)參數(shù);
8、根據(jù)所述基礎(chǔ)參數(shù)計算得到組合參數(shù),并將所述行對象、基礎(chǔ)參數(shù)和組合參數(shù)傳入訓(xùn)練好的預(yù)測模型進(jìn)行預(yù)測,得到段落;
9、遍歷所述段落中的所述文字對象的文字位置并進(jìn)行拼接,得到對應(yīng)的段落位置。
10、第二方面,本發(fā)明實施例提供一種基于pdf文件的段落識別裝置,包括:
11、數(shù)據(jù)讀取單元,用于加載pdf文件,并從所述pdf文件中提取所有文字對象,將所述文字對象按順序存儲至文字容器;
12、文字遍歷單元,用于遍歷所述文字容器中的所述文字對象,得到所有所述文字對象對應(yīng)的基線信息;
13、數(shù)據(jù)判斷單元,用于判斷當(dāng)前所述文字對象的基線信息與上一個所述文字對象的基線信息之間的差距是否滿足組合條件,若滿足,則判定為同一行;
14、文本合并單元,用于將同一行的所述文字對象組合為行對象,并將所述行對象存儲至行容器,直至所有所述文字對象判斷完畢;
15、行數(shù)遍歷單元,用于遍歷所述行容器中的所述行對象,得到所有所述行對象對應(yīng)的基礎(chǔ)參數(shù);
16、數(shù)據(jù)預(yù)測單元,用于根據(jù)所述基礎(chǔ)參數(shù)計算得到組合參數(shù),并將所述行對象、基礎(chǔ)參數(shù)和組合參數(shù)傳入訓(xùn)練好的預(yù)測模型進(jìn)行預(yù)測,得到段落;
17、段落輸出單元,用于遍歷所述段落中的所述文字對象的文字位置并進(jìn)行拼接,得到對應(yīng)的段落位置。
18、第三方面,本發(fā)明實施例提供了一種計算機(jī)設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)所述第一方面的基于pdf文件的段落識別方法。
19、第四方面,本發(fā)明實施例提供了一種計算機(jī)可讀存儲介質(zhì),其中,所述計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)所述第一方面的基于pdf文件的段落識別方法。
20、本發(fā)明實施例提供了一種基于pdf文件的段落識別方法,包括從pdf文件中提取所有文字對象并按順序存儲至文字容器;遍歷文字容器中的文字對象得到基線信息;判斷當(dāng)前基線信息與上一個基線信息之間的差距是否滿足組合條件,若滿足,則判定為同一行;將同一行的文字對象組合為行對象并存儲至行容器;遍歷行容器中的行對象的基礎(chǔ)參數(shù);根據(jù)基礎(chǔ)參數(shù)計算得到組合參數(shù),并將行對象、基礎(chǔ)參數(shù)和組合參數(shù)傳入預(yù)測模型預(yù)測得到段落;遍歷段落中的文字位置并進(jìn)行拼接,得到段落位置。本發(fā)明將獲取到的行對象、基礎(chǔ)參數(shù)和組合參數(shù)傳入預(yù)測模型進(jìn)行預(yù)測,得到段落,再將段落中的文字位置進(jìn)行拼接得到最終的段落位置,如此,大大提高開發(fā)人員的工作效率。
21、本發(fā)明實施例還提供一種基于pdf文件的段落識別裝置、計算機(jī)設(shè)備和存儲介質(zhì),同樣具有上述有益效果。
1.一種基于pdf文件的段落識別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于pdf文件的段落識別方法,其特征在于,所述加載pdf文件,并從所述pdf文件中提取所有文字對象,將所述文字對象按順序存儲至文字容器,包括:
3.根據(jù)權(quán)利要求1所述的基于pdf文件的段落識別方法,其特征在于,所述判斷當(dāng)前所述文字對象的基線信息與上一個所述文字對象的基線信息之間的差距是否滿足組合條件,若滿足,則判定為同一行,包括:
4.根據(jù)權(quán)利要求1所述的基于pdf文件的段落識別方法,其特征在于,所述將同一行的所述文字對象組合為行對象,并將所述行對象存儲至行容器,直至所有所述文字對象判斷完畢,包括:
5.根據(jù)權(quán)利要求1所述的基于pdf文件的段落識別方法,其特征在于,所述遍歷所述行容器中的所述行對象,得到所有所述行對象對應(yīng)的基礎(chǔ)參數(shù),包括:
6.根據(jù)權(quán)利要求5所述的基于pdf文件的段落識別方法,其特征在于,所述根據(jù)所述基礎(chǔ)參數(shù)計算得到組合參數(shù),包括:
7.根據(jù)權(quán)利要求1所述的基于pdf文件的段落識別方法,其特征在于,所述遍歷所述段落中的所述文字對象的文字位置并進(jìn)行拼接,得到對應(yīng)的段落位置,包括:
8.一種基于pdf文件的段落識別裝置,其特征在于,包括:
9.一種計算機(jī)設(shè)備,其特征在于,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如權(quán)利要求1-7任一項所述的基于pdf文件的段落識別方法。
10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7任一項所述的基于pdf文件的段落識別方法。