本發(fā)明涉及圖紙排版,具體涉及用于圖紙排版的文本斷句方法及系統(tǒng)。
背景技術:
隨著國際合作日益加強,無論是中國公司還是外國公司,在國際工程與國際科研的立項及開展過程中,都需要通過圖紙文件與對方進行交流。圖紙文件中的注釋內容、公司信息和標注等文本往往需要進行非語法的斷句,由于各種語言文化的差異,這些文本斷句往往也存在極大的區(qū)別,增大了文本斷句的難度。
傳統(tǒng)對圖紙排版中文本的斷句,往往采用人工排版和人工斷句,費時費力,成本較高;同時,對不同語言的圖紙需要不同的工作人員對其進行排版和斷句,極大的降低了圖紙排版效率。
技術實現(xiàn)要素:
本發(fā)明所要解決的技術問題是在圖紙排版中采用人工斷句時,費時費力,成本較高,多語種圖紙文本斷句效率低下,目的在于提供用于圖紙排版的文本斷句方法及系統(tǒng),解決上述問題。
本發(fā)明通過下述技術方案實現(xiàn):
用于圖紙排版的文本斷句方法,包括以下步驟:s1:對完成斷句的句群進行svm學習;s2:利用學習后的svm對需要斷句的句群進行分析;s3:根據分析結果對需要斷句的句群進行斷句。
現(xiàn)有技術中,圖紙排版中采用人工斷句時,費時費力,成本較高,多語種圖紙文本斷句效率低下。本發(fā)明應用時,先對完成斷句的句群進行svm學習,再利用學習后的svm對需要斷句的句群進行分析,然后根據分析結果對需要斷句的句群進行斷句,從而實現(xiàn)對圖紙排版中的文字進行機器斷句,提高了文本斷句效率,降低了成本。對斷句的句群進行機器學習時,由于句群的特征量龐大,使得學習樣本為高維樣本,一般的機器學習方法在這里需要對學習樣本進行降維處理,同時,句群的特征量一般為非線性數據,一般的機器學習方法對非線性問題處理效果不好。針對以上兩個特點,發(fā)明人通過大量實驗和創(chuàng)造性勞動,優(yōu)選出svm作為本發(fā)明的機器學習方法,svm適合解決高維問題,而不需要對學習樣本進行降維處理,提高了文本斷句效率,同時svm適合解決非線性問題,提高了本發(fā)明的處理效果。svm比起其他機器學習方法,還具有小樣本情況下,機器學習的能力,這就使得進行多語種圖紙文本斷句時,只需要增加一個語種的小樣本進行學習,就可以實現(xiàn)對該語種圖紙文本的斷句,提高了多語種圖紙文本斷句的效率。
進一步的,步驟s1包括以下子步驟:s11:收集完成斷句的句群;s12:標記完成斷句的句群中需要提取特征的地方;s13:對標記后句群的特征進行svm學習。
本發(fā)明應用時,先收集完成斷句的句群,再標記完成斷句的句群中需要提取特征的地方,然后對標記后句群的特征進行svm學習。本發(fā)明通過對完成斷句的句群進行標記,提高了提取特征的準確性和效率。
再進一步的,步驟s13中所述svm學習包括利用線性核函數對特征進行處理。
本發(fā)明應用時,所述svm學習包括利用線性核函數對特征進行處理。svm在機器學習的過程中,需要數據是可分的,而句群的特征量在當前維度是不可分的,于是需要通過核函數對該句群的特征量進行升維使得句群的特征量在更高的維度上可分。發(fā)明人選取了線性核函數、多項式核函數、sigmoid核函數和高斯核函數等多種核函數進行大量的實驗和創(chuàng)造性勞動發(fā)現(xiàn),多項式核函數、sigmoid核函數和高斯核函數在機器學習過程中,會使得svm出現(xiàn)過學習現(xiàn)象,從而將線性核函數優(yōu)選為本發(fā)明所使用的核函數,使得svm學習過程更加穩(wěn)定,對文本斷句處理更加準確。
再進一步的,所述svm學習后形成二元分類器。
本發(fā)明應用時,svm學習后形成二元分類器,使得svm在對需要斷句的句群分析時,只需要通過二元分類器將該句群的特征值與學習的特征值進行“是”與“否”的判斷,就可以得出需要斷句的位置,提高了文本斷句效率。
進一步的,步驟s2包括以下子步驟:s21:輸入需要斷句的句群;s22:標記需要斷句的句群中需要提取特征的地方;s23:對標記后句群的特征通過svm進行分析。
本發(fā)明應用時,先輸入需要斷句的句群,再標記需要斷句的句群中需要提取特征的地方,然后對標記后句群的特征通過svm進行分析。本發(fā)明通過對需要斷句的句群進行標記,提高了提取特征的準確性和效率。
用于圖紙排版的文本斷句系統(tǒng),包括:對完成斷句的句群進行svm學習的學習單元;利用學習后的svm對需要斷句的句群進行分析的分析單元;根據分析結果對需要斷句的句群進行斷句的斷句單元。
現(xiàn)有技術中,圖紙排版中采用人工斷句時,費時費力,成本較高,多語種圖紙文本斷句效率低下。本發(fā)明應用時,學習單元對完成斷句的句群進行svm學習,分析單元利用學習后的svm對需要斷句的句群進行分析,斷句單元根據分析結果對需要斷句的句群進行斷句,從而實現(xiàn)對圖紙排版中的文字進行機器斷句,提高了文本斷句效率,降低了成本。對斷句的句群進行機器學習時,由于句群的特征量龐大,使得學習樣本為高維樣本,一般的機器學習方法在這里需要對學習樣本進行降維處理,同時,句群的特征量一般為非線性數據,一般的機器學習方法對非線性問題處理效果不好。針對以上兩個特點,發(fā)明人通過大量實驗和創(chuàng)造性勞動,優(yōu)選出svm作為本發(fā)明的機器學習方法,svm適合解決高維問題,而不需要對學習樣本進行降維處理,提高了文本斷句效率,同時svm適合解決非線性問題,提高了本發(fā)明的處理效果。svm比起其他機器學習方法,還具有小樣本情況下,機器學習的能力,這就使得進行多語種圖紙文本斷句時,只需要增加一個語種的小樣本進行學習,就可以實現(xiàn)對該語種圖紙文本的斷句,提高了多語種圖紙文本斷句的效率。
進一步的,所述分析單元包括:用于輸入需要斷句的句群的輸入模塊;用于標記需要斷句的句群中需要提取特征的地方的標記模塊;用于對標記后句群的特征通過svm進行分析的分析模塊。
本發(fā)明應用時,輸入模塊輸入需要斷句的句群,標記模塊標記需要斷句的句群中需要提取特征的地方,分析模塊對標記后句群的特征通過svm進行分析。本發(fā)明通過對需要斷句的句群進行標記,提高了提取特征的準確性和效率。
本發(fā)明與現(xiàn)有技術相比,具有如下的優(yōu)點和有益效果:
1、本發(fā)明用于圖紙排版的文本斷句方法,通過svm學習,提高了文本斷句效率,降低了成本,提高了多語種圖紙文本斷句的效率;
2、本發(fā)明用于圖紙排版的文本斷句方法,通過將線性核函數優(yōu)選為本發(fā)明所使用的核函數,使得svm學習過程更加穩(wěn)定,對文本斷句處理更加準確;
3、本發(fā)明用于圖紙排版的文本斷句方法,svm學習后形成二元分類器,提高了文本斷句效率;
4、本發(fā)明用于圖紙排版的文本斷句方法,通過對需要斷句的句群進行標記,提高了提取特征的準確性和效率;
5、本發(fā)明用于圖紙排版的文本斷句方法,通過對需要斷句的句群進行標記,提高了提取特征的準確性和效率;
6、本發(fā)明用于圖紙排版的文本斷句系統(tǒng),通過svm學習,提高了文本斷句效率,降低了成本,提高了多語種圖紙文本斷句的效率;
7、本發(fā)明用于圖紙排版的文本斷句系統(tǒng),通過對需要斷句的句群進行標記,提高了提取特征的準確性和效率。
附圖說明
此處所說明的附圖用來提供對本發(fā)明實施例的進一步理解,構成本申請的一部分,并不構成對本發(fā)明實施例的限定。在附圖中:
圖1為本發(fā)明方法步驟示意圖;
圖2為本發(fā)明s1子步驟示意圖;
圖3為本發(fā)明s2子步驟示意圖;
圖4為本發(fā)明系統(tǒng)結構示意圖。
具體實施方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,下面結合實施例和附圖,對本發(fā)明作進一步的詳細說明,本發(fā)明的示意性實施方式及其說明僅用于解釋本發(fā)明,并不作為對本發(fā)明的限定。
實施例1
如圖1所示,用于圖紙排版的文本斷句方法,包括以下步驟:s1:對完成斷句的句群進行svm學習;s2:利用學習后的svm對需要斷句的句群進行分析;s3:根據分析結果對需要斷句的句群進行斷句。
本實施例實施時,先對完成斷句的句群進行svm學習,再利用學習后的svm對需要斷句的句群進行分析,然后根據分析結果對需要斷句的句群進行斷句,從而實現(xiàn)對圖紙排版中的文字進行機器斷句,提高了文本斷句效率,降低了成本。對斷句的句群進行機器學習時,由于句群的特征量龐大,使得學習樣本為高維樣本,一般的機器學習方法在這里需要對學習樣本進行降維處理,同時,句群的特征量一般為非線性數據,一般的機器學習方法對非線性問題處理效果不好。針對以上兩個特點,發(fā)明人通過大量實驗和創(chuàng)造性勞動,優(yōu)選出svm作為本發(fā)明的機器學習方法,svm適合解決高維問題,而不需要對學習樣本進行降維處理,提高了文本斷句效率,同時svm適合解決非線性問題,提高了本發(fā)明的處理效果。svm比起其他機器學習方法,還具有小樣本情況下,機器學習的能力,這就使得進行多語種圖紙文本斷句時,只需要增加一個語種的小樣本進行學習,就可以實現(xiàn)對該語種圖紙文本的斷句,提高了多語種圖紙文本斷句的效率。
實施例2
如圖2所示,本實施例在實施例1的基礎上,步驟s1包括以下子步驟:s11:收集完成斷句的句群;s12:標記完成斷句的句群中需要提取特征的地方;s13:對標記后句群的特征進行svm學習。
本實施例實施時,先收集完成斷句的句群,再標記完成斷句的句群中需要提取特征的地方,然后對標記后句群的特征進行svm學習。本發(fā)明通過對完成斷句的句群進行標記,提高了提取特征的準確性和效率。
實施例3
本實施例在實施例2的基礎上,步驟s13中所述svm學習包括利用線性核函數對特征進行處理。
本實施例實施時,所述svm學習包括利用線性核函數對特征進行處理。svm在機器學習的過程中,需要數據是可分的,而句群的特征量在當前維度是不可分的,于是需要通過核函數對該句群的特征量進行升維使得句群的特征量在更高的維度上可分。發(fā)明人選取了線性核函數、多項式核函數、sigmoid核函數和高斯核函數等多種核函數進行大量的實驗和創(chuàng)造性勞動發(fā)現(xiàn),多項式核函數、sigmoid核函數和高斯核函數在機器學習過程中,會使得svm出現(xiàn)過學習現(xiàn)象,從而將線性核函數優(yōu)選為本發(fā)明所使用的核函數,使得svm學習過程更加穩(wěn)定,對文本斷句處理更加準確。
實施例4
本實施例在實施例3的基礎上,所述svm學習后形成二元分類器。
本實施例實施時,svm學習后形成二元分類器,使得svm在對需要斷句的句群分析時,只需要通過二元分類器將該句群的特征值與學習的特征值進行“是”與“否”的判斷,就可以得出需要斷句的位置,提高了文本斷句效率。
實施例5
如圖3所示,本實施例在實施例1的基礎上,步驟s2包括以下子步驟:s21:輸入需要斷句的句群;s22:標記需要斷句的句群中需要提取特征的地方;s23:對標記后句群的特征通過svm進行分析。
本實施例實施時,先輸入需要斷句的句群,再標記需要斷句的句群中需要提取特征的地方,然后對標記后句群的特征通過svm進行分析。本發(fā)明通過對需要斷句的句群進行標記,提高了提取特征的準確性和效率。
實施例6
本實施例在實施例1~5的基礎上,需要分句的句群為:
圖3臨潼強震臺強震動記錄xi'ancateringco.,ltd.
本實施例實施時,對該句群進行標記,標記后為
圖3臨潼強震臺強震動記錄xi'ancateringco.,ltd.
然后提取特征,對臨潼這個詞提取特征如下:
a)這個詞本身是什么——臨潼
b)前一個詞是數字嗎——是
c)前兩個詞是什么——圖
d)前一個詞是什么——3
e)后一個詞——強
f)當前詞詞性——名詞
g)前一個詞詞性——數詞
h)后一個詞詞性——名詞
對記錄這個詞提取特征如下:
a)這個詞本身是什么——記錄
b)前一個詞是數字嗎——否
c)前兩個詞是什么——強
d)前一個詞是什么——震動
e)后一個詞——xi'an
f)當前詞詞性——名詞
g)前一個詞詞性——名詞
h)后一個詞詞性——名詞
svm學習時,提取的斷句特征為后一個詞為拉丁字母構成的文字,二元分類器對臨潼和記錄這兩個詞分類,結果為臨潼為否,記錄為是,則在記錄后面進行斷句,斷句后的結果為:
圖3臨潼強震臺強震動記錄
xi'ancateringco.,ltd.
實施例7
本實施例在實施例6的基礎上,需要分句的句群為:
綜合資質甲級a141001996號comprehensivegradeaqualificationno.a141001996
本實施例實施時,對該句群進行標記,標記后為
綜合資質甲級a141001996號comprehensivegradeaqualificationno.a141001996
然后提取特征,對甲級這個詞提取特征如下:
a)這個詞本身是什么——甲級
b)前一個詞是數字嗎——否
c)前兩個詞是什么——綜合
d)前一個詞是什么——資質
e)后一個詞——a
f)后兩個詞是什么——141001996
g)當前詞詞性——形容詞
h)前一個詞詞性——名詞
i)后一個詞詞性——字母
對號這個詞提取特征如下:
a)這個詞本身是什么——號
b)前一個詞是數字嗎——是
c)前兩個詞是什么——a
d)前一個詞是什么——141001996
e)后一個詞——comprehensive
f)后兩個詞是什么——grade
g)當前詞詞性——名詞
h)前一個詞詞性——數詞
i)后一個詞詞性——形容詞
svm學習時,提取的斷句特征為后一個詞為拉丁字母構成的文字且后兩個詞也為拉丁字母構成的文字,二元分類器對甲級和號這兩個詞分類,結果為甲級為否,號為是,則在號后面進行斷句,斷句后的結果為:
綜合資質甲級a141001996號
comprehensivegradeaqualificationno.a141001996
實施例8
本實施例在實施例6的基礎上,需要分句的句群為:
5)anchorpanelstobeinstalledandboltedtothestonewallatallhorizontaljoints.6)listelanclestobeextended6'beyondthewindowopeningateachends.
本實施例實施時,對該句群進行標記,標記后為:
5)anchorpanelstobeinstalledandboltedtothestonewallatallhorizontaljoints.6)listelanclestobeextended6'beyondthewindowopeningateachends.
然后提取特征,對installed這個詞提取特征如下:
a)這個詞本身是什么——installed
b)前一個詞是數字嗎——否
c)前兩個詞是什么——to
d)前一個詞是什么——be
e)后一個詞——and
f)后兩個詞是什么——bolted
g)當前詞詞性——形容詞
h)前一個詞詞性——動詞
i)后一個詞詞性——介詞
對第一個.提取特征如下:
a)這個詞本身是什么——.
b)前一個詞是數字嗎——否
c)前兩個詞是什么——horizontal
d)前一個詞是什么——joints
e)后一個詞——6
f)后兩個詞是什么——)
g)當前詞詞性——標點
h)前一個詞詞性——動詞
i)后一個詞詞性——數詞
svm學習時,提取的斷句特征為后一個詞為數詞且后兩個詞為反括號,二元分類器對installed和.這兩個詞分類,結果為installed為否,.為是,則在.后面進行斷句,斷句后的結果為:
5)anchorpanelstobeinstalledandboltedtothestonewallatallhorizontaljoints.
6)listelanclestobeextended6'beyondthewindowopeningateachends.
實施例9
本發(fā)明用于圖紙排版的文本斷句系統(tǒng),包括:對完成斷句的句群進行svm學習的學習單元;利用學習后的svm對需要斷句的句群進行分析的分析單元;根據分析結果對需要斷句的句群進行斷句的斷句單元。
本實施例實施時,學習單元優(yōu)選為ibm公司的asic芯片,斷句單元優(yōu)選為ad8130arm,學習單元對完成斷句的句群進行svm學習,分析單元利用學習后的svm對需要斷句的句群進行分析,斷句單元根據分析結果對需要斷句的句群進行斷句,從而實現(xiàn)對圖紙排版中的文字進行機器斷句,提高了文本斷句效率,降低了成本。對斷句的句群進行機器學習時,由于句群的特征量龐大,使得學習樣本為高維樣本,一般的機器學習方法在這里需要對學習樣本進行降維處理,同時,句群的特征量一般為非線性數據,一般的機器學習方法對非線性問題處理效果不好。針對以上兩個特點,發(fā)明人通過大量實驗和創(chuàng)造性勞動,優(yōu)選出svm作為本發(fā)明的機器學習方法,svm適合解決高維問題,而不需要對學習樣本進行降維處理,提高了文本斷句效率,同時svm適合解決非線性問題,提高了本發(fā)明的處理效果。svm比起其他機器學習方法,還具有小樣本情況下,機器學習的能力,這就使得進行多語種圖紙文本斷句時,只需要增加一個語種的小樣本進行學習,就可以實現(xiàn)對該語種圖紙文本的斷句,提高了多語種圖紙文本斷句的效率。
實施例10
本實施例在實施例9的基礎上,所述分析單元包括:用于輸入需要斷句的句群的輸入模塊;用于標記需要斷句的句群中需要提取特征的地方的標記模塊;用于對標記后句群的特征通過svm進行分析的分析模塊。
本實施例實施時,輸入模塊優(yōu)選為usb2.0,標記模塊優(yōu)選為ad5339arm,分析模塊優(yōu)選為scx-asic,輸入模塊輸入需要斷句的句群,標記模塊標記需要斷句的句群中需要提取特征的地方,分析模塊對標記后句群的特征通過svm進行分析。本發(fā)明通過對需要斷句的句群進行標記,提高了提取特征的準確性和效率。
以上所述的具體實施方式,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施方式而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。