两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

分詞處理方法及裝置、電子設(shè)備與流程

文檔序號:12550657閱讀:133來源:國知局
分詞處理方法及裝置、電子設(shè)備與流程

本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,具體而言,涉及一種分詞處理方法及裝置、電子設(shè)備。



背景技術(shù):

在漢語中,詞是最小的能夠獨(dú)立活動的、有意義的語言成分。而在漢語中由于詞與詞之間不存在分隔符,詞本身也缺乏明顯的形態(tài)標(biāo)記,因此在對中文文本進(jìn)行分析時,中文分詞是一項基本技術(shù),是后續(xù)其他各項分析的基礎(chǔ)。而由于不同的分詞粒度,其表意能力不一樣,因此針對不同的中文文本分析,分詞粒度對分析的準(zhǔn)確性起到了關(guān)鍵作用。

目前,隨著電子商務(wù)的蓬勃發(fā)展,各電商平臺的商品評論信息越來越多。在對評論進(jìn)行分析時,同樣需要進(jìn)行分詞,而不同的分詞粒度則會影響對例如評論屬性詞、評論詞等的分析能力。

目前的分詞處理技術(shù)較依賴人工,不夠智能和靈活,有些自動處理的準(zhǔn)確度較低,難以實現(xiàn)預(yù)期的分詞粒度。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明提供一種分詞處理方法及裝置、電子設(shè)備,適用于評論信息分析,能夠達(dá)到更大的分詞粒度,有效提升對反映評論內(nèi)容的詞(例如基本屬性詞、評論詞等)的分析能力,具備智能性和靈活性。

本發(fā)明的其他特性和優(yōu)點(diǎn)將通過下面的詳細(xì)描述變得顯然,或部分地通過本發(fā)明的實踐而習(xí)得。

根據(jù)本發(fā)明的一方面,提供一種分詞處理方法,包括:

在已進(jìn)行分詞處理后的文本中,確定反映評論內(nèi)容的詞;

在確定所述反映評論內(nèi)容的詞與鄰近所述反映評論內(nèi)容的詞的詞之間滿足預(yù)定關(guān)系的情況下,將所述反映評論內(nèi)容的詞與所述鄰近所述反 映評論內(nèi)容的詞的詞合并反映評論內(nèi)容反映評論內(nèi)容反映評論內(nèi)容反映評論內(nèi)容。

另外,本發(fā)明還提供一種分詞處理裝置,其包括:

詞確定模塊,用于在已進(jìn)行分詞處理后的文本中確定反映評論內(nèi)容的詞;

合并模塊,用于在所述反映評論內(nèi)容的詞與鄰近所述反映評論內(nèi)容的詞的詞之間滿足預(yù)定關(guān)系的情況下,將所述反映評論內(nèi)容的詞與所述鄰近所述反映評論內(nèi)容的詞的詞合并反映評論內(nèi)容反映評論內(nèi)容反映評論內(nèi)容反映評論內(nèi)容。

此外,本發(fā)明還提供一種電子設(shè)備,包括:

處理器;以及

存儲器,其上存儲有可在所述處理器上運(yùn)行的計算機(jī)程序;

所述處理器執(zhí)行所述計算機(jī)程序以實現(xiàn)如上文所述的方法的步驟。

本發(fā)明還提供一種計算機(jī)可讀存儲介質(zhì),存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上文所述方法的步驟。

根據(jù)本發(fā)明實施方式的分詞處理方法及裝置以及電子設(shè)備,可自動確定反映評論內(nèi)容的詞,并在此基礎(chǔ)上通過預(yù)定關(guān)系的校驗,來自動判斷是否將該詞與鄰近的詞合并,使得進(jìn)行合并處理之后的文本能夠達(dá)到更大的分詞粒度,具備智能性和靈活性,能夠達(dá)到較高的準(zhǔn)確度。

應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性的,并不能限制本發(fā)明。

附圖說明

通過參照附圖詳細(xì)描述其示例實施例,本發(fā)明的上述和其它目標(biāo)、特征及優(yōu)點(diǎn)將變得更加顯而易見。

圖1是根據(jù)一示例性實施方式示出的一種分詞處理方法的流程圖。

圖2是根據(jù)一示例性實施方式示出的一種分詞處理方法的流程圖。

圖3是根據(jù)一示例性實施方式示出的一種分詞處理方法的流程圖。

圖4是根據(jù)一示例性實施方式示出的一種分詞處理方法的原理示意圖。

圖5A是根據(jù)一示例性實施方式示出的一種分詞處理方法的流程圖。

圖5B是根據(jù)一示例性實施方式示出的一種分詞處理方法的流程圖。

圖6A是根據(jù)一示例性實施方式示出的一種分詞處理方法的流程圖。

圖6B是根據(jù)一示例性實施方式示出的一種分詞處理方法的流程圖。

圖6C是根據(jù)一示例性實施方式示出的一種分詞處理方法的原理示意圖。

圖7A是根據(jù)一示例性實施方式示出的一種分詞處理方法的流程圖。

圖7B是根據(jù)一示例性實施方式示出的一種分詞處理方法的流程圖。

圖7C及圖7D是根據(jù)一示例性實施方式示出的一種分詞處理方法的原理示意圖。

圖8A是根據(jù)一示例性實施方式示出的一種分詞處理方法的流程圖。

圖8B是根據(jù)一示例性實施方式示出的一種分詞處理方法的流程圖。

圖9是根據(jù)一示例性實施方式示出的一種分詞處理裝置的框圖。

圖10是根據(jù)一示例性實施方式示出的一種分詞處理裝置的框圖。

圖11是根據(jù)一示例性實施方式示出的一種分詞處理裝置的框圖。

圖12A是根據(jù)一示例性實施方式示出的一種分詞處理裝置的框圖。

圖12B是根據(jù)一示例性實施方式示出的一種分詞處理裝置的框圖。

圖13是根據(jù)一示例性實施方式示出的一種電子設(shè)備的框圖。

具體實施方式

現(xiàn)在將參考附圖更全面地描述示例實施方式。然而,示例實施方式能夠以多種形式實施,且不應(yīng)被理解為限于在此闡述的范例;相反,提供這些實施方式使得本發(fā)明將更加全面和完整,并將示例實施方式的構(gòu)思全面地傳達(dá)給本領(lǐng)域的技術(shù)人員。附圖僅為本發(fā)明的示意性圖解,并非一定是按比例繪制。圖中相同的附圖標(biāo)記表示相同或類似的部分,因而將省略對它們的重復(fù)描述。

此外,所描述的特征、結(jié)構(gòu)或特性可以以任何合適的方式結(jié)合在一個或更多實施方式中。在下面的描述中,提供許多具體細(xì)節(jié)從而給出對本發(fā)明的實施方式的充分理解。然而,本領(lǐng)域技術(shù)人員將意識到,可以實踐本發(fā)明的技術(shù)方案而省略所述特定細(xì)節(jié)中的一個或更多,或者可以采用其它的方法、組元、裝置、步驟等。在其它情況下,不詳細(xì)示出或描述公知結(jié)構(gòu)、方法、裝置、實現(xiàn)或者操作以避免喧賓奪主而使得本發(fā)明的各方面變得模糊。

圖1是根據(jù)本發(fā)明實施方式示出的一種分詞處理方法的流程圖。在本發(fā)明實施方式中,分詞處理方法可包括:

步驟S1:在已進(jìn)行分詞處理后的文本中,確定反映評論內(nèi)容的詞。

在本發(fā)明實施方式中,先提取出能反映評論內(nèi)容的詞。反映評論內(nèi)容的詞一般指評論的句子中表達(dá)最核心內(nèi)容的詞。以外賣平臺的用戶評論內(nèi)容為例,某用戶的評論為“外賣的配送速度值得信賴”,其中反映評論內(nèi)容的詞可以是“速度”、“信賴”,因為“速度”是評論的主體,“信賴”是用戶的核心觀點(diǎn)。而“外賣”、“配送”都是修飾“速度”的,“值得”只是作為能愿動詞與“依賴”構(gòu)成詞組的,都不能反映評論內(nèi)容的核心內(nèi)容。對于一家外賣平臺,其用戶評論會呈現(xiàn)一定的統(tǒng)計規(guī)律性,例如“速度”、“環(huán)境”、“態(tài)度”、“服務(wù)”等評論主體出現(xiàn)的頻率較高,因此反映評論內(nèi)容的詞可以是一個預(yù)定的集,用于在某個已進(jìn)行分詞處理后的文本中確定反映評論內(nèi)容的詞。當(dāng)然,確定反映評論內(nèi)容的詞的方法并不局限于此。

步驟S3:在確定反映評論內(nèi)容的詞與鄰近該反映評論內(nèi)容的詞的詞之間滿足預(yù)定關(guān)系的情況下,將反映評論內(nèi)容的詞與鄰近該反映評論內(nèi)容的詞的詞合并。

在本發(fā)明實施方式中,提取出能反映評論內(nèi)容的詞之后,如果檢測該詞與鄰近的詞的關(guān)系滿足預(yù)定關(guān)系,例如滿足語法關(guān)系、詞性搭配關(guān)系等,則可以進(jìn)行合并處理,即相較于合并前形成更大分詞粒度的文本。如此,可提升機(jī)機(jī)器或系統(tǒng)的智能化處理水平及處理的靈活度,且提升合并的準(zhǔn)確度。

“分詞粒度”是一個計算語言學(xué)術(shù)語,即一個中文詞包含漢字的個數(shù),例如“速度”的分詞粒度為2,“配送速度”的分詞粒度為4??梢岳斫?,以某詞為基礎(chǔ),隨著合并及分詞粒度的增大,其表達(dá)的含義也更加確切,有助于對評論內(nèi)容進(jìn)行進(jìn)一步分析及處理。

圖2是根據(jù)本發(fā)明實施方式示出的另一種分詞處理方法的流程圖。該方法與圖1所示的方法相比還包括判斷步驟S2。具體如下:

在步驟S1中,確定反映評論內(nèi)容的詞。

在步驟S2中,確定反映評論內(nèi)容的詞與鄰近所述反映評論內(nèi)容的詞的詞之間是否滿足預(yù)定關(guān)系。

如果在步驟S2中確定反映評論內(nèi)容的詞與鄰近反映評論內(nèi)容的詞的詞之間滿足預(yù)定關(guān)系,則執(zhí)行步驟S3。如果在步驟S2中確定反映評論內(nèi)容的詞與鄰近反映評論內(nèi)容的詞的詞之間不滿足預(yù)定關(guān)系,則說明反映評論內(nèi)容的詞語鄰近反映評論內(nèi)容的詞的詞不適合合并,因而可以不進(jìn)行合并操作。

在步驟S3中,將反映評論內(nèi)容的詞與鄰近反映評論內(nèi)容的詞的詞合并。

請參閱圖3及圖4,在某些實施方式中,在步驟S1之前可以先對文本進(jìn)行分詞處理,分詞處理的步驟可包括:

步驟S5,對文本進(jìn)行切詞。通過切詞可以將文本分割為相較于切詞前粒度更小的多個小粒度詞。

步驟S6,對切詞后的文本中的詞進(jìn)行詞性標(biāo)注以及依存句法標(biāo)注。例如,可以對進(jìn)行切詞處理后得到的多個小粒度詞進(jìn)行詞性標(biāo)注以及依存句法標(biāo)注。

請參閱圖4,首先可以對文本進(jìn)行分割,即形成最基本單元的小粒度詞,然后對其進(jìn)行詞性標(biāo)注及依存句法標(biāo)注。詞性標(biāo)注及依存句法標(biāo)注 是后續(xù)處理的基礎(chǔ)。例如步驟S2中的校驗,可包括校驗是否滿足預(yù)定句法依存關(guān)系和/或是否滿足預(yù)定詞性模式,該步驟就是以詞性標(biāo)注及依存句法標(biāo)注為基礎(chǔ)和前提的。例如,對于文本中的一個評論“配送速度令人贊嘆”,“配送”與“速度”構(gòu)成修飾關(guān)系(ATT),“配送”為動詞(v),“速度”為名詞(n),這些都進(jìn)行標(biāo)注。除了修飾關(guān)系外,還有可以由兼語(DBL)關(guān)系、動賓關(guān)系(VOB)等,詞性標(biāo)注也可包括除名詞、動詞外的其他詞性,在此不一一列舉。關(guān)于詞性標(biāo)注及依存句法標(biāo)注,本領(lǐng)域技術(shù)人員可以依據(jù)相關(guān)的自然語言處理技術(shù)實現(xiàn),本申請對此沒有特殊限制。

在某些實施方式中,步驟S2中鄰近反映評論內(nèi)容的詞的詞可包括與反映評論內(nèi)容的詞相鄰的詞。

“相鄰”可以是“鄰近”的一種基本情況,也是一種常見的情況。以用戶評論“外賣的配送速度值得信賴”為例,與“速度”相鄰的詞可包括“配送”、“值得”,即前相鄰與后相鄰兩種情況。其中,可以預(yù)設(shè)“相鄰”是前相鄰還是后相鄰,例如預(yù)設(shè)為前相鄰,即將“速度”作為后綴,與“配送”相搭配。以下以描述“相鄰”的情況為主,然而本發(fā)明的“鄰近”并不局限于“相鄰”這一種情況。在有的情況下,反映評論內(nèi)容的詞與其鄰近的詞之間可能存在一些虛詞,例如,句子“外賣的配送的速度值得信賴”中,“配送”和“速度”之間存在“的”,“的”是一種助詞,屬于虛詞的一種,在這種情況下,可以先檢測及剔除類似“的”、“之”、“啊”、“呢”等虛詞,再進(jìn)行后續(xù)步驟。

參閱圖5A,在某些實施方式中,步驟S2中滿足預(yù)定關(guān)系可包括符合預(yù)定句法依存關(guān)系。具體而言,步驟S2可包括:

S201,確定反映評論內(nèi)容的詞與反映評論內(nèi)容的詞相鄰的詞之間是否滿足預(yù)定句法依存關(guān)系。若滿足,則可以判定滿足預(yù)定關(guān)系,繼續(xù)執(zhí)行步驟S3。

也就是說,判斷反映評論內(nèi)容的詞與其相鄰的詞是否滿足預(yù)定句法依存關(guān)系,若滿足,則可以執(zhí)行合并處理。

依存句法是由法國語言學(xué)家L.Tesniere最先提出。它將句子分析成一棵依存句法樹,描述出各個詞語之間的依存關(guān)系。也即指出了詞語之間 在句法上的搭配關(guān)系,這種搭配關(guān)系是和語義相關(guān)聯(lián)的。

采用對預(yù)定句法依存關(guān)系的分析,可將具有預(yù)定搭配關(guān)系的詞進(jìn)行合并,這種識別與合并較為靈活和智能化。例如,確定了反映評論內(nèi)容的詞“速度”,然而可與速度搭配的詞很多,像配送速度、送餐速度、制作速度、服務(wù)速度等等,用戶會根據(jù)自己的語言習(xí)慣采用不同的與速度搭配的詞,因此,與“速度”搭配的詞是一個開放的集。然而,與“速度”的搭配具有一定的規(guī)律,例如,都滿足修飾關(guān)系(ATT)。因此,本實施方式的思路是通過把握該規(guī)律來識別或篩選得到合適的搭配,只要滿足預(yù)定的句法依存關(guān)系即可,而不管與“速度”搭配的具體是什么詞。如此,使本申請的方法具有較好的智能化水平和靈活度,可得到良好的合并結(jié)果。

進(jìn)一步地,請參閱圖5B,在某些實施方式中,步驟S2中滿足預(yù)定關(guān)系還可包括符合預(yù)定詞性模式。即步驟S2還可包括:

S202,確定反映評論內(nèi)容的詞與反映評論內(nèi)容的詞相鄰的詞之間是否滿足預(yù)定詞性模式。

結(jié)合S201,若反映評論內(nèi)容的詞與與反映評論內(nèi)容的詞相鄰的詞之間同時滿足預(yù)定句法依存關(guān)系及預(yù)定詞性模式,即判定為滿足預(yù)定關(guān)系。

若步驟S201的判斷結(jié)果為否,則可以確定反映評論內(nèi)容的詞與反映評論內(nèi)容的詞相鄰的詞之間不滿足預(yù)定關(guān)系,因此可以不進(jìn)行合并處理。

進(jìn)一步而言,若步驟S202的判斷結(jié)果為否,則可以確定反映評論內(nèi)容的詞與反映評論內(nèi)容的詞相鄰的詞之間不滿足預(yù)定關(guān)系,因此可以不進(jìn)行合并處理。

在利用句法依存關(guān)系進(jìn)行識別、篩選的基礎(chǔ)上,可同時用詞性模式進(jìn)一步進(jìn)行識別和篩選,即,必須同時滿足預(yù)定句法依存關(guān)系和預(yù)定詞性模式才能通過校驗。如此,預(yù)定詞性模式相當(dāng)于一個進(jìn)一步的校驗手段,能進(jìn)一步提升識別及篩選的準(zhǔn)確度。

在圖5B中,進(jìn)行了步驟S201的判斷之后繼續(xù)進(jìn)行步驟S202的判斷,是一種雙重判斷方式,能夠提高粒度定制的準(zhǔn)確度。在一個實施例中,也可以只進(jìn)行步驟S202的判斷,而不進(jìn)行步驟S201的判斷。也就是說,本申請中是否符合預(yù)定關(guān)系的判斷可以包括是否符合預(yù)定句法依存關(guān)系 的判斷和/或是否符合預(yù)定詞性模式的判斷。

關(guān)于句法依存關(guān)系的校驗及詞性模式的校驗,以下會有更詳細(xì)的示例性說明。

在某些實施方式中,步驟S1中確定反映評論內(nèi)容的詞可包括確定反映評論內(nèi)容的基本屬性詞?;緦傩栽~,可以指評論的對象,例如,對于文本“外賣的配送速度值得信賴”而言,“速度”就是基本屬性詞,文本“大堂環(huán)境非常干凈”而言,“環(huán)境”就是基本屬性詞。以下將針對基本屬性詞進(jìn)行關(guān)于句法依存關(guān)系驗證的詳細(xì)說明。

請參閱圖6A,在該實施例中,滿足預(yù)定關(guān)系可包括符合預(yù)定句法依存關(guān)系;基本屬性詞對應(yīng)的預(yù)定句法依存關(guān)系可包括:基本屬性詞與位于基本屬性詞之前且相鄰的詞具有修飾關(guān)系。

即步驟S201可實現(xiàn)為:

步驟S201a,確定基本屬性詞與位于基本屬性詞之前且相鄰的詞是否滿足具有修飾關(guān)系。若滿足,則在步驟S2中判定為滿足。

例如,請參閱圖6C,文本為“AA外賣的配送速度真是值得肯定”,其中AA可以是某外賣品牌名。首先進(jìn)行分詞處理,并確定反映評論內(nèi)容的基本屬性詞“速度”。然后,確定“速度”與前相鄰的詞是否滿足修飾關(guān)系(ATT),而不用管這個前相鄰的詞具體是什么詞。例如,“配送速度”、“送餐速度”、“外賣速度”、“騎手速度”等,均滿足該修飾關(guān)系的條件(圖6C中的示例為“配送速度”),即通過校驗,可進(jìn)行合并。合并形成的詞組或短語能表達(dá)更確切的含義,從而方便后續(xù)處理。

請參閱圖6B,在該實施例中,基本屬性詞對應(yīng)的詞性模式可包括:位于基本屬性詞之前且相鄰的詞,與基本屬性詞構(gòu)成動詞加修飾名詞模式或名詞加修飾名詞模式。

即,S202可實現(xiàn)為:

步驟S202a,確定基本屬性詞與位于基本屬性詞之前且相鄰的詞是否具有預(yù)定詞性模式,其中預(yù)定詞性模式可包括動詞加名詞模式或名詞加名詞模式。若步驟S201a及步驟S202a的判斷結(jié)果均為滿足,則可以確定反映評論內(nèi)容的詞與鄰近所述反映評論內(nèi)容的詞的詞之間滿足預(yù)定關(guān)系。

參閱圖6C,也就是說,在同時滿足修飾關(guān)系及預(yù)定詞性模式的情況下可以確定反映評論內(nèi)容的詞與鄰近所述反映評論內(nèi)容的詞的詞之間滿足預(yù)定關(guān)系??梢岳斫猓瑒釉~加名詞模式指作為后綴的基本屬性詞為名詞,且基本屬性詞之前的詞為動詞。例如,“配送”、“送餐”均為動詞,“配送速度”、“送餐速度”即滿足該動詞加名詞模式。而名詞加名詞模式即作為后綴的基本屬性詞為名詞,且基本屬性詞之前的詞為名詞。例如,“外賣”、“騎手”為名詞,“外賣速度”、“騎手速度”即滿足該名詞加名詞模式。上述兩個模式滿足其一即可,再同時滿足修飾關(guān)系的條件,即通過校驗,可進(jìn)行步驟S3的合并。圖6C示例為“配送速度”,滿足動詞加名詞模式,因此通過校驗。當(dāng)然,本實施方式中的動詞加名詞模式或名詞加名詞模式僅是示例性的,本發(fā)明中提到的預(yù)定詞性模式并不局限于上述兩種詞性校驗?zāi)J健?/p>

在判斷某詞的詞性時,可采用與預(yù)定詞庫相比對的方法。例如,預(yù)設(shè)動詞詞庫,該動詞詞庫中錄入有評價內(nèi)容中常見的動詞,例如“配送”、“送餐”、“服務(wù)”等,將待判斷的詞與該動詞詞庫的詞相比對,若待判斷的詞屬于該動詞詞庫,即可判定該待判斷的詞為動詞。

此外,可預(yù)設(shè)詞性更為具體的詞庫,例如能愿動詞詞庫,該能愿動詞詞庫中錄入有評價內(nèi)容中常見的能愿動詞,例如“令人”、“有待”等,將待判斷的詞與該能愿動詞詞庫的詞相比對,若待判斷的詞屬于該能愿動詞詞庫,即可判定該待判斷的詞為能愿動詞。如此,可對待判斷的詞的詞性進(jìn)行更為細(xì)致的判斷。由于評價內(nèi)容中常見的能愿動詞是有限的,因此采用與預(yù)定詞庫相比對是一種方便、適宜的判斷詞性的方法。

當(dāng)然,與預(yù)定詞庫相比對以判斷詞性的方法并不局限于應(yīng)用于上述例子中的動詞、能愿動詞,還可應(yīng)用于名詞、兼語名詞、使令動詞等。

經(jīng)過修飾關(guān)系及詞性模式的雙重校驗,可得到更準(zhǔn)確或更符合預(yù)期的合并結(jié)果。

反映評論內(nèi)容的詞除了基本屬性詞之外,在某些實施方式中,還可以是反映用戶觀點(diǎn)的評價詞。評價詞,即體現(xiàn)用戶好惡觀點(diǎn)的詞,例如,經(jīng)分詞處理的文本“AA外賣的配送速度真是值得肯定”中,可確定“肯定”為評價詞。以下將針對評價詞進(jìn)行關(guān)于句法依存關(guān)系驗證的詳細(xì)說 明。

請參閱圖7A,在該實施例中,確定反映評論內(nèi)容的詞包括:確定反映用戶觀點(diǎn)的評價詞。評價詞對應(yīng)的預(yù)定句法依存關(guān)系可包括:評價詞與位于評價詞之前且相鄰的詞具有動賓結(jié)構(gòu)關(guān)系或兼語加動賓關(guān)系。

即步驟S201可實現(xiàn)為:

步驟S201b,確定基本屬性詞與位于基本屬性詞之前且相鄰的詞是否滿足具有動賓結(jié)構(gòu)關(guān)系或兼語加動賓關(guān)系。若滿足,則可以確定反映評論內(nèi)容的詞與鄰近所述反映評論內(nèi)容的詞的詞之間滿足預(yù)定關(guān)系。

例如,請參閱圖7C和圖7D,文本為“AA外賣的配送速度真是值得肯定”,首先進(jìn)行了分詞處理,并確定反映評論內(nèi)容的評價詞“肯定”。然后,確定“肯定”與前相鄰的詞是否滿足動賓結(jié)構(gòu)(VOB)關(guān)系或兼語(DBL)加動賓(VOB)關(guān)系。例如,“值得肯定”滿足動賓結(jié)構(gòu)關(guān)系,即通過校驗。又如,請參閱圖7D,“令人贊嘆”滿足兼語加動賓關(guān)系,即通過校驗。通過校驗后可進(jìn)行步驟S3的合并。合并形成的詞組或短語能表達(dá)更確切的含義,從而方便后續(xù)處理。

進(jìn)一步的,步驟S2中滿足預(yù)定關(guān)系還可包括符合預(yù)定詞性模式。在該實施例中,步驟S202可包括步驟S202b和步驟S202c。

在步驟S202b中,若評價詞與位于評價詞之前且相鄰的詞具有動賓結(jié)構(gòu)關(guān)系,判斷詞性模式是否滿足位于評價詞之前且相鄰的詞與評價詞構(gòu)成能愿動詞加動詞模式,若是,判定滿足預(yù)定關(guān)系。

在步驟S202c中,若評價詞與位于評價詞之前且相鄰的詞具有兼語加動賓關(guān)系,判斷詞性模式是否滿足位于評價詞之前且相鄰的詞與評價詞構(gòu)成使令動詞加兼語名詞加動詞模式,若是,判定滿足預(yù)定關(guān)系。

請一并參閱圖7C,也就是說,步驟S201b中的不同句法依存關(guān)系對應(yīng)相應(yīng)的詞性模式。例如,“值得肯定”滿足動賓結(jié)構(gòu)關(guān)系,同時,“值得”為能愿動詞(v),“肯定”為動詞(v),因此“值得肯定”也構(gòu)成能愿動詞加動詞模式,如此,兩個條件都能滿足,因此,判定“值得肯定”滿足預(yù)定關(guān)系,即通過校驗。又如,請參閱圖7D,“令人贊嘆”滿足兼語加動賓關(guān)系,同時,“令”為使令動詞(v),“人”為兼語名詞(n),“贊嘆”為動詞(v),因此,“令人贊嘆”也滿足使令動詞加兼語名詞加 動詞模式,兩個條件均滿足,因此,判定“令人贊嘆”滿足預(yù)定關(guān)系,即通過校驗。當(dāng)然,本實施方式中的能愿動詞加動詞模式或使令動詞加兼語名詞加動詞模式僅是示例性的,本發(fā)明中提到的針對評價詞的預(yù)定詞性模式并不局限于上述兩種詞性校驗?zāi)J健?/p>

其中,區(qū)分動詞與能愿動詞的方法可參照上述與預(yù)定詞庫相比對的方法。例如預(yù)設(shè)能愿動詞詞庫,錄入常見的能愿動詞,用于判斷待判斷的詞是否是能愿動詞。在此不再贅述。

此外,本發(fā)明的反映評論內(nèi)容的詞并不局限于基本屬性詞或評價詞,基本屬性詞的預(yù)定關(guān)系也并不局限于句法依存關(guān)系或預(yù)定詞性模式。

請參閱圖8A,步驟S1中反映評論內(nèi)容的詞的確定,可通過以下方式。在某些實施方式中,步驟S1中確定反映評論內(nèi)容的詞可包括:

步驟S103,建立評價詞庫;

步驟S104,將文本中的詞與評價詞庫中的詞相比對以確定文本中的詞是否為反映評論內(nèi)容的詞。

對于某一外賣平臺,用戶關(guān)注的內(nèi)容及用戶的評論對象會呈現(xiàn)一定的統(tǒng)計規(guī)律,例如,“速度”、“環(huán)境”、“服務(wù)”等屬于常見的及有參考價值的基本屬性詞,而“信賴”、“贊嘆”、“肯定”、“不錯”等屬于常見及有參考價值的評價詞。因此,可建立評價詞庫預(yù)先將這些容易出現(xiàn)且有參考價值的詞錄入,分析某一具體文本時,將文本中的詞與評價詞庫中的詞相比對以確定文本中的詞是否為反映評論內(nèi)容的詞。

如此,可再結(jié)合句法依存關(guān)系或詞性分析等,最終確定反映評論內(nèi)容的詞,因為,若僅僅滿足屬于詞庫,并不一定滿足屬于評價句子中的評論對象或評價內(nèi)容,也有可能是用戶隨意發(fā)表的一些無關(guān)內(nèi)容。因此,可結(jié)合詞庫及對句子的分析,綜合做出判斷某詞是否是反映評論內(nèi)容的詞。

詞庫的建立可參考以下兩種方式,然而本發(fā)明并不局限于以下兩種方式。

第一種方式是人工建立,即根據(jù)人工輸入建立評價詞庫。例如人工對過往的用戶評論進(jìn)行統(tǒng)計分析,選出常見及有參考價值的詞納入評價詞庫。

另一種方式為系統(tǒng)自動建立及自動完善。請參閱圖8B,在某些實施方式中,步驟S103中建立評價詞庫可包括:

步驟S1031,統(tǒng)計多個文本中各詞的出現(xiàn)次數(shù)或頻率;

步驟S1032,在次數(shù)或頻率大于預(yù)定值時將該詞納入評價詞庫。

系統(tǒng)可統(tǒng)計過去評論文本中出現(xiàn)的各詞的頻率,篩選出現(xiàn)次數(shù)或頻率較高的詞作為目標(biāo)評價屬性詞或目標(biāo)評價詞并錄入對應(yīng)的詞庫。例如,系統(tǒng)檢測到詞性為名詞的詞中,“速度”出現(xiàn)的頻率高于預(yù)定頻率,即將“速度”錄入目標(biāo)評價屬性詞的詞庫。

上述兩種方式也可結(jié)合運(yùn)用,例如先人工建立,再自動完善。又如建立后既可人工完善也可自動完善,例如,以系統(tǒng)自動識別錄入為主,但人工可進(jìn)行修改,例如刪除系統(tǒng)誤識別的,和/或增加系統(tǒng)未識別到反映評論內(nèi)容的詞。

應(yīng)清楚地理解,本發(fā)明描述了如何形成和使用特定示例,但本發(fā)明的原理不限于這些示例的任何細(xì)節(jié)。相反,基于本發(fā)明公開的內(nèi)容的教導(dǎo),這些原理能夠應(yīng)用于許多其它實施方式。

本領(lǐng)域技術(shù)人員可以理解實現(xiàn)上述實施方式的全部或部分步驟被實現(xiàn)為由CPU執(zhí)行的計算機(jī)程序。在該計算機(jī)程序被CPU執(zhí)行時,執(zhí)行本發(fā)明提供的上述方法所限定的上述功能的程序可以存儲于一種計算機(jī)可讀存儲介質(zhì)中,該存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。

此外,需要注意的是,上述附圖僅是根據(jù)本發(fā)明示例性實施方式的方法所可包括的處理的示意性說明,而不是限制目的。易于理解,上述附圖所示的處理并不表明或限制這些處理的時間順序。另外,也易于理解,這些處理可以是例如在多個模塊中同步或異步執(zhí)行的。

下述為本發(fā)明裝置實施例,可以用于執(zhí)行本發(fā)明方法實施例。對于本發(fā)明裝置實施例中未披露的細(xì)節(jié),請參照本發(fā)明方法實施例。

請參閱圖9,本發(fā)明提供一種分詞處理裝置100,其可包括:

詞確定模塊110,用于在已進(jìn)行分詞處理后的文本中確定反映評論內(nèi)容的詞。

合并模塊120,用于在確定反映評論內(nèi)容的詞與鄰近反映評論內(nèi)容的詞的詞之間滿足預(yù)定關(guān)系的情況下,將反映評論內(nèi)容的詞與鄰近所述 反映評論內(nèi)容的詞的詞合并。

請參見圖10,該裝置還可以刪除模塊130。該刪除模塊130可以再反映評論內(nèi)容的詞與鄰近所述反映評論內(nèi)容的詞的詞之間存在虛詞的情況下刪除虛詞。

請參閱圖11,在某些實施方式中,分詞處理裝置100還可包括:

分割模塊150,用于對文本進(jìn)行切詞。

標(biāo)注模塊160,用于對切詞后的文本中的詞進(jìn)行詞性標(biāo)注以及依存句法標(biāo)注。

其中,分割模塊150可用于實現(xiàn)步驟S5,標(biāo)注模塊160可用于實現(xiàn)步驟S6。

在某些實施方式中,鄰近反映評論內(nèi)容的詞的詞可包括與反映評論內(nèi)容的詞相鄰的詞。

進(jìn)一步地,在某些實施方式中,滿足預(yù)定關(guān)系包括符合預(yù)定句法依存關(guān)系和/或預(yù)定詞性模式。

在一個實施例中,確定反映評論內(nèi)容的詞可包括:確定反映評論內(nèi)容的基本屬性詞,基本屬性詞對應(yīng)的所述預(yù)定句法依存關(guān)系包括:基本屬性詞與位于基本屬性詞之前且相鄰的詞具有修飾關(guān)系。基本屬性詞對應(yīng)的預(yù)定詞性模式可包括:所述位于所述基本屬性詞之前且相鄰的詞與所述基本屬性詞構(gòu)成動詞加名詞模式或名詞加名詞模式。

在一個實施例中,所述確定反映評論內(nèi)容的詞可包括:確定反映用戶觀點(diǎn)的評價詞。評價詞對應(yīng)的所述預(yù)定句法依存關(guān)系可包括:評價詞與位于評價詞之前且相鄰的詞具有動賓結(jié)構(gòu)關(guān)系或兼語加動賓關(guān)系。評價詞對應(yīng)的詞性模式可包括:位于評價詞之前且相鄰的詞與評價詞構(gòu)成能愿動詞加動詞模式;或者位于所述評價詞之前且相鄰的詞與評價詞構(gòu)成使令動詞加兼語名詞加動詞模式。

請參閱圖12A,在某些實施方式中,詞確定模塊110可包括:

詞庫建立單元111,用于建立評價詞庫;

比對單元113,用于將文本中的詞與評價詞庫中的詞相比對以確定文本中的詞是否為反映評論內(nèi)容的詞。

進(jìn)一步地,在某些實施方式中,詞庫建立單元111用于根據(jù)人工輸 入建立評價詞庫。

請參閱圖12B,在另一些實施方式中,詞庫建立單元111可包括:

統(tǒng)計子單元1111,用于統(tǒng)計多個文本中各詞的出現(xiàn)次數(shù)或頻率;及

入庫子單元1113,用于在次數(shù)或頻率大于預(yù)定值時將該詞納入評價詞庫。

請參閱圖13,本申請?zhí)峁┮环N電子設(shè)備1300,該電子設(shè)備可以包括存儲器1301和處理器1302。存儲器1301上存儲有可在處理器1302上運(yùn)行的計算機(jī)程序。處理器1302執(zhí)行計算機(jī)程序可以實現(xiàn)本文描述的方法。

存儲器1301可以是各種由任何類型的易失性或非易失性存儲設(shè)備或者它們的組合實現(xiàn),如靜態(tài)隨機(jī)存取存儲器(SRAM),電可擦除可編程只讀存儲器(EEPROM),可擦除可編程只讀存儲器(EPROM),可編程只讀存儲器(PROM),只讀存儲器(ROM),磁存儲器,快閃存儲器,磁盤或光盤。

該電子設(shè)備1300可以是具備計算和處理能力的各種設(shè)備,除了存儲器1301和處理器1302之外,還可以包括各種輸入設(shè)備(例如用戶界面、鍵盤等)、各種輸出設(shè)備(例如揚(yáng)聲器等)、以及顯示設(shè)備,本文在此不再贅述。

本申請還提供一種計算機(jī)可讀存儲介質(zhì),存儲有計算機(jī)程序,計算機(jī)程序被處理器1302執(zhí)行時實現(xiàn)本文描述的方法。

需要注意的是,上述附圖中所示的框圖是功能實體,不一定必須與物理或邏輯上獨(dú)立的實體相對應(yīng)??梢圆捎密浖问絹韺崿F(xiàn)這些功能實體,或在一個或多個硬件模塊或集成電路中實現(xiàn)這些功能實體,或在不同網(wǎng)絡(luò)和/或處理器裝置和/或微控制器裝置中實現(xiàn)這些功能實體。

通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員易于理解,這里描述的示例實施方式可以通過軟件實現(xiàn),也可以通過軟件結(jié)合必要的硬件的方式來實現(xiàn)。因此,根據(jù)本發(fā)明實施方式的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是CD-ROM,U盤,移動硬盤等)中或網(wǎng)絡(luò)上,包括若干指令以使得一臺計算設(shè)備(可以是個人計算機(jī)、服務(wù)器、移動終端、或者網(wǎng)絡(luò)設(shè)備等) 執(zhí)行根據(jù)本發(fā)明實施方式的方法。

以上具體地示出和描述了本發(fā)明的示例性實施方式。應(yīng)可理解的是,本發(fā)明不限于這里描述的詳細(xì)結(jié)構(gòu)、設(shè)置方式或?qū)崿F(xiàn)方法;相反,本發(fā)明意圖涵蓋包含在所附權(quán)利要求的精神和范圍內(nèi)的各種修改和等效設(shè)置。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
城市| 漾濞| 仁怀市| 泰宁县| 泾源县| 依安县| 西城区| 南投市| 阳山县| 义乌市| 中江县| 沙河市| 商都县| 夏津县| 静乐县| 新郑市| 平定县| 台州市| 吴江市| 千阳县| 和政县| 延川县| 容城县| 阜城县| 红河县| 九台市| 盘锦市| 中宁县| 苍梧县| 星座| 麻栗坡县| 南川市| 嘉善县| 绥江县| 安泽县| 若尔盖县| 如东县| 灵寿县| 余江县| 花垣县| 河曲县|