两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

從目標(biāo)文本中確定關(guān)鍵詞的方法和裝置制造方法

文檔序號:6549206閱讀:240來源:國知局
從目標(biāo)文本中確定關(guān)鍵詞的方法和裝置制造方法
【專利摘要】本發(fā)明提供一種從目標(biāo)文本中確定關(guān)鍵詞的方法和裝置,能夠基于語義從文本中識別詞語,應(yīng)用于電子商務(wù)領(lǐng)域中能夠提高從文本中識別商品名稱及品牌名稱的準(zhǔn)確性。該方法包括:在預(yù)選的文本集合中匹配預(yù)定的一個或多個關(guān)鍵詞,每篇文本和每個關(guān)鍵詞帶有附加信息;從匹配到的關(guān)鍵詞的預(yù)設(shè)范圍的上下文中取多個對應(yīng)于該關(guān)鍵詞的語義關(guān)聯(lián)詞,并為取到的語義關(guān)聯(lián)詞設(shè)置正向的權(quán)重值和負(fù)向的權(quán)重值;在目標(biāo)文本中匹配所述一個或多個關(guān)鍵詞,從匹配到的關(guān)鍵詞的預(yù)設(shè)范圍的上下文中匹配該關(guān)鍵詞對應(yīng)的語義關(guān)聯(lián)詞,計算這些語義關(guān)聯(lián)詞的所有權(quán)重值的和,在該和大于設(shè)定值的情況下輸出提示信息。
【專利說明】從目標(biāo)文本中確定關(guān)鍵詞的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種從目標(biāo)文本中確定關(guān)鍵詞的方法和裝置。
【背景技術(shù)】
[0002]在電商平臺、互聯(lián)網(wǎng)新聞與社交媒體中,常常需要從文本中識別出用戶對哪些商品與品牌關(guān)注。商品與品牌名稱的識別技術(shù)通常以字符串匹配或文本相似度計算為基礎(chǔ),或應(yīng)用一些實體名稱識別方法,從文本中定位出具體商品和品牌名稱。
[0003]現(xiàn)有的一種商品與品牌名稱識別方法的基本步驟如下:
[0004]1、加載已有的商品與品牌名稱庫或?qū)嶓w屬性庫;
[0005]2、對目標(biāo)文章做文本預(yù)處理,包括去掉無關(guān)的字符、文本切分等操作;
[0006]3、用商品與品牌名稱庫或?qū)嶓w屬性庫和切分的片斷進(jìn)行字符串匹配或文本實體相似度計算;
[0007]4、輸出滿足匹配條件的商品與品牌名稱,并返回命中的位置。
[0008]現(xiàn)有技術(shù)是基于文本匹配或者文本實體相似度計算的,只能根據(jù)字面是否相同來識別商品與品牌。例如品牌名稱庫中的蘋果、小米本身指的是手機(jī)品牌,但在一篇關(guān)于食品安全的目標(biāo)文本中,可能會命中作為食品的蘋果和小米,計算機(jī)在處理時就會誤認(rèn)為這篇目標(biāo)文本是在關(guān)注品牌為蘋果以及小米的手機(jī)。也就是說現(xiàn)有技術(shù)對于從文本中識別商品名稱及品牌名稱的準(zhǔn)確性還有待提聞。

【發(fā)明內(nèi)容】

[0009]有鑒于此,本發(fā)明提供一種從目標(biāo)文本中確定關(guān)鍵詞的方法和裝置,能夠基于語義從文本中識別詞語,應(yīng)用于電子商務(wù)領(lǐng)域中能夠提高從文本中識別商品名稱及品牌名稱的準(zhǔn)確性。
[0010]為實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種從目標(biāo)文本中確定關(guān)鍵詞的方法和裝置。
[0011]本發(fā)明的從目標(biāo)文本中確定關(guān)鍵詞的方法包括:在預(yù)選的文本集合中匹配預(yù)定的一個或多個關(guān)鍵詞,每篇文本和每個關(guān)鍵詞帶有附加信息;從匹配到的關(guān)鍵詞的預(yù)設(shè)范圍的上下文中取多個對應(yīng)于該關(guān)鍵詞的語義關(guān)聯(lián)詞,并為取到的語義關(guān)聯(lián)詞設(shè)置正向的權(quán)重值和負(fù)向的權(quán)重值,其中,若匹配命中的關(guān)鍵詞的附加信息與該關(guān)鍵詞所在文本的附加信息具有交集,該關(guān)鍵詞對應(yīng)的語義關(guān)聯(lián)詞的權(quán)重值為正向,反之為負(fù)向;在目標(biāo)文本中匹配所述一個或多個關(guān)鍵詞,從匹配到的關(guān)鍵詞的預(yù)設(shè)范圍的上下文中匹配該關(guān)鍵詞對應(yīng)的語義關(guān)聯(lián)詞,計算這些語義關(guān)聯(lián)詞的所有權(quán)重值的和,在該和大于設(shè)定值的情況下輸出提示信息。
[0012]可選地,在所述預(yù)選的文本集合中多次出現(xiàn)同一關(guān)鍵詞的情況下,對每個該關(guān)鍵詞對應(yīng)的語義關(guān)聯(lián)詞的正向的權(quán)重值和負(fù)向的權(quán)重值分別進(jìn)行累加。
[0013]可選地,在所述為取到的語義關(guān)聯(lián)詞設(shè)置正向的權(quán)重值和負(fù)向的權(quán)重值的步驟中,權(quán)重值的絕對值大小根據(jù)語義關(guān)聯(lián)詞與其對應(yīng)的關(guān)鍵詞在文中的距離確定。
[0014]可選地,所述關(guān)鍵詞是商品名稱或者品牌名稱;所述附加信息包括商品所屬的品類。
[0015]根據(jù)本發(fā)明的另一方面,提供了一種從目標(biāo)文本中確定關(guān)鍵詞的裝置。
[0016]本發(fā)明的從目標(biāo)文本中確定關(guān)鍵詞的裝置包括:匹配模塊,用于在預(yù)選的文本集合中匹配預(yù)定的一個或多個關(guān)鍵詞,每篇文本和每個關(guān)鍵詞帶有附加信息;語義關(guān)聯(lián)詞統(tǒng)計模塊,用于從匹配到的關(guān)鍵詞的預(yù)設(shè)范圍的上下文中取多個對應(yīng)于該關(guān)鍵詞的語義關(guān)聯(lián)詞,并為取到的語義關(guān)聯(lián)詞設(shè)置正向的權(quán)重值和負(fù)向的權(quán)重值,其中,若匹配命中的關(guān)鍵詞的附加信息與該關(guān)鍵詞所在文本的附加信息具有交集,該關(guān)鍵詞對應(yīng)的語義關(guān)聯(lián)詞的權(quán)重值為正向,反之為負(fù)向;目標(biāo)文本識別模塊,用于在目標(biāo)文本中匹配所述一個或多個關(guān)鍵詞,從匹配到的關(guān)鍵詞的預(yù)設(shè)范圍的上下文中匹配該關(guān)鍵詞對應(yīng)的語義關(guān)聯(lián)詞,計算這些語義關(guān)聯(lián)詞的所有權(quán)重值的和,在該和大于設(shè)定值的情況下輸出提示信息。
[0017]可選地,所述語義關(guān)聯(lián)詞統(tǒng)計模塊還用于在所述預(yù)選的文本集合中多次出現(xiàn)同一關(guān)鍵詞的情況下,對每個該關(guān)鍵詞對應(yīng)的語義關(guān)聯(lián)詞的正向的權(quán)重值和負(fù)向的權(quán)重值分別進(jìn)行累加。
[0018]可選地,所述語義關(guān)聯(lián)詞統(tǒng)計模塊還用于在所述為取到的語義關(guān)聯(lián)詞設(shè)置正向的權(quán)重值和負(fù)向的權(quán)重值時,根據(jù)語義關(guān)聯(lián)詞與其對應(yīng)的關(guān)鍵詞在文中的距離確定權(quán)重值的絕對值大小。
[0019]可選地,所述關(guān)鍵詞是商品名稱或者品牌名稱;所述附加信息包括商品所屬的品類。
[0020]根據(jù)本發(fā)明的技術(shù)方案,將商品名稱或品牌名稱作為關(guān)鍵詞,使用文本集合進(jìn)行訓(xùn)練得到各關(guān)鍵詞對應(yīng)的多個語義關(guān)聯(lián)詞,然后對于需要識別的文本,查找其中的上述語義關(guān)聯(lián)詞,這些語義關(guān)聯(lián)詞對應(yīng)的關(guān)鍵詞即為該需要識別的文本所涉及的商品或品牌。由于詞語往往有多種含義,同一詞語常常出現(xiàn)在不同領(lǐng)域的文章中并且具有明顯的意義上的區(qū)別。但采用本實施例的方案能夠基于語義對文本中的關(guān)鍵詞進(jìn)行識別,不僅能夠識別關(guān)鍵詞的字面本身,而且能夠結(jié)合上下文來確定該關(guān)鍵詞在文章中的實際語義,因此能夠準(zhǔn)確地從文章中識別詞語,應(yīng)用在電子商務(wù)領(lǐng)域時,有助于從文本中準(zhǔn)確地識別商品名稱和品牌名稱。
【專利附圖】

【附圖說明】
[0021]附圖用于更好地理解本發(fā)明,不構(gòu)成對本發(fā)明的不當(dāng)限定。其中:
[0022]圖1是根據(jù)本發(fā)明實施例的獲得關(guān)鍵詞的語義關(guān)聯(lián)詞的一種優(yōu)選流程的示意圖;
[0023]圖2是根據(jù)本發(fā)明實施例的對目標(biāo)文本進(jìn)行識別的一種優(yōu)選方式的示意圖;
[0024]圖3是根據(jù)本發(fā)明實施例的從目標(biāo)文本中確定關(guān)鍵詞的裝置的基本結(jié)構(gòu)的示意圖。
【具體實施方式】
[0025]以下結(jié)合附圖對本發(fā)明的示范性實施例做出說明,其中包括本發(fā)明實施例的各種細(xì)節(jié)以助于理解,應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識到,可以對這里描述的實施例做出各種改變和修改,而不會背離本發(fā)明的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結(jié)構(gòu)的描述。
[0026]本實施例以電商平臺中的應(yīng)用為例,說明如何在文本中識別該文本涉及哪些商品或品牌。這里的商品是指一種商品的名稱,例如自行車、手機(jī)等,品牌則可能包含多種商品,例如電子產(chǎn)品生產(chǎn)商的一個品牌往往包含多種電子產(chǎn)品如手機(jī)、計算機(jī)等。
[0027]在本實施例的方案中,將商品名稱或品牌名稱作為關(guān)鍵詞,使用文本集合進(jìn)行訓(xùn)練得到各關(guān)鍵詞對應(yīng)的多個語義關(guān)聯(lián)詞,然后對于需要識別的文本,查找其中的上述語義關(guān)聯(lián)詞,這些語義關(guān)聯(lián)詞對應(yīng)的關(guān)鍵詞即為該需要識別的文本所涉及的商品或品牌。這里的語義關(guān)聯(lián)詞是經(jīng)常與關(guān)鍵詞搭配使用的詞語,例如與作為一種水果的“蘋果”經(jīng)常搭配使用的詞有“甜”、“水果”等。通過對大量文本中出現(xiàn)的“蘋果”的上下文的分析,即可以找到經(jīng)常與“蘋果”搭配使用的詞。
[0028]以下結(jié)合圖1說明本實施例中獲得語義關(guān)聯(lián)詞的方法。圖1是根據(jù)本發(fā)明實施例的獲得關(guān)鍵詞的語義關(guān)聯(lián)詞的一種優(yōu)選流程的示意圖。如圖1所示,該流程主要包括如下的步驟Sll至步驟S16。這里結(jié)合一個簡單的實例加以說明以便理解。
[0029]步驟Sll:加載商品名稱庫和品牌名稱庫。加載的內(nèi)容例如表1所示。作為簡單的示例,表1及以下說明中僅涉及2個關(guān)鍵詞,即作為一種品牌的蘋果和作為一種商品的蘋果。二者帶有品類標(biāo)簽以作為區(qū)別。以下的表2中類似地僅示出2篇訓(xùn)練文章。
[0030]表1
[0031]
【權(quán)利要求】
1.一種從目標(biāo)文本中確定關(guān)鍵詞的方法,其特征在于,包括: 在預(yù)選的文本集合中匹配預(yù)定的一個或多個關(guān)鍵詞,每篇文本和每個關(guān)鍵詞帶有附加信息; 從匹配到的關(guān)鍵詞的預(yù)設(shè)范圍的上下文中取多個對應(yīng)于該關(guān)鍵詞的語義關(guān)聯(lián)詞,并為取到的語義關(guān)聯(lián)詞設(shè)置正向的權(quán)重值和負(fù)向的權(quán)重值,其中,若匹配命中的關(guān)鍵詞的附加信息與該關(guān)鍵詞所在文本的附加信息具有交集,該關(guān)鍵詞對應(yīng)的語義關(guān)聯(lián)詞的權(quán)重值為正向,反之為負(fù)向; 在目標(biāo)文本中匹配所述一個或多個關(guān)鍵詞,從匹配到的關(guān)鍵詞的預(yù)設(shè)范圍的上下文中匹配該關(guān)鍵詞對應(yīng)的語義關(guān)聯(lián)詞,計算這些語義關(guān)聯(lián)詞的所有權(quán)重值的和,在該和大于設(shè)定值的情況下輸出提示信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述預(yù)選的文本集合中多次出現(xiàn)同一關(guān)鍵詞的情況下,對每個該關(guān)鍵詞對應(yīng)的語義關(guān)聯(lián)詞的正向的權(quán)重值和負(fù)向的權(quán)重值分別進(jìn)行累加。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,在所述為取到的語義關(guān)聯(lián)詞設(shè)置正向的權(quán)重值和負(fù)向的權(quán)重值的步驟中,權(quán)重值的絕對值大小根據(jù)語義關(guān)聯(lián)詞與其對應(yīng)的關(guān)鍵詞在文中的距離確定。
4.根據(jù)權(quán)利要求1或2所述的方法,其特征在于, 所述關(guān)鍵詞是商品名稱或者品牌名稱; 所述附加信息包括商品所屬的品類。
5.一種從目標(biāo)文本中確定關(guān)鍵詞的裝置,其特征在于,包括: 匹配模塊,用于在預(yù)選的文本集合中匹配預(yù)定的一個或多個關(guān)鍵詞,每篇文本和每個關(guān)鍵詞帶有附加信息; 語義關(guān)聯(lián)詞統(tǒng)計模塊,用于從匹配到的關(guān)鍵詞的預(yù)設(shè)范圍的上下文中取多個對應(yīng)于該關(guān)鍵詞的語義關(guān)聯(lián)詞,并為取到的語義關(guān)聯(lián)詞設(shè)置正向的權(quán)重值和負(fù)向的權(quán)重值,其中,若匹配命中的關(guān)鍵詞的附加信息與該關(guān)鍵詞所在文本的附加信息具有交集,該關(guān)鍵詞對應(yīng)的語義關(guān)聯(lián)詞的權(quán)重值為正向,反之為負(fù)向; 目標(biāo)文本識別模塊,用于在目標(biāo)文本中匹配所述一個或多個關(guān)鍵詞,從匹配到的關(guān)鍵詞的預(yù)設(shè)范圍的上下文中匹配該關(guān)鍵詞對應(yīng)的語義關(guān)聯(lián)詞,計算這些語義關(guān)聯(lián)詞的所有權(quán)重值的和,在該和大于設(shè)定值的情況下輸出提示信息。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述語義關(guān)聯(lián)詞統(tǒng)計模塊還用于在所述預(yù)選的文本集合中多次出現(xiàn)同一關(guān)鍵詞的情況下,對每個該關(guān)鍵詞對應(yīng)的語義關(guān)聯(lián)詞的正向的權(quán)重值和負(fù)向的權(quán)重值分別進(jìn)行累加。
7.根據(jù)權(quán)利要求5或6所述的裝置,其特征在于,所述語義關(guān)聯(lián)詞統(tǒng)計模塊還用于在所述為取到的語義關(guān)聯(lián)詞設(shè)置正向的權(quán)重值和負(fù)向的權(quán)重值時,根據(jù)語義關(guān)聯(lián)詞與其對應(yīng)的關(guān)鍵詞在文中的距離確定權(quán)重值的絕對值大小。
8.根據(jù)權(quán)利要求5或6所述的裝置,其特征在于, 所述關(guān)鍵詞是商品名稱或者品牌名稱; 所述附加信息包括商品所屬的品類。
【文檔編號】G06F17/30GK104008186SQ201410257533
【公開日】2014年8月27日 申請日期:2014年6月11日 優(yōu)先權(quán)日:2014年6月11日
【發(fā)明者】陳海勇, 牟川, 邢志峰 申請人:北京京東尚科信息技術(shù)有限公司, 北京京東世紀(jì)貿(mào)易有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
高陵县| 大丰市| 茂名市| 宜阳县| 连平县| 鸡西市| 车致| 百色市| 伽师县| 吉林省| 红安县| 乌鲁木齐县| 海口市| 高清| 宜昌市| 庄浪县| 上饶县| 博乐市| 高安市| 平谷区| 漳州市| 吴忠市| 宾川县| 中超| 长海县| 德安县| 得荣县| 赤水市| 库伦旗| 寿宁县| 平度市| 阿克陶县| 闵行区| 启东市| 兴化市| 常熟市| 阿尔山市| 库伦旗| 绩溪县| 郓城县| 东至县|