两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種為短文本自動(dòng)添加標(biāo)簽的方法及裝置與流程

文檔序號(hào):11407664閱讀:324來(lái)源:國(guó)知局
一種為短文本自動(dòng)添加標(biāo)簽的方法及裝置與流程
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種為短文本自動(dòng)添加標(biāo)簽的方法及裝置。

背景技術(shù):
標(biāo)簽是一種互聯(lián)網(wǎng)內(nèi)容組織方式,是相關(guān)性很強(qiáng)的關(guān)鍵字,標(biāo)簽幫助人們輕松的描述內(nèi)容或者將內(nèi)容進(jìn)行分類,以便于檢索和分享。目前,給文章添加標(biāo)簽的方法有以下三種:方式一,人工標(biāo)簽,專業(yè)人員手動(dòng)給文章指定特定標(biāo)簽;方式二,社會(huì)化標(biāo)簽,用戶為自己的文章或者圖片添加自定義的標(biāo)簽;方式三,關(guān)鍵詞標(biāo)簽,對(duì)較長(zhǎng)的文章內(nèi)容進(jìn)行分析,自動(dòng)提取重要關(guān)鍵詞作為標(biāo)簽。然而,現(xiàn)有技術(shù)中為文章添加標(biāo)簽的方法,提取關(guān)鍵詞作為標(biāo)簽不適用于短文本的操作,并且關(guān)鍵詞可能不適合作為標(biāo)簽,準(zhǔn)確性較低。另外,需要手動(dòng)對(duì)文章添加標(biāo)簽,增加用戶的操作。

技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的實(shí)施例提供一種為短文本自動(dòng)添加標(biāo)簽的方法及裝置,可以對(duì)短文本自動(dòng)添加標(biāo)簽,并且提高添加的標(biāo)簽的準(zhǔn)確性。為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:一種為短文本自動(dòng)添加標(biāo)簽的方法,包括:統(tǒng)計(jì)標(biāo)簽詞集中各個(gè)標(biāo)簽詞的文檔頻率倒數(shù);將短文本擴(kuò)展為長(zhǎng)文本,確定所述標(biāo)簽詞集中的各個(gè)標(biāo)簽詞在所述長(zhǎng)文本中出現(xiàn)的詞頻;根據(jù)所述文檔頻率倒數(shù)和所述詞頻,確定所述短文本的文本標(biāo)簽。一種為短文本自動(dòng)添加標(biāo)簽的裝置,包括:統(tǒng)計(jì)單元,用于統(tǒng)計(jì)標(biāo)簽詞集中各個(gè)標(biāo)簽詞的文檔頻率倒數(shù);擴(kuò)展單元,用于將短文本擴(kuò)展為長(zhǎng)文本;詞頻確定單元,用于確定所述標(biāo)簽詞集中的各個(gè)標(biāo)簽詞在所述長(zhǎng)文本中出現(xiàn)的詞頻;文本標(biāo)簽確定單元,用于根據(jù)所述文檔頻率倒數(shù)和所述詞頻,確定所述短文本的文本標(biāo)簽。本發(fā)明實(shí)施例提供一種為短文本自動(dòng)添加標(biāo)簽的方法及裝置,通過(guò)統(tǒng)計(jì)標(biāo)簽詞集中各個(gè)標(biāo)簽詞的文檔頻率倒數(shù),將短文本擴(kuò)展為長(zhǎng)文本,確定所述標(biāo)簽詞集中的各個(gè)標(biāo)簽詞在所述長(zhǎng)文本中出現(xiàn)的詞頻,根據(jù)所述文檔頻率倒數(shù)和所述詞頻,確定所述短文本的文本標(biāo)簽。與采用現(xiàn)有技術(shù)為文章添加標(biāo)簽時(shí),提取關(guān)鍵詞作為標(biāo)簽不適用于短文本的操作,并且關(guān)鍵詞可能不適合作為標(biāo)簽,另外,需要手動(dòng)對(duì)文章添加標(biāo)簽,增加用戶的操作相比,本發(fā)明實(shí)施例提供的方案可以對(duì)短文本自動(dòng)添加標(biāo)簽,并且提高添加的標(biāo)簽的準(zhǔn)確性。附圖說(shuō)明為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例1提供的一種為短文本自動(dòng)添加標(biāo)簽的方法的流程圖;圖2為本發(fā)明實(shí)施例1提供的一種為短文本自動(dòng)添加標(biāo)簽的裝置的框圖;圖3為本發(fā)明實(shí)施例2提供的一種為短文本自動(dòng)添加標(biāo)簽的方法的流程圖;圖4為本發(fā)明實(shí)施例2提供的一種為短文本自動(dòng)添加標(biāo)簽的裝置的框圖;圖5為本發(fā)明實(shí)施例2提供的文本標(biāo)簽確定模塊的框圖。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。實(shí)施例1本發(fā)明實(shí)施例提供一種為短文本自動(dòng)添加標(biāo)簽的方法,如圖1所示,該方法包括:步驟101,統(tǒng)計(jì)標(biāo)簽詞集中各個(gè)標(biāo)簽詞的文檔頻率倒數(shù);可選的,預(yù)設(shè)標(biāo)簽詞集和與所述標(biāo)簽詞集相關(guān)聯(lián)的語(yǔ)料;通常,在統(tǒng)計(jì)自然語(yǔ)言處理中可能觀測(cè)不到大規(guī)模的語(yǔ)言實(shí)例。所以,人們簡(jiǎn)單地用文本作為替代,并把文本中的上下文關(guān)系作為現(xiàn)實(shí)世界中語(yǔ)言的上下文關(guān)系。一個(gè)文本集合可以稱為語(yǔ)料庫(kù)(Corpus)??蛇x的,從互聯(lián)網(wǎng)上收集相關(guān)的文本,例如,可以采用騰訊“問(wèn)問(wèn)”產(chǎn)品中的問(wèn)答內(nèi)容作為語(yǔ)料。對(duì)所述語(yǔ)料切詞;切詞即將一句話切分成一個(gè)個(gè)單獨(dú)的詞,例如,對(duì)“這是一種為短文本自動(dòng)添加標(biāo)簽的方法”這句話切詞,切為這、是、一種、為、短文本、自動(dòng)、添加、標(biāo)簽、的、方法這11個(gè)詞。將所述標(biāo)簽詞集中各個(gè)標(biāo)簽詞與所述語(yǔ)料中的各個(gè)詞進(jìn)行一一匹配,統(tǒng)計(jì)所述標(biāo)簽詞集中各個(gè)標(biāo)簽詞在所述語(yǔ)料中的文檔頻率,即統(tǒng)計(jì)所述標(biāo)簽詞集中各個(gè)標(biāo)簽詞在所述語(yǔ)料中出現(xiàn)的次數(shù);例如,標(biāo)簽詞集中的一個(gè)標(biāo)簽詞為“川菜”,則將“川菜”與語(yǔ)料中的各個(gè)詞進(jìn)行一一匹配,如果出現(xiàn)了兩次,則文檔頻率為2。計(jì)算所述文檔頻率的文檔頻率倒數(shù);例如,文檔頻率為2,則計(jì)算的文檔頻率倒數(shù)為1/2。步驟102,將短文本擴(kuò)展為長(zhǎng)文本,確定所述標(biāo)簽詞集中的各個(gè)標(biāo)簽詞在所述長(zhǎng)文本中出現(xiàn)的詞頻;可選的,將短文本進(jìn)行歸一化處理;可選的,對(duì)短文本進(jìn)行分析,將其中的停用詞、高頻詞、無(wú)意義符號(hào)等刪除,例如,將“的”、“是”、“啊”“空格”等刪除。將歸一化處理的短文本擴(kuò)展為長(zhǎng)文本,并獲取至少一條擴(kuò)展文本;可選的,可以將歸一化處理的短文本作為檢索串,輸入到搜索引擎中,獲取前N條返回結(jié)果;或者,可以將歸一化處理的短文本作為檢索串,輸入到百科詞條中,獲取前N條返回結(jié)果;當(dāng)然,本發(fā)明還可以以其他的語(yǔ)料作為擴(kuò)展,并不限于上述提出的擴(kuò)展方法。將至少一條所述擴(kuò)展文本切詞,即按照上述切詞的方法將至少一條所述擴(kuò)展文本切成一個(gè)個(gè)單獨(dú)的詞,以便于統(tǒng)計(jì)詞頻;將所述標(biāo)簽詞集中各個(gè)標(biāo)簽詞與至少一條所述擴(kuò)展文本中的各個(gè)詞進(jìn)行一一匹配,統(tǒng)計(jì)所述標(biāo)簽詞集中各個(gè)標(biāo)簽詞在至少一條所述擴(kuò)展文本中的詞頻,即統(tǒng)計(jì)所述標(biāo)簽詞集中各個(gè)標(biāo)簽詞在至少一條所述擴(kuò)展文本中的出現(xiàn)的次數(shù)。步驟103,根據(jù)所述文檔頻率倒數(shù)和所述詞頻,確定所述短文本的文本標(biāo)簽。根據(jù)所述文檔頻率倒數(shù)和所述詞頻,計(jì)算文本標(biāo)簽的權(quán)值;可選的,根據(jù)W=TF*IDF計(jì)算文本標(biāo)簽的權(quán)值,其中,W為權(quán)值,TF為標(biāo)簽詞集中各個(gè)標(biāo)簽詞在至少一條所述擴(kuò)展文本中的詞頻,IDF為標(biāo)簽詞集中各個(gè)標(biāo)簽詞在所述語(yǔ)料中的文檔頻率倒數(shù)。確定所述權(quán)值中預(yù)設(shè)個(gè)數(shù)的最大所述文本標(biāo)簽為所述短文本的文本標(biāo)簽。預(yù)設(shè)個(gè)數(shù)可以根據(jù)實(shí)際需要進(jìn)行設(shè)置,例如可以設(shè)置為3個(gè);例如,將所述文本標(biāo)簽按照所述權(quán)值降序的順序排序,確定排序后的所述權(quán)值中最前K個(gè)所述文本標(biāo)簽為所述短文本的文本標(biāo)簽;或者,將所述文本標(biāo)簽按照所述權(quán)值升序的順序排序,確定排序后的所述權(quán)值中最后K個(gè)所述文本標(biāo)簽為所述短文本的文本標(biāo)簽;其中,K為預(yù)設(shè)個(gè)數(shù),K為正整數(shù)。本發(fā)明實(shí)施例提供一種為短文本自動(dòng)添加標(biāo)簽的方法,通過(guò)統(tǒng)計(jì)標(biāo)簽詞集中各個(gè)標(biāo)簽詞的文檔頻率倒數(shù),將短文本擴(kuò)展為長(zhǎng)文本,確定所述標(biāo)簽詞集中的各個(gè)標(biāo)簽詞在所述長(zhǎng)文本中出現(xiàn)的詞頻,根據(jù)所述文檔頻率倒數(shù)和所述詞頻,確定所述短文本的文本標(biāo)簽。與現(xiàn)有技術(shù)中,提取關(guān)鍵詞作為標(biāo)簽不適用于短文本的操作,并且關(guān)鍵詞可能不適合作為標(biāo)簽,另外,需要手動(dòng)對(duì)文章添加標(biāo)簽,增加用戶的操作相比,本發(fā)明實(shí)施例提供的方案通過(guò)對(duì)短文本擴(kuò)展為長(zhǎng)文本,再對(duì)長(zhǎng)文本提取標(biāo)簽,可以對(duì)短文本自動(dòng)添加標(biāo)簽,并且提高添加的標(biāo)簽的準(zhǔn)確性。本發(fā)明實(shí)施例提供一種為短文本自動(dòng)添加標(biāo)簽的裝置,如圖2所示,該裝置包括:統(tǒng)計(jì)單元201,擴(kuò)展單元202,詞頻確定單元203,文本標(biāo)簽確定單元204;統(tǒng)計(jì)單元201,用于統(tǒng)計(jì)標(biāo)簽詞集中各個(gè)標(biāo)簽詞的文檔頻率倒數(shù);可選的,所述統(tǒng)計(jì)單元中的設(shè)置模塊,用于預(yù)設(shè)標(biāo)簽詞集和預(yù)設(shè)與所述標(biāo)簽詞集相關(guān)聯(lián)的語(yǔ)料;所述統(tǒng)計(jì)單元中的切詞模塊,用于對(duì)所述語(yǔ)料切詞;所述統(tǒng)計(jì)單元中的統(tǒng)計(jì)模塊,用于將所述標(biāo)簽詞集中各個(gè)標(biāo)簽詞與所述語(yǔ)料中的各個(gè)詞進(jìn)行一一匹配,統(tǒng)計(jì)所述標(biāo)簽詞集中各個(gè)標(biāo)簽詞在所述語(yǔ)料中的文檔頻率;所述統(tǒng)計(jì)單元中的計(jì)算模塊,用于計(jì)算所述文檔頻率的文檔頻率倒數(shù)。擴(kuò)展單元202,用于將短文本擴(kuò)展為長(zhǎng)文本;可選的,所述擴(kuò)展單元中的處理模塊,用于將短文本進(jìn)行歸一化處理;擴(kuò)展模塊,用于將歸一化處理的短文本擴(kuò)展為長(zhǎng)文本,并獲取至少一條擴(kuò)展文本。詞頻確定單元203,用于確定所述標(biāo)簽詞集中的各個(gè)標(biāo)簽詞在所述長(zhǎng)文本中出現(xiàn)的詞頻;可選的,通過(guò)切詞模塊將至少一條所述擴(kuò)展文本切詞,然后詞頻確定模塊,將所述標(biāo)簽詞集中各個(gè)標(biāo)簽詞與至少一條所述擴(kuò)展文本中的各個(gè)詞進(jìn)行一一匹配,統(tǒng)計(jì)所述標(biāo)簽詞集中各個(gè)標(biāo)簽詞在至少一條所述擴(kuò)展文本中的詞頻。文本標(biāo)簽確定單元204,用于根據(jù)所述文檔頻率倒數(shù)和所述詞頻,確定所述短文本的文本標(biāo)簽;可選的,根據(jù)所述文檔頻率倒數(shù)和所述詞頻,計(jì)算模塊計(jì)算文本標(biāo)簽的權(quán)值;文本標(biāo)簽確定模塊,用于確定所述權(quán)值中預(yù)設(shè)個(gè)數(shù)的最大所述文本標(biāo)簽為所述短文本的文本標(biāo)簽。本發(fā)明實(shí)施例提供一種為短文本自動(dòng)添加標(biāo)簽的裝置,通過(guò)統(tǒng)計(jì)單元統(tǒng)計(jì)標(biāo)簽詞集中各個(gè)標(biāo)簽詞的文檔頻率倒數(shù),擴(kuò)展單元將短文本擴(kuò)展為長(zhǎng)文本,詞頻確定單元確...
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
沂南县| 娄底市| 津市市| 潮安县| 成都市| 沧源| 分宜县| 临猗县| 昌江| 泗阳县| 香河县| 综艺| 疏附县| 鄯善县| 民权县| 白水县| 怀宁县| 额尔古纳市| 江华| 皮山县| 仙桃市| 三穗县| 九龙县| 体育| 虹口区| 望城县| 开江县| 百色市| 绥化市| 高尔夫| 洪雅县| 建湖县| 神木县| 日土县| 手游| 浦县| 阿拉尔市| 元氏县| 蕲春县| 剑河县| 徐闻县|