两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

垃圾評(píng)論識(shí)別方法和裝置與流程

文檔序號(hào):11177127閱讀:660來源:國(guó)知局
垃圾評(píng)論識(shí)別方法和裝置與流程

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),尤其涉及一種垃圾評(píng)論識(shí)別方法以及垃圾評(píng)論識(shí)別裝置。



背景技術(shù):

在互聯(lián)網(wǎng)產(chǎn)品評(píng)論技術(shù)領(lǐng)域中,垃圾評(píng)論通常包括:無用評(píng)論以及不真實(shí)評(píng)論,其中的無用評(píng)論主要是指不帶有感情色彩的隨機(jī)文本、對(duì)非產(chǎn)品信息的評(píng)論文本、問句以及廣告等,其中的不真實(shí)評(píng)論主要是指基于推銷某一產(chǎn)品而詆毀競(jìng)爭(zhēng)對(duì)手的產(chǎn)品等原因而故意發(fā)表的不符合實(shí)際情況的評(píng)論。相較于無用評(píng)論而言,不真實(shí)評(píng)論往往與真實(shí)評(píng)論更相像,而且不真實(shí)評(píng)論的危害性也往往更大。

垃圾評(píng)論(尤其是不真實(shí)評(píng)論)會(huì)對(duì)產(chǎn)品的公正性產(chǎn)生不良影響,破壞產(chǎn)品真實(shí)屬性和用戶反饋信息。需要一種技術(shù),能夠從眾多的評(píng)論中準(zhǔn)確的識(shí)別出垃圾評(píng)論(尤其是識(shí)別出不真實(shí)評(píng)論),保護(hù)用戶反饋數(shù)據(jù)完整性和真實(shí)性。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是提供一種垃圾評(píng)論識(shí)別方法及裝置。

根據(jù)本發(fā)明的一個(gè)方面,提供一種垃圾評(píng)論識(shí)別方法,該方法主要包括以下步驟:根據(jù)從評(píng)論集合中讀取出的一條評(píng)論中的分詞為所述評(píng)論構(gòu)建語(yǔ)言模型,以獲得所述評(píng)論的概率;根據(jù)所述評(píng)論的概率與所述評(píng)論集合中的另一條評(píng)論的概率計(jì)算兩條評(píng)論之間的相似度;在所述相似度滿足相似度要求的情況下,將所述兩條評(píng)論均確定為不真實(shí)評(píng)論。

優(yōu)選的,前述的垃圾評(píng)論識(shí)別方法,其中該方法還包括:獲取網(wǎng)絡(luò)中的評(píng)論;在判斷出所述獲取的評(píng)論滿足預(yù)定條件的情況下,將所述獲取的評(píng)論 添加在評(píng)論集合中。

優(yōu)選的,前述的垃圾評(píng)論識(shí)別方法,其中所述在判斷出所述獲取的評(píng)論滿足預(yù)定條件的情況下,將所述獲取的評(píng)論添加在評(píng)論集合中的步驟包括:在根據(jù)分類模型輸出的信息確定所述獲取的評(píng)論不是無用評(píng)論的情況下,將所述獲取的評(píng)論添加在評(píng)論集合中;或者,在判斷出所述獲取的評(píng)論的長(zhǎng)度超過預(yù)定長(zhǎng)度閾值的情況下,將所述獲取的評(píng)論添加在所述評(píng)論集合中;或者,在根據(jù)分類模型輸出的信息確定所述獲取的評(píng)論不是無用評(píng)論,且在判斷出所述獲取的評(píng)論的長(zhǎng)度超過預(yù)定長(zhǎng)度閾值的情況下,將所述獲取的評(píng)論添加在評(píng)論集合中。

優(yōu)選的,前述的垃圾評(píng)論識(shí)別方法,其中所述根據(jù)分類模型輸出的信息確定所述獲取的評(píng)論不是無用評(píng)論的步驟包括:將所述獲取的評(píng)論進(jìn)行特征量化處理,以獲得所述獲取的評(píng)論對(duì)應(yīng)的特征量化值;將所述評(píng)論對(duì)應(yīng)的特征量化值提供給邏輯回歸分類模型;根據(jù)所述邏輯回歸分類模型輸出的概率值判斷所述獲取的評(píng)論是否為無用評(píng)論。

優(yōu)選的,前述的垃圾評(píng)論識(shí)別方法,其中該獲取的評(píng)論對(duì)應(yīng)的特征量化值還包括:基于信息增益方式從評(píng)論樣本中抽取出的特征分詞的量化值。

優(yōu)選的,前述的垃圾評(píng)論識(shí)別方法,其中所述將所述獲取的評(píng)論進(jìn)行特征量化處理,以獲得所述獲取的評(píng)論對(duì)應(yīng)的特征量化值的步驟包括:統(tǒng)計(jì)各特征分詞在所述獲取的評(píng)論中出現(xiàn)的次數(shù),其中,所述統(tǒng)計(jì)出的各次數(shù)被作為所述基于信息增益方式從評(píng)論樣本中抽取出的特征分詞的量化值。

優(yōu)選的,前述的垃圾評(píng)論識(shí)別方法,其中所述構(gòu)建的語(yǔ)言模型包括:基于最大似然估計(jì)法以及katz平滑處理的二元語(yǔ)言模型。

優(yōu)選的,前述的垃圾評(píng)論識(shí)別方法,其中所述根據(jù)所述評(píng)論的概率與所述評(píng)論集合中的另一條評(píng)論的概率計(jì)算兩條評(píng)論之間的相似度的步驟包括:根據(jù)所述評(píng)論的概率與所述評(píng)論集合中的另一條評(píng)論的概率利用kl散度計(jì)算兩條評(píng)論之間的相似度。

根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種垃圾評(píng)論識(shí)別裝置,該裝置包括:構(gòu)建模型模塊,用于根據(jù)從評(píng)論集合中讀取出的一條評(píng)論中的分詞為所述評(píng)論構(gòu)建語(yǔ)言模型,以獲得所述評(píng)論的概率;計(jì)算相似度模塊,用于根據(jù) 所述評(píng)論的概率與所述評(píng)論集合中的另一條評(píng)論的概率計(jì)算兩條評(píng)論之間的相似度;判別不真實(shí)模塊,用于在所述相似度滿足相似度要求的情況下,將所述兩條評(píng)論均確定為不真實(shí)評(píng)論。

優(yōu)選的,前述的垃圾評(píng)論識(shí)別裝置,其中該裝置還包括:獲取評(píng)論模塊,用于獲取網(wǎng)絡(luò)中的評(píng)論;評(píng)論過濾模塊,用于在判斷出所述獲取的評(píng)論滿足預(yù)定條件的情況下,將所述獲取的評(píng)論添加在評(píng)論集合中。

優(yōu)選的,前述的垃圾評(píng)論識(shí)別裝置,其中所述評(píng)論過濾模塊包括:第一過濾子模塊,用于在根據(jù)分類模型輸出的信息確定所述獲取的評(píng)論不是無用評(píng)論的情況下,將所述獲取的評(píng)論添加在評(píng)論集合中;或者,第二過濾子模塊,用于在判斷出所述獲取的評(píng)論的長(zhǎng)度超過預(yù)定長(zhǎng)度閾值的情況下,將所述獲取的評(píng)論添加在所述評(píng)論集合中;或者,第三過濾子模塊,用于在根據(jù)分類模型輸出的信息確定所述獲取的評(píng)論不是無用評(píng)論,且在判斷出所述獲取的評(píng)論的長(zhǎng)度超過預(yù)定長(zhǎng)度閾值的情況下,將所述獲取的評(píng)論添加在評(píng)論集合中。

優(yōu)選的,前述的垃圾評(píng)論識(shí)別裝置,其中所述第一過濾子模塊和第三過濾子模塊包括:量化處理子模塊,用于將所述獲取的評(píng)論進(jìn)行特征量化處理,以獲得所述獲取的評(píng)論對(duì)應(yīng)的特征量化值;輸入子模塊,用于將所述評(píng)論及其對(duì)應(yīng)的特征量化值提供給邏輯回歸分類模型;判別無用子模塊,用于根據(jù)所述邏輯回歸分類模型輸出的概率值判斷所述獲取的評(píng)論是否為無用評(píng)論。

優(yōu)選的,前述的垃圾評(píng)論識(shí)別裝置,其中所述獲取的評(píng)論對(duì)應(yīng)的特征量化值還包括:采用信息增益方式設(shè)置的基于從評(píng)論樣本中抽取出的特征分詞的量化值。

優(yōu)選的,前述的垃圾評(píng)論識(shí)別裝置,其中所述量化處理子模塊包括:統(tǒng)計(jì)次數(shù)子模塊,用于統(tǒng)計(jì)各特征分詞在所述獲取的評(píng)論中出現(xiàn)的次數(shù),其中,所述統(tǒng)計(jì)出的各次數(shù)被作為所述基于信息增益方式從評(píng)論樣本中抽取出的特征分詞的量化值。

優(yōu)選的,前述的垃圾評(píng)論識(shí)別裝置,其中所述構(gòu)建的語(yǔ)言模型包括:基于最大似然估計(jì)法以及katz平滑處理的二元語(yǔ)言模型。

優(yōu)選的,前述的垃圾評(píng)論識(shí)別裝置,其中所述計(jì)算相似度模塊具體用于: 根據(jù)所述評(píng)論的概率與所述評(píng)論集合中的另一條評(píng)論的概率利用kl散度計(jì)算兩條評(píng)論之間的相似度。

與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):本發(fā)明通過針對(duì)評(píng)論中的分詞構(gòu)建語(yǔ)言模型,可以獲得該條評(píng)論的概率,通過利用評(píng)論集合中的兩條評(píng)論的概率計(jì)算兩條評(píng)論之間的相似度,可以根據(jù)該相似度判斷出兩條評(píng)論是否均為不真實(shí)評(píng)論,從而為不真實(shí)評(píng)論提供了一種切實(shí)可行的識(shí)別方案,保護(hù)用戶反饋數(shù)據(jù)完整性和真實(shí)性。

附圖說明

通過閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:

圖1為本發(fā)明實(shí)施例一的垃圾評(píng)論識(shí)別方法流程圖;

圖2為本發(fā)明實(shí)施例一的將滿足預(yù)定條件的評(píng)論添加在評(píng)論集合中的第一種方式的流程圖;

圖3為本發(fā)明實(shí)施例一的將滿足預(yù)定條件的評(píng)論添加在評(píng)論集合中的第二種方式的流程圖;

圖4為本發(fā)明實(shí)施例一的將滿足預(yù)定條件的評(píng)論添加在評(píng)論集合中的第三種方式的流程圖;

圖5為本發(fā)明實(shí)施例一的判斷一條評(píng)論是否為無用評(píng)論的流程圖;

圖6為本發(fā)明實(shí)施例一的對(duì)評(píng)論進(jìn)行特征量化處理過程的一個(gè)具體例子的流程圖;

圖7為本發(fā)明實(shí)施例一的對(duì)評(píng)論進(jìn)行特征量化處理過程的另一個(gè)具體例子的流程圖;

圖8為本發(fā)明實(shí)施例一的對(duì)評(píng)論進(jìn)行特征量化處理過程的再一個(gè)具體例子的流程圖;

圖9為本發(fā)明實(shí)施例一的對(duì)評(píng)論進(jìn)行特征量化處理過程的第四個(gè)具體例子的流程圖;

圖10為本發(fā)明實(shí)施例二的垃圾評(píng)論識(shí)別裝置的一結(jié)構(gòu)示意圖;

圖11為本發(fā)明實(shí)施例二的垃圾評(píng)論識(shí)別裝置的另一結(jié)構(gòu)示意圖;

圖12為本發(fā)明實(shí)施例二的評(píng)論過濾模塊的一結(jié)構(gòu)示意圖;

圖13為本發(fā)明實(shí)施例二的評(píng)論過濾模塊的另一結(jié)構(gòu)示意圖;

圖14為本發(fā)明實(shí)施例二的評(píng)論過濾模塊的再一結(jié)構(gòu)示意圖;

圖15為本發(fā)明實(shí)施例二的第一/第三過濾子模塊的結(jié)構(gòu)示意圖;

圖16為本發(fā)明實(shí)施例二的量化處理子模塊的第一結(jié)構(gòu)示意圖;

圖17為本發(fā)明實(shí)施例二的量化處理子模塊的第二結(jié)構(gòu)示意圖;

圖18為本發(fā)明實(shí)施例二的量化處理子模塊的第三結(jié)構(gòu)示意圖;

圖19為本發(fā)明實(shí)施例二的量化處理子模塊的第四結(jié)構(gòu)示意圖;

圖20為本發(fā)明實(shí)施例二的量化處理子模塊的第五結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明的實(shí)施例作詳細(xì)描述。

在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然本發(fā)明的流程圖將各項(xiàng)操作描述成順序的處理,但是,其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外,各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對(duì)應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。

本實(shí)施例中的網(wǎng)絡(luò)設(shè)備包括但不限于單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器組成的服務(wù)器組或者基于云計(jì)算(cloudcomputing)的由大量計(jì)算機(jī)或者網(wǎng)絡(luò)服務(wù)器構(gòu)成的云,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī)。其中,所述網(wǎng)絡(luò)設(shè)備可以接入網(wǎng)絡(luò)并與網(wǎng)絡(luò)中的其他網(wǎng)絡(luò)設(shè)備進(jìn)行信息交互操作。其中,所述網(wǎng)絡(luò)設(shè)備所能夠接入的網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、vpn網(wǎng)絡(luò)等。

需要說明的是,所述網(wǎng)絡(luò)設(shè)備以及網(wǎng)絡(luò)等僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的網(wǎng)絡(luò)設(shè)備或者網(wǎng)絡(luò)如可適用于本申請(qǐng),也應(yīng)包含在本申請(qǐng)保護(hù)范圍以內(nèi),并以引用方式包含于此。

后面描述所討論的方法(其中一些通過流程圖示出)實(shí)施例可以通過硬 件、軟件、固件、中間件、微代碼、硬件描述語(yǔ)言或者其任意組合的形式來實(shí)施。當(dāng)用軟件、固件、中間件或者微代碼來實(shí)施時(shí),用以實(shí)施必要任務(wù)的程序代碼或者代碼段可以被存儲(chǔ)在機(jī)器或計(jì)算機(jī)可讀介質(zhì)(比如存儲(chǔ)介質(zhì))中。(一個(gè)或多個(gè))處理器可以實(shí)施必要的任務(wù)。

這里所公開的具體結(jié)構(gòu)和功能細(xì)節(jié)僅僅是代表性的,并且是用于描述本申請(qǐng)的示例性實(shí)施例的目的,但是,本申請(qǐng)可以通過許多替換形式來具體實(shí)現(xiàn),并且不應(yīng)當(dāng)被解釋成僅僅受限于這里所闡述的實(shí)施例。

應(yīng)當(dāng)理解的是,雖然在這里可能使用了術(shù)語(yǔ)“第一”、“第二”等等來描述各個(gè)單元,但是這些單元不應(yīng)當(dāng)受這些術(shù)語(yǔ)限制。使用這些術(shù)語(yǔ)僅僅是為了將一個(gè)單元與另一個(gè)單元進(jìn)行區(qū)分。舉例來說,在不背離示例性實(shí)施例的范圍的情況下,第一單元可以被稱為第二單元,并且類似地第二單元可以被稱為第一單元。這里所使用的術(shù)語(yǔ)“和/或”包括其中一個(gè)或更多所列出的相關(guān)聯(lián)項(xiàng)目的任意和所有組合。

應(yīng)當(dāng)理解的是,當(dāng)一個(gè)單元被稱為“連接”或者“耦合”到另一個(gè)單元時(shí),其可以直接連接或者耦合到所述另一個(gè)單元,也可以存在中間單元。與此相對(duì)的,當(dāng)一個(gè)單元被稱為“直接連接”或者“直接耦合”到另一個(gè)單元時(shí),則不存在中間單元。應(yīng)當(dāng)按照類似的方式來解釋被用于描述單元之間的關(guān)系的其他詞語(yǔ)(例如,“處于...之間”相比于“直接處于...之間”,“與...鄰近”相比于“與...直接鄰近”等等)。

這里所使用的術(shù)語(yǔ)僅僅是為了描述具體實(shí)施例,而不是意圖限制示例性實(shí)施例。除非上下文中明確地另有所指,否則,這里所使用的單數(shù)形式“一個(gè)”、“一項(xiàng)”還意圖包括復(fù)數(shù)。還應(yīng)當(dāng)理解的是,這里所使用的術(shù)語(yǔ)“包括”和/或“包含”規(guī)定了所陳述的特征、整數(shù)、步驟、操作、單元和/或組件的存在,而不排除存在或者添加一個(gè)或更多的其他特征、整數(shù)、步驟、操作、單元、組件和/或其組合。

還應(yīng)當(dāng)提到的是,在一些替換的實(shí)現(xiàn)方式中,所提到的功能/動(dòng)作可以按照不同于附圖中標(biāo)示的順序發(fā)生。舉例來說,取決于所涉及的功能/動(dòng)作,相繼示出的兩幅圖實(shí)際上可以基本上同時(shí)執(zhí)行或者有時(shí)可以按照相反的順序來執(zhí)行。

下面結(jié)合附圖對(duì)本申請(qǐng)的技術(shù)方案作進(jìn)一步詳細(xì)描述。

實(shí)施例一、垃圾評(píng)論識(shí)別方法。

圖1為本實(shí)施例的垃圾評(píng)論識(shí)別方法流程圖。如圖1所示,本實(shí)施例的方法主要包括:步驟s100、步驟s110以及步驟s120。本實(shí)施例所記載的方法通常是在網(wǎng)絡(luò)設(shè)備中被執(zhí)行的,如本實(shí)施例所記載的方法可以在網(wǎng)絡(luò)購(gòu)物平臺(tái)一側(cè)的網(wǎng)絡(luò)設(shè)備中執(zhí)行。

下面對(duì)圖1中的各步驟分別進(jìn)行詳細(xì)描述。

s100、根據(jù)從評(píng)論集合中讀取出的一條評(píng)論中的分詞為該評(píng)論構(gòu)建語(yǔ)言模型,以獲得該評(píng)論的概率。

具體的,本實(shí)施例的評(píng)論集合中包含有多條評(píng)論,且評(píng)論集合中的評(píng)論為需要進(jìn)行真實(shí)評(píng)論鑒定的評(píng)論。本實(shí)施例的評(píng)論集合中的評(píng)論通常是指對(duì)通過網(wǎng)絡(luò)進(jìn)行銷售的商品或者服務(wù)等多種類型的產(chǎn)品的評(píng)論。本實(shí)施例不限制產(chǎn)品以及評(píng)論的具體表現(xiàn)形式。

作為示例,本實(shí)施例的評(píng)論集合中的評(píng)論可以是采用爬取等方式從網(wǎng)絡(luò)中獲取到的評(píng)論。本實(shí)施例可以對(duì)從網(wǎng)絡(luò)中獲取到的評(píng)論進(jìn)行篩選,以篩選出滿足預(yù)定條件的評(píng)論,從而將滿足預(yù)定條件的評(píng)論添加在評(píng)論集合中,這樣,可以使評(píng)論集合中的評(píng)論為確實(shí)需要進(jìn)行真實(shí)評(píng)論鑒定的評(píng)論,進(jìn)而本實(shí)施例可以有效控制評(píng)論集合中的評(píng)論的數(shù)量。

本實(shí)施例可以根據(jù)實(shí)際需求來設(shè)置預(yù)定條件,從而本實(shí)施例可以采用多種不同的篩選方式將滿足預(yù)定條件的評(píng)論添加在評(píng)論集合中。作為示例,下面簡(jiǎn)單例舉三種實(shí)現(xiàn)方式:

方式一、如圖2所示,s200、利用預(yù)先設(shè)置的分類模型對(duì)從網(wǎng)絡(luò)中獲取到的一條評(píng)論進(jìn)行是否為無用評(píng)論的分類處理,這樣,本實(shí)施例根據(jù)分類模型輸出的信息即可判斷出從網(wǎng)絡(luò)中獲取到的評(píng)論是否為無用評(píng)論,如果判斷出從網(wǎng)絡(luò)中獲取到的評(píng)論是無用評(píng)論時(shí),則到s210,如果判斷出從網(wǎng)絡(luò)中獲取到的評(píng)論不是無用評(píng)論時(shí),則到s220。

s210、本實(shí)施例不會(huì)將該條評(píng)論添加在評(píng)論集合中。

s220、本實(shí)施例應(yīng)將該條評(píng)論添加在評(píng)論集合中。

由上述描述可知,本方式中的預(yù)定條件可以描述為:分類模型輸出的信 息表示不是無用評(píng)論。本方式通過利用分類模型進(jìn)行無用評(píng)論的辨識(shí),可以有效避免無用評(píng)論被添加到評(píng)論集合中的現(xiàn)象。

方式二、如圖3所示,s300、計(jì)算從網(wǎng)絡(luò)中獲取到的一條評(píng)論的長(zhǎng)度(如統(tǒng)計(jì)評(píng)論所包含的字符數(shù)等),并到s310。

s310、判斷該條評(píng)論的長(zhǎng)度是否達(dá)到/超過預(yù)定長(zhǎng)度閾值,如果判斷出該條評(píng)論的長(zhǎng)度沒有達(dá)到/超過預(yù)定長(zhǎng)度閾值,則到s320,而如果判斷出該條評(píng)論的長(zhǎng)度達(dá)到/超過預(yù)定長(zhǎng)度閾值,則到s330。

s320、本實(shí)施例不會(huì)將該條評(píng)論添加在評(píng)論集合中。

s330、本實(shí)施例應(yīng)將該條評(píng)論添加在評(píng)論集合中。

由上述描述可知,本方式中的預(yù)定條件可以描述為:評(píng)論的長(zhǎng)度達(dá)到/超過預(yù)定長(zhǎng)度閾值。本方式充分考慮到了不真實(shí)評(píng)論為了引起他人注意而通常會(huì)具有較長(zhǎng)的長(zhǎng)度這一特征,通過設(shè)置預(yù)定長(zhǎng)度閾值對(duì)評(píng)論進(jìn)行辨識(shí),可以在一定程度上避免將更傾向于是真實(shí)評(píng)論的評(píng)論添加在評(píng)論集合中的現(xiàn)象。

方式三、如圖4所示,s400、利用預(yù)先設(shè)置的分類模型對(duì)從網(wǎng)絡(luò)中獲取到的一條評(píng)論進(jìn)行是否為無用評(píng)論的分類處理,這樣,本實(shí)施例根據(jù)分類模型輸出的信息即可判斷出從網(wǎng)絡(luò)中獲取到的評(píng)論是否為無用評(píng)論,如果判斷出從網(wǎng)絡(luò)中獲取到的評(píng)論是無用評(píng)論時(shí),則到s430,如果判斷出從網(wǎng)絡(luò)中獲取到的評(píng)論不是無用評(píng)論時(shí),則到s410。

s410、計(jì)算該條評(píng)論的長(zhǎng)度(如統(tǒng)計(jì)該條評(píng)論所包含的字符數(shù)等),并到s420。

s420、判斷該條評(píng)論的長(zhǎng)度是否達(dá)到/超過預(yù)定長(zhǎng)度閾值,如果判斷出該條評(píng)論的長(zhǎng)度沒有達(dá)到/超過預(yù)定長(zhǎng)度閾值,則到s430,而如果判斷出該條評(píng)論的長(zhǎng)度達(dá)到/超過預(yù)定長(zhǎng)度閾值,則到s440。

s430、本實(shí)施例不會(huì)將該條評(píng)論添加在評(píng)論集合中。

s440、本實(shí)施例應(yīng)將該條評(píng)論添加在評(píng)論集合中。

由上述描述可知,本方式中的預(yù)定條件可以描述為:分類模型輸出的信息表示不是無用評(píng)論,且評(píng)論的長(zhǎng)度達(dá)到/超過預(yù)定長(zhǎng)度閾值。本方式通過利用分類模型進(jìn)行無用評(píng)論的辨識(shí),并通過設(shè)置預(yù)定長(zhǎng)度閾值對(duì)非無用評(píng)論進(jìn) 行辨識(shí),不僅可以有效避免無用評(píng)論被添加到評(píng)論集合中的現(xiàn)象,而且可以在一定程度上避免將更傾向于是真實(shí)評(píng)論的評(píng)論添加在評(píng)論集合中的現(xiàn)象。

在上述方式一和方式三中,都采用了利用分類模型來識(shí)別評(píng)論是否為無用評(píng)論這一分類技術(shù),本實(shí)施例中的分類模型可以具體為logistic回歸分類模型(即邏輯回歸分類模型或者邏輯回歸分類器),當(dāng)然,本實(shí)施例也可以采用決策樹分類模型(即決策樹分類器)等其他形式的分類模型。

作為示例,本實(shí)施例在采用邏輯回歸分類模型的情況下,判斷一條評(píng)論是否為無用評(píng)論的過程可以具體如圖5所示。

在圖5中,s500、將獲取到的一條評(píng)論進(jìn)行特征量化處理,以獲得該條評(píng)論對(duì)應(yīng)的特征量化值。

s510、將該評(píng)論對(duì)應(yīng)的特征量化值提供給邏輯回歸分類模型。

s520、根據(jù)邏輯回歸分類模型輸出的概率值判斷該條評(píng)論是否為無用評(píng)論,如概率值達(dá)到/超過預(yù)定概率閾值的評(píng)論為無用評(píng)論,而概率值未達(dá)到/未超過預(yù)定概率閾值的評(píng)論為正常評(píng)論。

作為示例,本實(shí)施例通過對(duì)一條評(píng)論進(jìn)行特征量化處理而獲得的該評(píng)論對(duì)應(yīng)的特征量化值可以包括:表征評(píng)論與相應(yīng)產(chǎn)品類型的產(chǎn)品特征之間的相似度的量化值(上述相應(yīng)產(chǎn)品類型為評(píng)論對(duì)應(yīng)的產(chǎn)品所屬的產(chǎn)品類型)、表征評(píng)論中的非產(chǎn)品評(píng)價(jià)部分與評(píng)論之間比例的量化值、表征評(píng)論中是否包含有超鏈接的量化值以及表征評(píng)論中的疑問語(yǔ)句與評(píng)論之間比例的量化值中的一個(gè)或者多個(gè)。優(yōu)選的,本實(shí)施例通過對(duì)一條評(píng)論進(jìn)行特征量化處理,獲得該評(píng)論對(duì)應(yīng)的上述四個(gè)量化值。

作為示例,針對(duì)表征評(píng)論與相應(yīng)產(chǎn)品類型的產(chǎn)品特征之間的相似度的量化值而言,本實(shí)施例對(duì)評(píng)論進(jìn)行特征量化處理過程的一個(gè)具體的例子如圖6所示。

圖6中,在本次對(duì)評(píng)論進(jìn)行特征量化處理之前,如果一條評(píng)論并未進(jìn)行分詞處理,則執(zhí)行s600,對(duì)該條評(píng)論進(jìn)行分詞處理,以將該條評(píng)論劃分為一個(gè)或多個(gè)分詞,然后,到s610。而在本次特征量化處理之前,如果一條評(píng)論已經(jīng)進(jìn)行了分詞處理(如評(píng)論集合中存儲(chǔ)的評(píng)論包括預(yù)處理后的評(píng)論,且該預(yù)處理包括分詞處理),則可以直接到s610。也就是說,s600為可選步驟。

本實(shí)施例可以采用現(xiàn)有的ictclas等分詞工具對(duì)評(píng)論進(jìn)行分詞處理。

s610、在本次特征量化處理之前,如果一條評(píng)論并未進(jìn)行去除停用詞處理,則對(duì)該條評(píng)論的各分詞分別進(jìn)行去除停用詞處理,以便于去除該評(píng)論中的為停用詞的分詞;如根據(jù)預(yù)先設(shè)置的停用詞表(即停用詞集合)所包含的各停用詞來去除該評(píng)論中的為停用詞的分詞;本實(shí)施例中的停用詞可以為語(yǔ)氣助詞等沒有實(shí)際含義的詞;到s620。

在本次特征量化處理之前,如果一條評(píng)論已經(jīng)進(jìn)行了去除停用詞處理(如評(píng)論集合中存儲(chǔ)的評(píng)論包括預(yù)處理后的評(píng)論,且該預(yù)處理包括分詞處理和去除停用詞處理),則可以直接到s620,也就是說,s620為可選步驟。

s620、計(jì)算去除停用詞之后的各分詞的tf-idf(termfrequency–inversedocumentfrequency,詞頻逆向文件頻率)值,且一個(gè)分詞的tf-idf值可以作為該分詞的權(quán)重值;到s630。

本實(shí)施例可以采用下述公式(1)來計(jì)算評(píng)論中的第i個(gè)分詞d的tf-idf值,即wi(d):

在上述公式(1)中,tfi(d)表示評(píng)論中的第i個(gè)分詞d在該評(píng)論中出現(xiàn)的頻率(即次數(shù)),n表示評(píng)論集合中的評(píng)論的數(shù)量,ni表示評(píng)論集合中包含有第i個(gè)分詞d的評(píng)論的數(shù)量。

s630、根據(jù)各分詞的tf-idf值以及該條評(píng)論對(duì)應(yīng)的產(chǎn)品所屬的產(chǎn)品類型的產(chǎn)品特征詞表中的各產(chǎn)品特征詞的權(quán)重值進(jìn)行余弦相似度計(jì)算,計(jì)算獲得的余弦相似度即為表征評(píng)論與相應(yīng)產(chǎn)品類型的產(chǎn)品特征之間的相似度的量化值。本實(shí)施例中的產(chǎn)品特征詞表是預(yù)先設(shè)置的,且產(chǎn)品特征詞表中所包含的產(chǎn)品特征詞可以是從購(gòu)物網(wǎng)站所提供的對(duì)該產(chǎn)品類型的產(chǎn)品的細(xì)節(jié)描述頁(yè)面中提取出來的。另外,本實(shí)施例中的產(chǎn)品特征詞表中的各產(chǎn)品特征詞的權(quán)重值可以在初始化時(shí)全部設(shè)置為相同的權(quán)重值(如全部設(shè)置為1),然后,再在邏輯回歸分類模型的學(xué)習(xí)訓(xùn)練過程不斷的調(diào)整各產(chǎn)品特征詞的權(quán)重值,以不斷的優(yōu)化各產(chǎn)品特征詞的權(quán)重值。

本實(shí)施例可以利用下述公式(2)針對(duì)第i條評(píng)論di和第i條評(píng)論di所對(duì)應(yīng)的產(chǎn)品所屬的產(chǎn)品類型的產(chǎn)品特征進(jìn)行余弦相似度的計(jì)算:

在上述公式(2)中,sim(di,fj)表示第i條評(píng)論di與第i條評(píng)論所對(duì)應(yīng)的產(chǎn)品所屬的產(chǎn)品類型的產(chǎn)品特征fj(即第j個(gè)產(chǎn)品類型所對(duì)應(yīng)的產(chǎn)品特征)之間的余弦相似度,wik表示第i條評(píng)論di中的第k個(gè)分詞的tf-idf值,wjk表示第j個(gè)產(chǎn)品類型所對(duì)應(yīng)的產(chǎn)品特征詞表中的第k個(gè)產(chǎn)品特征詞的權(quán)重值。

作為示例,針對(duì)表征評(píng)論中的非產(chǎn)品評(píng)價(jià)部分與評(píng)論之間比例的量化值而言,本實(shí)施例對(duì)評(píng)論進(jìn)行特征量化處理過程的一個(gè)具體的例子如圖7所示。

圖7中,在本次對(duì)評(píng)論進(jìn)行特征量化處理之前,如果一條評(píng)論并未進(jìn)行斷句處理,則執(zhí)行s700,對(duì)該條評(píng)論進(jìn)行斷句處理,以將該條評(píng)論劃分為一個(gè)或多個(gè)語(yǔ)句,然后,到s710。而在本次特征量化處理之前,如果一條評(píng)論已經(jīng)進(jìn)行了斷句處理(如評(píng)論集合中存儲(chǔ)的評(píng)論包括預(yù)處理后的評(píng)論,且該預(yù)處理包括斷句處理),則可以直接到s710。也就是說,s700為可選步驟。

本實(shí)施例可以根據(jù)評(píng)論中的空格或者標(biāo)點(diǎn)符號(hào)等特殊符號(hào)將評(píng)論劃分為多個(gè)語(yǔ)句。

s710、在本次特征量化處理之前,如果一條評(píng)論并未進(jìn)行過短句合并處理,則對(duì)該條評(píng)論的各語(yǔ)句分別進(jìn)行短句合并處理,以便于將多個(gè)短句合并為一個(gè)語(yǔ)句;如將名稱代詞和謂語(yǔ)動(dòng)詞合并為一個(gè)語(yǔ)句等;到s720。

在本次特征量化處理之前,如果一條評(píng)論已經(jīng)進(jìn)行了短句合并處理(如評(píng)論集合中存儲(chǔ)的評(píng)論包括預(yù)處理后的評(píng)論,且該預(yù)處理包括斷句處理以及短句合并處理等),則可以直接到s720,也就是說,s720為可選步驟。

s720、針對(duì)短句合并處理后的各語(yǔ)句,分別根據(jù)預(yù)先設(shè)置的情感詞集合判斷語(yǔ)句中是否包含有情感詞,如果判斷出一個(gè)語(yǔ)句中包含有情感詞,則到s730,否則,到s721。

本實(shí)施例中的情感詞集合所包含的情感詞通常是指用于表達(dá)用戶對(duì)產(chǎn)品所產(chǎn)生的情感的詞語(yǔ),如好、很好、不好、差、很差以及湊合等等。

s721、將該語(yǔ)句作為非評(píng)價(jià)語(yǔ)句進(jìn)行計(jì)數(shù)。非評(píng)價(jià)語(yǔ)句是指既不是對(duì)產(chǎn)品進(jìn)行評(píng)價(jià)的語(yǔ)句,也不是對(duì)非產(chǎn)品(如淘寶或者客服或者快遞等)進(jìn)行評(píng)價(jià)的語(yǔ)句。

s730、根據(jù)預(yù)先設(shè)置的非產(chǎn)品信息集合(也可以稱為非產(chǎn)品信息列表)判斷包含有情感詞的語(yǔ)句中是否包含有非產(chǎn)品信息,如果判斷出包含有情感詞的語(yǔ)句中包含有非產(chǎn)品信息,則到s740,否則,到s731。本實(shí)施例中的非產(chǎn)品信息集合所包含的非產(chǎn)品信息可以具體為客服或者快遞或者快遞公司的名稱等。

s731、將該語(yǔ)句作為產(chǎn)品評(píng)價(jià)語(yǔ)句進(jìn)行計(jì)數(shù)。產(chǎn)品評(píng)價(jià)語(yǔ)句是指對(duì)產(chǎn)品進(jìn)行評(píng)價(jià)的語(yǔ)句。

s740、將該語(yǔ)句作為非產(chǎn)品評(píng)價(jià)語(yǔ)句進(jìn)行計(jì)數(shù)。非產(chǎn)品評(píng)價(jià)語(yǔ)句是指對(duì)非產(chǎn)品(如淘寶或者客服或者快遞等)進(jìn)行評(píng)價(jià)的語(yǔ)句,這樣的語(yǔ)句如快遞太慢或者客服態(tài)度不好等。

s750、計(jì)算上述通過計(jì)數(shù)獲得的非產(chǎn)品評(píng)價(jià)語(yǔ)句數(shù)量與該條評(píng)論的總語(yǔ)句數(shù)量(如產(chǎn)品評(píng)價(jià)語(yǔ)句的計(jì)數(shù)值、非產(chǎn)品評(píng)價(jià)語(yǔ)句的計(jì)數(shù)值以及非評(píng)價(jià)語(yǔ)句的計(jì)數(shù)值之和)之間的比例,該計(jì)算出的比例即為表征評(píng)論中的非產(chǎn)品評(píng)價(jià)部分與評(píng)論之間比例的量化值。

作為示例,針對(duì)表征評(píng)論中是否包含有超鏈接的量化值而言,本實(shí)施例對(duì)評(píng)論進(jìn)行特征量化處理過程的一個(gè)具體的例子如圖8所示。

圖8中,s800、判斷評(píng)論中是否包含有超鏈接(如利用正則表達(dá)式來判斷評(píng)論中是否包含有超鏈接或者判斷評(píng)論中是否包含有超鏈接關(guān)鍵字),如果判斷出評(píng)論中包含有超鏈接(如判斷出評(píng)論中存在與正則表達(dá)式匹配的內(nèi)容或者評(píng)論中包含有超鏈接關(guān)鍵字),則到s810,如果判斷出評(píng)論中沒有包含有超級(jí)鏈接(如判斷出評(píng)論中并不存在與正則表達(dá)式匹配的內(nèi)容或者評(píng)論中并沒有包含有超鏈接關(guān)鍵字),則到s820。

s810,為該條評(píng)論設(shè)置超鏈接標(biāo)識(shí)(如00)。

s820、為該條評(píng)論設(shè)置非超鏈接標(biāo)識(shí)(如01)。

上述為評(píng)論所設(shè)置的超鏈接標(biāo)識(shí)或者非超鏈接標(biāo)識(shí)即為表征評(píng)論中是否包含有超鏈接的量化值。

作為示例,本實(shí)施例還可以在判斷出評(píng)論中包含有超鏈接的基礎(chǔ)上,進(jìn)一步通過評(píng)論中的超鏈接來獲取該超鏈接所鏈接的具體內(nèi)容,并通過對(duì)該超鏈接所鏈接的具體內(nèi)容進(jìn)行關(guān)鍵字提取等操作,以判斷該超鏈接所鏈接的具體內(nèi)容是否為產(chǎn)品的評(píng)論,如果確定出是對(duì)產(chǎn)品的評(píng)論,則可以為該條評(píng)論設(shè)置非超鏈接標(biāo)識(shí),如果確定出不是對(duì)產(chǎn)品的評(píng)論(如鏈接廣告),則可以為該條評(píng)論設(shè)置超鏈接標(biāo)識(shí)。

作為再一個(gè)示例,針對(duì)表征評(píng)論中的疑問語(yǔ)句與評(píng)論之間比例的量化值而言,本實(shí)施例對(duì)評(píng)論進(jìn)行特征量化處理過程的一個(gè)具體的例子如圖9所示。

圖9中,在本次對(duì)評(píng)論進(jìn)行特征量化處理之前,如果一條評(píng)論并未進(jìn)行斷句處理,則執(zhí)行s900,對(duì)該條評(píng)論進(jìn)行斷句處理,以將該條評(píng)論劃分為一個(gè)或多個(gè)語(yǔ)句,然后,到s910。而在本次特征量化處理之前,如果一條評(píng)論已經(jīng)進(jìn)行了斷句處理(如評(píng)論集合中存儲(chǔ)的評(píng)論包括預(yù)處理后的評(píng)論,且該預(yù)處理包括斷句處理),則可以直接到s910。也就是說,s900為可選步驟。

本實(shí)施例可以根據(jù)評(píng)論中的空格或者標(biāo)點(diǎn)符號(hào)等特殊符號(hào)將評(píng)論劃分為多個(gè)語(yǔ)句。

s910、在本次特征量化處理之前,如果一條評(píng)論并未進(jìn)行過短句合并處理,則對(duì)該條評(píng)論的各語(yǔ)句分別進(jìn)行短句合并處理,以便于將多個(gè)短句合并為一個(gè)語(yǔ)句;如將名稱代詞和謂語(yǔ)動(dòng)詞合并為一個(gè)語(yǔ)句等;之后,到s920。

在本次特征量化處理之前,如果一條評(píng)論已經(jīng)進(jìn)行了短句合并處理(如評(píng)論集合中存儲(chǔ)的評(píng)論包括預(yù)處理后的評(píng)論,且該預(yù)處理包括斷句處理以及短句合并處理等),則可以直接到s920,也就是說,s920為可選步驟。

s920、針對(duì)短句合并處理后的各語(yǔ)句,分別根據(jù)預(yù)先設(shè)置的疑問詞集合判斷語(yǔ)句中是否包含有疑問詞,如果判斷出一個(gè)語(yǔ)句中包含有疑問詞詞,則到s930,否則,到s921。

本實(shí)施例中的疑問詞集合所包含的疑問詞可以包括:?jiǎn)?、呢、問?hào)、什么以及怎么樣等等。

s921、將該語(yǔ)句作為非疑問語(yǔ)句進(jìn)行計(jì)數(shù)。

s930、將該語(yǔ)句作為疑問語(yǔ)句進(jìn)行計(jì)數(shù)。到s940。

s940、計(jì)算上述通過計(jì)數(shù)獲得的疑問語(yǔ)句數(shù)量與該條評(píng)論的總語(yǔ)句數(shù)量 (如疑問語(yǔ)句的計(jì)數(shù)值與非疑問語(yǔ)句的計(jì)數(shù)值之和)之間的比例,該計(jì)算出的比例即為表征評(píng)論中的疑問語(yǔ)句與評(píng)論之間比例的量化值。

作為再一個(gè)示例,針對(duì)采用信息增益方式設(shè)置的基于從評(píng)論樣本中抽取出的特征分詞的量化值而言,本實(shí)施例對(duì)評(píng)論進(jìn)行特征量化處理過程的一個(gè)具體的例子為:統(tǒng)計(jì)預(yù)先設(shè)置的各特征分詞在從評(píng)論集合中獲得到的一條評(píng)論中出現(xiàn)的頻率(即次數(shù)),并將統(tǒng)計(jì)出的各特征分詞對(duì)應(yīng)的次數(shù)作為特征分詞的量化值。上述各特征分詞是在邏輯回歸分類模型的學(xué)習(xí)訓(xùn)練過程中基于信息增益的方式設(shè)置的。

需要特別說明的是,本實(shí)施例中的邏輯回歸分類模型在學(xué)習(xí)訓(xùn)練過程中所使用的評(píng)論樣本通常標(biāo)記有無用評(píng)論標(biāo)識(shí)(如spam)或者正常評(píng)論標(biāo)識(shí)(如ham),如可以通過人工來對(duì)評(píng)論樣本進(jìn)行無用評(píng)論標(biāo)識(shí)或者正常評(píng)論標(biāo)識(shí)的標(biāo)記。具有無用評(píng)論標(biāo)識(shí)的評(píng)論樣本可以稱為黑樣本,而具有正常評(píng)論標(biāo)識(shí)的標(biāo)記的評(píng)論樣本可以稱為白樣本,本實(shí)施例可以在邏輯回歸分類模型的學(xué)習(xí)訓(xùn)練過程中不斷的調(diào)整黑樣本和白樣本的比例,以提高邏輯回歸分類模型對(duì)無用評(píng)論識(shí)別的準(zhǔn)確性。

另外,本實(shí)施例可以結(jié)合信息增益的方法來實(shí)現(xiàn)邏輯回歸分類模型的學(xué)習(xí)訓(xùn)練,以便于可以從評(píng)論樣本中抽取出部分分詞作為特征分詞。在學(xué)習(xí)訓(xùn)練的過程中設(shè)置特征分詞的一個(gè)具體的例子如下:

首先,獲取各評(píng)論樣本中的所有分詞(如所有評(píng)論樣本中去除停用詞之后的所有分詞),針對(duì)每一個(gè)分詞x,分別進(jìn)行下述四種統(tǒng)計(jì)操作:

1、統(tǒng)計(jì)屬于ham且包含有分詞x的評(píng)論樣本數(shù)量;2、統(tǒng)計(jì)屬于spam且包含有分詞x的評(píng)論樣本數(shù)量;3、統(tǒng)計(jì)屬于ham且不包含有分詞x的評(píng)論樣本數(shù)量;4、統(tǒng)計(jì)屬于spam且不包含有分詞x的評(píng)論樣本數(shù)量;

然后,本實(shí)施例針對(duì)每一個(gè)分詞x,均利用上述統(tǒng)計(jì)出的數(shù)量來計(jì)算該分詞的信息增益值,并根據(jù)信息增益值的大小,選取前k(k>1)個(gè)信息增益值最大的分詞作為特征分詞,并分別統(tǒng)計(jì)這k個(gè)特征分詞在一條評(píng)論樣本中出現(xiàn)的詞頻(即次數(shù)),并將統(tǒng)計(jì)出的各詞頻均作為該條評(píng)論樣本的針對(duì)各特征分詞的特征量化值,各特征分詞的特征量化值與評(píng)論樣本的表征評(píng)論樣本與相應(yīng)產(chǎn)品類型的產(chǎn)品特征之間的相似度的量化值、表征評(píng)論樣本中的非 產(chǎn)品評(píng)價(jià)部分與評(píng)論之間比例的量化值、表征評(píng)論樣本中是否包含有超鏈接的量化值以及表征評(píng)論樣本中的疑問語(yǔ)句與評(píng)論之間比例的量化值一起表示一條評(píng)論樣本,并提供給邏輯回歸分類模型,以使邏輯回歸分類模型進(jìn)行學(xué)習(xí)訓(xùn)練。

本實(shí)施例在從評(píng)論集合中讀取出一條評(píng)論時(shí),可以根據(jù)該條評(píng)論中的分詞(如已經(jīng)去除了評(píng)論中的停用詞之后的所有分詞)為該條評(píng)論構(gòu)建語(yǔ)言模型,以獲得該評(píng)論的概率。

本實(shí)施例為評(píng)論構(gòu)建的語(yǔ)言模型可以為基于最大似然估計(jì)法以及katz平滑處理的二元語(yǔ)言模型,且為了使評(píng)論內(nèi)的各分詞的概率和為1,本實(shí)施例在每一條評(píng)論的開始位置添加了一個(gè)標(biāo)志(如start),并在評(píng)論的結(jié)束位置添加了一個(gè)標(biāo)志(如end),從而使一條評(píng)論可以表示為下述形式:

<start>w1w2...wk<end>。

針對(duì)上述形式的評(píng)論,本實(shí)施例的二元語(yǔ)言模型的一個(gè)具體例子可以表示為下公式(3)的形式:

p(s)=p(w1|<start>)p(w2|w1)...p(<end>|wk)公式(3)

在上述公式(3)中,start為評(píng)論開始位置標(biāo)志,end為評(píng)論結(jié)束位置標(biāo)志,p(w1|<start>)表示w1和start這一二元詞對(duì)的概率值,p(w2|w1)表示w2和w1這一二元詞對(duì)的概率值,p(<end>|wk)表示end和wk這一二元詞對(duì)的概率值。

上述公式(3)中的p(w1|<start>)、p(w2|w1)以及p(<end>|wk)可以采用下述公式(4)計(jì)算獲得:

在上述公式(4)中,n表示評(píng)論集合中的評(píng)論的數(shù)量,pml(wi)表示使用最大似然估計(jì)方法估計(jì)出的評(píng)論中的分詞wi的概率值,r表示wi和wi-1這一二元詞對(duì)出現(xiàn)在評(píng)論樣本中的計(jì)數(shù)值,dr表示折扣率,且nr表示二元詞對(duì)在評(píng)論樣本中出現(xiàn)r次的數(shù)量,nr+1表示二元詞對(duì)在評(píng)論樣本中出現(xiàn)r+1詞的數(shù)量,α表示歸一化參數(shù),且α(wi-1)可以通過下述公式(5) 來表示:

本實(shí)施例可以通過為評(píng)論集合中的每一條評(píng)論構(gòu)建語(yǔ)言模型的方式,獲得評(píng)論集合中的每一條評(píng)論的概率值。

s110、根據(jù)評(píng)論的概率與評(píng)論集合中的另一條評(píng)論的概率計(jì)算兩條評(píng)論之間的相似度。

具體的,本實(shí)施例可以根據(jù)評(píng)論集合中的所有評(píng)論的概率計(jì)算出其中任意一條評(píng)論與其他各條評(píng)論之間的相似度(即其中任意一條評(píng)論的概率分布與其他各條評(píng)論的概率分布之間的距離),如評(píng)論集合中包括4條評(píng)論,則針對(duì)第一條評(píng)論而言,可以根據(jù)這4條評(píng)論各自的概率計(jì)算出第一條評(píng)論與第二條評(píng)論之間的相似度,第一條評(píng)論與第三條評(píng)論之間的相似度,第一條評(píng)論與第四條評(píng)論之間的相似度。

本實(shí)施例可以利用kl散度計(jì)算出評(píng)論集合中任意兩條評(píng)論之間的相似度(即任意兩條評(píng)論的概率分布之間的kl距離),如本實(shí)施例可以利用下述公式(6)計(jì)算出評(píng)論集合中任意兩條評(píng)論之間的相似度:

在上述公式(6)中,kl(p||q)表示評(píng)論p和評(píng)論q之間的相似度,p(x)表示評(píng)論p的概率,q(x)表示評(píng)論q的概率,x表示評(píng)論集合。

s120、在相似度滿足相似度要求的情況下,將兩條評(píng)論均確定為不真實(shí)評(píng)論。

具體的,本實(shí)施例可以預(yù)先設(shè)置有相似度閾值,在判斷出兩條評(píng)論之間的相似度沒有超過/小于相似度閾值時(shí),可以將這兩條評(píng)論均確定為不真實(shí)評(píng)論;而在判斷出兩條評(píng)論之間的相似度超過/不小于相似度閾值時(shí),可以將這兩條評(píng)論均確定為真實(shí)評(píng)論。

在針對(duì)評(píng)論集合中的任意兩條評(píng)論均進(jìn)行了相似度是否滿足相似度要求的判斷之后,本實(shí)施例可以從評(píng)論集合中挑選出所有不真實(shí)評(píng)論。

實(shí)施例二、垃圾評(píng)論識(shí)別裝置。

圖10為本實(shí)施例的垃圾評(píng)論識(shí)別裝置示意圖。如圖10所示,本實(shí)施例的裝置主要包括:構(gòu)建模型模塊1000、計(jì)算相似度模塊1010以及判別不真實(shí)模塊1020。在一個(gè)應(yīng)用場(chǎng)景中,本實(shí)施例的裝置也可以包括:構(gòu)建模型模塊1000、計(jì)算相似度模塊1010、判別不真實(shí)模塊1020、獲取評(píng)論模塊1030以及評(píng)論過濾模塊1040(如圖11所示)。本實(shí)施例所記載的垃圾評(píng)論識(shí)別裝置通常設(shè)置于網(wǎng)絡(luò)設(shè)備中,優(yōu)選的,本實(shí)施例所記載的裝置通常是設(shè)置于網(wǎng)絡(luò)購(gòu)物平臺(tái)一側(cè)的網(wǎng)絡(luò)設(shè)備中。

下面結(jié)合圖10-圖20對(duì)本實(shí)施例的垃圾評(píng)論識(shí)別裝置的結(jié)構(gòu)進(jìn)行說明。

獲取評(píng)論模塊1030主要用于獲取網(wǎng)絡(luò)中的評(píng)論,如獲取評(píng)論模塊1030可以是采用爬取等方式從網(wǎng)絡(luò)中獲取到的評(píng)論。

評(píng)論過濾模塊1040主要用于在判斷出獲取評(píng)論模塊1030獲取的評(píng)論滿足預(yù)定條件的情況下,將獲取的評(píng)論添加在評(píng)論集合中。也就是說,評(píng)論過濾模塊1040可以對(duì)獲取評(píng)論模塊1030從網(wǎng)絡(luò)中獲取到的評(píng)論進(jìn)行篩選,以篩選出滿足預(yù)定條件的評(píng)論,從而將滿足預(yù)定條件的評(píng)論添加在評(píng)論集合中。

作為示例,評(píng)論過濾模塊1040可以包括:第一過濾子模塊1041(如圖12所示)、第二過濾子模塊1042(如圖13所示)或者第三過濾子模塊1043(如圖14所示)。

上述第一過濾子模塊1041主要用于在根據(jù)分類模型輸出的信息確定獲取的評(píng)論不是無用評(píng)論的情況下,將獲取的評(píng)論添加在評(píng)論集合中;即第一過濾子模塊1041利用預(yù)先設(shè)置的分類模型對(duì)獲取評(píng)論模塊1030從網(wǎng)絡(luò)中獲取到的一條評(píng)論進(jìn)行是否為無用評(píng)論的分類處理,這樣,第一過濾子模塊1041根據(jù)分類模型輸出的信息即可判斷出從網(wǎng)絡(luò)中獲取到的評(píng)論是否為無用評(píng)論,如果第一過濾子模塊1041判斷出獲取評(píng)論模塊1030從網(wǎng)絡(luò)中獲取到的評(píng)論是無用評(píng)論時(shí),則第一過濾子模塊1041不會(huì)將該條評(píng)論添加在評(píng)論集合中,如果第一過濾子模塊1041判斷出獲取評(píng)論模塊1030從網(wǎng)絡(luò)中獲取到的評(píng)論不是無用評(píng)論時(shí),則第一過濾子模塊1041應(yīng)將該條評(píng)論添加在評(píng)論集合中。

上述第二過濾子模塊1042主要用于在判斷出獲取的評(píng)論的長(zhǎng)度超過預(yù)定長(zhǎng)度閾值的情況下,將獲取評(píng)論模塊1030獲取的評(píng)論添加在所述評(píng)論集合 中;即第二過濾子模塊1042計(jì)算從獲取評(píng)論模塊1030網(wǎng)絡(luò)中獲取到的一條評(píng)論的長(zhǎng)度(如統(tǒng)計(jì)評(píng)論所包含的字符數(shù)等),第二過濾子模塊1042判斷該條評(píng)論的長(zhǎng)度是否達(dá)到/超過預(yù)定長(zhǎng)度閾值,如果判斷出該條評(píng)論的長(zhǎng)度沒有達(dá)到/超過預(yù)定長(zhǎng)度閾值,則第二過濾子模塊1042不會(huì)將該條評(píng)論添加在評(píng)論集合中,而如果判斷出該條評(píng)論的長(zhǎng)度達(dá)到/超過預(yù)定長(zhǎng)度閾值,則第二過濾子模塊1042應(yīng)將該條評(píng)論添加在評(píng)論集合中。

上述第三過濾子模塊1043主要用于在根據(jù)分類模型輸出的信息確定獲取的評(píng)論不是無用評(píng)論,且在判斷出獲取的評(píng)論的長(zhǎng)度超過預(yù)定長(zhǎng)度閾值的情況下,將獲取的評(píng)論添加在評(píng)論集合中。具體的,第三過濾子模塊1043利用預(yù)先設(shè)置的分類模型對(duì)從網(wǎng)絡(luò)中獲取到的一條評(píng)論進(jìn)行是否為無用評(píng)論的分類處理,這樣,第三過濾子模塊1043根據(jù)分類模型輸出的信息即可判斷出從網(wǎng)絡(luò)中獲取到的評(píng)論是否為無用評(píng)論,如果第三過濾子模塊1043判斷出從網(wǎng)絡(luò)中獲取到的評(píng)論是無用評(píng)論時(shí),則第三過濾子模塊1043不會(huì)將該條評(píng)論添加在評(píng)論集合中,如果判斷出從網(wǎng)絡(luò)中獲取到的評(píng)論不是無用評(píng)論時(shí),則第三過濾子模塊1043計(jì)算該條評(píng)論的長(zhǎng)度(如統(tǒng)計(jì)該條評(píng)論所包含的字符數(shù)等),并判斷該條評(píng)論的長(zhǎng)度是否達(dá)到/超過預(yù)定長(zhǎng)度閾值,如果判斷出該條評(píng)論的長(zhǎng)度沒有達(dá)到/超過預(yù)定長(zhǎng)度閾值,則第三過濾子模塊1043不會(huì)將該條評(píng)論添加在評(píng)論集合中到s430,而如果判斷出該條評(píng)論的長(zhǎng)度達(dá)到/超過預(yù)定長(zhǎng)度閾值,則第三過濾子模塊1043將該條評(píng)論添加在評(píng)論集合中。

上述第一過濾子模塊1041以及第三過濾子模塊1043均可以包括:量化處理子模塊1044、輸入子模塊1045以及判別無用子模塊1046(如圖15所示)。

其中的量化處理子模塊1044主要用于將獲取的評(píng)論進(jìn)行特征量化處理,以獲得獲取的評(píng)論對(duì)應(yīng)的特征量化值。其中的輸入子模塊1045主要用于將評(píng)論及其對(duì)應(yīng)的特征量化值提供給邏輯回歸分類模型。其中的判別無用子模塊1046用于根據(jù)邏輯回歸分類模型輸出的概率值判斷獲取的評(píng)論是否為無用評(píng)論,如判別無用子模塊1046將概率值達(dá)到/超過預(yù)定概率閾值的評(píng)論判別為無用評(píng)論,而將概率值未達(dá)到/未超過預(yù)定概率閾值的評(píng)論判別為正常評(píng)論。

作為示例,量化處理子模塊1044通過對(duì)一條評(píng)論進(jìn)行特征量化處理而獲得的該評(píng)論對(duì)應(yīng)的特征量化值可以包括:表征評(píng)論與相應(yīng)產(chǎn)品類型的產(chǎn)品特 征之間的相似度的量化值(上述相應(yīng)產(chǎn)品類型為評(píng)論對(duì)應(yīng)的產(chǎn)品所屬的產(chǎn)品類型)、表征評(píng)論中的非產(chǎn)品評(píng)價(jià)部分與評(píng)論之間比例的量化值、表征評(píng)論中是否包含有超鏈接的量化值以及表征評(píng)論中的疑問語(yǔ)句與評(píng)論之間比例的量化值中的一個(gè)或者多個(gè)。優(yōu)選的,量化處理子模塊1044通過對(duì)一條評(píng)論進(jìn)行特征量化處理,獲得該評(píng)論對(duì)應(yīng)的上述四個(gè)量化值。

作為示例,本實(shí)施例的量化處理子模塊1044可以包括:停用詞處理子模塊10441主要用于對(duì)獲取的評(píng)論的各分詞進(jìn)行去除停用詞處理;計(jì)算tf-idf值子模塊10442主要用于計(jì)算去除停用詞之后的各分詞的tf-idf值,如利用上述公式(1)計(jì)算各分詞的tf-idf值;計(jì)算相似度子模塊10443主要用于根據(jù)各分詞的tf-idf值和預(yù)先設(shè)定的相應(yīng)產(chǎn)品類型的各產(chǎn)品特征詞的權(quán)重值進(jìn)行余弦相似度計(jì)算,如利用上述公式(2)計(jì)算余弦相似度,其中,計(jì)算相似度子模塊10443計(jì)算出的余弦相似度被作為表征評(píng)論與相應(yīng)產(chǎn)品類型的產(chǎn)品特征之間的相似度的量化值(如圖16所示)。上述停用詞處理子模塊10441、計(jì)算tf-idf值子模塊10442以及計(jì)算相似度子模塊10443具體執(zhí)行的操作可以參見上述實(shí)施例一中針對(duì)圖6的描述。

作為示例,量化處理子模塊1044還可以包括:識(shí)別非產(chǎn)品評(píng)價(jià)子模塊10444主要用于根據(jù)預(yù)先設(shè)置的情感詞集合以及非產(chǎn)品信息集合將所述獲取的評(píng)論中包含有情感詞以及非產(chǎn)品信息的語(yǔ)句確定為非產(chǎn)品評(píng)價(jià)語(yǔ)句;第一計(jì)算比例子模塊10445主要用于計(jì)算所述獲取的評(píng)論中的非產(chǎn)品評(píng)價(jià)語(yǔ)句數(shù)量與所述獲取的評(píng)論的總語(yǔ)句數(shù)量之間的比例,其中,所述計(jì)算出的比例被作為所述表征評(píng)論中的非產(chǎn)品評(píng)價(jià)部分與評(píng)論之間比例的量化值(如圖17所示)。識(shí)別非產(chǎn)品評(píng)價(jià)子模塊10444以及第一計(jì)算比例子模塊10445具體執(zhí)行的操作可以參見上述實(shí)施例一中針對(duì)圖7的描述。

作為示例,量化處理子模塊1044還可以包括:識(shí)別超鏈接子模塊10446主要用于在判斷出獲取的評(píng)論中包含有超鏈接的情況下,為獲取的評(píng)論設(shè)置超鏈接標(biāo)識(shí),否則,為獲取的評(píng)論設(shè)置非超鏈接標(biāo)識(shí),其中,所述超鏈接標(biāo)識(shí)和非超鏈接標(biāo)識(shí)為所述表征評(píng)論中是否包含有超鏈接的量化值(如圖18所示)。識(shí)別超鏈接子模塊10446具體執(zhí)行的操作可以參見上述實(shí)施例一中針對(duì)圖8的描述。

作為示例,量化處理子模塊1044還可以包括:識(shí)別疑問句子模塊10447主要用于根據(jù)預(yù)先設(shè)置的疑問詞集合將獲取的評(píng)論中包含有疑問詞的語(yǔ)句確定為疑問句;第二計(jì)算比例子模塊10448主要用于計(jì)算獲取的評(píng)論中的疑問句數(shù)量與獲取的評(píng)論的總語(yǔ)句數(shù)量之間的比例,其中,計(jì)算出的比例被作為所述表征評(píng)論中的疑問語(yǔ)句與評(píng)論之間比例的量化值(如圖19所示)。識(shí)別疑問句子模塊10447具體執(zhí)行的操作可以參見上述實(shí)施例一中針對(duì)圖9的描述。

作為示例,量化處理子模塊1044還可以包括:統(tǒng)計(jì)次數(shù)子模塊10449主要用于統(tǒng)計(jì)各特征分詞在獲取的評(píng)論中出現(xiàn)的次數(shù),其中,統(tǒng)計(jì)出的各次數(shù)被作為所述基于信息增益方式從評(píng)論樣本中抽取出的特征分詞的量化值(如圖20所示)。具體的,統(tǒng)計(jì)次數(shù)子模塊10449統(tǒng)計(jì)預(yù)先設(shè)置的各特征分詞在從評(píng)論集合中獲得到的一條評(píng)論中出現(xiàn)的頻率(即次數(shù)),并將統(tǒng)計(jì)出的各特征分詞對(duì)應(yīng)的次數(shù)作為特征分詞的量化值。上述各特征分詞是在邏輯回歸分類模型的學(xué)習(xí)訓(xùn)練過程中基于信息增益的方式設(shè)置的。

另外,本實(shí)施例的裝置還可以包括:學(xué)習(xí)訓(xùn)練模塊(圖中未示出),該學(xué)習(xí)訓(xùn)練模塊可以結(jié)合信息增益的方法來實(shí)現(xiàn)邏輯回歸分類模型的學(xué)習(xí)訓(xùn)練,從而學(xué)習(xí)訓(xùn)練模塊可以從評(píng)論樣本中抽取出部分分詞作為特征分詞。學(xué)習(xí)訓(xùn)練模塊在學(xué)習(xí)訓(xùn)練邏輯回歸分類模型的過程中設(shè)置特征分詞的一個(gè)具體的例子如下:

首先,學(xué)習(xí)訓(xùn)練模塊獲取各評(píng)論樣本中的所有分詞(如所有評(píng)論樣本中去除停用詞之后的所有分詞),針對(duì)每一個(gè)分詞x,學(xué)習(xí)訓(xùn)練模塊分別進(jìn)行下述四種統(tǒng)計(jì)操作:

1、統(tǒng)計(jì)屬于ham且包含有分詞x的評(píng)論樣本數(shù)量;2、統(tǒng)計(jì)屬于spam且包含有分詞x的評(píng)論樣本數(shù)量;3、統(tǒng)計(jì)屬于ham且不包含有分詞x的評(píng)論樣本數(shù)量;4、統(tǒng)計(jì)屬于spam且不包含有分詞x的評(píng)論樣本數(shù)量;

然后,學(xué)習(xí)訓(xùn)練模塊針對(duì)每一個(gè)分詞x,均利用上述統(tǒng)計(jì)出的相應(yīng)的數(shù)量來計(jì)算該分詞的信息增益值,并根據(jù)信息增益值的大小,學(xué)習(xí)訓(xùn)練模塊選取前k(k>1)個(gè)信息增益值最大的分詞作為特征分詞,學(xué)習(xí)訓(xùn)練模塊分別統(tǒng)計(jì)這k個(gè)特征分詞在一條評(píng)論樣本中出現(xiàn)的詞頻(即次數(shù)),學(xué)習(xí)訓(xùn)練模塊 將統(tǒng)計(jì)出的各詞頻均作為該條評(píng)論樣本的針對(duì)各特征分詞的特征量化值,各特征分詞的特征量化值與評(píng)論樣本的表征評(píng)論樣本與相應(yīng)產(chǎn)品類型的產(chǎn)品特征之間的相似度的量化值、表征評(píng)論樣本中的非產(chǎn)品評(píng)價(jià)部分與評(píng)論之間比例的量化值、表征評(píng)論樣本中是否包含有超鏈接的量化值以及表征評(píng)論樣本中的疑問語(yǔ)句與評(píng)論之間比例的量化值一起表示一條評(píng)論樣本,學(xué)習(xí)訓(xùn)練模塊將其提供給邏輯回歸分類模型,以使邏輯回歸分類模型進(jìn)行學(xué)習(xí)訓(xùn)練。

構(gòu)建模型模塊1000主要用于根據(jù)從評(píng)論集合中讀取出的一條評(píng)論中的分詞為該條評(píng)論構(gòu)建語(yǔ)言模型,以獲得該條評(píng)論的概率。構(gòu)建模型模塊1000構(gòu)建的語(yǔ)言模型可以為基于最大似然估計(jì)法以及katz平滑處理的二元語(yǔ)言模型。即構(gòu)建模型模塊1000在從評(píng)論集合中讀取出一條評(píng)論時(shí),可以根據(jù)該條評(píng)論中的分詞(如已經(jīng)去除了評(píng)論中的停用詞之后的所有分詞)為該評(píng)論構(gòu)建語(yǔ)言模型,以獲得該評(píng)論的概率。

構(gòu)建模型模塊1000為評(píng)論構(gòu)建的語(yǔ)言模型可以為基于最大似然估計(jì)法以及katz平滑處理的二元語(yǔ)言模型,構(gòu)建模型模塊1000所構(gòu)建的二元語(yǔ)言模型的一個(gè)具體例子如上述公式(3)所示。構(gòu)建模型模塊1000可以通過為評(píng)論集合中的每一條評(píng)論構(gòu)建語(yǔ)言模型的方式,獲得評(píng)論集合中的每一條評(píng)論的概率值。

計(jì)算相似度模塊1010主要用于根據(jù)上述評(píng)論的概率與評(píng)論集合中的另一條評(píng)論的概率計(jì)算兩條評(píng)論之間的相似度。

具體的,計(jì)算相似度模塊1010可以根據(jù)評(píng)論集合中的所有評(píng)論的概率計(jì)算出其中任意一條評(píng)論與其他各條評(píng)論之間的相似度(即其中任意一條評(píng)論的概率分布與其他各條評(píng)論的概率分布之間的距離),如評(píng)論集合中包括4條評(píng)論,則針對(duì)第一條評(píng)論而言,計(jì)算相似度模塊1010可以根據(jù)這4條評(píng)論各自的概率計(jì)算出第一條評(píng)論與第二條評(píng)論之間的相似度,第一條評(píng)論與第三條評(píng)論之間的相似度,第一條評(píng)論與第四條評(píng)論之間的相似度。

計(jì)算相似度模塊1010可以利用kl散度計(jì)算出評(píng)論集合中任意兩條評(píng)論之間的相似度(即任意兩條評(píng)論的概率分布之間的kl距離),如計(jì)算相似度模塊1010可利用公式(6)計(jì)算出評(píng)論集合中任意兩條評(píng)論之間的相似度。

判別不真實(shí)模塊1020主要用于在相似度滿足相似度要求的情況下,將這 兩條評(píng)論均確定為不真實(shí)評(píng)論。

具體的,判別不真實(shí)模塊1020可以預(yù)先設(shè)置有相似度閾值,在判斷出兩條評(píng)論之間的相似度沒有超過/小于相似度閾值時(shí),判別不真實(shí)模塊1020可以將這兩條評(píng)論均確定為不真實(shí)評(píng)論;而在判斷出兩條評(píng)論之間的相似度超過/不小于相似度閾值時(shí),判別不真實(shí)模塊1020可以將這兩條評(píng)論均確定為真實(shí)評(píng)論。在針對(duì)評(píng)論集合中的任意兩條評(píng)論均進(jìn)行了相似度是否滿足相似度要求的判斷之后,判別不真實(shí)模塊1020可以從評(píng)論集合中挑選出所有不真實(shí)評(píng)論。

需要注意的是,本發(fā)明的一部分可以被應(yīng)用為計(jì)算機(jī)程序產(chǎn)品,例如計(jì)算機(jī)程序指令,當(dāng)其被智能電子設(shè)備(如計(jì)算機(jī)或者服務(wù)器等)執(zhí)行時(shí),通過該智能電子設(shè)備的操作可以調(diào)用或者提供根據(jù)本發(fā)明的方法和/或技術(shù)方案。而調(diào)用本發(fā)明的方法的程序指令,可能被存儲(chǔ)在固定的或可移動(dòng)的記錄介質(zhì)中,和/或通過廣播或者其他信號(hào)承載媒體中的數(shù)據(jù)流而被傳輸,和/或被存儲(chǔ)在根據(jù)所述程序指令運(yùn)行的智能電子設(shè)備的工作存儲(chǔ)器中。在此,根據(jù)本發(fā)明的一個(gè)實(shí)施例包括一個(gè)裝置,該裝置包括用于存儲(chǔ)計(jì)算機(jī)程序指令的存儲(chǔ)器和用于執(zhí)行程序指令的處理器,其中,當(dāng)該計(jì)算機(jī)程序指令被該處理器執(zhí)行時(shí),觸發(fā)該裝置運(yùn)行基于前述根據(jù)本發(fā)明的多個(gè)實(shí)施例的方法和/或技術(shù)方案。

對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明并不局限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或者基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無論從哪一點(diǎn)來看,均應(yīng)將本發(fā)明的實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此外,顯然“包括”一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。裝置權(quán)利要求中陳述的多個(gè)單元或者裝置或者模塊也可以由一個(gè)單元或者裝置或者模塊通過軟件或者硬件來實(shí)現(xiàn)。第一,第二等詞語(yǔ)用來表示名稱,而并不表示任何特定的順序。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
克山县| 东阿县| 固阳县| 东丰县| 神农架林区| 赤峰市| 库尔勒市| 泽普县| 内乡县| 长宁县| 花垣县| 兴和县| 梅河口市| 垦利县| 梅州市| 古蔺县| 城市| 东乡族自治县| 曲麻莱县| 安康市| 武威市| 伊吾县| 铁岭市| 灵石县| 秦皇岛市| 苗栗县| 开阳县| 西乌| 兴海县| 丹棱县| 莱西市| 定日县| 修水县| 海兴县| 紫阳县| 教育| 昌图县| 漳平市| 红桥区| 通山县| 泰来县|