用于豐富網(wǎng)站內(nèi)容的方法和裝置、網(wǎng)站服務(wù)器的制造方法
【專利摘要】本公開涉及一種用于豐富網(wǎng)站內(nèi)容的裝置和方法、網(wǎng)站服務(wù)器。本發(fā)明的用于豐富網(wǎng)站內(nèi)容的方法包括:從所述網(wǎng)站和其它網(wǎng)站獲得語料庫,從所述語料庫中提取所述對象的特征,其中所述語料庫包括關(guān)于對象的說明和用戶對所述對象的評價;根據(jù)所述語料庫,為提取出的特征構(gòu)建多維向量;針對特定特征,將其多維向量與提取出的其它特征的多維向量進(jìn)行相似度比較;將相似度高于預(yù)定閾值的特征確定為相同特征,并且將與所述網(wǎng)站上的對象的特征不同的特征和其相應(yīng)屬性補(bǔ)充到該網(wǎng)站。本發(fā)明提高了網(wǎng)頁整合效率。
【專利說明】用于豐富網(wǎng)站內(nèi)容的方法和裝置、網(wǎng)站服務(wù)器
【技術(shù)領(lǐng)域】
[0001]本公開總體來說涉及一種豐富網(wǎng)站內(nèi)容的方法和裝置,更具體地,本公開涉及利用語義分析、計算方法來豐富網(wǎng)站中關(guān)于對象的說明。
【背景技術(shù)】
[0002]如今,各種各樣的網(wǎng)站提供各種各樣的網(wǎng)絡(luò)內(nèi)容。網(wǎng)頁上經(jīng)常保護(hù)對一個對象的說明,例如對一個事件、一個產(chǎn)品、一個人物的說明等。用戶看到該網(wǎng)頁上,往往會產(chǎn)生一種需求,即想看到關(guān)于這個事件、這個產(chǎn)品、這個人物其它方面的說明,并希望能夠看到一個網(wǎng)頁,在該網(wǎng)頁上將在該網(wǎng)站和其它網(wǎng)站上找到的關(guān)于這個事件、這個產(chǎn)品、這個人物的說明整合在一起,便于用戶閱讀。
[0003]作為一個例子,用戶在網(wǎng)頁上看到一個人物的說明。用戶非常想知道該人物更多的方面,但本網(wǎng)頁上只有該人物的年齡、身高、性別。如果用戶想知道關(guān)于該人物的其它方面,該用戶必須查詢其它的網(wǎng)頁。用戶希望看到一個整合的網(wǎng)頁,該網(wǎng)頁上將在本網(wǎng)站和其它網(wǎng)站上找到的關(guān)于這個人物的說明例如按照年齡、身高、性別、興趣、職業(yè)、血型、星座等方面整合在一起,便于用戶閱讀。
[0004]作為另一個例子,用戶在網(wǎng)頁上看到一個產(chǎn)品的說明。用戶非常想知道該產(chǎn)品更多的方面,但本網(wǎng)頁上只有該產(chǎn)品的型號、顏色、價格。如果用戶想知道關(guān)于該產(chǎn)品的其它方面,該用戶必須查詢其它的網(wǎng)頁。用戶希望看到一個整合的網(wǎng)頁,該網(wǎng)頁上將在本網(wǎng)站和其它網(wǎng)站上找到的關(guān)于這個產(chǎn)生的說明例如按照年型號、顏色、價格、尺寸、芯片、內(nèi)存、重量等方面整合在一起,便于用戶閱讀。
[0005]一般來說,在具有關(guān)于人物的說明的網(wǎng)站上,還有其它用戶看了該關(guān)于人物的說明后的一些評論或感想。在具有關(guān)于產(chǎn)品的說明的網(wǎng)站上,還有其它用戶看了該關(guān)于產(chǎn)品的說明后的一些評論或感想。這些評論或感想與關(guān)于人物或產(chǎn)品的說明位于網(wǎng)頁格式的不同的塊中。
[0006]在各個網(wǎng)站上關(guān)于對象的說明往往采用了不同的詞語。如果簡單地收集網(wǎng)站所提供的說明和數(shù)據(jù),很可能提供了重復(fù)的信息。例如不同的網(wǎng)站上對于同一對象的說明中可能分別出現(xiàn)了屏幕、顯示器、手機(jī)屏、顯示屏等等,但實際上它們的含義是基本相同的。如果把關(guān)于它們的信息都整合進(jìn)網(wǎng)頁中,提供了重復(fù)的信息且頁面可讀性差。
[0007]另一方面,現(xiàn)有技術(shù)中僅僅關(guān)注了對網(wǎng)站說明的收集和提取。但實際上,用戶的評論或感想中也存在著大量有用的信息?,F(xiàn)有技術(shù)沒有實現(xiàn)網(wǎng)頁信息利用最大化。
【發(fā)明內(nèi)容】
[0008]本發(fā)明解決的一個技術(shù)問題是提供一種豐富網(wǎng)絡(luò)內(nèi)容的方法、裝置及網(wǎng)絡(luò)服務(wù)器,其能夠用其它網(wǎng)站上關(guān)于對象的說明來豐富網(wǎng)站上關(guān)于對象的說明而不引入重復(fù)信息,提高網(wǎng)頁整合效率。
[0009]根據(jù)本發(fā)明的一方面,提供了一種用于豐富網(wǎng)站內(nèi)容的方法,所述方法包括:從所述網(wǎng)站和其它網(wǎng)站獲得語料庫,從所述語料庫中提取對象的特征,其中所述語料庫包括關(guān)于所述對象的說明和用戶對所述對象的評價;根據(jù)所述語料庫,為提取出的特征構(gòu)建多維向量;針對特定特征,將其多維向量與提取出的其它特征的多維向量進(jìn)行相似度比較;將相似度高于預(yù)定閾值的特征確定為相同特征,并且將與所述網(wǎng)站上的對象的特征不同的特征和其相應(yīng)屬性補(bǔ)充到該網(wǎng)站。
[0010]可選地,從所述網(wǎng)站和其它網(wǎng)站獲得語料庫包括:指定所述其它網(wǎng)站;分析所述網(wǎng)站和其它網(wǎng)站的格式;按照分析出的所述網(wǎng)站和其它網(wǎng)站的格式,尋找含有與所述對象對應(yīng)的對象標(biāo)識的所有的塊;根據(jù)塊的格式判斷尋找到的塊是關(guān)于對象的說明還是用戶對所述對象的評價,將尋找到的關(guān)于對象的說明和用戶對所述對象的評價作為語料庫。
[0011]可選地,從所述語料庫中提取所述對象的特征包括:從所述網(wǎng)站和其它網(wǎng)站中關(guān)于對象的說明中提取特征種子,其中按照所述網(wǎng)站和其它網(wǎng)站中關(guān)于對象的說明的格式,從相應(yīng)字段中提取特征種子;按照提取出的特征種子,從用戶對所述對象的評價提取附加特征。
[0012]可選地,從用戶對所述對象的評價提取附加特征包括:從用戶對所述對象的評價中提取出所述特征種子附近滿足預(yù)定條件的名詞作為附加特征;從用戶對所述對象的評價中提取出包含所述特征種子的名詞詞組作為附加特征;如果提取出的附加特征不在特征種子的列表中,將提取出的附加特征加入到特征種子的列表;迭代地重復(fù)上述步驟,直到不在特征種子的列表中的新提取出的附加特征的數(shù)目低于預(yù)定閾值為止。
[0013]可選地,滿足預(yù)定條件的名詞是指在特征種子附近的預(yù)定范圍內(nèi)的出現(xiàn)頻率最高的前η名的名詞,η為自然數(shù)。
[0014]可選地,所構(gòu)建的多維向量至少包括以下維度中的一個或多個:特征的情感線索,包括從所述用戶對所述對象的評價提取出特定特征的評價詞、情感詞組成的對或特定特征的評價分類標(biāo)記、情感詞組成的對,其中對于含義類似的評價詞給予相同的評價分類標(biāo)記;特征的上下文線索,即在從用戶對所述對象的評價中特定特征附近滿足預(yù)定條件的形容詞和/或名詞和/或名詞短語和/或否定詞;特征的可用標(biāo)簽,即所述網(wǎng)站和其它網(wǎng)站賦予特定特征的分組標(biāo)簽信息。
[0015]可選地,所構(gòu)建的多維向量還包括如下維度中的至少一個:特征的名稱;特征的內(nèi)部線索,其中特征的內(nèi)部線索包括特定特征的關(guān)鍵詞和特定特征的構(gòu)成詞,其中所述關(guān)鍵詞和構(gòu)成詞都構(gòu)成所述多維向量中的維度。
[0016]可選地,針對特定特征將其多維向量與提取出的其它特征的多維向量進(jìn)行相似度比較包括:將提取出的所有特征的多維向量的維度進(jìn)行對準(zhǔn),其中對于特定特征,將提取出的其它特征的多維向量中的維度也視為該特定特征的維度,從而使每個特征的多維向量中的維度數(shù)相同;計算所述語料庫中特定特征與其多維向量的每一維度之間的互信息作為每一維度的權(quán)重;根據(jù)所述權(quán)重計算各特征的多維向量之間的相似度。
[0017]可選地,計算所述語料庫中所述特征與其多維向量的每一維度之間的互信息作為每一維度的權(quán)重包括:
[0018]對于由于將提取出的其它特征的多維向量中的維度視為特定特征的維度導(dǎo)致的增加維度,權(quán)重視為0,否則利用如下公式計算特定特征與其特定維度的互信息作為權(quán)重:[0019]
【權(quán)利要求】
1.一種用于豐富網(wǎng)站內(nèi)容的方法,所述方法包括: 從所述網(wǎng)站和其它網(wǎng)站獲得語料庫,從所述語料庫中提取對象的特征,其中所述語料庫包括關(guān)于所述對象的說明和用戶對所述對象的評價; 根據(jù)所述語料庫,為提取出的特征構(gòu)建多維向量; 針對特定特征,將其多維向量與提取出的其它特征的多維向量進(jìn)行相似度比較; 將相似度高于預(yù)定閾值的特征確定為相同特征,并且將與所述網(wǎng)站上的對象的特征不同的特征和其相應(yīng)屬性補(bǔ)充到該網(wǎng)站。
2.根據(jù)權(quán)利要求1所述的方法,其中從所述網(wǎng)站和其它網(wǎng)站獲得語料庫包括: 指定所述其它網(wǎng)站; 分析所述網(wǎng)站和其它網(wǎng)站的格式; 按照分析出的所述網(wǎng)站和其它網(wǎng)站的格式,尋找含有與所述對象對應(yīng)的對象標(biāo)識的所有的塊; 根據(jù)塊的格式判斷尋找到的塊是關(guān)于對象的說明還是用戶對所述對象的評價,將尋找到的關(guān)于對象的說明和用戶對所述對象的評價作為語料庫。
3.根據(jù)權(quán)利要求1所述的方法,其中從所述語料庫中提取所述對象的特征包括: 從所述網(wǎng)站和其它網(wǎng)站中關(guān)于對象的說明中提取特征種子,其中按照所述網(wǎng)站和其它網(wǎng)站中關(guān)于對象的說明的格式,從相應(yīng)字段中提取特征種子; 按照提取出的特征種子,從用戶對所述對象的評價提取附加特征。
4.根據(jù)權(quán)利要求3所述的方法,其中從用戶對所述對象的評價提取附加特征包括: 從用戶對所述對象的評價中提取出所述特征種子附近滿足預(yù)定條件的名詞作為附加特征; 從用戶對所述對象的評價中提取出包含所述特征種子的名詞詞組作為附加特征; 如果提取出的附加特征不在特征種子的列表中,將提取出的附加特征加入到特征種子的列表; 迭代地重復(fù)上述步驟,直到不在特征種子的列表中的新提取出的附加特征的數(shù)目低于預(yù)定閾值為止。
5.根據(jù)權(quán)利要求4所述的方法,其中滿足預(yù)定條件的名詞是指在特征種子附近的預(yù)定范圍內(nèi)的出現(xiàn)頻率最高的前η名的名詞,η為自然數(shù)。
6.根據(jù)權(quán)利要求1-5中任一個所述的方法,其中所構(gòu)建的多維向量至少包括以下維度中的一個或多個: 特征的情感線索,包括從所述用戶對所述對象的評價提取出特定特征的評價詞、情感詞組成的對或特定特征的評價分類標(biāo)記、情感詞組成的對,其中對于含義類似的評價詞給予相同的評價分類標(biāo)記; 特征的上下文線索,即在從用戶對所述對象的評價中特定特征附近滿足預(yù)定條件的形容詞和/或名詞和/或名詞短語和/或否定詞; 特征的可用標(biāo)簽,即所述網(wǎng)站和其它網(wǎng)站賦予特定特征的分組標(biāo)簽信息。
7.根據(jù)權(quán)利要求6中任一個所述的方法,其中所構(gòu)建的多維向量還包括如下維度中的至少一個: 特征的名稱;特征的內(nèi)部線索,其中特征的內(nèi)部線索包括特定特征的關(guān)鍵詞和特定特征的構(gòu)成詞,其中所述關(guān)鍵詞和構(gòu)成詞都構(gòu)成所述多維向量中的維度。
8.根據(jù)權(quán)利要求1-5任意一項所述的方法,其中針對特定特征將其多維向量與提取出的其它特征的多維向量進(jìn)行相似度比較包括: 將提取出的所有特征的多維向量的維度進(jìn)行對準(zhǔn),其中對于特定特征,將提取出的其它特征的多維向量中的維度也視為該特定特征的維度,從而使每個特征的多維向量中的維度數(shù)相同; 計算所述語料庫中特定特征與其多維向量的每一維度之間的互信息作為每一維度的權(quán)重; 根據(jù)所述權(quán)重計算各特征的多維向量之間的相似度。
9.根據(jù)權(quán)利要求8所述的方法,其中計算所述語料庫中所述特征與其多維向量的每一維度之間的互信息作為每一維度的權(quán)重包括: 對于由于將提取出的其它特征的多維向量中的維度視為特定特征的維度導(dǎo)致的增加維度,權(quán)重視為O,否則利用如下公式計算特定特征與其特定維度的互信息作為權(quán)重:
10.根據(jù)權(quán)利要求8所述的方法,其中利用歐式距離計算所述各特征的多維向量之間的相似度:
11.根據(jù)權(quán)利要求8所述的方法,其中利用余弦相似度計算所述各特征的多維向量之間的相似度
12.根據(jù)權(quán)利要求1所述的方法,其中將相似度高于預(yù)定閾值的特征確定為相同特征并且將與所述網(wǎng)站上的對象的特征不同的特征和其相應(yīng)屬性補(bǔ)充到該網(wǎng)站包括: 將相似度高于預(yù)定閾值的特征分組到同一組;判斷所述網(wǎng)站上已有的對象的特征是否屬于一個分組成的組,識別出不包含所述網(wǎng)站上已有對象的任何特征的特征組,將該特征組中的特征和其相應(yīng)屬性補(bǔ)充到該網(wǎng)站。
13.根據(jù)權(quán)利要求12所述的方法,其中將該組的特征和其相應(yīng)屬性補(bǔ)充到該網(wǎng)站包括:統(tǒng)計該特征組的各特征在語料庫中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)最高的特征的名稱和其相應(yīng)屬性補(bǔ)充到該網(wǎng)站。
14.一種用于豐富網(wǎng)站內(nèi)容的裝置,所述裝置包括: 提取單元,被配置為從所述網(wǎng)站和其它網(wǎng)站獲得語料庫,從所述語料庫中提取對象的特征,其中所述語料庫包括關(guān)于所述對象的說明和用戶對所述對象的評價; 特征向量構(gòu)建單元,被配置為根據(jù)所述語料庫,為提取出的特征構(gòu)建多維向量; 向量比較單元,被配置為針對特定特征,將其多維向量與提取出的其它特征的多維向量進(jìn)行相似度比較; 補(bǔ)充單元,被配置為將相似度高于預(yù)定閾值的特征確定為相同特征,并且將與所述網(wǎng)站上的對象的特征不同的特征和其相應(yīng)屬性補(bǔ)充到該網(wǎng)站。
15.根據(jù)權(quán)利要求14所述的裝置,其中所述提取單元進(jìn)一步被配置為: 指定所述其它網(wǎng)站; 分析所述網(wǎng)站和其它網(wǎng)站的格式; 按照分析出的所述網(wǎng)站和其它網(wǎng)站的格式,尋找含有與所述對象對應(yīng)的對象標(biāo)識的所有的塊; 根據(jù)塊的格式判斷尋找到的塊是關(guān)于對象的說明還是用戶對所述對象的評價,將尋找到的關(guān)于對象的說明和用戶對所述對象的評價作為語料庫。
16.根據(jù)權(quán)利要求14所述的裝置,其中所述提取單元進(jìn)一步被配置為: 從所述網(wǎng)站和其它網(wǎng)站中關(guān)于對象的說明中提取特征種子,其中按照所述網(wǎng)站和其它網(wǎng)站中關(guān)于對象的說明的格式,從相應(yīng)字段中提取特征種子; 按照提取出的特征種子,從用戶對所述對象的評價提取附加特征。
17.根據(jù)權(quán)利要求16所述的裝置,其中從用戶對所述對象的評價提取附加特征包括: 從用戶對所述對象的評價中提取出所述特征種子附近滿足預(yù)定條件的名詞作為附加特征; 從用戶對所述對象的評價中提取出包含所述特征種子的名詞詞組作為附加特征; 如果提取出的附加特征不在特征種子的列表中,將提取出的附加特征加入到特征種子的列表; 迭代地重復(fù)上述步驟,直到不在特征種子的列表中的新提取出的附加特征的數(shù)目低于預(yù)定閾值為止。
18.根據(jù)權(quán)利要求17所述的裝置,其中滿足預(yù)定條件的名詞是指在特征種子附近的預(yù)定范圍內(nèi)的出現(xiàn)頻率最高的前η名的名詞,η為自然數(shù)。
19.根據(jù)權(quán)利要求14一 18中任一個所述的裝置,其中所構(gòu)建的多維向量至少包括以下維度中的一個或多個: 特征的情感線索,包括從所述用戶對所述對象的評價提取出特定特征的評價詞、情感詞組成的對或特定特征的評價分類標(biāo)記、情感詞組成的對,其中對于含義類似的評價詞給予相同的評價分類標(biāo)記;特征的上下文線索,即在從用戶對所述對象的評價中特定特征附近滿足預(yù)定條件的形容詞和/或名詞和/或名詞短語和/或否定詞; 特征的可用標(biāo)簽,即所述網(wǎng)站和其它網(wǎng)站賦予特定特征的分組標(biāo)簽信息。
20.根據(jù)權(quán)利要求19中任一個所述的裝置,其中所構(gòu)建的多維向量還包括如下維度中的至少一個: 特征的名稱; 特征的內(nèi)部線索,其中特征的內(nèi)部線索包括特定特征的關(guān)鍵詞和特定特征的構(gòu)成詞,其中所述關(guān)鍵詞和構(gòu)成詞都構(gòu)成所述多維向量中的維度。
21.根據(jù)權(quán)利要求14- 18任意一項所述的裝置,其中向量比較單元進(jìn)一步被配置為: 將提取出的所有特征的多維向量的維度進(jìn)行對準(zhǔn),其中對于特定特征,將提取出的其它特征的多維向量中的維度也視為該特定特征的維度,從而使每個特征的多維向量中的維度數(shù)相同; 計算所述語料庫中特定特征與其多維向量的每一維度之間的互信息作為每一維度的權(quán)重; 根據(jù)所述權(quán)重計算各特征的多維向量之間的相似度。
22.根據(jù)權(quán)利要求21所述的裝置,其中計算所述語料庫中所述特征與其多維向量的每一維度之間的互信息作為每一維度的權(quán)重包括: 對于由于將提取出的其它特征的多維向量中的維度視為特定特征的維度導(dǎo)致的增加維度,權(quán)重視為0,否則利用如下公式計算特定特征與其特定維度的互信息作為權(quán)重:
23.根據(jù)權(quán)利要求21所述的裝置,其中利用歐式距離計算所述各特征的多維向量之間的相似度:
24.根據(jù)權(quán)利要求21所述的裝置,其中利用余弦相似度計算所述各特征的多維向量之間的相似度:.
25.根據(jù)權(quán)利要求14所述的裝置,其中補(bǔ)充單元進(jìn)一步被配置為: 將相似度高于預(yù)定閾值的特征分組到同一組; 判斷所述網(wǎng)站上已有的對象的特征是否屬于一個分組成的組,識別出不包含所述網(wǎng)站上已有對象的任何特征的特征組,將該特征組中的特征和其相應(yīng)屬性補(bǔ)充到該網(wǎng)站。
26.根據(jù)權(quán)利要求25所述的裝置,其中將該組的特征和其相應(yīng)屬性補(bǔ)充到該網(wǎng)站包括:統(tǒng)計該特征組的各特征在語料庫中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)最高的特征的名稱和其相應(yīng)屬性補(bǔ)充到該網(wǎng)站。
27.一種網(wǎng)站服務(wù)器,包括根據(jù)權(quán)利要求14 - 26中的任一個的用于豐富網(wǎng)站內(nèi)容的裝置。
【文檔編號】G06F17/30GK103577452SQ201210270201
【公開日】2014年2月12日 申請日期:2012年7月31日 優(yōu)先權(quán)日:2012年7月31日
【發(fā)明者】郭宏蕾, 蔡柯柯, 包勝華, 張碩, 吳賢, 張俐, 蘇中 申請人:國際商業(yè)機(jī)器公司