两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

使用公眾網(wǎng)站獲取元數(shù)據(jù)的制作方法

文檔序號(hào):6609074閱讀:246來(lái)源:國(guó)知局
專利名稱:使用公眾網(wǎng)站獲取元數(shù)據(jù)的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般地涉及多媒體,尤其是涉及使用公眾(community-generated)數(shù)據(jù)源來(lái)產(chǎn)生多媒體元數(shù)據(jù)。
背景技術(shù)
聚類(cluster)和分類(classification)趨于成為某些數(shù)據(jù)挖掘應(yīng)用中重要的操作。例如,就幫助用戶搜索和自動(dòng)組織內(nèi)容的目的,在數(shù)據(jù)系統(tǒng)中,數(shù)據(jù)集(dataset)中的數(shù)據(jù)可能需要進(jìn)行聚類和/或分類。搜索和自動(dòng)組織的內(nèi)容例如記錄的電視節(jié)目、電子節(jié)目指南條目以及其它類型的多媒體內(nèi)容。
一般來(lái)說(shuō),當(dāng)數(shù)據(jù)集是數(shù)值的時(shí)(即,當(dāng)數(shù)據(jù)集中的數(shù)據(jù)都通過(guò)某個(gè)固有相似性度量(similarity metric)或自然的順序相關(guān)時(shí)),很多聚類和分類算法都能很好的工作。數(shù)值的數(shù)據(jù)集經(jīng)常描述單一屬性或類別。另一方面,類別數(shù)據(jù)集描述經(jīng)常是離散的多屬性或類別,因此,在這些多屬性或類別之間缺乏自然的距離或近似度。

發(fā)明內(nèi)容
類別數(shù)據(jù)集包括類別的名稱和關(guān)系數(shù)據(jù),其中,關(guān)系數(shù)據(jù)定義類別和內(nèi)容之間的關(guān)系。內(nèi)容的類別通過(guò)從與某條具體內(nèi)容有關(guān)的、例如WIKIPEDIA網(wǎng)站的在線公眾網(wǎng)站檢索網(wǎng)頁(yè)并分析該網(wǎng)頁(yè)以獲得內(nèi)容元數(shù)據(jù)來(lái)產(chǎn)生。從內(nèi)容元數(shù)據(jù)提取該條內(nèi)容的類別數(shù)據(jù)。另外,基于類別和關(guān)系數(shù)據(jù)減少類別數(shù)據(jù)集的語(yǔ)言項(xiàng)(term)。
根據(jù)本發(fā)明的第一方面,提供一種計(jì)算機(jī)化方法,其包括從公眾網(wǎng)站接收網(wǎng)頁(yè),所述網(wǎng)頁(yè)與特定內(nèi)容有關(guān);從所述網(wǎng)頁(yè)提取多個(gè)語(yǔ)言項(xiàng);將所述多個(gè)語(yǔ)言項(xiàng)添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù);從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù);將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集;以及基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
根據(jù)本發(fā)明的第二方面,提供一種機(jī)器可讀介質(zhì),其包括從公眾網(wǎng)站接收網(wǎng)頁(yè),所述網(wǎng)頁(yè)與特定內(nèi)容有關(guān);從所述網(wǎng)頁(yè)提取多個(gè)語(yǔ)言項(xiàng);將所述多個(gè)語(yǔ)言項(xiàng)添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù);從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù);將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集;以及基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
根據(jù)本發(fā)明的第三方面,提供一種設(shè)備,其包括用于從公眾網(wǎng)站接收網(wǎng)頁(yè)的裝置,所述網(wǎng)頁(yè)與特定內(nèi)容有關(guān);用于從所述網(wǎng)頁(yè)提取多個(gè)語(yǔ)言項(xiàng)的裝置;用于將所述多個(gè)語(yǔ)言項(xiàng)添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù)的裝置;用于從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù)的裝置;用于將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集中的裝置;以及用于基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度的裝置,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
根據(jù)本發(fā)明的第四方面,提供一種系統(tǒng),其包括處理器;通過(guò)總線連接到所述處理器的存儲(chǔ)器;以及由所述處理器從所述存儲(chǔ)器執(zhí)行的處理,所述處理使得處理器從公眾網(wǎng)站接收網(wǎng)頁(yè),所述網(wǎng)頁(yè)與特定內(nèi)容有關(guān);從所述網(wǎng)頁(yè)提取多個(gè)語(yǔ)言項(xiàng);將所述多個(gè)語(yǔ)言項(xiàng)添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù);從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù);將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集中;以及基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
使用不同范圍的系統(tǒng)、客戶端、服務(wù)器、方法和機(jī)器可讀介質(zhì)一起說(shuō)明了本發(fā)明。除了該發(fā)明內(nèi)容中說(shuō)明的本發(fā)明的方面,通過(guò)參考附圖并閱讀下面的詳細(xì)說(shuō)明,本發(fā)明的其它方面將變得明顯。


附圖中的各圖以例子的方式說(shuō)明本發(fā)明,而不限制本發(fā)明,其中,相似的附圖標(biāo)記表示相似的元件。
圖1A示出多媒體數(shù)據(jù)庫(kù)系統(tǒng)的一個(gè)實(shí)施例。
圖1B示出內(nèi)容元數(shù)據(jù)(metadata)的一個(gè)實(shí)施例。
圖2是用于生成來(lái)自公眾網(wǎng)站的內(nèi)容的元數(shù)據(jù)的方法的一個(gè)實(shí)施例的流程圖。
圖3是圖2的方法中使用的檢索內(nèi)容網(wǎng)頁(yè)的方法的一個(gè)實(shí)施例的流程圖。
圖4是圖3的方法中使用的解析內(nèi)容網(wǎng)頁(yè)的方法的一個(gè)實(shí)施例的流程圖。
圖5是示出從公眾網(wǎng)站生成內(nèi)容元數(shù)據(jù)的裝置的一個(gè)實(shí)施例的框圖。
圖6是適于實(shí)現(xiàn)本發(fā)明的操作環(huán)境的一個(gè)實(shí)施例的圖。
圖7是適于在圖2~4的操作環(huán)境中使用的計(jì)算機(jī)系統(tǒng)的一個(gè)實(shí)施例的圖。
具體實(shí)施例方式
在下面對(duì)本發(fā)明的實(shí)施例的詳細(xì)說(shuō)明中,參考了附圖,在附圖中,相似的附圖標(biāo)記表示相似的元件,附圖示出了可以實(shí)現(xiàn)本發(fā)明的具體實(shí)施例。充分詳細(xì)地說(shuō)明了這些實(shí)施例,從而使得本領(lǐng)域的技術(shù)人員可以實(shí)現(xiàn)本發(fā)明,應(yīng)該理解可以使用其它實(shí)施例,可以進(jìn)行邏輯、機(jī)構(gòu)、電氣、功能和其它改變而不離開(kāi)本發(fā)明的范圍。因此,下面的詳細(xì)說(shuō)明不視作限制,本發(fā)明的范圍只由所附權(quán)利要求書(shū)限定。
圖1A是使例如內(nèi)容的、可以由類別數(shù)據(jù)11表征的信息可以被自動(dòng)推薦或選擇的數(shù)據(jù)系統(tǒng)10的圖。類別數(shù)據(jù)也稱為類別數(shù)據(jù)集,其描述多個(gè)屬性或類別。每個(gè)類別包括類別名稱和關(guān)系數(shù)據(jù),其中,關(guān)系數(shù)據(jù)定義類別和一條或多條具體內(nèi)容之間的關(guān)系。詞“語(yǔ)言項(xiàng)(term)”這里指類別名稱。在一個(gè)實(shí)施例中,類別數(shù)據(jù)具有基于語(yǔ)言項(xiàng)和語(yǔ)言項(xiàng)關(guān)系的數(shù)量的維。類別數(shù)據(jù)中的語(yǔ)言項(xiàng)和/或語(yǔ)言項(xiàng)關(guān)系越多,類別數(shù)據(jù)的維度越大。相反地,減少語(yǔ)言項(xiàng)和/或語(yǔ)言項(xiàng)關(guān)系的數(shù)量,類別數(shù)據(jù)的維度則更小。
此外,類別數(shù)據(jù)可以是稀疏的,這意味著類別數(shù)據(jù)具有大的維度。在一個(gè)實(shí)施例中,因?yàn)轭悇e是離散的且在類別間缺乏自然的相似度,所以類別數(shù)據(jù)稀疏。類別數(shù)據(jù)的例子包括電子節(jié)目指南(EPG,electronic program guide)數(shù)據(jù)以及內(nèi)容元數(shù)據(jù)。數(shù)據(jù)系統(tǒng)10包括預(yù)處理并加載來(lái)自數(shù)據(jù)庫(kù)輸入8A~N的類別數(shù)據(jù)11的輸入處理模塊9。在一個(gè)實(shí)施例中,數(shù)據(jù)庫(kù)輸入8A~N可以是例如WIKIPEDIA等的一些公眾源中的一個(gè)。
將類別數(shù)據(jù)11聚成簇,并/或通過(guò)聚類/分類模塊12分類為文件夾。下面詳細(xì)說(shuō)明由模塊12執(zhí)行的聚類和分類。聚類/分類模塊12的輸出是例如簇樹(shù)或系統(tǒng)樹(shù)的組織數(shù)據(jù)結(jié)構(gòu)13。簇樹(shù)可以用作類別數(shù)據(jù)的索引組織或用來(lái)選擇數(shù)據(jù)的合適簇。
很多聚類應(yīng)用需要識(shí)別最佳描述類別數(shù)據(jù)中的模式的潛在分布(underlying distribution)的簇樹(shù)中的特定層。在一個(gè)實(shí)施例中,組織數(shù)據(jù)結(jié)構(gòu)13包括包含含有最優(yōu)數(shù)量的簇的唯一簇組的最優(yōu)層。
數(shù)據(jù)分析模塊14可以使用基于文件夾的分類器和/或由聚類操作產(chǎn)生的分類器來(lái)自動(dòng)推薦或選擇內(nèi)容。數(shù)據(jù)分析模塊14可以自動(dòng)推薦或提供用戶可能感興趣的或可能相似于用戶選擇的相關(guān)內(nèi)容的內(nèi)容。在一個(gè)實(shí)施例中,用戶識(shí)別對(duì)特定內(nèi)容語(yǔ)言項(xiàng)進(jìn)行分類的類別數(shù)據(jù)記錄的多個(gè)文件夾,且數(shù)據(jù)分析模塊14基于相似性用適當(dāng)文件夾對(duì)新內(nèi)容語(yǔ)言項(xiàng)分配類別數(shù)據(jù)記錄。
同樣在圖1A中示出的用戶接口15用于輔助用戶使用數(shù)據(jù)系統(tǒng)10搜索并自動(dòng)組織內(nèi)容。該內(nèi)容可能是例如所記錄的電視節(jié)目、電子節(jié)目指南(EGP)條目以及多媒體內(nèi)容。
聚類是根據(jù)類別數(shù)據(jù)間的某些相似度將類別數(shù)據(jù)組織為多個(gè)簇的處理。模塊12通過(guò)使用一個(gè)或多個(gè)聚類處理將類別數(shù)據(jù)聚類,該聚類處理包括基于種子的分層聚類、常階(order-invariant)聚類以及子空間限制遞歸聚類。在一個(gè)實(shí)施例中,聚類/分類模塊12以與接收到類別數(shù)據(jù)的順序獨(dú)立的方式合并各簇。
在第一實(shí)施例中,由用戶生成的文件夾組可以作為分類器,使得將新的類別數(shù)據(jù)記錄與用戶生成的文件夾組相比并將新的類別數(shù)據(jù)記錄自動(dòng)分揀到最合適的文件夾。在另一個(gè)實(shí)施例中,聚簇/分類模塊12基于用戶反饋實(shí)現(xiàn)基于文件夾的分類器?;谖募A的分類器自動(dòng)生成文件夾集,自動(dòng)向集添加或從集刪除文件夾?;谖募A的分類器還可以自動(dòng)修改不在該集中的其它文件夾的內(nèi)容。
在一個(gè)實(shí)施例中,聚類/分類模塊12可以在聚類或分類之前或期間增加類別數(shù)據(jù)。用于增加的一個(gè)方法是通過(guò)輸入類別數(shù)據(jù)的屬性。該增加可以在提高類別數(shù)據(jù)的整體質(zhì)量的同時(shí)減少類別數(shù)據(jù)的任何稀少以幫助聚類和分類處理。
盡管如圖1A中所示為特定單獨(dú)的模塊,但是聚類/分類模塊12、組織數(shù)據(jù)結(jié)構(gòu)13和數(shù)據(jù)分析模塊14可以作為不同的單獨(dú)的模塊實(shí)現(xiàn),或可以結(jié)合為一個(gè)或多個(gè)模塊。
如圖1A所示,數(shù)據(jù)庫(kù)輸入模塊9處理來(lái)自數(shù)據(jù)庫(kù)8~N的信息并將其加載到類別數(shù)據(jù)集11中。數(shù)據(jù)庫(kù)輸入模塊9還包括處理可以從上述公眾源得到的數(shù)據(jù)的公共源處理器17。在另一個(gè)實(shí)施例中,公共源處理器17請(qǐng)求某條具體內(nèi)容的信息并將結(jié)果信息處理成可以輸入到內(nèi)容元數(shù)據(jù)的形式。
數(shù)據(jù)庫(kù)輸入模塊9還包括數(shù)據(jù)庫(kù)維數(shù)減少模塊15。如上所述,類別數(shù)據(jù)集可能是稀疏的。因?yàn)閿?shù)據(jù)集越密集則越易于搜索和/或處理,所以減少數(shù)據(jù)集的維度可改進(jìn)使用數(shù)據(jù)集的模塊的效率和質(zhì)量。在一個(gè)實(shí)施例中,數(shù)據(jù)庫(kù)維數(shù)減少模塊15通過(guò)修改類別數(shù)據(jù)集11中的語(yǔ)言項(xiàng)和內(nèi)容之間的語(yǔ)言項(xiàng)關(guān)系來(lái)減少類別數(shù)據(jù)集11的維度。語(yǔ)言項(xiàng)關(guān)系是定義類別數(shù)據(jù)11中的語(yǔ)言項(xiàng)和與該語(yǔ)言項(xiàng)相關(guān)聯(lián)的一條或多條具體內(nèi)容之間的關(guān)系的數(shù)據(jù)。在另一個(gè)實(shí)施例中,數(shù)據(jù)庫(kù)維數(shù)減少模塊15通過(guò)減少類別數(shù)據(jù)集11中的語(yǔ)言項(xiàng)的數(shù)量來(lái)減少類別數(shù)據(jù)集11的維度。用于減少類別數(shù)據(jù)維度的具體方法在名稱為“內(nèi)容類別數(shù)據(jù)的維度減少”、申請(qǐng)?zhí)枮?1/435,494、代理人申請(qǐng)案編號(hào)為80398.P655的待決美國(guó)專利申請(qǐng)中說(shuō)明。如在該申請(qǐng)中所述,基于類別數(shù)據(jù)集中的類別名稱和關(guān)系數(shù)據(jù)減少類別數(shù)據(jù)維度,其中,關(guān)系數(shù)據(jù)定義類別數(shù)據(jù)集和與該類別數(shù)據(jù)集相關(guān)的內(nèi)容之間的關(guān)系。
在一個(gè)實(shí)施例中,輸入處理模塊9從內(nèi)容元數(shù)據(jù)提取某條具體內(nèi)容的類別數(shù)據(jù)。內(nèi)容元數(shù)據(jù)是描述由數(shù)據(jù)系統(tǒng)10使用的內(nèi)容的信息。圖1B示出由輸入處理模塊9處理的具體內(nèi)容的內(nèi)容元數(shù)據(jù)150的一個(gè)實(shí)施例。在圖1B中,內(nèi)容元數(shù)據(jù)150包括節(jié)目標(biāo)識(shí)符152、廣播臺(tái)154、廣播區(qū)域156、類別數(shù)據(jù)158、種類160、日期162、開(kāi)始時(shí)間164、結(jié)束時(shí)間166和持續(xù)時(shí)間168。此外,內(nèi)容元數(shù)據(jù)150可以包括附加字段(未示出)。節(jié)目標(biāo)識(shí)符152標(biāo)識(shí)數(shù)據(jù)系統(tǒng)10使用的內(nèi)容。廣播臺(tái)154和廣播區(qū)域156標(biāo)識(shí)廣播公司和內(nèi)容播放的區(qū)域。另外,內(nèi)容元數(shù)據(jù)150用日期162、開(kāi)始時(shí)間164、結(jié)束時(shí)間166來(lái)標(biāo)識(shí)內(nèi)容播放的日期和時(shí)間。持續(xù)時(shí)間168是內(nèi)容的持續(xù)時(shí)間。此外,種類描述與內(nèi)容相關(guān)的種類。
某條具體內(nèi)容的類別數(shù)據(jù)是一個(gè)或多個(gè)描述與該條內(nèi)容相關(guān)的不同類別的語(yǔ)言項(xiàng)。如圖1B中所示,類別數(shù)據(jù)158包括語(yǔ)言項(xiàng)最好、進(jìn)行中、運(yùn)動(dòng)、高爾夫類別、高爾夫、藝術(shù)、0子文化、活潑、家庭、家庭代際、兒童、孩子、家庭、家庭代際以及兒童。因此,類別數(shù)據(jù)158包括描述節(jié)目的15個(gè)語(yǔ)言項(xiàng)。其中一些語(yǔ)言項(xiàng)是相關(guān)的,例如“運(yùn)動(dòng)、高爾夫類別、高爾夫”涉及運(yùn)動(dòng),“家庭、家庭代際、兒童、孩子”涉及家庭。此外,類別數(shù)據(jù)158包括重復(fù)語(yǔ)言項(xiàng)和可能未定義的語(yǔ)言項(xiàng)(0子文化)。因?yàn)槎x是不知道的,所以未定義的語(yǔ)言項(xiàng)與一個(gè)節(jié)目相關(guān)。
產(chǎn)生精確且最新內(nèi)容150的一個(gè)問(wèn)題是保持大量?jī)?nèi)容。例如,一周的電視節(jié)目可能具有上千個(gè)節(jié)目,而這些節(jié)目具有上千條描述該節(jié)目的單獨(dú)的語(yǔ)言項(xiàng)。一個(gè)減少維護(hù)大量?jī)?nèi)容數(shù)據(jù)的成本和時(shí)間的可能的方法是從例如基于wiki的網(wǎng)站的公眾網(wǎng)站提取內(nèi)容元數(shù)據(jù)?;趙iki的網(wǎng)站是允許用戶容易地增加和編輯內(nèi)容的基于web的自由內(nèi)容百科全書(shū)。一個(gè)例子是公眾可用的WIKIPEDIA服務(wù)。因此,wiki百科全書(shū)由很多用戶協(xié)作編寫(xiě),允許任何人用web瀏覽器編輯大多數(shù)文章。這可以考慮到生成內(nèi)容的元數(shù)據(jù)的相對(duì)便宜的方式。
圖2是用于從公眾網(wǎng)站創(chuàng)建內(nèi)容元數(shù)據(jù)的方法200的一個(gè)實(shí)施例的流程圖。在一個(gè)實(shí)施例中,方法200從wiki型網(wǎng)站中檢索內(nèi)容信息。在可選實(shí)施例中,方法200從其它公共或商業(yè)網(wǎng)站如WIKIPEDIA、GRACENOTE、IMDB、MOODLOGIC、ROTTEN TOMATOES、AMG、AMAZON等中檢索內(nèi)容信息。
方法200可通過(guò)萬(wàn)維網(wǎng)(web)檢索收集信息來(lái)利用包含在wiki中的信息。在塊202處,方法200檢索與感興趣的內(nèi)容有關(guān)的信息。例如,在一個(gè)實(shí)施例中,方法200檢索標(biāo)題、種類以及與男演員、女演員、制片人、導(dǎo)演等有關(guān)的信息。在塊204處,方法200基于檢索到的內(nèi)容信息來(lái)檢索與內(nèi)容相關(guān)聯(lián)的網(wǎng)頁(yè)。下面在圖3中進(jìn)一步說(shuō)明web檢索的一個(gè)實(shí)施例。
在塊206處,方法200從檢索到的網(wǎng)頁(yè)中提取文本。文本提取提取描述感興趣的內(nèi)容的語(yǔ)言項(xiàng)或與感興趣的內(nèi)容有關(guān)的語(yǔ)言項(xiàng)。下面在圖4中進(jìn)一步說(shuō)明一個(gè)實(shí)施例的文本提取。
任選地,在塊208處,方法200從所提取的文本中除去停止語(yǔ)言項(xiàng)(stop term)。在一個(gè)實(shí)施例中,停止語(yǔ)言項(xiàng)是描繪句子、從句等的標(biāo)點(diǎn)符號(hào)??蛇x地,停止語(yǔ)言項(xiàng)可包括其它標(biāo)記,如a、the、an、of、in、but、or等。通過(guò)除去停止語(yǔ)言項(xiàng),所提取的文本剩下有與內(nèi)容相關(guān)的語(yǔ)言項(xiàng)和其它非停止語(yǔ)言項(xiàng)。
任選地,在塊210處,方法200使用本領(lǐng)域公知的詞干化算法(stemming algorithms)例如但不限于Paice/Husk、Porter、Lovins、Dawson、Krovetz等中的一個(gè)從所提取的文本中除去詞干語(yǔ)言項(xiàng)。詞干化將語(yǔ)言項(xiàng)縮減到其詞干或詞根形式。例如,單詞“computing”和“computation”具有詞干“compute”。對(duì)語(yǔ)言項(xiàng)進(jìn)行詞干化進(jìn)一步縮減所提取的文本中語(yǔ)言項(xiàng)的變體,從而詞干化可縮減所提取的文本中語(yǔ)言項(xiàng)的數(shù)量。
在塊212處,方法200將來(lái)自修改后的所提取的文本中的語(yǔ)言項(xiàng)添加到該內(nèi)容的元數(shù)據(jù)中。例如,方法200提取與內(nèi)容的種類、男演員、女演員、獲獎(jiǎng)、制片人、導(dǎo)演、評(píng)論、與其它信息的鏈接等有關(guān)的語(yǔ)言項(xiàng)。在一個(gè)實(shí)施例中,方法200將所提取的語(yǔ)言項(xiàng)添加到類別數(shù)據(jù)。在本實(shí)施例中,方法200將所提取的語(yǔ)言項(xiàng)添加到類別數(shù)據(jù)11中,類別數(shù)據(jù)11用于對(duì)內(nèi)容進(jìn)行分類,例如但不限于種類、男演員、女演員、獲獎(jiǎng)、制片人、導(dǎo)演等??蛇x地,方法200可對(duì)數(shù)據(jù)進(jìn)行分類。在可選實(shí)施例中,方法200將語(yǔ)言項(xiàng)添加到用于存儲(chǔ)內(nèi)容元數(shù)據(jù)的單獨(dú)的元數(shù)據(jù)數(shù)據(jù)庫(kù)中。
圖3是用于檢索內(nèi)容網(wǎng)頁(yè)的方法300的一個(gè)實(shí)施例的流程圖。在塊302處,方法300檢索與感興趣的內(nèi)容有關(guān)的信息。例如,在一個(gè)實(shí)施例中,方法300檢索內(nèi)容標(biāo)題、種類、內(nèi)容長(zhǎng)度、制作年以及與男演員、女演員、制片人、導(dǎo)演等有關(guān)的信息。方法300基于檢索到的信息形成內(nèi)容的統(tǒng)一資源定位符(uniform resource locator,URL)。例如,如果方法300從公共WIKIPEDIA中檢索與“Star Wars IVA New Hope”有關(guān)的信息,則方法300基于源(“en.wikipe dia.org/wiki/”)和標(biāo)題(“Star_Wars_Episode_IV_A_New_Hope”)來(lái)創(chuàng)建URL。每個(gè)公眾源可具有其自己的用于訪問(wèn)的格式。
在塊306,方法300打開(kāi)在塊304中形成的URL。盡管在一個(gè)實(shí)施例中方法300通過(guò)進(jìn)行超文本傳輸協(xié)議(hypertexttransfer protocol,HTTP)請(qǐng)求來(lái)打開(kāi)URL,但是在可選實(shí)施例中,方法300使用不同的協(xié)議(安全HTTP(HTTPS)等)來(lái)打開(kāi)URL。在塊308處,方法300返回URL內(nèi)容。
圖4是用于解析內(nèi)容網(wǎng)頁(yè)的方法400的一個(gè)實(shí)施例的流程圖。在塊404處,方法400檢索網(wǎng)頁(yè)。在一個(gè)實(shí)施例中,網(wǎng)頁(yè)是超文本置標(biāo)語(yǔ)言(hypertext markup language,HTML)頁(yè)??蛇x地,網(wǎng)頁(yè)可以是本領(lǐng)域公知的其它類型文本格式(Extended HTML(XHTML)、extended markup language(XML)、standard generalized markup language(SGML)等)。
在塊404處,方法400指定HTML解析程序動(dòng)作。解析程序動(dòng)作限定HTML解析程序如何從檢索到的網(wǎng)頁(yè)中提取單詞。例如,方法400可以指定去除HTML標(biāo)簽中的所有文本,去除除了HTML“META”標(biāo)簽以外的所有HTML標(biāo)簽,忽略以數(shù)字開(kāi)頭的單詞等。此外,在另一實(shí)施例中,方法400可基于其它類型的格式(XHTML、XML、SGML等)來(lái)指定解析程序動(dòng)作。在塊406處,方法400使用本領(lǐng)域公知的算法如本領(lǐng)域公知的解析程序動(dòng)作、如以空白分離語(yǔ)言項(xiàng)(除了“Mr.X”、“Joe Public”等情況以外),基于所指定的解析程序動(dòng)作將HTML頁(yè)解析為單獨(dú)的單詞。在塊408處,方法400從解析后的HTML頁(yè)中提取第一個(gè)N個(gè)單詞。在第一實(shí)施例中,N是對(duì)單詞的粗略限制??蛇x地,N可以是對(duì)處理后的段落數(shù)量的限制,如從文本的第一個(gè)N個(gè)段落中選擇單詞。由于所提取的元數(shù)據(jù)被用于輸入到類別數(shù)據(jù)11,所以限制所提取的單詞的數(shù)量有助于保持較小大小的類別數(shù)據(jù)。可選地,方法400從解析后的HTML頁(yè)中提取全部單詞。
圖5是示出用于從公眾網(wǎng)站創(chuàng)建內(nèi)容元數(shù)據(jù)的裝置的一個(gè)實(shí)施例的框圖。在一個(gè)實(shí)施例中,輸入處理器11包含公共源處理器17。可選地,輸入處理器11不包含公共源處理器17,而是耦合到公共源處理器17。公共源處理器17包括信息檢索模塊502、文本提取器模塊504、停止語(yǔ)言項(xiàng)處理器模塊506、詞干語(yǔ)言項(xiàng)處理器模塊508以及源數(shù)據(jù)輸出模塊510。信息檢索模塊502從公眾源中檢索與圖2中的塊204處描述的特定內(nèi)容有關(guān)的信息。文本提取器模塊504從圖2中的塊206處描述的所請(qǐng)求的信息中提取語(yǔ)言項(xiàng)。停止語(yǔ)言項(xiàng)處理器模塊506從圖2中的塊208處描述的所提取的語(yǔ)言項(xiàng)中去除停止語(yǔ)言項(xiàng)。詞干語(yǔ)言項(xiàng)處理器模塊506將所提取的語(yǔ)言項(xiàng)處理成在圖2中的塊210處描述的相關(guān)的詞干語(yǔ)言項(xiàng)。元數(shù)據(jù)輸出模塊510將所提取的語(yǔ)言項(xiàng)添加到圖2中的塊212處描述的特定內(nèi)容的元數(shù)據(jù)中。
以下對(duì)圖6和圖7的說(shuō)明意圖提供適用于執(zhí)行上述本發(fā)明的方法的計(jì)算機(jī)硬件和其它工作組件的概況,但是這不意味著限制可應(yīng)用的環(huán)境。本領(lǐng)域的技術(shù)人員很容易明白,可利用其它計(jì)算機(jī)系統(tǒng)配置,包括手持裝置、多處理器系統(tǒng)、基于微處理器的或可編程的用戶電子產(chǎn)品、網(wǎng)絡(luò)PC、小型機(jī)、大型計(jì)算機(jī)等來(lái)實(shí)現(xiàn)本發(fā)明的實(shí)施例。本發(fā)明的實(shí)施例還可以在分布式計(jì)算環(huán)境中來(lái)實(shí)現(xiàn),分布式計(jì)算環(huán)境由通過(guò)對(duì)等(peer to peer)網(wǎng)絡(luò)基礎(chǔ)設(shè)施等通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理裝置來(lái)執(zhí)行任務(wù)。
在實(shí)際中,本文中所描述的方法可構(gòu)成由機(jī)器可執(zhí)行的指令組成的一個(gè)或多個(gè)程序。參照?qǐng)D2至圖4中的流程圖描述的本方法使本領(lǐng)域的技術(shù)人員能夠開(kāi)發(fā)出這種程序,這種程序包括用于在適當(dāng)配置的機(jī)器(執(zhí)行來(lái)自機(jī)器可讀介質(zhì)的指令的機(jī)器的處理器)上執(zhí)行由邏輯塊所代表的操作(動(dòng)作)的指令??梢杂糜?jì)算機(jī)編程語(yǔ)言編寫(xiě)該機(jī)器可讀指令,也可以用固件邏輯或者用硬件電路來(lái)實(shí)現(xiàn)該機(jī)器可讀指令。如果用符合公認(rèn)標(biāo)準(zhǔn)的編程語(yǔ)言來(lái)編寫(xiě),則可以在各種硬件平臺(tái)上執(zhí)行這種指令并適用于各種操作系統(tǒng)。另外,沒(méi)有參照任何特定的編程語(yǔ)言來(lái)說(shuō)明本發(fā)明。應(yīng)該理解,可以使用各種編程語(yǔ)言來(lái)實(shí)現(xiàn)本文中所描述的本發(fā)明的教導(dǎo)。此外,在采取動(dòng)作或產(chǎn)生結(jié)果時(shí),在本領(lǐng)域中常常以一種或另一種形式(例如,程序、序列、處理、應(yīng)用、模塊、邏輯…)提到軟件。這些表述僅是由機(jī)器執(zhí)行軟件使機(jī)器的處理器執(zhí)行動(dòng)作或產(chǎn)生結(jié)果的簡(jiǎn)稱。還應(yīng)該理解,可以將或多或少的處理包含在流程圖中所示的方法中而不違背本發(fā)明的范圍,并且在本文中所示和所述的塊的配置不意味著特定的順序。
圖6示出通過(guò)網(wǎng)絡(luò)602如因特網(wǎng)耦合在一起的多個(gè)計(jì)算機(jī)系統(tǒng)600。本文中所用的術(shù)語(yǔ)“因特網(wǎng)”是指使用某種協(xié)議如TCP/IP協(xié)議以及可能的其它協(xié)議如用于組成web(World WideWeb,萬(wàn)維網(wǎng))的超文本置標(biāo)語(yǔ)言(HTML)文檔的超文本傳輸協(xié)議(HTTP)的多個(gè)網(wǎng)絡(luò)的網(wǎng)絡(luò)。因特網(wǎng)的物理連接以及因特網(wǎng)的協(xié)議和通信程序?qū)Ρ绢I(lǐng)域的技術(shù)人員來(lái)說(shuō)是公知的。典型地,由因特網(wǎng)服務(wù)提供商(Internet service providers,ISP)如ISP604和606來(lái)提供對(duì)因特網(wǎng)602的訪問(wèn)??蛻粲?jì)算機(jī)系統(tǒng)612、616、624和626等客戶機(jī)系統(tǒng)上的用戶通過(guò)ISP 604和606等因特網(wǎng)服務(wù)提供商來(lái)獲得對(duì)因特網(wǎng)的訪問(wèn)。對(duì)因特網(wǎng)的訪問(wèn)允許客戶計(jì)算機(jī)系統(tǒng)的用戶交換信息,接收和發(fā)送電子郵件以及觀看文檔如用HTML格式制備的文檔。通常由被認(rèn)為是在因特網(wǎng)“上”的web服務(wù)器608等web服務(wù)器來(lái)提供這些文檔。這些web服務(wù)器通常由ISP 604等ISP來(lái)提供,但可以不使用本領(lǐng)域所公知的ISP將計(jì)算機(jī)系統(tǒng)安裝并鏈接到因特網(wǎng)。
典型地,web服務(wù)器608是作為服務(wù)器計(jì)算機(jī)系統(tǒng)工作的、配置成利用World Wide Web的協(xié)議工作并耦合到因特網(wǎng)的至少一個(gè)計(jì)算機(jī)系統(tǒng)。任選地,web服務(wù)器608可以是向客戶機(jī)系統(tǒng)提供對(duì)因特網(wǎng)的訪問(wèn)的ISP的一部分。web服務(wù)器608示出為耦合到服務(wù)器計(jì)算機(jī)系統(tǒng)610,服務(wù)器計(jì)算機(jī)系統(tǒng)610本身耦合到可視為媒體數(shù)據(jù)庫(kù)形式的web內(nèi)容640。應(yīng)該理解,盡管圖6中示出了兩個(gè)計(jì)算機(jī)系統(tǒng)608和610,但是web服務(wù)器系統(tǒng)608和服務(wù)器計(jì)算機(jī)系統(tǒng)610可以是具有不同軟件組件的一個(gè)計(jì)算機(jī)系統(tǒng),這些計(jì)算機(jī)組件提供web服務(wù)器功能和服務(wù)器計(jì)算機(jī)系統(tǒng)610提供的服務(wù)器功能,下面將進(jìn)一步說(shuō)明。
客戶計(jì)算機(jī)系統(tǒng)612、616、624和626可各自利用適當(dāng)?shù)膚eb瀏覽軟件來(lái)觀看web服務(wù)器608提供的HTML頁(yè)。ISP 604通過(guò)可視為客戶計(jì)算機(jī)系統(tǒng)612的一部分的調(diào)制解調(diào)器接口614向客戶計(jì)算機(jī)系統(tǒng)612提供因特網(wǎng)連接。該客戶計(jì)算機(jī)系統(tǒng)可以是個(gè)人計(jì)算機(jī)系統(tǒng)、網(wǎng)絡(luò)計(jì)算機(jī)、Web TV系統(tǒng)、手持式裝置或其它計(jì)算機(jī)系統(tǒng)。類似地,ISP 606提供客戶機(jī)系統(tǒng)616、624和626的因特網(wǎng)連接,盡管如圖6中所示,這三個(gè)計(jì)算機(jī)系統(tǒng)的連接并不相同。通過(guò)調(diào)制解調(diào)器接口618耦合客戶計(jì)算機(jī)系統(tǒng)616,而客戶計(jì)算機(jī)系統(tǒng)624和626是LAN的一部分。盡管圖6將接口614和618一般地示出為“調(diào)制解調(diào)器”,但是應(yīng)該理解,這些接口中的每一個(gè)可以是模擬調(diào)制解調(diào)器、ISDN調(diào)制解調(diào)器、線纜調(diào)制解調(diào)器、衛(wèi)星傳輸接口或用于將計(jì)算機(jī)系統(tǒng)耦合到其它計(jì)算機(jī)系統(tǒng)的其它接口。客戶計(jì)算機(jī)系統(tǒng)624和616通過(guò)網(wǎng)絡(luò)接口630和632耦合到LAN 622,網(wǎng)絡(luò)接口630和632可以是Ethernet網(wǎng)絡(luò)或其它網(wǎng)絡(luò)接口。LAN 622還耦合到網(wǎng)關(guān)計(jì)算機(jī)系統(tǒng)620,網(wǎng)關(guān)計(jì)算機(jī)系統(tǒng)620為局域網(wǎng)提供防火墻和其它因特網(wǎng)相關(guān)服務(wù)。該網(wǎng)關(guān)計(jì)算機(jī)系統(tǒng)620耦合到ISP 606以向客戶計(jì)算機(jī)系統(tǒng)624和626提供因特網(wǎng)連接。網(wǎng)關(guān)計(jì)算機(jī)系統(tǒng)620可以是傳統(tǒng)的服務(wù)器計(jì)算機(jī)系統(tǒng)。此外,web服務(wù)器系統(tǒng)608可以是傳統(tǒng)的服務(wù)器計(jì)算機(jī)系統(tǒng)。
可選地,如公知的那樣,服務(wù)器計(jì)算機(jī)系統(tǒng)628可以通過(guò)網(wǎng)絡(luò)接口634直接耦合到LAN 622以向客戶機(jī)624、626提供文件636和其它服務(wù),而不需要通過(guò)網(wǎng)關(guān)服務(wù)器620連接到因特網(wǎng)。此外,可以使用LAN 622、因特網(wǎng)602或作為通信介質(zhì)的組合在對(duì)等網(wǎng)絡(luò)中將客戶機(jī)系統(tǒng)612、616、624、626的任何組合連接在一起。通常,對(duì)等網(wǎng)絡(luò)將數(shù)據(jù)分布在用于存儲(chǔ)和檢索的多個(gè)機(jī)器的網(wǎng)絡(luò)上而不使用一個(gè)或多個(gè)中央服務(wù)器。因此,每個(gè)對(duì)等網(wǎng)絡(luò)節(jié)點(diǎn)可以包含上述客戶機(jī)和服務(wù)器二者的功能。
圖7示出可用作編碼器或解碼器的傳統(tǒng)計(jì)算機(jī)系統(tǒng)的一個(gè)例子。計(jì)算機(jī)系統(tǒng)700通過(guò)調(diào)制解調(diào)器或網(wǎng)絡(luò)接口702連接到外部系統(tǒng)。應(yīng)該理解,調(diào)制解調(diào)器或網(wǎng)絡(luò)接口702可視為計(jì)算機(jī)系統(tǒng)700的一部分。接口702可以是模擬調(diào)制解調(diào)器、ISDN調(diào)制解調(diào)器、線纜調(diào)制解調(diào)器、令牌環(huán)(token ring)接口、衛(wèi)星傳輸接口或用于將計(jì)算機(jī)系統(tǒng)耦合到其它計(jì)算機(jī)系統(tǒng)的其它接口。計(jì)算機(jī)系統(tǒng)700包括處理單元704,處理單元704可以是傳統(tǒng)的微處理器,如Intel Pentium微處理器或Motorola PowerPC微處理器。存儲(chǔ)器708通過(guò)總線706耦合到處理器704。存儲(chǔ)器708可以是動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM),也可以包括靜態(tài)RAM(SRAM)??偩€706將處理器704耦合到存儲(chǔ)器708、非易失性存儲(chǔ)器714、顯示控制器710以及輸入/輸出(I/O)控制器716。顯示控制器710以傳統(tǒng)方式控制在顯示裝置712上的顯示,顯示裝置712可以是陰極射線管(CRT)或液晶顯示器(LCD)。輸入/輸出裝置718可以包括鍵盤(pán)、盤(pán)驅(qū)動(dòng)器、打印機(jī)、掃描儀以及其它輸入和輸出裝置,包括鼠標(biāo)或其它指示裝置??梢岳脗鹘y(tǒng)的公知技術(shù)來(lái)實(shí)現(xiàn)顯示控制器710和I/O控制器716。數(shù)字圖像輸入裝置720可以是耦合到I/O控制器716的數(shù)字照相機(jī),以使來(lái)自數(shù)字照相機(jī)的圖像被輸入到計(jì)算機(jī)系統(tǒng)700。非易失性存儲(chǔ)器714通常是磁硬盤(pán)、光盤(pán)或其它形式的用于大量數(shù)據(jù)的存儲(chǔ)器。在計(jì)算機(jī)系統(tǒng)700中執(zhí)行軟件期間,通常通過(guò)直接存儲(chǔ)器訪問(wèn)處理將該數(shù)據(jù)中的一些寫(xiě)入存儲(chǔ)器708。本領(lǐng)域的技術(shù)人員很容易認(rèn)識(shí)到,術(shù)語(yǔ)“計(jì)算機(jī)可讀介質(zhì)”和“機(jī)器可讀介質(zhì)”包括可被處理器704訪問(wèn)的任何類型存儲(chǔ)裝置,并且還包含對(duì)數(shù)據(jù)信號(hào)進(jìn)行編碼的載波。
網(wǎng)絡(luò)計(jì)算機(jī)是可應(yīng)用本發(fā)明的實(shí)施例的另一類型計(jì)算機(jī)系統(tǒng)。網(wǎng)絡(luò)計(jì)算機(jī)通常不包括硬盤(pán)或其它大容量存儲(chǔ)器,由處理器704執(zhí)行的可執(zhí)行程序從網(wǎng)絡(luò)連接加載到存儲(chǔ)器708中。本領(lǐng)域已知的Web TV系統(tǒng)也被視為根據(jù)本發(fā)明的實(shí)施例的計(jì)算機(jī)系統(tǒng),但是它可能缺少圖7中所示的某些特征,如某輸入或輸出裝置。典型的計(jì)算機(jī)系統(tǒng)通常至少包括處理器、存儲(chǔ)器以及將存儲(chǔ)器耦合到處理器的總線。
應(yīng)該理解,計(jì)算機(jī)系統(tǒng)700是具有不同結(jié)構(gòu)的眾多可能的計(jì)算機(jī)系統(tǒng)的一個(gè)例子。例如,基于Intel微處理器的個(gè)人計(jì)算機(jī)通常具有多總線,其中的一個(gè)可以是用于外圍設(shè)備的輸入/輸出(I/O)總線,一個(gè)是直接連接處理器704和存儲(chǔ)器708的總線(通常稱為存儲(chǔ)器總線)。通過(guò)橋組件將這些總線連接在一起,橋組件因總線協(xié)議不同而進(jìn)行任何必要的轉(zhuǎn)換。
還應(yīng)該理解,計(jì)算機(jī)系統(tǒng)700由操作系統(tǒng)軟件來(lái)控制,操作系統(tǒng)軟件包括文件管理系統(tǒng),如盤(pán)操作系統(tǒng),其為操作系統(tǒng)軟件的一部分。帶有文件管理系統(tǒng)軟件的的操作系統(tǒng)軟件的一個(gè)例子是Washington的Redmond的Microsoft Corporation的稱為Windows的操作系統(tǒng)家族及其文件管理系統(tǒng)。典型地,該文件管理系統(tǒng)被存儲(chǔ)在非易失性存儲(chǔ)器714中,使處理器704執(zhí)行操作系統(tǒng)輸入和輸出數(shù)據(jù)以及將數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器中所需的各種動(dòng)作,包括將文件存儲(chǔ)在非易失性存儲(chǔ)器714中。
在以上說(shuō)明書(shū)中,已關(guān)于本發(fā)明的特定典型實(shí)施例描述了本發(fā)明。顯而易見(jiàn)的是,在不違背所附權(quán)利要求書(shū)中所述的本發(fā)明的更寬的本質(zhì)和范圍的情況下可以對(duì)其進(jìn)行各種修改。因此,應(yīng)當(dāng)將本說(shuō)明書(shū)和附圖看作是說(shuō)明性的而不是限制性的。
相關(guān)申請(qǐng)本專利申請(qǐng)涉及名稱為“類別數(shù)據(jù)的聚類和分類”、申請(qǐng)?zhí)枮?1/436,142、代理人申請(qǐng)案編號(hào)為80398.P649的待決美國(guó)專利申請(qǐng),以及名稱為“內(nèi)容類別數(shù)據(jù)的維度減少”、申請(qǐng)?zhí)枮?1/435,494、代理人申請(qǐng)案編號(hào)為080398.P655的待決美國(guó)專利申請(qǐng)。該相關(guān)待決申請(qǐng)被轉(zhuǎn)讓給與本申請(qǐng)相同的受讓人。
版權(quán)通告/許可本專利文件公開(kāi)的部分包含受版權(quán)保護(hù)的材料。版權(quán)所有者不反對(duì)在專利商標(biāo)局專利文件或記錄中復(fù)制任何專利文件或?qū)@_(kāi),但是保留其它全部版權(quán)權(quán)利。下面的通告應(yīng)用于下面以及附圖中說(shuō)明的軟件和數(shù)據(jù)Copyright2005,SonyElectronics,Incorporated,All Rights Reserved。
權(quán)利要求
1.一種計(jì)算機(jī)化方法,其包括從公眾網(wǎng)站接收網(wǎng)頁(yè),所述網(wǎng)頁(yè)與特定內(nèi)容有關(guān);從所述網(wǎng)頁(yè)提取多個(gè)語(yǔ)言項(xiàng);將所述多個(gè)語(yǔ)言項(xiàng)添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù);從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù);將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集;以及基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
2.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)化方法,其特征在于,所述提取多個(gè)語(yǔ)言項(xiàng)還包括如下處理至少之一將所述網(wǎng)頁(yè)中的語(yǔ)言項(xiàng)詞干化、從所述網(wǎng)頁(yè)去除停止語(yǔ)言項(xiàng)、以及從所述網(wǎng)頁(yè)提取有限數(shù)量的語(yǔ)言項(xiàng)。
3.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)化方法,其特征在于,所述提取多個(gè)語(yǔ)言項(xiàng)還包括關(guān)于網(wǎng)頁(yè)格式定義解析程序動(dòng)作。
4.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)化方法,其特征在于,所述元數(shù)據(jù)是類別數(shù)據(jù)。
5.一種機(jī)器可讀介質(zhì),其包括從公眾網(wǎng)站接收網(wǎng)頁(yè),所述網(wǎng)頁(yè)與特定內(nèi)容有關(guān);從所述網(wǎng)頁(yè)提取多個(gè)語(yǔ)言項(xiàng);將所述多個(gè)語(yǔ)言項(xiàng)添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù);從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù);將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集;以及基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
6.根據(jù)權(quán)利要求5所述的機(jī)器可讀介質(zhì),其特征在于,所述提取多個(gè)語(yǔ)言項(xiàng)還包括如下處理至少之一將所述網(wǎng)頁(yè)中的語(yǔ)言項(xiàng)詞干化、從所述網(wǎng)頁(yè)去除停止語(yǔ)言項(xiàng)、以及從所述網(wǎng)頁(yè)提取有限數(shù)量的語(yǔ)言項(xiàng)。
7.根據(jù)權(quán)利要求5所述的機(jī)器可讀介質(zhì),其特征在于,所述提取多個(gè)語(yǔ)言項(xiàng)還包括關(guān)于網(wǎng)頁(yè)格式定義解析程序動(dòng)作。
8.根據(jù)權(quán)利要求5所述的機(jī)器可讀介質(zhì),其特征在于,所述元數(shù)據(jù)是類別數(shù)據(jù)。
9.一種設(shè)備,其包括用于從公眾網(wǎng)站接收網(wǎng)頁(yè)的裝置,所述網(wǎng)頁(yè)與特定內(nèi)容有關(guān);用于從所述網(wǎng)頁(yè)提取多個(gè)語(yǔ)言項(xiàng)的裝置;用于將所述多個(gè)語(yǔ)言項(xiàng)添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù)的裝置;用于從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù)的裝置;用于將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集中的裝置;以及用于基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度的裝置,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
10.根據(jù)權(quán)利要求9所述的設(shè)備,其特征在于,所述用于提取多個(gè)語(yǔ)言項(xiàng)的裝置還用于如下處理至少之一將所述網(wǎng)頁(yè)中的語(yǔ)言項(xiàng)詞干化、從所述網(wǎng)頁(yè)去除停止語(yǔ)言項(xiàng)、以及從所述網(wǎng)頁(yè)提取有限數(shù)量的語(yǔ)言項(xiàng)。
11.根據(jù)權(quán)利要求9所述的設(shè)備,其特征在于,所述用于提取多個(gè)語(yǔ)言項(xiàng)的裝置還用于關(guān)于網(wǎng)頁(yè)格式定義解析程序動(dòng)作。
12.根據(jù)權(quán)利要求9所述的設(shè)備,其特征在于,所述元數(shù)據(jù)是類別數(shù)據(jù)。
13.一種系統(tǒng),其包括處理器;通過(guò)總線連接到所述處理器的存儲(chǔ)器;以及由所述處理器從所述存儲(chǔ)器執(zhí)行的處理,所述處理使得處理器從公眾網(wǎng)站接收網(wǎng)頁(yè),所述網(wǎng)頁(yè)與特定內(nèi)容有關(guān);從所述網(wǎng)頁(yè)提取多個(gè)語(yǔ)言項(xiàng);將所述多個(gè)語(yǔ)言項(xiàng)添加到與所述內(nèi)容有關(guān)的內(nèi)容元數(shù)據(jù);從所述內(nèi)容元數(shù)據(jù)提取指定類別數(shù)據(jù);將所述指定類別數(shù)據(jù)加載到類別數(shù)據(jù)集中;以及基于所述類別數(shù)據(jù)集和關(guān)系數(shù)據(jù)減少所述類別數(shù)據(jù)集的維度,其中,所述關(guān)系數(shù)據(jù)定義所述類別數(shù)據(jù)集和與所述類別數(shù)據(jù)集有關(guān)的所述內(nèi)容之間的關(guān)系。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述提取多個(gè)語(yǔ)言項(xiàng)還包括如下處理至少之一將所述網(wǎng)頁(yè)中的語(yǔ)言項(xiàng)詞干化、從所述網(wǎng)頁(yè)去除停止語(yǔ)言項(xiàng)、以及從所述網(wǎng)頁(yè)提取有限數(shù)量的語(yǔ)言項(xiàng)。
15.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述提取多個(gè)語(yǔ)言項(xiàng)還包括關(guān)于網(wǎng)頁(yè)格式定義解析程序動(dòng)作。
16.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述元數(shù)據(jù)是類別數(shù)據(jù)。
全文摘要
本發(fā)明涉及使用公眾網(wǎng)站獲取元數(shù)據(jù)。類別數(shù)據(jù)集包括類別的名稱和關(guān)系數(shù)據(jù),其中,關(guān)系數(shù)據(jù)定義類別和內(nèi)容之間的關(guān)系。內(nèi)容的類別通過(guò)從與特定內(nèi)容有關(guān)的例如WIKIPEDIA網(wǎng)站的在線公眾網(wǎng)站檢索網(wǎng)頁(yè)并分析該網(wǎng)頁(yè)以獲得內(nèi)容元數(shù)據(jù)來(lái)產(chǎn)生。從內(nèi)容元數(shù)據(jù)提取該內(nèi)容的類別數(shù)據(jù)。另外,基于類別和關(guān)系數(shù)據(jù)減少類別數(shù)據(jù)集的語(yǔ)言項(xiàng)。
文檔編號(hào)G06F17/30GK101075259SQ20071010371
公開(kāi)日2007年11月21日 申請(qǐng)日期2007年5月16日 優(yōu)先權(quán)日2006年5月16日
發(fā)明者赫姆達(dá)特·波昂, M·E·普盧托夫斯基 申請(qǐng)人:索尼株式會(huì)社, 索尼電子有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
浮梁县| 曲水县| 文水县| 栖霞市| 静乐县| 班戈县| 库尔勒市| 临清市| 石屏县| 淮北市| 札达县| 宁海县| 抚州市| 永顺县| 济宁市| 江华| 辽源市| 南和县| 五家渠市| 安多县| 盘山县| 镇远县| 芦溪县| 德庆县| 望江县| 彭州市| 资兴市| 定南县| 乡宁县| 略阳县| 文成县| 大同市| 庄河市| 沁水县| 定州市| 天柱县| 鹰潭市| 石家庄市| 新营市| 沁水县| 巴彦淖尔市|