專利名稱:用于基于語義的自動挖掘的系統(tǒng)的制作方法
技術領域:
本發(fā)明一般涉及用于基于語義的自動挖掘的系統(tǒng),該系統(tǒng)允許用于擴充語義產品數(shù)據(jù)的網絡挖掘(web mining)在用戶交互最少的情況下進行。
背景技術:
今天,萬維網(WWW)繼續(xù)以驚人的速度在通信容量以及Web站點規(guī)模和復雜性這兩個方面增長。諸如Web站點設計、Web服務器設計以及通過Web站點簡單的導航這樣的任務的復雜性,也隨著其增長而增大。由Tim-Berners-Lee引入的萬維網上信息資源的巨大爆炸性增長,需要采用自動化的工具來搜索、提取、過濾以及評估需要的信息和資源。因此,將Web轉化為用于電子商務和研究的主要工具,導致創(chuàng)建服務器側和客戶側智能系統(tǒng), 這些系統(tǒng)可以在互聯(lián)網特別是Web站點挖掘知識。Web挖掘是應用數(shù)據(jù)挖掘技術從Web上發(fā)現(xiàn)模式。它允許從產品或者與萬維網有關的活動中提取感興趣的和可能有用的模式和暗含的信息。Web挖掘類別其中之一是Wfeb內容挖掘。Web內容挖掘是從Web上的文本、圖像、音頻或視頻數(shù)據(jù)發(fā)現(xiàn)有用信息的過程,并且它包括Web文檔的文本挖掘和建立在概念索引或基于代理的技術的基礎上的資源發(fā)現(xiàn)。它是從文檔內容或者它們的描述中提取知識的過程?,F(xiàn)在存在兩組Web內容挖掘戰(zhàn)略,即直接挖掘文檔內容和改善其他工具諸如搜索引擎的內容搜索。Web內容挖掘是一種超越關鍵詞提取的自動化過程。目前,萬維網主要建立在以超文本標記語言(HTML)寫成的文檔的基礎上,HTML是一種標記協(xié)議,用于將散布多媒體對象諸如圖像和交互表單的文本主體進行編碼。人類能利用Web完成某些任務,諸如以另一種語言尋找英語單詞,搜索某本書的題目,或者搜索最新版的書等等。但是,計算機作為機器,需要用戶介入或指導,以完成要求的任務,因為網頁設計地是用來由人類閱讀而非由機器閱讀。由于文本文檔的內容并不存在機器可讀的語義,所以一些方案已經建議通過機器能利用的表達式重構文檔內容。利用文檔中的已知結構的常規(guī)方案是利用包裝 (wrapper)將文檔映射成某些數(shù)據(jù)模型。因為不可能讓機器僅憑字母關系等級解釋代碼,所以需要專門構建的語義Web編碼系統(tǒng)。語義Web(萬維網擴展,其中定義了信息的語義以及Web上的服務,使得Web能理解并滿足人們的需要,并讓機器使用Web內容)是能被計算力理解的信息視覺,所以他們能執(zhí)行搜索、獲取、共享并組合Web上的信息方面的更為復雜和繁雜的工作。語義Web涉及以專門為數(shù)據(jù)設計的語言進行發(fā)布資源描述框架(RDF)、網頁本體語言(OWL)和可擴展標記語言(XML)。HTML描述文檔和它們之間的鏈接。相反,RDF、OffL和XML可以描述任何事物諸如人、會議和飛機零件。這些技術組合在一起,以便提供補充或代替Web文檔內容的描述。因此,內容可以表述為存儲在Web讀寫數(shù)據(jù)庫中的描述性數(shù)據(jù)或者表述為文檔中的標記(特別是,在散布有XML的可擴展HTML (XHTML)中,或者更常見的是在純XML中,布局或者渲染提示單獨存儲)。機器可讀的描述允許內容管理器為內容增加含義,即描述知識本身的結構而非文本,采用類似人類推導邏輯和干涉的過程,由此獲取更有意義的結果并有助于利用計算機實現(xiàn)自動化的信息收集和研究。例如,文本分析技術現(xiàn)在可以通過使用其他詞語例如比喻來規(guī)避,或者使用圖像代替詞語。但是,現(xiàn)有的Web挖掘系統(tǒng)存在的缺陷在于,在挖掘產品時仍然涉及較高程度的用戶交互。朝著自動化的方向減少用戶交互的重要性至關重要,因為它加速了從Web發(fā)現(xiàn)和提取信息。而且由于語義Web的主干是本體論(現(xiàn)在經常是手工的),如果用戶交互沒有保持在最少的程度,則廣泛應用語義Web技術將會延遲或受阻。因此,如果通過一種允許基于自動語義的產品數(shù)據(jù)Web挖掘的系統(tǒng)來緩解上述缺點,將極其具有優(yōu)勢,基于語義的產品數(shù)據(jù)自動Web挖掘能定義本體和/或他們的概念的實例,并且可以在用戶交互最少的情況下實施。
發(fā)明內容
因此,本發(fā)明的主要目的是提供一種允許為擴充語義產品數(shù)據(jù)進行Web挖掘的系統(tǒng),所述Web挖掘能在最少地涉及用戶交互的情況下進行。本發(fā)明的另一個目的是提供一種允許為擴充語義產品數(shù)據(jù)進行Web挖掘的系統(tǒng), 以允許僅通過插入選定的關鍵詞而從Web中發(fā)現(xiàn)和提取有用信息。本發(fā)明的另一個目的是提供一種允許為擴充語義產品數(shù)據(jù)而進行Web挖掘的系統(tǒng),以允許迅捷快速地從Web發(fā)現(xiàn)并提取有用信息。本發(fā)明進一步的目的是提供一種允許為擴充語義產品數(shù)據(jù)進行Web挖掘的系統(tǒng), 以允許系統(tǒng)地并有目的地從網頁發(fā)現(xiàn)和提取有用信息。本發(fā)明進一步的目的是提供一種允許為擴充語義產品數(shù)據(jù)進行Web挖掘的系統(tǒng), 以改善Web挖掘結果。在理解本發(fā)明的以下詳細描述或者將本發(fā)明用于實踐之后,本發(fā)明的其他和進一步的目的將顯現(xiàn)出來。根據(jù)本發(fā)明的優(yōu)選方法,提供了一種語義Web挖掘方法,包括步驟將至少一個關鍵詞插入Web頁面;向挖掘代理發(fā)送所述關鍵詞;收集從互聯(lián)網挖掘的數(shù)據(jù);存儲數(shù)據(jù)用于以后的知識獲取;其特征在于,所述向挖掘代理發(fā)送關鍵詞跟隨在篩選關鍵詞之后;所述存儲數(shù)據(jù)跟隨在確定所收集的數(shù)據(jù)的mime (多目的互聯(lián)網郵件擴展)類型以及此后讓所確定的數(shù)據(jù)類型接受相關語義處理應用程序和驗證程序之后。在本發(fā)明的另一個方面,提供了一種語義Web挖掘方法,包括步驟
將至少一個關鍵詞插入Web頁面;向挖掘代理發(fā)送所述關鍵詞;從互聯(lián)網收集挖掘到的數(shù)據(jù);存儲數(shù)據(jù)用于以后的知識獲??;其特征在于,所述存儲數(shù)據(jù)跟隨在確定所收集的數(shù)據(jù)的mime (多目的互聯(lián)網郵件擴展)以及此后確定了類型的數(shù)據(jù)接受相關語義處理應用程序和驗證程序之后。
在結合附圖研究具體實施方式
之后,本發(fā)明的其他方面以及它們的優(yōu)勢將體現(xiàn)出來,在附圖中圖1是用于基于語義的自動Web挖掘系統(tǒng)的簡化流程圖;圖2是用于基于語義的自動Web挖掘的系統(tǒng)的詳細流程圖;圖3示出了用于本發(fā)明的Web挖掘代理的架構。
具體實施例方式在以下詳細描述中,論述眾多具體細節(jié)以便徹底理解本發(fā)明。但是,本領域技術人員應該理解,在不具備這些具體細節(jié)的情況下,本發(fā)明也可以實施,在其他實例中,熟知的方法、過程和/或部件沒有詳細描述,以便不會混淆本發(fā)明。參照附圖,從僅作為示例給出的本發(fā)明的實施方式的描述中,可以更為清楚地理解本發(fā)明,這些附圖并不是依據(jù)比例繪制。參照附圖,在所有示出的圖形中,同樣的附圖標記指示類似的部件,圖1示出了用于基于語義的自動Web挖掘的系統(tǒng)的簡化流程圖,而圖2示出了用于基于語義的自動Web 挖掘的系統(tǒng)的詳細流程圖。如圖1所示,簡化的架構示出了 5個步驟,即由第一方塊2指示的關鍵詞插入步驟;由第二方塊4指示的Web挖掘步驟;由第三方塊6指示的數(shù)據(jù)處理步驟;由第四方塊8指示的語義數(shù)據(jù)驗證步驟;和由第五方塊10指示的數(shù)據(jù)存儲步驟。首先, 在關鍵詞插入步驟2中,至少選定的與待發(fā)現(xiàn)信息相關的關鍵詞由用戶插入到網頁中。然后,關鍵詞被發(fā)送到Web挖掘代理,該代理用于在Web挖掘步驟4中從互聯(lián)網諸如谷歌、雅虎、MSN、^u Tube等抓取與插入的關鍵詞或多個關鍵詞具有相關性的全部數(shù)據(jù)。然后,收集起來的數(shù)據(jù)在數(shù)據(jù)處理步驟6中利用語義服務加工成語義數(shù)據(jù),以便將單純的互聯(lián)網數(shù)據(jù)轉化成機器可讀數(shù)據(jù)。然后在語義數(shù)據(jù)驗證步驟8中,由用戶驗證經過處理的數(shù)據(jù),用于存儲在知識庫存儲器中,優(yōu)選知識庫RDF或三元存儲器中,正如在數(shù)據(jù)存儲步驟10中所示。 系統(tǒng)中采用的Web挖掘代理在圖3中示出,該代理是利用PHP技術和已知數(shù)據(jù)庫開發(fā)的已知Web挖掘代理5。它能夠進行編程,以便在互聯(lián)網7上爬行,從中挖掘數(shù)據(jù)并將數(shù)據(jù)暫時存儲在數(shù)據(jù)庫9中。暫時存儲的數(shù)據(jù)然后存儲在永久的知識庫RDF或三元存儲器11中,用于后續(xù)利用Java技術的語義處理應用程序,諸如待執(zhí)行的分類服務13A、匯總服務1 和語義注解13C。圖2示出了顯示基于語義的自動Web挖掘的工作的詳細流程圖。所述附圖更為詳細地顯示了圖1中的過程。首先,在由方塊2A所示的第一關鍵詞插入步驟中,用戶將至少一個關鍵詞插入Web頁面。接下來,在由方塊2B所示的第二關鍵詞插入步驟中,對關鍵詞進行篩選,該第二關鍵詞插入步驟通過在來自本體或知識庫的一些關鍵詞建議的基礎上驗證所插入的關鍵詞來完成,這里的本體或知識庫從知識庫存儲器10中獲取,在知識庫存儲器中存儲了供獲取的現(xiàn)有關鍵詞。從知識庫存儲器10獲取關鍵詞由箭頭“A”指示。應該理解,如果關鍵詞首先并未篩選而是像最初由用戶輸入那樣被發(fā)送到挖掘代理,本發(fā)明也可以工作。經過驗證的關鍵詞然后在Web挖掘步驟4中作為變量發(fā)送到Web挖掘代理,正如以下段落所述。第一、第二和第三關鍵詞插入步驟2A、2B和2C總體稱為圖1中的關鍵詞插入步驟2。在第一 Web挖掘步驟4A中,使用優(yōu)選采用已知PHP和已知數(shù)據(jù)庫的Web挖掘代理, 正如圖3中所示。PHP經過編程在互聯(lián)網上爬行,正如箭頭“B”所示,以挖掘數(shù)據(jù)。利用HTML 信息,由用戶輸入的關鍵詞將發(fā)送到各搜索引擎諸如谷歌搜索引擎、雅虎搜索引擎、MSN搜索引擎、YouTube、谷歌圖片、雅虎圖片、MSN圖片、雅虎視頻和分享,以允許挖掘數(shù)據(jù)并存儲, 用于后續(xù)獲取。來自這些站點的全部結果將在第二 Web挖掘步驟4B中利用DOM Xpath語言進行查詢,并且每個鏈接的信息將被收集并導向挖掘代理,如箭頭“C”所示。XPath (XML Path語言)是一種用來從XML文檔選擇節(jié)點的語言,此外,XPath可以用來從XML文檔的內容中計算取值(字符串、數(shù)字或者布爾值)。XPath由WorldWide Web Consortium(W3C)定義。HTML是XML文檔的一部分。然后,挖掘代理將收集全部的明碼互聯(lián)網數(shù)據(jù)/Web數(shù)據(jù), 并且所述數(shù)據(jù)將在第二 Web挖掘步驟4B中被分類以便將數(shù)據(jù)的mime類型確定為文本數(shù)據(jù) (HTML或文本文檔)或者二進制數(shù)據(jù)。第一和第二 Web挖掘步驟4A和4B總體稱為圖1中的Web挖掘步驟4。在確定了數(shù)據(jù)的mime類型之后,數(shù)據(jù)送往下一階段,數(shù)據(jù)處理步驟6,該步驟一般是將由挖掘代理提供的明碼互聯(lián)網數(shù)據(jù)/Web數(shù)據(jù)利用語義服務轉化為語義產品的過程。 數(shù)據(jù)處理步驟6包括文本數(shù)據(jù)處理步驟12和二進制數(shù)據(jù)處理步驟14。適用的數(shù)據(jù)處理步驟的類型取決于數(shù)據(jù)的mime類型。如果數(shù)據(jù)是文本/HTML文檔,則包括若干定義為Web服務的語義處理應用程序(諸如預處理器服務、分類器服務、匯總器服務和語義注解)的文本數(shù)據(jù)處理步驟12將連續(xù)應用到文本數(shù)據(jù),以便將Web數(shù)據(jù)轉化為語義產品。在由方塊12A 所指示的第一文本數(shù)據(jù)處理步驟中,挖掘代理將收集到的全部數(shù)據(jù)送往預處理器服務,在這里文本或HTML內容內的全部標簽將被清除。在這一階段,利用JAVA創(chuàng)建的預處理器服務有能力識別出文本或HTML數(shù)據(jù)中的最有價值的信息。只有具備重要信息的純文本被預處理器服務返回到所述代理。接下來,挖掘代理將全部預處理過的數(shù)據(jù)助推到由方塊12B所表示的第二文本數(shù)據(jù)處理步驟,其中預處理過的數(shù)據(jù)接受分類器服務。分類器服務12B將根據(jù)其預定算法和規(guī)則處理并分析獲取的全部數(shù)據(jù)。然后,每個數(shù)據(jù)(或分類值)將被分類器服務返回到挖掘代理中其各自的分類中,然后將暫時存儲在數(shù)據(jù)庫13中,帶有屬性“hasCategory”以及分類(category)的名稱。接下來,挖掘代理將預處理過的數(shù)據(jù)助推到由方塊12C所表示的第三文本數(shù)據(jù)處理步驟,其中相同的預處理過的數(shù)據(jù)將被推送到利用JAVA創(chuàng)建的匯總器(summarize!·) 服務。然后,每個數(shù)據(jù)將被匯總器服務返回,并且這一次挖掘代理將接收匯總版本的預處理過的數(shù)據(jù),這種數(shù)據(jù)也類似地暫時存儲在數(shù)據(jù)庫13中,帶有包含匯總過的數(shù)據(jù)的屬性 “hasSummary”。然后,在將明碼文本數(shù)據(jù)轉化為語義產品的最后一部分,挖掘代理將讓預處理過的數(shù)據(jù)進入由方塊12D所表示的第四文本數(shù)據(jù)處理步驟,在這里預處理過的數(shù)據(jù)進入利用 JAVA創(chuàng)建的語義注解服務。在這種服務中,語義注解將解鎖有關何種實體(或者更一般地說,語義特征)出現(xiàn)在文本中并且它們作了什么的信息。正式地說,語義注解代表專用類別的元數(shù)據(jù)(metadata),這種數(shù)據(jù)為實體提供統(tǒng)一資源標識符(URI)或其他類型的唯一標識符形式的參考。除了執(zhí)行語義注解之外,該服務提供一種元(meta)數(shù)據(jù)和產生這種meta數(shù)據(jù)的過程。采用通常方式,從該服務返回的數(shù)據(jù)將暫時存儲在數(shù)據(jù)庫13中。在數(shù)據(jù)為二進制文檔的情況下,包括一系列語義處理應用程序的二進制數(shù)據(jù)處理步驟14應用到二進制數(shù)據(jù),將web數(shù)據(jù)轉化為語義產品。對于二進制數(shù)據(jù),過程類似于將文本數(shù)據(jù)轉化為語義數(shù)據(jù)的過程,但是略微不同的是,挖掘代理不會將二進制數(shù)據(jù)送往匯總器服務。這是因為二進制數(shù)據(jù)包含非常有限的信息諸如標題和文件擴展名。雖然從二進制數(shù)據(jù)收集的信息有限,但是可以提供非常重要的語義值。在由方塊14A所表示的第一二進制數(shù)據(jù)處理步驟中,挖掘代理將確定接收到的每個二進制數(shù)據(jù)的擴展名。確定過程并不利用任何形式的JAVA服務來進行,因為該過程非常直接。然后,數(shù)據(jù)分類為文檔或者圖像或者視頻或者音頻,并且根據(jù)擴展名(extension),將暫時存儲在數(shù)據(jù)庫13中,帶有屬性 "hasExtension,,。類似于上述用來處理文本數(shù)據(jù)的前述過程,挖掘代理能內部檢測二進制數(shù)據(jù)的 mime類型,如通過方塊14B所表示的第二二進制數(shù)據(jù)處理步驟中所示。所述檢測過程簡單, 并且不需要非常高級的JAVA服務。挖掘代理將提取每個二進制數(shù)據(jù)的mime類型信息,諸如用于Jpeg圖像的“Image/Jpeg”,用于音頻的“Audio/Basic”等等,并且這些信息將暫時存儲在數(shù)據(jù)庫13中,帶有屬性“hasMimeType”。二進制數(shù)據(jù)的文本信息諸如標題或鏈接到二進制數(shù)據(jù)的短小描述將在通過方塊14C所表示的第三二進制數(shù)據(jù)處理步驟中進行處理,該第三二進制數(shù)據(jù)處理步驟是分類器服務,其中所述文本信息優(yōu)選利用JAVA分類器服務進行分類。每個二進制數(shù)據(jù)將得到由該分類器服務返回的其自身的分類,并且將暫時存儲在數(shù)據(jù)庫13中,帶有屬性 "hasCategory"以及分類的名稱。二進制數(shù)據(jù)并未從正在進行的語言注解服務排除。如通過方塊14D所表示的第四二進制數(shù)據(jù)處理步驟中所示,這種用于二進制數(shù)據(jù)的注解服務能根據(jù)知識庫信息注解二進制數(shù)據(jù)。這種注解過程類似于文本數(shù)據(jù)的注解過程。每個二進制數(shù)據(jù)的全部被注解的信息將暫時存儲在數(shù)據(jù)庫13中。最后,用戶需要驗證所創(chuàng)建并暫時存儲在所述數(shù)據(jù)庫13中的全部語義產品,如驗證步驟8中所示。如果用戶滿足于web挖掘代理從互聯(lián)網上搜集到的信息,則用戶僅需要點擊“核準”按鈕,以確認所述數(shù)據(jù)作為經過驗證的數(shù)據(jù),用于將其轉送到知識庫存儲器10, 優(yōu)選知識庫RDF或者三元存儲器,用于永久保存。數(shù)據(jù)的插入將廣泛使用Simple Protocol 禾口 RDF Query Language (SPARQL)。雖然本發(fā)明的優(yōu)選方法及其優(yōu)勢已經在上述具體實施方式
中公開,但是本發(fā)明并不限于此,而是由附帶的權利要求書的實質和范圍來限定。
權利要求
1.一種語義網絡Web挖掘方法,包括步驟 將至少一個關鍵詞插入Web表單;將所述關鍵詞發(fā)送給挖掘代理; 從互聯(lián)網收集挖掘到的數(shù)據(jù); 存儲數(shù)據(jù)用于以后的知識獲取; 其特征在于,所述存儲數(shù)據(jù)跟隨在確定所收集到的數(shù)據(jù)的mime (多目的互聯(lián)網郵件擴展)類型以及此后讓確定了類型的數(shù)據(jù)接受相關語義處理應用程序和驗證過程之后。
2.根據(jù)權利要求1所述的語義網絡挖掘方法,其特征在于,所述將關鍵詞發(fā)送給挖掘代理跟隨在篩選關鍵詞之后。
3.根據(jù)權利要求2所述的語義網絡挖掘方法,其特征在于,所述篩選關鍵詞借助本體或知識庫。
4.根據(jù)權利要求1或2所述的語義網絡挖掘方法,其特征在于,能在應用相關語義處理之前確定所述挖掘代理從互聯(lián)網收集的數(shù)據(jù)為文本或二進制數(shù)據(jù)。
5.一種向如權利要求4所述的文本數(shù)據(jù)應用語義處理的方法,包括步驟預處理所述文本數(shù)據(jù)以僅保留帶有重要信息的純文本,暫時存儲在數(shù)據(jù)庫(12A)中; 利用預先確定的算法和規(guī)則將所述預處理的文本數(shù)據(jù)分類,暫時存儲在數(shù)據(jù)庫(12b)中;將所述預處理的數(shù)據(jù)匯總成匯總版本,暫時存儲在數(shù)據(jù)庫(12C)中; 利用語義注解應用程序將所述預處理的文本數(shù)據(jù)轉化成語義產品,暫時存儲在數(shù)據(jù)庫 (12D)中。
6.一種向如權利要求4所述的二進制數(shù)據(jù)應用語義處理的方法,包括步驟 確定接收到的每個二進制數(shù)據(jù)的擴展名,暫時存儲在數(shù)據(jù)庫(14A)中;提取每個二進制數(shù)據(jù)的mime類型信息,暫時存儲在數(shù)據(jù)庫(14B)中;利用預定的算法和規(guī)則將所述預處理的二進制數(shù)據(jù)分類,暫時存儲在數(shù)據(jù)庫(14C)中;利用語義注解應用程序將所述預處理的二進制數(shù)據(jù)轉換成語義產品,暫時存儲在數(shù)據(jù)庫(14D)中。
7.根據(jù)權利要求5或6所述的語義網絡挖掘方法,允許用戶在將存儲在所述暫存數(shù)據(jù)庫(1 中的數(shù)據(jù)轉發(fā)給知識庫存儲器(10)用于永久存儲之前,驗證所述數(shù)據(jù)。
8.根據(jù)權利要求1或2所述的語義Web挖掘方法,能用于擴展或擴充語義產品。
全文摘要
本發(fā)明一般涉及用于基于語義的自動挖掘的系統(tǒng),以允許為擴充語義產品而進行的Web挖掘能在用戶交互最少的情況下進行。
文檔編號G06F17/30GK102439599SQ201080022740
公開日2012年5月2日 申請日期2010年3月23日 優(yōu)先權日2009年3月23日
發(fā)明者佩魯馬爾·A/L·納根丹, 悅林·阿姆魯?shù)隙鳌ぐ⒛肤? 洲元凱 申請人:馬來西亞微電子系統(tǒng)有限公司