專利名稱:關(guān)鍵字的自動提取裝置和方法、記錄介質(zhì)以及計算機程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用來從EPG(Electronic Program Guide電子節(jié)目指南)信息一類的內(nèi)容的標題字符串信息和詳細字符串信息之中自動提取關(guān)鍵字的裝置和方法、記錄介質(zhì)以及計算機程序。
背景技術(shù):
近年來,在正式運營的數(shù)字化電視廣播中,電視臺在發(fā)送節(jié)目的影像·聲音數(shù)據(jù)的同時,也發(fā)送EPG信息,其中包含著表示節(jié)目標題的信息(標題字符串信息)、說明節(jié)目的詳細情況的信息(詳細字符串信息)、表示節(jié)目類型的信息等。接收數(shù)字化廣播的電視機能夠根據(jù)該EPG信息在畫面上顯示出電子節(jié)目指南。
另外,有的模擬式電視廣播中也發(fā)送這種EPG信息。
用戶在檢索想要看的節(jié)目時,利用該電子節(jié)目指南,在選擇粗略的類型(例如體育、電視劇等)后,可以檢索標題,或者閱讀檢索詳細字符串信息。
但是,由于節(jié)目標題的命名方法千差萬別,標題的檢索對于用戶來說未必是件容易的事情。另外,節(jié)目的詳細字符串信息是以文章形式記述的,有不少是長達幾頁,所以,檢索詳細字符串信息對于用戶來說也很麻煩。
對此,如果能利用例如演藝人員的名字等關(guān)鍵字進行節(jié)目檢索,對于用戶來說,檢索就會變得非常容易。然而,目前電視臺所發(fā)送的EPG信息中沒有包含獨立的關(guān)鍵字。因此,為了能夠利用關(guān)鍵字進行檢索,就需要從EPG信息之中提取關(guān)鍵字。
以往,這種關(guān)鍵字提取方法是,用戶通過光標等方式,從電視接收機顯示出來的電子節(jié)目指南的詳細字符串信息的文章中,指定想要用作關(guān)鍵字的字符串的開頭和末尾的詞語。
但是,這種現(xiàn)有的提取方法中,用戶必須親自執(zhí)行指定關(guān)鍵字的操作,因此,既繁雜,又難以在短時間內(nèi)提取多個關(guān)鍵字。
另一方面,一般的關(guān)鍵字自動提取方法公知有所謂的日語形態(tài)元素解析法(日本語形態(tài)要素解析)。但是,該方法中的計算機程序和所使用的詞典非常龐大,并且給CPU施加了很大的負載。因此,像電視接收機這樣的CPU的處理能力和存儲器容量都不太大的家電產(chǎn)品中,使用這種方法是非常低效的。
進一步,一般的關(guān)鍵字自動提取方法公知還有所謂的字符種類分隔法(字種切リ法)。這種方法是通過檢測漢字、片假名、平假名、字母、數(shù)字等字符種類的不同來提取關(guān)鍵字。但是,僅憑借這種字符種類分隔法,無法精確地提取出節(jié)目檢索所需的關(guān)鍵字。即,對于姓是漢字而名是平假名或片假名的演藝人員名字(例如,“石田あかリ”這樣的名字),由于姓和名被分割,因而無法提取。另外,對于名以字母表示而姓以片假名表示的外國人名或姓名中間插入“·”(中點)的外國人名(例如,“B·ドゥ-リ-”這樣的名字),由于姓和名被分隔開,也無法提取。
發(fā)明內(nèi)容
本發(fā)明借鑒了上述的問題點,致力于以下課題在CPU的處理能力和存儲器容量都不太大的家電產(chǎn)品中,也能夠從EPG信息一類的內(nèi)容的標題字符串信息和詳細字符串信息之中高效而精確地自動提取用戶檢索內(nèi)容所需的關(guān)鍵字。
為了解決該課題,本申請人提出一種關(guān)鍵字自動提取裝置,其具備第1提取單元,使用登錄有用來表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標題字符串信息之中提取關(guān)鍵字;第2提取單元,從該內(nèi)容的詳細字符串信息之中,進行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
在該關(guān)鍵字自動提取裝置中,使用登錄有用來表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標題字符串信息(例如電視廣播中的EPG信息的標題字符串信息)之中提取關(guān)鍵字。
另外,從內(nèi)容的詳細字符串信息(例如電視廣播的EPG信息中的詳細字符串信息)之中,使用登錄有人名的第2關(guān)鍵字詞典提取關(guān)鍵字,也利用字符種類分隔法提取關(guān)鍵字。此時,只要是第2關(guān)鍵字詞典中所登錄的人名,姓是漢字而名是平假名或片假名的人名也被作為關(guān)鍵字提取出來。另外,對于第2關(guān)鍵字詞典中未登錄的人名,也可以利用字符種類分隔法,將其作為關(guān)鍵字提取出來。
這樣,從標題字符串信息之中提取關(guān)鍵字和從詳細字符串信息之中提取關(guān)鍵字,是根據(jù)其信息分別使用相互不同的關(guān)鍵字詞典和規(guī)則(是否使用字符種類分隔法等)實現(xiàn)的,由此,能夠憑借小規(guī)模的計算機程序或詞典而精確地提取關(guān)鍵字。
由此,在CPU的處理能力和存儲器容量都不太大的家電產(chǎn)品中,也能夠從EPG信息一類的內(nèi)容的標題字符串信息和詳細字符串信息之中高效而精確地自動提取用戶檢索內(nèi)容所需的關(guān)鍵字。
此外,在該關(guān)鍵字自動提取裝置中,作為一個實例,第1提取單元適合于從包含有第1關(guān)鍵字詞典中登錄的字符串的標題字符串之中的、排除了登錄在指定的排除字符串詞典中的字符串之后的部分中,提取關(guān)鍵字。
由此,能夠防止包含在標題中的字符串之中,不適合用于(過于一般情況的)內(nèi)容檢索的字符串被包含到關(guān)鍵字中。因此,用戶使用所提取的關(guān)鍵字能夠更高效地檢索內(nèi)容。
進而,在該關(guān)鍵字自動提取裝置中,作為一個實例,第1提取單元適合于將包含有第1關(guān)鍵字詞典中登錄的字符串的標題字符串之中的、以平假名、片假名、漢字、數(shù)字、字母之外的特殊字符分隔的字符串作為關(guān)鍵字提取出來。
由此,對于未被這種特殊字符分隔的標題,該標題所含的多個字符串不會被提取作為分隔開的關(guān)鍵字,而是該標題本身依其原樣被提取作關(guān)鍵字。
對于未被這種特殊字符分隔的標題,該標題所含的各個字符串意義過于寬泛,用作內(nèi)容檢索的關(guān)鍵字幾乎不起作用(檢索結(jié)果會非常多),通常是只有使用標題本身,才能構(gòu)成高效有用的檢索關(guān)鍵字。因此,用戶使用所提取的關(guān)鍵字(標題本身)能夠更高效地檢索內(nèi)容。
另外,另一方面,對于以特殊字符分隔的標題,特殊字符分隔的各個字符串會分別作為關(guān)鍵字而提取。
對于以特殊字符(例如空格或“×”等)分隔的標題,以該特殊字符分隔的各個字符串分別發(fā)揮內(nèi)容檢索關(guān)鍵字作用,標題本身對于檢索結(jié)果限制過大,通常起不到內(nèi)容檢索關(guān)鍵字的作用(檢索結(jié)果會為非常少,甚至為空)。因此,用戶使用所提取的關(guān)鍵字(以特殊字符分隔的各個字符串)還是能夠更高效地檢索內(nèi)容。
進而,該關(guān)鍵字自動提取裝置中,作為一個實例,第2提取單元適合于利用字符種類分隔法,從使用第2關(guān)鍵字詞典提取關(guān)鍵字后的詳細字符串信息的剩余部分之中的、排除了登錄在指定的排除字符串詞典中的字符串之后的部分中,提取關(guān)鍵字。
由此,能夠防止包含在詳細字符串信息中的字符串之中的、不適合用于內(nèi)容檢索的字符串被包含到關(guān)鍵字中。因此,用戶使用所提取的關(guān)鍵字能夠更高效地檢索內(nèi)容。
進而,在該關(guān)鍵字自動提取裝置中,作為一個實例,第2提取單元適合于利用字符種類分隔法,將片假名和字母作為相同字符種類處理,同時,當緊挨著“·”(中點)前面的字符是片假名或字母時,就將“·”(中點)分別當作片假名或字母處理。
由此,名以字母表示而姓以片假名表示的外國人名或姓名中間插入“·”(中點)的外國人名,也可以被當作關(guān)鍵字提取出來。
進而,該關(guān)鍵字自動提取裝置中,還具備通過網(wǎng)絡(luò)下載第2關(guān)鍵字詞典的裝置,第2提取單元適合使用該下載的第2關(guān)鍵字詞典。
由此,能夠使用最新的詞典(收錄了最新剛剛走紅的人的名稱)作為第2關(guān)鍵字詞典,來提取關(guān)鍵字。
其次,本申請人提出一種關(guān)鍵字自動提取方法,其具有第1步驟,使用登錄有用來表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標題字符串信息之中提取關(guān)鍵字;第2步驟,從該內(nèi)容的詳細字符串信息之中,進行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
另外,提出了一種記錄介質(zhì),其中記錄計算機可讀取的計算機程序,該計算機程序是一種關(guān)鍵字自動提取裝置的計算機程序,其包含第1提取步驟,使用登錄有用來表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標題字符串信息之中提取關(guān)鍵字;第2提取步驟,從該內(nèi)容的詳細字符串信息之中,進行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
另外,提出了一種計算機程序,在控制關(guān)鍵字自動提取裝置的計算機中執(zhí)行第1提取步驟,使用登錄有用來表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標題字符串信息之中提取關(guān)鍵字;第2提取步驟,從該內(nèi)容的詳細字符串信息之中,進行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
利用該關(guān)鍵字自動提取方法、記錄介質(zhì)、計算機程序,與上述的本發(fā)明的關(guān)鍵字自動提取裝置的說明完全相同,在CPU的處理能力和存儲器容量都不太大的家電產(chǎn)品中,也能夠從EPG信息一類的內(nèi)容的標題字符串信息和詳細字符串信息之中高效而精確地自動提取用戶檢索內(nèi)容所需的關(guān)鍵字。
圖1是表示包含應(yīng)用了本發(fā)明的節(jié)目記錄再現(xiàn)裝置的數(shù)字電視廣播接收系統(tǒng)的概要圖。
圖2是表示圖1的節(jié)目記錄再現(xiàn)裝置的硬件結(jié)構(gòu)的框圖。
圖3是表示圖2的CPU執(zhí)行的關(guān)鍵字自動提取處理的流程圖。
圖4是表示圖2的CPU執(zhí)行的關(guān)鍵字自動提取處理的流程圖。
圖5是表示圖3的處理中的關(guān)鍵字提取所用的規(guī)則的附圖。
圖6是表示圖4的處理中的關(guān)鍵字提取所用的規(guī)則的附圖。
圖7是表示應(yīng)用了本發(fā)明的模擬電視廣播所使用的節(jié)目記錄再現(xiàn)裝置的硬件結(jié)構(gòu)的框圖。
具體實施例方式
下面利用
應(yīng)用了本發(fā)明的記錄·再現(xiàn)數(shù)字電視廣播節(jié)目的裝置的實例。
圖1是表示包含應(yīng)用了本發(fā)明的節(jié)目記錄再現(xiàn)裝置的數(shù)字電視廣播接收系統(tǒng)的概要圖。電視臺發(fā)送的數(shù)字廣播信號通過天線1接收后,輸入到節(jié)目記錄再現(xiàn)裝置2。節(jié)目記錄再現(xiàn)裝置2連接到包含顯示器和揚聲器的顯示裝置3,并與因特網(wǎng)4連接。
圖2是表示節(jié)目記錄再現(xiàn)裝置2的硬件結(jié)構(gòu)的框圖。在該節(jié)目記錄再現(xiàn)裝置2中依次連接調(diào)諧器11、解調(diào)器12、解擾器(descrambler)13、多路分離器14,同時,針對多路分離器14,分別依次連接影像解碼器15、影像信號處理電路17、聲音解碼器16、D/A轉(zhuǎn)換器18。
另外,調(diào)諧器11~D/A轉(zhuǎn)換器18、CPU19、ROM20、主存儲器(RAM)21、閃存22、遙控器用接口23、HDD(硬盤驅(qū)動器)用接口24、因特網(wǎng)連接用的通信接口25通過系統(tǒng)總線26相互聯(lián)結(jié)。接口24上連接用于電視節(jié)目錄像的HDD(硬盤驅(qū)動器)27。
該節(jié)目記錄再現(xiàn)裝置2上附屬的遠程控制器(以下稱為遙控器)28上設(shè)置了與通常的數(shù)字廣播用電視接收機所附屬的遙控器相同的各種操作按鈕(電源按鈕、頻道選擇按鈕、錄像預(yù)約按鈕、播放按鈕、在EPG畫面上進行選擇的方向鍵或確定鍵等)。
在觀看電視節(jié)目時,輸入到節(jié)目記錄再現(xiàn)裝置2中的數(shù)字廣播信號,根據(jù)遙控器28的頻道選擇操作,通過調(diào)諧器11選擇頻帶后,經(jīng)解調(diào)器12解調(diào),通過解擾器13解擾后,經(jīng)多路分離器14分離成多個頻道數(shù)量的節(jié)目影像·聲音數(shù)據(jù)包或EPG信息包。
該多個頻道數(shù)量的電視節(jié)目影像·聲音包之中,基于遙控器28的頻道選擇操作所提取的1個頻道的數(shù)據(jù)包的影像、聲音數(shù)據(jù)分別由影像解碼器15、聲音解碼器16以MPEG-2Video、MPEG-2Audio格式解碼。另外,EPG信息的包被發(fā)送到CPU19。
然后,經(jīng)影像解碼器15解碼的影像信號、利用EPG信息通過CPU19作成的電子節(jié)目指南顯示用的影像信號通過影像信號處理電路17施加向NTSC方式的變換或混頻等,從影像輸出端子29輸出,發(fā)送到圖1的顯示裝置3。
另外,經(jīng)聲音解碼器16解碼的聲音信號通過D/A轉(zhuǎn)換器18進行模擬轉(zhuǎn)換,從聲音輸出端子30輸出,發(fā)送到圖1的顯示裝置3。
CPU19根據(jù)ROM20中保存的計算機程序和數(shù)據(jù),使用主存儲器21作為工作存儲器,對該節(jié)目記錄再現(xiàn)裝置2整體進行控制。
CPU19執(zhí)行的處理中,除了基于遙控器28的頻道選擇操作觀看電視節(jié)目時的處理、以及基于遙控器28的錄像預(yù)約操作將電視節(jié)目錄像到HDD27的處理之外,還有關(guān)鍵字的自動提取處理。
ROM20中保存了標題用關(guān)鍵字詞典、標題用排除字符串詞典、詳細信息用關(guān)鍵字詞典和詳細信息用排除字符串詞典,用作該關(guān)鍵字自動提取處理中使用的詞典。
標題用關(guān)鍵字詞典中登錄了“職業(yè)棒球”、“高爾夫”、“足球”、“溫泉”、“圍棋”、“日本象棋”、“電影”等表示子類型(比EPG信息中的類型信息中“體育”這樣的粗略類型更細的類型)的字符串;“戀”、“愛”這樣的字符串;職業(yè)棒球的球隊名的字符串這樣的經(jīng)常出現(xiàn)在節(jié)目標題中的字符串之中,能夠用來有效地檢索節(jié)目的重要字符串。
標題用排除字符串詞典中登錄了“電影”、“BS”、節(jié)目表的特有記號(例如,表示新聞節(jié)目的加了方框的字母N記號)這樣的,出現(xiàn)在節(jié)目標題中的字符串之中,作為節(jié)目檢索關(guān)鍵字過于一般化的字符串。
詳細信息用關(guān)鍵字詞典中分別登錄了經(jīng)常出現(xiàn)在電視節(jié)目中的名人(演藝人、體育選手、政治家、文化人等)的名字之中,分別登錄有只有平假名、平假名與漢字的組合、平假名與片假名的組合、漢字與片假名的組合、只有2個以下(包括2個)漢字、只有6個以上(包括6個)漢字的名稱字符串。另外,詳細信息用關(guān)鍵字詞典中也登錄例如“溫泉”這樣的經(jīng)常出現(xiàn)在EPG信息中的詳細字符串信息中的字符串之中,人名之外的、適合用作節(jié)目檢索關(guān)鍵字的字符串。
詳細信息用排除字符串詞典中登錄了“嘉賓”、“以上”、“導(dǎo)演”這樣的經(jīng)常出現(xiàn)在EPG信息中的詳細字符串信息中的字符串之中,不適合用作節(jié)目檢索關(guān)鍵字的字符串。
此外,關(guān)于詳細信息用關(guān)鍵字詞典,CPU19會通過因特網(wǎng)從專用站點下載最新內(nèi)容(收錄了最近剛出名的人的名稱等)存儲到閃存22。
另外,作為執(zhí)行關(guān)鍵字的自動提取處理的前提,CPU19會在用戶的頻道選擇操作時或基于用戶的錄像預(yù)約操作進行錄像時,將多路分離器14發(fā)送過來的EPG信息的包存儲到閃存22。
圖3、圖4是表示CPU19執(zhí)行的關(guān)鍵字自動提取處理的流程圖。其中,圖3是從標題字符串信息之中提取關(guān)鍵字的處理,最初,從閃存22中存儲的EPG信息之中提取標題字符串信息(步驟S1)。
接著,從該標題字符串信息所表示的多個節(jié)目的標題之中,查找標題用關(guān)鍵字詞典中登錄的字符串(“高爾夫”、“足球”、“溫泉”、“圍棋”、“日本象棋”、“電影”這樣的表示子類型的字符串等)。然后,從這些節(jié)目標題之中,將包含了該標題用關(guān)鍵字詞典中登錄的字符串的標題的字符串整體作為關(guān)鍵字提取對象(步驟S2)。
接著,從步驟S2所產(chǎn)生的作為關(guān)鍵字提取對象的標題之中,將標題用排除字符串詞典中登錄的字符串(“電影”、“BS”等)部分置換為空格(步驟S3)。
接著,從經(jīng)過步驟S3處理后的標題的字符串之中,利用圖5所示的標題用提取規(guī)則,提取關(guān)鍵字(步驟S4)。
根據(jù)該標題用提取規(guī)則,該標題的字符串未被平假名、片假名、漢字、數(shù)字、字母之外的特殊字符(空格、×、「 」等)隔開時,該標題的字符串被原樣當作關(guān)鍵字提取出來。另一方面,當該標題的字符串被這種特殊字符隔開時,就將特殊字符隔開的各字符串之中2個字符以上(含2個)的字符串分別提取出來作為關(guān)鍵字。
不過,不將“·”(中點)當作特殊字符。然后,當作為關(guān)鍵字提取出來的字符串的開頭或末尾有“·”(中點)時,將刪除“·”(中點)后的部分作為關(guān)鍵字。
最后,將步驟S4中提取的關(guān)鍵字作為標題字符串信息中的關(guān)鍵字的列表存儲到閃存22(步驟S5)。
其次,圖4是從詳細字符串信息之中提取關(guān)鍵字的處理,最初,從閃存22中存儲的EPG信息之中提取詳細字符串信息(步驟S11)。
接著,從該詳細字符串信息之中,查找詳細信息用關(guān)鍵字詞典中登錄的字符串(名人的名稱等)。然后,從該詳細字符串信息之中,將該詳細信息用關(guān)鍵字詞典中登錄的字符串作為關(guān)鍵字提取出來,同時將該字符串的一部分置換為半角空格(步驟S12)。
接著,從經(jīng)過步驟S12處理后的詳細字符串信息的字符串之中,將登錄在詳細信息用排除字符串詞典中的字符串(“嘉賓”、“以上”、“導(dǎo)演”等)的一部分置換為半角空格(步驟S13)。
接著,從經(jīng)過步驟S13處理后的詳細字符串信息的字符串之中,利用圖6所示的詳細字符串信息用提取規(guī)則,提取關(guān)鍵字(步驟S14)。
該詳細字符串信息用提取規(guī)則基本上是利用字符種類分隔法將平假名、片假名、漢字、數(shù)字、字母以及其他種類字符互相分離。
不過,將片假名和字母當作相同字符種類(不分離)。另外,當緊挨著“·”(中點)前面的字符是片假名或字母時,就分別將“·”(中點)當作片假名或字母處理(不分離)。
此外,從分離開的各字符串之中,除去只有平假名的字符串、只有2個漢字以下(包括2個)的字符串、只有6個漢字以上(包括6個)的字符串的字符串,將其余的字符串分別作為關(guān)鍵字提取出來。不過,當作為關(guān)鍵字提取出來的字符串的開頭或末尾有“·”(中點)時,將刪除“·”(中點)后的部分作為關(guān)鍵字。
最后,將步驟S12中提取的關(guān)鍵字和步驟S14中提取的關(guān)鍵字作為詳細字符串信息中的關(guān)鍵字的列表存儲到閃存22(步驟S15)。
接著,以具體實例說明該節(jié)目記錄再現(xiàn)裝置2中節(jié)目檢索所需的關(guān)鍵字的提取。
假設(shè)在用戶的頻道選擇操作時或基于用戶的錄像預(yù)約操作進行錄像時,從多路分離器14發(fā)送過來并存儲到閃存22之中的EPG信息中的標題字符串信息包含例如以下標題(其中,□□、△△表示職業(yè)棒球隊名)。
愛的無謂紛擾職業(yè)棒球轉(zhuǎn)播□□×△△BS電影《宇宙·大戰(zhàn)》這樣,在圖3的處理中,由于“愛”、“職業(yè)棒球”、“電影”這些字符串登錄在標題用關(guān)鍵字詞典中,在步驟S2,這些標題其標題字符串整體分別成為關(guān)鍵字提取對象。
此外,這些標題之中,關(guān)于BS電影《宇宙·大戰(zhàn)》,在步驟S3,“BS”和“電影”被置換為空格。
另外,這些標題之中,關(guān)于職業(yè)棒球轉(zhuǎn)播□□×△△,在“職業(yè)棒球轉(zhuǎn)播”和“□□”之間有空格(特殊符號),在“□□”和“△△”之間有×(特殊符號),因此,在步驟S4,字符串“職業(yè)棒球轉(zhuǎn)播”、“□□”、“△△”分別被作為關(guān)鍵字提取出來。
另外,這些標題之中,關(guān)于“BS”、“電影”部分被空格置換的《宇宙·大戰(zhàn)》,由《》(特殊符號)隔開,另外“·”(中點)不作為特殊符號對待,因此,在步驟S4,原來的電影標題本身——《宇宙·大戰(zhàn)》被作為關(guān)鍵字提取出來。
另外,這些標題之中,愛的無謂紛擾沒有被特殊符號隔開,因此,在步驟S4,標題本身——“愛的無謂紛擾”被作為關(guān)鍵字提取出來。
因此,在步驟S5,下列字符串被作為節(jié)目檢索用關(guān)鍵字存儲到閃存22(如上所述,□□、△△表示職業(yè)棒球隊名)。
愛的無謂紛擾職業(yè)棒球轉(zhuǎn)播□□△△宇宙·大戰(zhàn)依照此種方式,對于愛的無謂紛擾、宇宙·大戰(zhàn)這樣的未被特殊字符隔開的標題,通過圖3的處理,其標題所含的多個字符串不會被當作分散的關(guān)鍵字提取,而是其標題本身原樣作為關(guān)鍵字被提取。
未被這種特殊字符分隔的標題,其標題所含的“愛”、“宇宙”等各個字符串的意義過于寬泛,用作節(jié)目檢索的關(guān)鍵字時幾乎不起作用(檢索結(jié)果會非常多),通常是只有使用標題本身,才能構(gòu)成高效有用的節(jié)目檢索關(guān)鍵字。因此,用戶使用所提取的關(guān)鍵字(標題本身)能夠高效地檢索節(jié)目。
另外,對于宇宙·大戰(zhàn)這樣的電影標題字符串,標題字符串信息中,該標題中附加的“BS”、“電影”這樣的對于節(jié)目檢索來說過于一般化的字符串沒有包含在關(guān)鍵字中,同時,該標題字符串信息中,包圍著該標題的《》也沒有包含在關(guān)鍵字中。因此,用戶能夠高效地檢索節(jié)目。
另外,在另一方面,對于職業(yè)棒球轉(zhuǎn)播□□×△△這樣的被特殊字符(空格或‘×’)隔開的標題,通過圖3的處理,由特殊字符所隔開的各個字符串——職業(yè)棒球轉(zhuǎn)播、□□、△△分別被作為關(guān)鍵字提取出來。
這樣被特殊字符隔開的標題,其由特殊字符隔開的各個字符串各自發(fā)揮節(jié)目檢索關(guān)鍵字的作用,標題本身限定性過大,通常起不到節(jié)目檢索關(guān)鍵字的作用(比賽的兩隊(□□和△△的具體名稱)不同,就成了不同標題,因此檢索結(jié)果會為非常少,甚至為空)。因此,用戶使用所提取的關(guān)鍵字(以特殊字符分隔的各個字符串)就能夠高效地檢索節(jié)目。
另一方面,在圖4的處理中,在步驟S12,從閃存22中存儲的EPG信息中的這些標題的節(jié)目的詳細字符串信息之中,將詳細信息用關(guān)鍵字詞典中登錄的名人(愛的無謂紛擾這個節(jié)目的主持人、嘉賓,或電影宇宙·大戰(zhàn)的出場演員)的名稱等作為關(guān)鍵字提取出來。
此時,由于姓是漢字而名是平假名或片假名的名人的名稱(例如“石田あかり”這樣的名字)也登錄在該詳細信息用關(guān)鍵字詞典中,因此這樣的名人的名稱也被作為關(guān)鍵字提取出來。
另外,由于也使用了通過因特網(wǎng)下載的最新的詳細信息用關(guān)鍵字詞典,因此最近剛走紅的人的名稱也被作為關(guān)鍵字提取出來。
另外,該詳細字符串信息之中,該名人的名稱等部分和詳細信息用排除字符串詞典中登錄的字符串(“嘉賓”、“以上”、“導(dǎo)演”等)部分在步驟S12和S13被置換為半角空格。
此外,在步驟S14,從被空格置換過的該詳細字符串信息的字符串之中,根據(jù)圖6所示的規(guī)則提取關(guān)鍵字。
此時,片假名和字母被當作相同字符種類處理,同時,當緊挨著“·”(中點)前面的字符是片假名或字母時,分別被當作片假名或字母處理,因此,姓和名之間插入了“·”(中點)的外國人名(例如,“B·ドゥ-リ-”)也被作為關(guān)鍵字提取出來。
另外,即使是最新的詳細信息用關(guān)鍵字詞典中也尚未登錄的人(例如初出茅廬的無名藝人)的名稱,只要不是只有平假名的名稱或只有2個漢字以下(包含2個)的名稱或只有6個漢字以上(包含6個)的名稱(即作為人名來說不太常見的名稱),也被作為關(guān)鍵字提取出來。
另外,“嘉賓”、“以上”、“導(dǎo)演”之類的不適合用于節(jié)目檢索的字符串會被空格置換,因此不會被提取作關(guān)鍵字。
由此,在步驟S15,姓是漢字而名是平假名或片假名的名人名字,或最近剛剛走紅的人的名稱,或名以字母表示而姓以片假名表示的外國人名,或姓和名中間插入“·”(中點)的外國人名,也被當作節(jié)目檢索關(guān)鍵字存儲到閃存22。因此,用戶使用所提取的關(guān)鍵字能夠高效地檢索節(jié)目。
此外,用戶使用圖3、圖4的處理存儲到閃存22中的關(guān)鍵字進行節(jié)目檢索的方法可以是,例如,根據(jù)遙控器28所指定的操作,CPU19產(chǎn)生節(jié)目檢索用畫面(用來將關(guān)鍵字一覽顯示的畫面,用戶從中選擇期望的關(guān)鍵字進行檢索)的影像信號,經(jīng)過影像信號處理電路17、影像輸出端子29發(fā)送到顯示裝置3這樣的適宜的方法。
如上所述,在該節(jié)目記錄再現(xiàn)裝置2中,從EPG信息中的標題字符串信息之中提取關(guān)鍵字以及從詳細字符串信息之中提取關(guān)鍵字,是對應(yīng)各自的信息使用互不相同的關(guān)鍵字詞典和規(guī)則完成的,能夠利用小規(guī)模的計算機程序或詞典實現(xiàn)高精度的關(guān)鍵字提取。
由此,即使CPU19的處理能力或存儲器(ROM20或閃存22等)的容量不太大,也能夠從EPG信息中的標題字符串信息和詳細字符串信息之中高效而精確地自動提取用戶檢索節(jié)目所需的關(guān)鍵字。
此外,在以上的實例中,記錄·再現(xiàn)數(shù)字電視廣播的節(jié)目的裝置中應(yīng)用了本發(fā)明。但并不限定于此,記錄·再現(xiàn)模擬電視廣播的節(jié)目記錄再現(xiàn)裝置中當然也可以應(yīng)用本發(fā)明。
圖7是表示應(yīng)用了本發(fā)明的模擬電視廣播所使用的節(jié)目記錄再現(xiàn)裝置的硬件結(jié)構(gòu)的框圖。天線31接收后輸入到節(jié)目記錄再現(xiàn)裝置41中的模擬廣播信號中的影像·聲音信號經(jīng)調(diào)諧器42選擇出頻帶,被MPEG編碼器43編碼。
觀看電視節(jié)目時,該被編碼的影像·聲音數(shù)據(jù)經(jīng)MPEG解碼器47解碼,從節(jié)目記錄再現(xiàn)裝置41發(fā)送到顯示裝置61。
另一方面,在記錄電視節(jié)目時,經(jīng)MPEG編碼器43編碼的影像·聲音數(shù)據(jù)經(jīng)由總線44發(fā)送到主存儲裝置45記錄下來。
然后,在播放時,從主存儲裝置45讀出來的影像·聲音數(shù)據(jù)經(jīng)由總線44發(fā)送到MPEG解碼器47,經(jīng)MPEG解碼器47解碼后從節(jié)目記錄再現(xiàn)裝置41發(fā)送到顯示裝置61。
另外,從經(jīng)調(diào)諧器42選擇頻帶后的模擬廣播信號之中,利用EPG取得模塊46獲取EPG信息。該EPG信息也經(jīng)由總線44發(fā)送到主存儲裝置45存儲下來。
另外,用來與因特網(wǎng)71連接的通信接口48、ROM49、主存儲裝置50、輔助存儲裝置51、MPEG解碼器47通過總線52相互聯(lián)結(jié)。
該節(jié)目記錄再現(xiàn)裝置41也是將上述那樣的標題用關(guān)鍵字詞典、標題用排除字符串詞典、詳細信息用關(guān)鍵字詞典、以及詳細信息用排除字符串詞典保存在ROM49中(關(guān)于詳細信息用關(guān)鍵字詞典,通過因特網(wǎng)從專用站點下載最新內(nèi)容后也存儲到輔助存儲裝置51),同時,對節(jié)目記錄再現(xiàn)裝置41整體進行控制的CPU53使用這些詞典和主存儲裝置45中的EPG信息執(zhí)行與圖3、圖4所示相同的關(guān)鍵字自動提取處理,將提取的關(guān)鍵字保存到輔助存儲裝置51。
該節(jié)目記錄再現(xiàn)裝置41也是與針對圖1、圖2的節(jié)目記錄再現(xiàn)裝置2所作的說明完全相同,根據(jù)其信息分別使用不同的關(guān)鍵字詞典和規(guī)則來從EPG信息中的標題字符串信息之中提取關(guān)鍵字和從詳細字符串信息之中提取關(guān)鍵字,由此,能夠憑借小規(guī)模的計算機程序或詞典而精確地提取關(guān)鍵字。
由此,即使CPU53的處理能力或存儲器(ROM49或輔助存儲裝置51等)的容量不太大,也能夠從EPG信息中的標題字符串信息和詳細字符串信息之中高效而精確地自動提取用戶檢索節(jié)目所需的關(guān)鍵字。
另外,在以上實例中,在與顯示裝置分離的節(jié)目記錄再現(xiàn)裝置中應(yīng)用了本發(fā)明。但并不限定于此,該節(jié)目記錄再現(xiàn)裝置與顯示裝置為一體的電視接收機、或不具有節(jié)目記錄再現(xiàn)功能的電視接收機中也可以應(yīng)用本發(fā)明。
另外,在以上實例中,使用本發(fā)明從EPG信息中的節(jié)目的標題字符串信息、詳細字符串信息之中檢索關(guān)鍵字。但并不限定于此,使用本發(fā)明也可以從電視節(jié)目之外的內(nèi)容(例如,通過因特網(wǎng)發(fā)布的內(nèi)容)的標題字符串信息、詳細字符串信息之中檢索關(guān)鍵字。
另外,本發(fā)明不限于以上實例,只要不背離其主旨,當然可以采用其他的各種結(jié)構(gòu)。
如上所述,借助于本發(fā)明,在CPU的處理能力和存儲器容量都不太大的家電產(chǎn)品中,也能夠從EPG信息一類的節(jié)目的標題字符串信息和詳細字符串信息之中高效而精確地自動提取用戶檢索節(jié)目所需的關(guān)鍵字。
權(quán)利要求
1.一種關(guān)鍵字自動提取裝置,其特征在于,具備第1提取單元,使用登錄有用來表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標題字符串信息之中提取關(guān)鍵字;以及第2提取單元,從上述內(nèi)容的詳細字符串信息之中,進行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
2.如權(quán)利要求1所述的關(guān)鍵字自動提取裝置,其特征在于上述第1提取單元從包含有第1關(guān)鍵字詞典中登錄的字符串的標題字符串之中的、排除了登錄在指定的排除字符串詞典中的字符串之后的部分中,提取關(guān)鍵字。
3.如權(quán)利要求1所述的關(guān)鍵字自動提取裝置,其特征在于上述第1提取單元將包含有第1關(guān)鍵字詞典中登錄的字符串的標題字符串之中的、以平假名、片假名、漢字、數(shù)字、字母之外的特殊字符分隔的字符串作為關(guān)鍵字提取出來。
4.如權(quán)利要求1所述的關(guān)鍵字自動提取裝置,其特征在于上述第2提取單元,從使用上述第2關(guān)鍵字詞典提取關(guān)鍵字后的上述詳細字符串信息的剩余部分之中的、排除了登錄在指定的排除字符串詞典中的字符串之后的部分中,進行利用字符種類分隔法的關(guān)鍵字的提取。
5.如權(quán)利要求1所述的關(guān)鍵字自動提取裝置,其特征在于上述第2提取單元利用字符種類分隔法,將片假名和字母作為相同字符種類處理,同時,當緊挨著“·”(中點)前面的字符是片假名或字母時,就將“·”(中點)分別當作片假名或字母處理。
6.如權(quán)利要求1所述的關(guān)鍵字自動提取裝置,其特征在于還具備通過網(wǎng)絡(luò)下載上述第2關(guān)鍵字詞典的單元,上述第2提取單元使用上述下載的第2關(guān)鍵字詞典。
7.一種關(guān)鍵字自動提取方法,其特征在于,具有第1步驟,使用登錄有用來表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標題字符串信息之中提取關(guān)鍵字;以及第2步驟,從上述內(nèi)容的詳細字符串信息之中,進行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
8.如權(quán)利要求7所述的關(guān)鍵字自動提取方法,其特征在于在上述第1步驟中,從包含有第1關(guān)鍵字詞典中登錄的字符串的標題字符串之中的、排除了登錄在指定的排除字符串詞典中的字符串之后的部分中,提取關(guān)鍵字。
9.如權(quán)利要求7所述的關(guān)鍵字自動提取方法,其特征在于在上述第1步驟中,將包含有第1關(guān)鍵字詞典中登錄的字符串的標題字符串之中的、以平假名、片假名、漢字、數(shù)字、字母之外的特殊字符分隔的字符串作為關(guān)鍵字提取出來。
10.如權(quán)利要求7所述的關(guān)鍵字自動提取方法,其特征在于在上述第2步驟中,從使用上述第2關(guān)鍵字詞典提取關(guān)鍵字后的上述詳細字符串信息的剩余部分之中的、排除了登錄在指定的排除字符串詞典中的字符串之后的部分中,進行利用字符種類分隔法的關(guān)鍵字的提取。
11.如權(quán)利要求7所述的關(guān)鍵字自動提取方法,其特征在于在上述第2步驟中,利用字符種類分隔法,將片假名和字母作為相同字符種類處理,同時,當緊挨著“·”(中點)前面的字符是片假名或字母時,就將“·”(中點)分別當作片假名或字母處理。
12.如權(quán)利要求7所述的關(guān)鍵字自動提取方法,其特征在于還具有通過網(wǎng)絡(luò)下載上述第2關(guān)鍵字詞典的步驟,在上述第2步驟中,使用上述下載的第2關(guān)鍵字詞典。
13.一種記錄有計算機可讀取的計算機程序的記錄介質(zhì),該計算機程序是一種關(guān)鍵字自動提取裝置的計算機程序,其特征在于,包含第1提取步驟,使用登錄有用來表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標題字符串信息之中提取關(guān)鍵字;以及第2提取步驟,從上述內(nèi)容的詳細字符串信息之中,進行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
14.一種計算機程序,其特征在于,在控制關(guān)鍵字自動提取裝置的計算機中執(zhí)行第1提取步驟,使用登錄有用來表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標題字符串信息之中提取關(guān)鍵字;以及第2提取步驟,從上述內(nèi)容的詳細字符串信息之中,進行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
全文摘要
本發(fā)明具備第1提取單元(19),使用登錄有用來表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標題字符串信息之中提取關(guān)鍵字;以及第2提取單元(19),從該內(nèi)容的詳細字符串信息之中,進行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。由此,在CPU的處理能力和存儲器容量都不太大的家電產(chǎn)品中,也能夠從EPG信息一類的內(nèi)容的標題字符串信息和詳細字符串信息之中高效而精確地自動提取用戶檢索內(nèi)容所需的關(guān)鍵字。
文檔編號G06F17/30GK1682220SQ0382238
公開日2005年10月12日 申請日期2003年7月30日 優(yōu)先權(quán)日2002年7月30日
發(fā)明者木付仁史, 大沼顯介, 市岡秀俊 申請人:索尼株式會社