無歧義日本人名列表構建方法、人名識別方法及裝置制造方法
【專利摘要】本發(fā)明公開了無歧義日本人名列表構建方法、人名識別方法及裝置。構建列表的方法包括:利用日本姓氏列表對日本常見人名列表進行姓名分離以得到日本名字列表;將帶有日本人名相關標記的訓練語料劃分為日本人名相關詞語集合和其他詞語集合;將所述日本人名相關詞語集合與所述日本常見人名列表、日本姓氏列表和從日本常見人名列表進行姓名分離而得到日本名字列表合并為日本人名相關詞語總集合;針對日本人名相關詞語總集合中的每一個日本人名相關詞語判斷該詞語是否為無歧義日本人名相關詞語以建立無歧義日本人名相關詞語列表。利用該列表進行分詞和人名角色標注,能夠提高中文分詞的整體準確率、整體的人名角色標注性能以及最終的人名識別結果。
【專利說明】無歧義日本人名列表構建方法、人名識別方法及裝置
【技術領域】
[0001] 本發(fā)明涉及文本識別領域,尤其涉及一種日本人名的識別方法及裝置。
【背景技術】
[0002] 隨著通訊技術的發(fā)展,各國交流變得日益廣泛、信息傳播也變得越來越方便迅速。 因此,在中文文本中會包含大量的外國機構名、人名和地名等命名實體。然而,這些命名實 體本身并不一定存在于傳統(tǒng)的詞典之中,屬于未登錄詞(即Out Of Vocabulary,簡稱00V), 這就給很多以中文分詞為基礎的自然語言處理相關應用帶來了困難。對這些命名實體進行 有效識別,能夠有效提高網絡文本分類、實體關聯(lián)網絡構建以及話題檢測與跟蹤等應用效 果的提1?。
[0003] 在識別該類命名實體的過程中,日本人名的識別難度較大,這是由于日本人名中 包含的姓氏很多,并且其長度、用字等方面都沒有很嚴格的限定。目前相關的研究主要分為 兩類:一類是基于中文分詞結果,對詞語進行類似"日本人名首字"、"日本人名中間部分"和 "日本人名首字與上文成詞"等等一系列標注,進而發(fā)現(xiàn)日本人名。例如"日本記者川口信 一郎報道"一句中,根據分詞結果"日本/記者/川/ 口信/ 一 /郎/報道",其中的"川"應 該被標注為日本人名首字,"口信"和"一"都應該被標注為日本人名中間部分,而"郎"則應 該被標記為日本人名尾字。但是由于"川"在除日本人名以外的中文文本中出現(xiàn)的概率也 非常的大,因此在這里未能按照上述的正確標注結果對該句進行標注??梢?,這是由于分詞 過程中未能夠將"川口"正確識別為日本姓氏導致的,因為雖然"川"在中文文本中出現(xiàn)的 概率非常大,但是"川口 "則一般只出現(xiàn)在日本人名之中。
[0004] 另一類日本人名識別方法則是通過發(fā)現(xiàn)可能出現(xiàn)的日本姓氏,以及日本人名后 綴,并通過相應的概率計算來發(fā)現(xiàn)日本人名。例如"小淵惠三首相"中,小淵是日本姓氏,首 相是人名后綴,如果計算得到"小淵"、"惠"、"三"組成日本人名的概率大于某閾值,"小淵惠 三"就能夠被識別為日本人名。但是該方法的局限性很多,首先,日本姓氏的發(fā)現(xiàn)對于"林"、 "尹"這種中國和日本都存在的姓氏,或者"樹下"、"大同"這種在中文文本中有非常大歧義 的日本姓氏,都會產生錯誤的識別結果;其次,人名的后綴很多時候在日本人名之后并未出 現(xiàn),因此該人名后邊界識別方式的覆蓋范圍也不是很高;另外,因為某些字在日本名字中出 現(xiàn)的概率很小,也會導致日本人名的漏識別,例如,如果整個訓練集中的日本人名都未出現(xiàn) "葦",那么"大久保葦歌"就會因為"葦"的計算概率為0而無法被識別,然而,"大久保"一 般只作為日本姓氏在中文文本中出現(xiàn),所以即使通過訓練數據集計算得到"葦"作為日本人 名用字的概率為0,此處也應該被識別為日本人名。
【發(fā)明內容】
[0005] 本發(fā)明針對日本人名的識別難點,設計了一種無歧義日本人名相關詞語列表構建 方法,并根據該方法得到的無歧義日本人名相關詞語列表進行中文分詞以及中文文本中的 日本人名識別,能夠改進上述日本人名識別方法中所存在的問題。
[0006] 根據本發(fā)明的一方面,提供了一種構建無歧義日本人名相關詞語列表的方法,所 述方法包括:利用日本姓氏列表對日本常見人名列表進行姓名分離以得到日本名字列表; 將帶有日本人名相關標記的訓練語料劃分為日本人名相關詞語集合和其他詞語集合;將所 述日本人名相關詞語集合與所述日本常見人名列表、日本姓氏列表和從日本常見人名列表 進行姓名分離而得到日本名字列表合并為日本人名相關詞語總集合;針對日本人名相關詞 語總集合中的每一個日本人名相關詞語判斷該詞語是否為無歧義日本人名相關詞語以建 立無歧義日本人名相關詞語列表。
[0007] 根據本發(fā)明的另一方面,在針對日本人名相關詞語總集合中的每一個日本人名相 關詞語判斷該詞語是否為無歧義日本人名相關詞語以建立無歧義日本人名相關詞語列表 的步驟中,在日本人名相關詞語在訓練語料中只作為日本人名相關詞語出現(xiàn),而不作為其 他角色出現(xiàn)的情況下,判斷該詞語為無歧義日本人名相關詞語,從而將該詞語歸并到相應 的無歧義日本人名相關詞語列表中。
[0008] 根據本發(fā)明的另一方面,提供了一種利用無歧義日本人名相關詞語列表的日本人 名識別方法,所述日本人名識別方法包括:基于無歧義日本人名相關詞語列表對待識別人 名的語句進行分詞以獲得待標注序列;對待標注序列中包含的無歧義日本人名相關詞語給 定相應的角色標注;以及利用人名識別模型對所述待標注序列中除無歧義日本人名相關詞 語之外的其他詞語進行角色標注。
[0009] 根據本發(fā)明的另一方面,所述日本人名識別方法還包括:對待標注序列中的詞語 進行角色標注之后所獲得的標注結果執(zhí)行包括日本人名識別結果檢查和日本人名識別結 果擴散的后處理。
[0010] 根據本發(fā)明的另一方面,在基于無歧義日本人名相關詞語列表對待識別人名的語 句進行分詞以獲得待標注序列的步驟中,在待識別人名的語句中包含無歧義日本人名相關 詞語的情況下,先將所述無歧義日本人名相關詞語分割出來,然后再對待識別人名的語句 的其他部分進行分詞。
[0011] 根據本發(fā)明的另一方面,提供了一種構建無歧義日本人名相關詞語列表的裝置, 所述裝置包括:姓名分離裝置,利用日本姓氏列表對日本常見人名列表進行姓名分離以得 到日本名字列表;訓練語料劃分裝置,將帶有日本人名相關標記的訓練語料劃分為日本人 名相關詞語集合和其他詞語集合;日本人名相關詞語合并裝置,將所述日本人名相關詞語 集合與所述日本常見人名列表、日本姓氏列表和從日本常見人名列表進行姓名分離而得到 日本名字列表合并為日本人名相關詞語總集合,無歧義日本人名相關詞語判斷及列表建立 裝置,針對日本人名相關詞語總集合中的每一個日本人名相關詞語判斷該詞語是否為無歧 義日本人名相關詞語以建立無歧義日本人名相關詞語列表。
[0012] 根據本發(fā)明的另一方面,無歧義日本人名相關詞語判斷及列表建立裝置在日本人 名相關詞語在訓練語料中只作為日本人名相關詞語出現(xiàn),而不作為其他角色出現(xiàn)的情況 下,則判斷該詞語為無歧義日本人名相關詞語,從而將該詞語歸并到相應的無歧義日本人 名相關詞語列表中。
[0013] 根據本發(fā)明的另一方面,提供了一種利用無歧義日本人名相關詞語列表的日本人 名識別裝置,所述日本人名識別裝置包括:分詞裝置,基于無歧義日本人名相關詞語列表對 待識別人名的語句進行分詞以獲得待標注序列;預先標注裝置,對待標注序列中包含的無 歧義日本人名相關詞語給定相應的角色標注;以及標注裝置,利用人名識別模型對所述待 標注序列中除無歧義日本人名相關詞語之外的其他詞語進行角色標注。
[0014] 根據本發(fā)明的另一方面,所述日本人名識別裝置還包括:后處理裝置,對待標注序 列中的詞語進行角色標注之后所獲得的標注結果執(zhí)行包括日本人名識別結果檢查和日本 人名識別結果擴散的后處理。
[0015] 根據本發(fā)明的另一方面,所述分詞裝置在待識別人名的語句中包含無歧義日本人 名相關詞語的情況下,先將所述無歧義日本人名相關詞語分割出來,然后再對待識別人名 的語句的其他部分進行分詞。
【專利附圖】
【附圖說明】
[0016] 圖1是根據本發(fā)明實施例的構建無歧義日本人名相關詞語列表的方法的流程圖。
[0017] 圖2示出根據本發(fā)明實施例的利用帶有日本人名相關標記的訓練語料,以及日本 常見人名列表和日本姓氏列表構建無歧義日本人名相關詞語列表的示意圖。
[0018] 圖3是根據本發(fā)明實施例的利用無歧義日本人名相關詞語列表識別人名的方法 的流程圖。
[0019] 圖4示出了應用無歧義日本姓氏的前后情況對比的示例。
[0020] 圖5是根據本發(fā)明實施例的構建無歧義日本人名相關詞語列表的裝置的示意框 圖。
[0021] 圖6是根據本發(fā)明實施例的利用無歧義日本人名相關詞語列表識別人名的裝置 的框圖。
[0022] 圖7是示出可用來實現(xiàn)根據本發(fā)明實施例的構建無歧義人名列表的方法及裝置 或日本人名識別方法和裝置的一種可能的信息處理設備的硬件配置的結構簡圖。
【具體實施方式】
[0023] 在下文中將結合附圖對本發(fā)明的示范性實施例進行描述。為了清楚和簡明起見, 在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發(fā)任何這種實際實施 例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標,例如,符 合與系統(tǒng)及業(yè)務相關的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有 所改變。此外,還應該了解,雖然開發(fā)工作有可能是非常復雜和費時的,但對得益于本公開 內容的本領域技術人員來說,這種開發(fā)工作僅僅是例行的任務。
[0024] 在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中 僅僅示出了與根據本發(fā)明的方案密切相關的裝置結構和/或處理步驟,而省略了與本發(fā)明 關系不大的其他細節(jié)。
[0025] 根據本發(fā)明實施例的構建無歧義日本人名相關詞語列表的方法,所述方法包括: 利用日本姓氏列表對日本常見人名列表進行姓名分離以得到日本名字列表;將帶有日本人 名相關標記的訓練語料劃分為日本人名相關詞語集合和其他詞語集合;將所述日本人名相 關詞語集合與所述日本常見人名列表、日本姓氏列表和從日本常見人名列表進行姓名分離 而得到日本名字列表合并為日本人名相關詞語總集合,并針對日本人名相關詞語總集合中 的每一個日本人名相關詞語判斷該詞語是否為無歧義日本人名相關詞語以建立無歧義日 本人名相關詞語列表。
[0026] 在中文文本中,很多日本人名一般不會出現(xiàn)在其他語言環(huán)境之中,而只會作為日 本人名相關詞語出現(xiàn),例如日本全名中的"小泉純一郎"、"中村雄二郎",日本姓氏中的"藤 原"、"小澤"和"大久保"以及日本名字中的"美智子"、"森右衛(wèi)門"等等。以往方法通過考 慮整個語句中的分詞概率最大化以及詞語序列標注概率最大化的方式對該語句進行分詞 和角色標注,但是該類方法的缺陷是,其他詞語分割或者標注的概率變化,有可能導致將上 述無歧義的日本人名相關詞語被錯誤分割或者被標注成其他角色,從而導致了日本人名識 別的錯誤。
[0027] 本發(fā)明將該類只作為日本人名相關詞語出現(xiàn)的詞語稱為無歧義日本人名相關詞 語,并通過統(tǒng)計無歧義日本人名相關詞語在中文文本中的出現(xiàn)情況,得到無歧義日本人名 相關詞語列表。所述無歧義日本人名相關詞語列表可根據無歧義日本人名相關詞語在日本 人名中所處的位置,進一步劃分為無歧義日本姓氏列表、無歧義日本名字列表和無歧義日 本全名列表。相應地,本文中所述的日本人名相關詞語包括日本姓氏、日本名字、日本全名。
[0028] 在本發(fā)明中,將該類無歧義詞語列表作為確定的詞語從語句中分割出來,并標注 成相應的日本人名相關角色,也就是說,將以往方法中的語句整體分詞和角色標注轉化為 在該類無歧義詞語的分割和角色標注已經確定的情況下對語句其他部分進行分割和角色 標注,能夠提1?日本人名的識別精度。
[0029] 下面將參考圖1至圖7對本發(fā)明進行詳細描述。
[0030] 圖1示出了無歧義日本人名相關詞語列表的構建方法。這里,用到的數據資源包 括帶有日本人名相關標記的訓練語料,以及日本常見人名列表和日本姓氏列表。圖2示出 了根據本發(fā)明實施例的利用帶有日本人名相關標記的訓練語料,以及日本常見人名列表和 日本姓氏列表構建無歧義日本人名相關詞語列表的示意圖。下面將結合圖2對圖1所示的 無歧義日本人名相關詞語列表的構建方法進行說明。
[0031] 在步驟SllO中,利用日本姓氏列表對日本常見人名列表進行姓名分離操作,得到 日本名字列表。
[0032] 在步驟S120中,將帶有日本人名相關標記的訓練語料劃分為日本人名相關詞語 集合和其他詞語集合。這里,將帶有日本人名相關標記的訓練語料中包含的日本全名、日本 姓氏和日本名字整理成日本人名相關詞語集合,并將其他無關詞語整理成其他詞語集合。 其中,需要注意的是,這兩個集合中的詞語有可能是重復的,例如"林"作為日本姓氏在訓練 語料中出現(xiàn)過,并且還作為其他詞語也在訓練語料中出現(xiàn)過,因此,"林"會同時出現(xiàn)在日本 人名相關詞語集合和其他詞語集合中。
[0033] 顯然,執(zhí)行所述步驟SllO和步驟S120并不限于描述的順序,步驟SllO和步驟 S120可以同時進行或者步驟S120比步驟SllO先執(zhí)行。
[0034] 在步驟S130中,將所述日本人名相關詞語集合與所述日本常見人名列表、日本姓 氏列表和日本名字列表合并為日本人名相關詞語總集合;并在步驟S140中判斷日本人名 相關詞語總集合中的日本人名相關詞語是否為無歧義日本人名相關詞語以建立無歧義日 本人名相關詞語列表。
[0035] 僅作為示例,這里所述的日本人名相關詞語包括日本全名、日本姓氏和日本名字。 相應地,所述無歧義日本人名相關詞語列表包括無歧義日本名字列表、無歧義日本姓氏列 表和無歧義日本全名列表,并且無歧義日本名字列表由至少一個無歧義日本名字構成,無 歧義日本姓氏列表由至少一個無歧義日本姓氏構成,而無歧義日本全名列表由至少一個無 歧義日本全名構成。
[0036] 關于日本人名相關詞語總集合中的日本人名相關詞語是否是無歧義日本人名相 關詞語的判斷可以基于下面的原則進行:如果日本人名相關詞語總集合中的某個日本人名 相關詞語在訓練語料中只作為日本人名相關詞語出現(xiàn),而不作為其他角色出現(xiàn),則可判斷 該詞語為無歧義日本人名相關詞語,從而歸并到相應的無歧義日本人名相關詞語列表中。 [0037] 作為示例,可以通過計算角色概率來確定日本人名相關詞語是否是無歧義的,即 確定日本名字、日本姓氏或日本全名是否是無歧義的。下面給出計算角色概率的公式:
【權利要求】
1. 一種構建無歧義日本人名相關詞語列表的方法,所述方法包括: 利用日本姓氏列表對日本常見人名列表進行姓名分離以得到日本名字列表; 將帶有日本人名相關標記的訓練語料劃分為日本人名相關詞語集合和其他詞語集 合; 將所述日本人名相關詞語集合與所述日本常見人名列表、日本姓氏列表和從日本常見 人名列表進行姓名分離而得到日本名字列表合并為日本人名相關詞語總集合; 針對日本人名相關詞語總集合中的每一個日本人名相關詞語判斷該詞語是否為無歧 義日本人名相關詞語以建立無歧義日本人名相關詞語列表。
2. 如權利要求1所述的方法,其中,在針對日本人名相關詞語總集合中的每一個日本 人名相關詞語判斷該詞語是否為無歧義日本人名相關詞語以建立無歧義日本人名相關詞 語列表的步驟中,在日本人名相關詞語在訓練語料中只作為日本人名相關詞語出現(xiàn),而不 作為其他角色出現(xiàn)的情況下,判斷該詞語為無歧義日本人名相關詞語,從而將該詞語歸并 到相應的無歧義日本人名相關詞語列表中。
3. -種利用如權利要求1-2中的任一方法構建的無歧義日本人名相關詞語列表的日 本人名識別方法,所述日本人名識別方法包括: 基于無歧義日本人名相關詞語列表對待識別人名的語句進行分詞以獲得待標注序 列; 對待標注序列中包含的無歧義日本人名相關詞語給定相應的角色標注;以及 利用人名識別模型對所述待標注序列中除無歧義日本人名相關詞語之外的其他詞語 進行角色標注。
4. 如權利要求3所述的日本人名識別方法,還包括:對待標注序列中的詞語進行角色 標注之后所獲得的標注結果執(zhí)行包括日本人名識別結果檢查和日本人名識別結果擴散的 后處理。
5. 如權利要求4所述的日本人名識別方法,其中,在基于無歧義日本人名相關詞語列 表對待識別人名的語句進行分詞以獲得待標注序列的步驟中,在待識別人名的語句中包含 無歧義日本人名相關詞語的情況下,先將所述無歧義日本人名相關詞語分割出來,然后再 對待識別人名的語句的其他部分進行分詞。
6. -種構建無歧義日本人名相關詞語列表的裝置,所述裝置包括: 姓名分離裝置,利用日本姓氏列表對日本常見人名列表進行姓名分離以得到日本名字 列表; 訓練語料劃分裝置,將帶有日本人名相關標記的訓練語料劃分為日本人名相關詞語集 合和其他詞語集合; 日本人名相關詞語合并裝置,將所述日本人名相關詞語集合與所述日本常見人名列 表、日本姓氏列表和從日本常見人名列表進行姓名分離而得到日本名字列表合并為日本人 名相關詞語總集合, 無歧義日本人名相關詞語判斷及列表建立裝置,針對日本人名相關詞語總集合中的每 一個日本人名相關詞語判斷該詞語是否為無歧義日本人名相關詞語以建立無歧義日本人 名相關詞語列表。
7. 如權利要求6所述的裝置,其中,無歧義日本人名相關詞語判斷及列表建立裝置在 日本人名相關詞語在訓練語料中只作為日本人名相關詞語出現(xiàn),而不作為其他角色出現(xiàn)的 情況下,判斷該詞語為無歧義日本人名相關詞語,從而將該詞語歸并到相應的無歧義日本 人名相關詞語列表中。
8. -種利用如權利要求6-7中的任一裝置構建的無歧義日本人名相關詞語列表的日 本人名識別裝置,所述日本人名識別裝置包括: 分詞裝置,基于無歧義日本人名相關詞語列表對待識別人名的語句進行分詞以獲得待 標注序列; 預先標注裝置,對待標注序列中包含的無歧義日本人名相關詞語給定相應的角色標 注;以及 標注裝置,利用人名識別模型對所述待標注序列中除無歧義日本人名相關詞語之外的 其他詞語進行角色標注。
9. 如權利要求8所述的日本人名識別裝置,還包括: 后處理裝置,對待標注序列中的詞語進行角色標注之后所獲得的標注結果執(zhí)行包括日 本人名識別結果檢查和日本人名識別結果擴散的后處理。
10. 如權利要求9所述的日本人名識別裝置,其中,分詞裝置在待識別人名的語句中包 含無歧義日本人名相關詞語的情況下,先將所述無歧義日本人名相關詞語分割出來,然后 再對待識別人名的語句的其他部分進行分詞。
【文檔編號】G06F17/27GK104424332SQ201310412289
【公開日】2015年3月18日 申請日期:2013年9月11日 優(yōu)先權日:2013年9月11日
【發(fā)明者】宋雙永, 孟遙, 鄭仲光, 于浩 申請人:富士通株式會社