用于識別對話中所提及的人的方法和裝置制造方法
【專利摘要】本發(fā)明涉及一種用于識別對話中所提及的人的方法和裝置。一種用于識別對話中所提及的人的方法,包括:識別與從所述對話獲取的所提及的人名相關(guān)的至少一個(gè)人名實(shí)體;獲取與所提及的人名相關(guān)的一組候選標(biāo)識符;從內(nèi)部資源和外部資源為每個(gè)候選標(biāo)識符獲取至少一個(gè)關(guān)系特征,其中所述關(guān)系特征表示所述候選標(biāo)識符與所述至少一個(gè)人名實(shí)體之間的關(guān)系;以及基于所述至少一個(gè)關(guān)系特征,從該組候選標(biāo)識符中選擇一個(gè)標(biāo)識符作為所提及的人名的標(biāo)識符。根據(jù)本發(fā)明的方法和裝置,能夠準(zhǔn)確地識別所提及的人。
【專利說明】用于識別對話中所提及的人的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及用于識別對話中所提及的人的方法和裝置,更具體地說,涉及能夠在自然語言處理中準(zhǔn)確識別所提及的人的人名實(shí)體的方法和裝置。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)技術(shù)的發(fā)展,存在自動(dòng)識別對話中人的姓名的需要。通常,一個(gè)對話中的各個(gè)人名可以分成所提及的人名(Mentioned Person Name, MPN)和未提及的人名(Non-Mentioned Person Name,NMPN)。本文中,所提及的人名是指在對話的交談期間被提及的人的姓名,而未提及的人名是指在對話的上下文中、但是沒有在交談期間提及的人的姓名。為了使這些術(shù)語更清楚,圖1示出了會(huì)議記錄的一個(gè)示例。該會(huì)議記錄是對話的一個(gè)例子。如圖1所示,會(huì)議記錄中包含兩個(gè)出席者,一個(gè)是IT部門經(jīng)理David Hill,另一個(gè)是本地化部門經(jīng)理Alex Bell0此外,在Hill發(fā)言期間,提到了第三個(gè)人的姓名,即Lee。在這個(gè)例子中,在對話前面的姓名“Bel I ”和“Hi 11 ”被稱作未提及的人名(NMPN),因?yàn)樗麄兌紱]有出現(xiàn)在對話中。姓名“Lee”被稱作所提及的人名(MPN),因?yàn)镠ill在發(fā)言中提到了該名字。
[0003]如圖1的例子所示,通常很容易識別出NMPN的身份。以“Hill”為例,可以很容易識別出位于對話之前的術(shù)語“Hill”。由于“Hill”已經(jīng)被列為出席者,從而可以搜索出席者的名單以尋找匹配,所以可以很容易識別出“Hill”是IT部門經(jīng)理“David Hill”。此外,能夠從以上信息中確定“David Hill”的唯一的標(biāo)識符。這里的標(biāo)識符可以是例如,分配給公司的每個(gè)雇員的唯一的ID。另一方面,很難識別“Lee”的身份,因?yàn)椤癓ee”僅僅由Hill提及并且可能并沒有被列為出席者,所以可能有許多人的名字都叫“Lee”。
[0004]過去,已經(jīng)有用于識別人名的技術(shù)。例如,在美國專利(US7,685,201B2)中描述了使用基于姓名實(shí)體提取的分類的用于人物消歧的技術(shù),該技術(shù)使得能夠清楚區(qū)分具有相同姓名的不同人。姓名實(shí)體提取定位搜索結(jié)果中的人名的一定距離內(nèi)的詞(條目)。這些條目用于對對應(yīng)于具有相同姓名的不同人的搜索結(jié)果消歧,例如,位置信息、組織信息、職業(yè)信息和/或合伙人信息等。在一個(gè)不例中,每個(gè)人被表不成一個(gè)向量,并且基于與一個(gè)人的條目的接近程度和/或條目的類型對應(yīng)的權(quán)重來計(jì)算各個(gè)向量之間的相似度。然后,基于相似度的數(shù)據(jù),把表示同一個(gè)人的人物向量合并到一個(gè)類中,使得各個(gè)類(以較高的概率)只表示不同的人。
[0005]此外,美國專利申請公開US2007/0233656A1描述了一種命名實(shí)體消歧的方法,其中使用消歧分?jǐn)?shù)模型來在搜索結(jié)果和其它上下文中對命名實(shí)體消歧。通過使用文獻(xiàn)的知識庫(包括關(guān)于命名實(shí)體的文獻(xiàn))來開發(fā)該分?jǐn)?shù)模型。知識庫的各個(gè)方面,例如文獻(xiàn)題目、重定向頁面、消歧頁面、超鏈接以及類別等,都可以用來開發(fā)該分?jǐn)?shù)模型。
[0006]但是,上面介紹的現(xiàn)有技術(shù)不能足夠準(zhǔn)確地識別被提及的人(即所提及的人)。在許多情況下,不能唯一地識別所提及的人。在應(yīng)用上述各個(gè)方法之后仍然有多個(gè)識別符(每個(gè)識別符對應(yīng)一個(gè)唯一的人)。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的之一是解決上述問題中的至少一個(gè)。
[0008]根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供了一種用于識別對話中所提及的人的方法,包括:識別與從所述對話獲取的所提及的人名相關(guān)的至少一個(gè)人名實(shí)體;獲取與所提及的人名相關(guān)的一組候選標(biāo)識符;從內(nèi)部資源和外部資源為每個(gè)候選標(biāo)識符獲取至少一個(gè)關(guān)系特征,其中所述關(guān)系特征表示所述候選標(biāo)識符與所述至少一個(gè)人名實(shí)體之間的關(guān)系;以及基于所述至少一個(gè)關(guān)系特征,從該組候選標(biāo)識符中選擇一個(gè)標(biāo)識符作為所提及的人名的標(biāo)識符。其中所述關(guān)系特征優(yōu)選包括以下至少一種:等級差距特征,表示兩個(gè)人的等級之間的差距;熟悉度特征,表示兩個(gè)人之間的熟悉程度;歷史稱呼特征,表示在兩個(gè)人間已經(jīng)使用過的稱呼;以及上下文關(guān)系特征,表示對話中兩個(gè)人的關(guān)系。
[0009]其中所述等級差距特征包括以下至少一種:頭銜差距特征,表示兩個(gè)人的頭銜之間的差距;以及年齡差距特征,表示兩個(gè)人的年齡之間的差距。所述熟悉度特征包括以下至少一種:相同工作組特征,表示兩個(gè)人是否在同一工作組中;相同專業(yè)特征,表示兩個(gè)人是否為同一專業(yè);新雇員特征,表示一個(gè)人是否為新雇員;討論頻率特征,表示兩個(gè)人之間進(jìn)行討論的頻率;以及工位距離特征,表示兩個(gè)人的工位之間的距離。所述上下文關(guān)系特征包括以下至少一種:相同會(huì)議組特征,表示兩個(gè)人是否屬于同一會(huì)議組;共同參會(huì)特征,表示兩個(gè)人是否都參加了會(huì)議;座位級別差距特征,表示兩個(gè)人的座位級別的差距,其中各個(gè)座位被分成至少兩個(gè)級別,一個(gè)級別是主座,另一個(gè)級別是副座;以及座位距離特征,表示兩個(gè)人的座位之間的距離。
[0010]根據(jù)本發(fā)明的另一個(gè)實(shí)施例,提供了一種用于管理會(huì)議記錄的方法,包括:利用上述用于識別對話中所提及的人的方法來識別所提及的人;以及把與所選擇的標(biāo)識符相關(guān)的信息嵌入到輸出文本中所提及的人名處。所述關(guān)系特征優(yōu)選包括以下至少一種:頭銜差距特征,表示兩個(gè)人的頭銜之間的差距;相同工作組特征,表示兩個(gè)人是否在同一工作組中;以及歷史稱呼特征,表示在兩個(gè)人間已經(jīng)使用過的稱呼。
[0011]根據(jù)本發(fā)明的又一個(gè)實(shí)施例,提供了一種用于管理會(huì)議的方法,包括:利用上述用于識別對話中所提及的人的方法來識別所提及的人;以及在屏幕上顯示與所選擇的標(biāo)識符相關(guān)的信息。所述關(guān)系特征優(yōu)選包括以下至少一種:頭銜差距特征,表示兩個(gè)人的頭銜之間的差距;相同工作組特征,表示兩個(gè)人是否在同一工作組中;歷史稱呼特征,表示在兩個(gè)人間已經(jīng)使用過的稱呼;座位級別差距特征,表示兩個(gè)人的座位級別的差距;以及座位距離特征,表示兩個(gè)人的座位之間的距離。
[0012]根據(jù)本發(fā)明的又一個(gè)實(shí)施例,提供了一種用于輔助即時(shí)消息的方法,包括:利用上述用于識別對話中所提及的人的方法來識別所提及的人;以及把與所選擇的標(biāo)識符相關(guān)的信息嵌入到所述即時(shí)消息中所提及的人名處。所述關(guān)系特征優(yōu)選包括以下至少一種:頭銜差距特征,表示兩個(gè)人的頭銜之間的差距;年齡差距特征,表示兩個(gè)人的年齡之間的差距;姓名類別特征,表示兩個(gè)人是否彼此熟悉;討論頻率特征,表示兩個(gè)人之間進(jìn)行討論的頻率;以及歷史稱呼特征,表示在兩個(gè)人間已經(jīng)使用過的稱呼。
[0013]根據(jù)本發(fā)明的又一個(gè)實(shí)施例,提供了一種用于識別對話中所提及的人的裝置,包括:用于識別與從所述對話獲取的所提及的人名相關(guān)的至少一個(gè)人名實(shí)體的單元;用于獲取與所提及的人名相關(guān)的一組候選標(biāo)識符的單元;用于從內(nèi)部資源和外部資源為每個(gè)候選標(biāo)識符獲取至少一個(gè)關(guān)系特征的單元,其中所述關(guān)系特征表示所述候選標(biāo)識符與所述至少一個(gè)人名實(shí)體之間的關(guān)系;以及用于基于所述至少一個(gè)關(guān)系特征,從該組候選標(biāo)識符中選擇一個(gè)標(biāo)識符作為所提及的人名的標(biāo)識符的單元。
[0014]根據(jù)本發(fā)明的又一個(gè)實(shí)施例,提供了一種用于管理會(huì)議記錄的裝置,包括:用于利用上述用于識別對話中所提及的人的裝置來識別所提及的人的單元;以及用于把與所選擇的標(biāo)識符相關(guān)的信息嵌入到輸出文本中所提及的人名處的單元。
[0015]根據(jù)本發(fā)明的又一個(gè)實(shí)施例,提供了一種用于管理會(huì)議的裝置,包括:用于利用上述用于識別對話中所提及的人的裝置來識別所提及的人的單元;以及用于在屏幕上顯示與所選擇的標(biāo)識符相關(guān)的信息的單元。
[0016]根據(jù)本發(fā)明的又一個(gè)實(shí)施例,提供了一種用于輔助即時(shí)消息的裝置,包括:用于利用上述用于識別對話中所提及的人的裝置識別所提及的人的單元;以及用于把與所選擇的標(biāo)識符相關(guān)的信息嵌入到所述即時(shí)消息中所提及的人名處的單元。
[0017]根據(jù)本發(fā)明的方法和裝置,能夠準(zhǔn)確地識別所提及的人名。在本發(fā)明的一些實(shí)施例中,所提及的人名的標(biāo)識符還可以進(jìn)一步被嵌入到對話或即時(shí)消息中。因此,人們能夠迅速知道所提及的人名指的是誰。
[0018]參照附圖,結(jié)合下面的描述,本發(fā)明的進(jìn)一步的特征和優(yōu)點(diǎn)將變得清晰。
【專利附圖】
【附圖說明】
[0019]圖1示出了會(huì)議記錄的一個(gè)示例。
[0020]圖2是用于解釋根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于識別對話中所提及的人的方法的流程圖。
[0021]圖3例示了用于解釋根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于生成數(shù)據(jù)庫的方法的流程圖。
[0022]圖4是用于例示從一組候選標(biāo)識符中選擇標(biāo)識符的步驟的流程圖。
[0023]圖5是輸入對話的例子。
[0024]圖6是組織圖的例子。
[0025]圖7例示了根據(jù)本發(fā)明的第二實(shí)施例的用于管理會(huì)議記錄的裝置的結(jié)構(gòu)。
[0026]圖8示出了根據(jù)本發(fā)明的第二實(shí)施例的用于管理會(huì)議記錄的裝置的處理過程的流程圖。
[0027]圖9例示了根據(jù)本發(fā)明的第二實(shí)施例的集成結(jié)果。
[0028]圖10例示了根據(jù)本發(fā)明的第三實(shí)施例的用于管理會(huì)議的裝置的結(jié)構(gòu)。
[0029]圖11示出了根據(jù)本發(fā)明的第三實(shí)施例的用于管理會(huì)議的裝置的處理過程的流程圖。
[0030]圖12例示了根據(jù)本發(fā)明的第三實(shí)施例的集成結(jié)果。
[0031]圖13例示了根據(jù)本發(fā)明的第四實(shí)施例的用于輔助即時(shí)消息的裝置的結(jié)構(gòu)。
[0032]圖14示出了根據(jù)本發(fā)明的第四實(shí)施例的用于輔助即時(shí)消息的裝置的處理過程的流程圖。
[0033]圖15例示了根據(jù)本發(fā)明的第四實(shí)施例的集成結(jié)果。[0034]圖16例示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于識別所提及的人的裝置的結(jié)構(gòu)。
[0035]圖17是示出能夠?qū)崿F(xiàn)本發(fā)明的各個(gè)實(shí)施例的計(jì)算機(jī)系統(tǒng)的硬件結(jié)構(gòu)的框圖。
【具體實(shí)施方式】
[0036]下面,將參照附圖詳細(xì)描述本發(fā)明的各個(gè)優(yōu)選實(shí)施例。請注意,在本說明書和附圖中,具有基本相同功能和結(jié)構(gòu)的結(jié)構(gòu)部件用相同的參考標(biāo)記來標(biāo)注,省略這些結(jié)構(gòu)部件的
重復(fù)解釋。
[0037]圖2是用于解釋根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于識別對話中所提及的人的方法的流程圖。
[0038]如圖2所示,用于識別對話中所提及的人的方法至少包括以下四個(gè)步驟:
[0039](a)識別與從對話獲取的、所提及的人名相關(guān)的至少一個(gè)人名實(shí)體(步驟S211);
[0040](b)獲取與所提及的人名相關(guān)的一組候選標(biāo)識符(步驟S212);
[0041](c)從內(nèi)部資源和外部資源獲取每個(gè)候選標(biāo)識符的至少一個(gè)關(guān)系特征(步驟S213),其中關(guān)系特征是指候選標(biāo)識符和至少一個(gè)人名實(shí)體之間的關(guān)系;以及
[0042](d)基于至少一個(gè)關(guān)系特征來從這組候選標(biāo)識符中選擇一個(gè)標(biāo)識符作為所提及的人名的標(biāo)識符。
[0043]下面,將參照附圖詳細(xì)解釋用于識別對話中所提及的人的方法的上述各個(gè)步驟。
[0044](a)首先,識別與從對話獲取的所提及人名相關(guān)的至少一個(gè)人名實(shí)體。
[0045]人名實(shí)體可以是,例如,在對話中提到了該所提及的人名的發(fā)言者,和/或是正在聆聽該發(fā)言者的一個(gè)或更多個(gè)聽眾。在一個(gè)優(yōu)選例子中,人名實(shí)體可以包括一個(gè)發(fā)言者和至少一個(gè)聽眾。
[0046]在如圖1所示的會(huì)議記錄中,人名實(shí)體可以是“David Hill”或者是“Alex Bell”或者是這二者。在有多名聽眾的情況下,人名實(shí)體優(yōu)選包括發(fā)言者以及已經(jīng)緊挨著該發(fā)言者之前發(fā)過言的聽眾或者將要緊接著該發(fā)言者發(fā)言的聽眾。這種配置的原因在于已經(jīng)緊挨著該發(fā)言者之前發(fā)過言的聽眾或者將要緊接著該發(fā)言者發(fā)言的聽眾最有可能與所提及的人名有一定關(guān)系,并且這種關(guān)系有助于最終識別所提及的人名。
[0047]對話可以存儲(chǔ)在存儲(chǔ)設(shè)備中并且可以讀出和分析該對話以獲取所提及的人名(例如,在對話是會(huì)議記錄的情況下)。對話也可以被實(shí)時(shí)地生成和分析(例如,在對話是即時(shí)消息或者對話由智能會(huì)議系統(tǒng)實(shí)時(shí)生成的情況下)。從對話中獲取所提及的人名的技術(shù)對于本領(lǐng)域技術(shù)人員是熟知的,因此本說明書為了簡潔起見就不再描述。
[0048](b)其次,獲取與所提及的人名相關(guān)的一組候選標(biāo)識符。
[0049]例如,可以通過在至少包含識別符和對應(yīng)的人名的數(shù)據(jù)庫中基于所提及的人名搜索候選標(biāo)識符,來獲取候選標(biāo)識符。其中數(shù)據(jù)庫中的人名包括全名和各種別名,別名可以包括以下至少一種:昵稱(nickname)、姓氏(surname)、賦名(given name)、中名(middlename)、以及頭銜(title)與昵稱、姓氏、賦名和中名中的至少一個(gè)的組合。圖3例示了用于解釋用于生成這種數(shù)據(jù)庫的方法的流程圖(S300 )。
[0050]如圖3所示,從原始數(shù)據(jù)庫中獲得一個(gè)人的標(biāo)識符(例如ID)(步驟S311)。例如,原始數(shù)據(jù)庫可以是包括職員ID (作為標(biāo)識符)和對應(yīng)的全名的職員管理數(shù)據(jù)庫。然后,從原始數(shù)據(jù)庫還獲得與該標(biāo)識符對應(yīng)的全名(步驟S312)。接下來,基于預(yù)定義的規(guī)則產(chǎn)生該全名的各個(gè)別名(步驟S313)。應(yīng)當(dāng)理解,可以基于實(shí)際應(yīng)用的需要來手動(dòng)定義這些規(guī)則。此外,這些規(guī)則是與語言相關(guān)的,即對于不同的語言可以定義不同的規(guī)則。表1示出了對于日語的這種規(guī)則的一個(gè)例子。如表1所示,在語言是日語的情況下,基于表1中所列的各個(gè)規(guī)則來生成一個(gè)全名的各個(gè)別名。在日語中,一個(gè)人通常具有姓氏和賦名??梢蕴砑永纭皊an”、“kun”和“chan”這樣的后綴。此外,可以添加表示人們的受教育程度或頭銜的前綴。在日語中,可以在沒有前綴或后綴的情況下直接提到賦名。因此,賦名也被定義為一種別名。
[0051]表1別名規(guī)則的例子
【權(quán)利要求】
1.一種用于識別對話中所提及的人的方法,包括: 識別與從所述對話獲取的所提及的人名相關(guān)的至少一個(gè)人名實(shí)體; 獲取與所提及的人名相關(guān)的一組候選標(biāo)識符; 從內(nèi)部資源和外部資源為每個(gè)候選標(biāo)識符獲取至少一個(gè)關(guān)系特征,其中所述關(guān)系特征表示所述候選標(biāo)識符與所述至少一個(gè)人名實(shí)體之間的關(guān)系;以及 基于所述至少一個(gè)關(guān)系特征,從該組候選標(biāo)識符中選擇一個(gè)標(biāo)識符作為所提及的人名的標(biāo)識符。
2.根據(jù)權(quán)利要求1所述的方法,其中所述人名實(shí)體包括: 在對話中提到所提及的人名的發(fā)言者,和/或 聆聽所述發(fā)言者的至少一個(gè)聽眾。
3.根據(jù)權(quán)利要求1所述的方法,其中獲取一組候選標(biāo)識符的步驟包括:基于所提及的人名,在至少包含標(biāo)識符和相應(yīng)的人名的數(shù)據(jù)庫中搜索候選標(biāo)識符, 其中所述數(shù)據(jù)庫中的人名包括全名和別名,以及 其中所述別名包括以下至少一種:昵稱、姓氏、賦名、中名、以及頭銜與昵稱、姓氏、賦名和中名中的至少一種的組合。
4.根據(jù)權(quán)利要求1所述的方法,其中所述關(guān)系特征包括以下至少一種: 等級差距特征,表示兩個(gè)人的等級之間的差距;` 熟悉度特征,表示兩個(gè)人之間的熟悉程度; 歷史稱呼特征,表示在兩個(gè)人間已經(jīng)使用過的稱呼;以及 上下文關(guān)系特征,表示對話中兩個(gè)人的關(guān)系。
5.根據(jù)權(quán)利要求4所述的方法, 其中所述等級差距特征包括以下至少一種: 頭銜差距特征,表示兩個(gè)人的頭銜之間的差距,以及 年齡差距特征,表示兩個(gè)人的年齡之間的差距; 其中所述熟悉度特征包括以下至少一種: 相同工作組特征,表示兩個(gè)人是否在同一工作組中, 相同專業(yè)特征,表示兩個(gè)人是否為同一專業(yè), 新雇員特征,表示一個(gè)人是否為新雇員, 討論頻率特征,表示兩個(gè)人之間進(jìn)行討論的頻率,以及 工位距離特征,表示兩個(gè)人的工位之間的距離; 其中所述上下文關(guān)系特征包括以下至少一種: 相同會(huì)議組特征,表示兩個(gè)人是否屬于同一會(huì)議組, 共同參會(huì)特征,表示兩個(gè)人是否都參加了會(huì)議, 座位級別差距特征,表示兩個(gè)人的座位級別的差距,其中各個(gè)座位被分成至少兩個(gè)級另O,一個(gè)級別是主座,另一個(gè)級別是副座,以及 座位距離特征,表示兩個(gè)人的座位之間的距離。
6.根據(jù)權(quán)利要求4或5所述的方法,其中 從外部資源提取所述熟悉度特征和所述歷史稱呼特征, 從外部資源和/或內(nèi)部資源提取所述等級差距特征,從內(nèi)部資源提取所述上下文關(guān)系特征; 其中,所述外部資源包括文本資源和圖像資源,所述文本資源包括組織圖、電子郵件歷史記錄、電子郵件聯(lián)系人、簡歷和公共文檔中的至少一種,所述圖像資源至少包括工位圖;以及 其中,所述內(nèi)部資源包括出席者名單、會(huì)議視頻和會(huì)議照片中的至少一種。
7.根據(jù)權(quán)利要求6所述的方法,其中通過從所述電子郵件歷史記錄提取所述候選標(biāo)識符和所述至少一個(gè)人名實(shí)體之間的歷史上的稱呼來獲得所述歷史稱呼特征。
8.根據(jù)權(quán)利要求6所述的方法, 其中通過以下步驟獲得所述頭銜差距特征: 從所述組織圖提取所述候選標(biāo)識符的頭銜信息和所述至少一個(gè)人名實(shí)體的頭銜信息,以及 基于所述頭銜信息計(jì)算所述候選標(biāo)識符和所述至少一個(gè)人名實(shí)體之間的頭銜差; 其中通過以下步驟獲得所述年齡差距特征: 從所述候選標(biāo)識符和所述至少一個(gè)人名實(shí)體的簡歷的年齡欄提取各自的年齡值,以及 基于所述年齡值來計(jì)算所述候選標(biāo)識符和所述至少一個(gè)人名實(shí)體之間的年齡差。
9.根據(jù)權(quán)利要求6所述的方法, 其中通過以下步驟獲得所述相同 工作組特征: 從所述組織圖提取所述候選標(biāo)識符的工作組名稱和所述至少一個(gè)人名實(shí)體的工作組名稱,以及 基于所述工作組名稱的比較結(jié)果來計(jì)算所述相同工作組特征; 其中通過以下步驟獲得所述相同專業(yè)特征: 從所述組織圖提取所述候選標(biāo)識符的專業(yè)和所述至少一個(gè)人名實(shí)體的專業(yè),以及 基于所述專業(yè)的比較結(jié)果來計(jì)算所述相同專業(yè)特征; 其中通過以下步驟獲得所述新雇員特征: 根據(jù)所述組織圖的變化來計(jì)算所述候選標(biāo)識符的加入時(shí)間段,以及 基于所述加入時(shí)間段與預(yù)定的第一閾值之間的比較結(jié)果來計(jì)算所述新雇員特征; 其中通過以下步驟獲得所述討論頻率特征: 根據(jù)所述電子郵件歷史記錄來計(jì)數(shù)所述候選標(biāo)識符和所述至少一個(gè)人名實(shí)體之間的通信頻率,以及 基于所述通信頻率與預(yù)定的第二閾值之間的比較結(jié)果來計(jì)算所述討論頻率特征; 其中通過以下步驟獲得所述工位距離特征: 從所述工位圖獲得所述候選標(biāo)識符的工作位置和所述至少一個(gè)人名實(shí)體的工作位置,以及 基于所述工作位置來計(jì)算所述工位距離特征。
10.根據(jù)權(quán)利要求6所述的方法, 其中通過以下步驟獲得所述相同會(huì)議組特征: 從所述出席者名單提取所述候選標(biāo)識符的會(huì)議組名稱和所述至少一個(gè)人名實(shí)體的會(huì)議組名稱,以及 基于所述會(huì)議組名稱的比較結(jié)果來計(jì)算所述相同會(huì)議組特征;其中通過以下步驟獲得所述共同參會(huì)特征: 把所述候選標(biāo)識符的姓名與所述出席者名單進(jìn)行比較,以及 基于所述比較的結(jié)果計(jì)算所述共同參會(huì)特征; 其中通過以下步驟獲得所述座位級別差距特征: 從所述會(huì)議視頻或會(huì)議照片中提取所述候選標(biāo)識符的座位級別和所述至少一個(gè)人名實(shí)體的座位級別,以及 基于所述座位級別來計(jì)算所述座位級別差距特征; 其中通過以下步驟獲得所述座位距離特征: 從所述會(huì)議視頻或會(huì)議照片中提取所述候選標(biāo)識符的座位位置和所述至少一個(gè)人名實(shí)體的座位位置,以及 基于所述座位位置計(jì)算所述座位距離特征。
11.根據(jù)權(quán)利要求1所述的方法,其中從該組候選標(biāo)識符中選擇一個(gè)標(biāo)識符作為所提及的人名的標(biāo)識符的步驟包括: 計(jì)算各個(gè)候選標(biāo)識符的至少一個(gè)關(guān)系特征的分?jǐn)?shù), 為所述至少一個(gè)關(guān)系特征分配權(quán)重, 基于所計(jì)算的分?jǐn)?shù)和所分配的權(quán)重計(jì)算各個(gè)候選標(biāo)識符的置信度,以及 基于所述置信度從該組候選標(biāo)識符中選擇一個(gè)標(biāo)識符作為所提及的人名的標(biāo)識符。`
12.根據(jù)權(quán)利要求11所述的方法,其中 根據(jù)所述對話的場景來分配所述權(quán)重, 從所述對話的上下文特征提取所述對話的場景,以及 所述對話的上下文特征包括對話的標(biāo)題、主題和語言風(fēng)格、以及出席者的衣著風(fēng)格中的至少一種。
13.一種用于管理會(huì)議記錄的方法,包括: 利用權(quán)利要求1-12中任一項(xiàng)的方法識別所提及的人;以及 把與所選擇的標(biāo)識符相關(guān)的信息嵌入到輸出文本中所提及的人名處。
14.一種用于管理會(huì)議記錄的方法,包括: 利用權(quán)利要求1的方法識別所提及的人;以及 把與所選擇的標(biāo)識符相關(guān)的信息嵌入到輸出文本中所提及的人名處, 其中所述關(guān)系特征包括以下至少一種: 頭銜差距特征,表示兩個(gè)人的頭銜之間的差距; 相同工作組特征,表示兩個(gè)人是否在同一工作組中;以及 歷史稱呼特征,表示在兩個(gè)人間已經(jīng)使用過的稱呼。
15.根據(jù)權(quán)利要求14所述的方法,其中 通過以下步驟獲得所述頭銜差距特征: 從組織圖提取所述候選標(biāo)識符的頭銜信息和所述至少一個(gè)人名實(shí)體的頭銜信息,以及 基于所述頭銜信息計(jì)算所述候選標(biāo)識符和所述至少一個(gè)人名實(shí)體之間的頭銜差; 通過以下步驟獲得所述相同工作組特征: 從組織圖提取所述候選標(biāo)識符的工作組名稱和所述至少一個(gè) 人名實(shí)體的工作組名稱,以及基于所述工作組名稱的比較結(jié)果來計(jì)算所述相同工作組特征; 通過以下步驟獲得所述歷史稱呼特征: 從電子郵件歷史記錄提取所述候選標(biāo)識符和所述至少一個(gè)人 名實(shí)體之間的歷史上的稱呼。
16.一種用于管理會(huì)議的方法,包括: 利用權(quán)利要求1-12中任一項(xiàng)所述的方法來識別所提及的人;以及 在屏幕上顯示與所選擇的標(biāo)識符相關(guān)的信息。
17.一種用于管理會(huì)議的方法,包括: 利用權(quán)利要求1所述的方法來識別所提及的人;以及 在屏幕上顯示與所選擇的標(biāo)識符相關(guān)的信息, 其中所述關(guān)系特征包括以下至少一種: 頭銜差距特征,表示兩個(gè)人的頭銜之間的差距; 相同工作組特征,表示兩個(gè)人是否在同一工作組中; 歷史稱呼特征,表示在兩個(gè)人間已經(jīng)使用過的稱呼; 座位級別差距特征,表示兩個(gè)人的座位級別的差距;以及 座位距離特征,表示兩個(gè)人的座位之間的距離。
18.根據(jù)權(quán)利要求17所述的方法,其中 通過以下步驟獲得所述頭銜差距特征: 從組織圖提取所述候選標(biāo)識符的頭銜信息和所述至少一個(gè)人名實(shí)體的頭銜信息,以及 基于所述頭銜信息計(jì)算所述候選標(biāo)識符和所述至少一個(gè)人名實(shí)體之間的頭銜差; 通過以下步驟獲得所述相同工作組特征: 從組織圖提取所述候選標(biāo)識符的工作組名稱和所述至少一個(gè)人名實(shí)體的工作組名稱,以及 基于所述工作組名稱的比較結(jié)果來計(jì)算所述相同工作組特征; 通過以下步驟獲得所述歷史稱呼特征: 從電子郵件歷史記錄提取所述候選標(biāo)識符和所述至少一個(gè)人名實(shí)體之間的歷史上的稱呼; 通過以下步驟獲得所述座位級別差距特征: 從會(huì)議視頻或會(huì)議照片中提取所述候選標(biāo)識符的座位級別和所述至少一個(gè)人名實(shí)體的座位級別,以及 基于所述座位級別來計(jì)算所述座位級別差距特征; 通過以下步驟獲得所述座位距離特征: 從會(huì)議視頻或會(huì)議照片中提取所述候選標(biāo)識符的座位位置和所述至少一個(gè)人名實(shí)體的座位位置,以及 基于所述座位位置計(jì)算所述座位距離特征。
19.一種用于輔助即時(shí)消息的方法,包括: 利用權(quán)利要求1-12中任一項(xiàng)的方法識別所提及的人;以及 把與所選擇的標(biāo)識符相關(guān)的信息嵌入到所述即時(shí)消息中所提及的人名處。
20.一種用于輔助即時(shí)消息的方法,包括:利用權(quán)利要求1的方法識別所提及的人;以及 把與所選擇的標(biāo)識符相關(guān)的信息嵌入到所述即時(shí)消息中所提及的人名處, 其中所述關(guān)系特征包括以下至少一種: 頭銜差距特征,表示兩個(gè)人的頭銜之間的差距; 年齡差距特征,表示兩個(gè)人的年齡之間的差距; 姓名類別特征,表示兩個(gè)人是否彼此熟悉; 討論頻率特征,表示兩個(gè)人之間進(jìn)行討論的頻率;以及 歷史稱呼特征,表示在兩個(gè)人間已經(jīng)使用過的稱呼。
21.根據(jù)權(quán)利要求20所述的方法,其中 通過以下步驟獲得所述頭銜差距特征: 從即時(shí)消息的備注信息提取所述候選標(biāo)識符的頭銜信息和所述至少一個(gè)人名實(shí)體的頭銜信息,以及 基于所述頭銜信息計(jì)算所述候選標(biāo)識符和所述至少一個(gè)人名實(shí)體之間的頭銜差; 通過以下步驟獲得所述年齡差距特征: 從即時(shí)消息的備注信息提取所述候選標(biāo)識符的年齡值和所述至少一個(gè)人名實(shí)體的年齡值,以及 基于所述年齡值來計(jì)算所述候選標(biāo)識符和所述至少一個(gè)人名實(shí)體之間的年齡差; 通過以下步驟獲得所述姓名類別特征: 從即時(shí)消息提取所述候選標(biāo)識符的姓名類別,以及 通過把所提取的姓名類別與預(yù)定的熟悉姓名類別進(jìn)行比較來計(jì)算所述姓名類別特征; 通過以下步驟獲得所述討論頻率特征: 根據(jù)即時(shí)消息來計(jì)數(shù)所述候選標(biāo)識符和所述至少一個(gè)人名實(shí)體之間的通信頻率,以及 基于所述通信頻率與預(yù)定的閾值之間的比較結(jié)果來計(jì)算所述討論頻率特征; 通過以下步驟獲得所述歷史稱呼特征: 從即時(shí)消息提取所述候選標(biāo)識符和所述至少一個(gè)人名實(shí)體之間的歷史上的稱呼。
22.一種用于識別對話中所提及的人的裝置,包括: 用于識別與從所述對話獲取的所提及的人名相關(guān)的至少一個(gè)人名實(shí)體的單元; 用于獲取與所提及的人名相關(guān)的一組候選標(biāo)識符的單元; 用于從內(nèi)部資源和外部資源為每個(gè)候選標(biāo)識符獲取至少一個(gè)關(guān)系特征的單元,其中所述關(guān)系特征表示所述候選標(biāo)識符與所述至少一個(gè)人名實(shí)體之間的關(guān)系;以及 用于基于所述至少一個(gè)關(guān)系特征,從該組候選標(biāo)識符中選擇一個(gè)標(biāo)識符作為所提及的人名的標(biāo)識符的單元。
23.根據(jù)權(quán)利要求22所述的裝置,其中所述關(guān)系特征包括以下至少一種: 等級差距特征,表示兩個(gè)人的等級之間的差距; 熟悉度特征,表示兩個(gè)人之間的熟悉程度; 歷史稱呼特征,表示在兩個(gè)人間已經(jīng)使用過的稱呼;以及 上下文關(guān)系特征,表示對話中兩個(gè)人的關(guān)系。
24.根據(jù)權(quán)利要求23所述的裝置,其中其中所述等級差距特征包括以下至少一種: 頭銜差距特征,表示兩個(gè)人的頭銜之間的差距,以及 年齡差距特征,表示兩個(gè)人的年齡之間的差距; 其中所述熟悉度特征包括以下至少一種: 相同工作組特征,表示兩個(gè)人是否在同一工作組中, 相同專業(yè)特征,表示兩個(gè)人是否為同一專業(yè), 新雇員特征,表示一個(gè)人是否為新雇員, 討論頻率特征,表示兩個(gè)人之間進(jìn)行討論的頻率,以及 工位距離特征,表示兩個(gè)人的工位之間的距離; 其中所述上下文關(guān)系特征包括以下至少一種: 相同會(huì)議組特征,表示兩個(gè)人是否屬于同一會(huì)議組, 共同參會(huì)特征,表示兩個(gè)人是否都參加了會(huì)議, 座位級別差距特征,表示兩個(gè)人的座位級別的差距,其中各個(gè)座位被分成至少兩個(gè)級另IJ,一個(gè)級別是主座,另一個(gè)級別是副座,以及 座位距離特征,表示兩個(gè)人的座位之間的距離。
25.根據(jù)權(quán)利要求23或24所述的裝置,其中 從外部資源提取所述熟悉度特征和所述歷史稱呼特征,` 從外部資源和/或內(nèi)部資源提取所述等級差距特征, 從內(nèi)部資源提取所述上下文關(guān)系特征; 其中,所述外部資源包括文本資源和圖像資源,所述文本資源包括組織圖、電子郵件歷史記錄、電子郵件聯(lián)系人、簡歷和公共文檔中的至少一種,所述圖像資源至少包括工位圖;以及 其中,所述內(nèi)部資源包括出席者名單、會(huì)議視頻和會(huì)議照片中的至少一種。
26.根據(jù)權(quán)利要求22所述的裝置,其中用于從該組候選標(biāo)識符中選擇一個(gè)標(biāo)識符作為所提及的人名的標(biāo)識符的單元包括: 用于計(jì)算各個(gè)候選標(biāo)識符的至少一個(gè)關(guān)系特征的分?jǐn)?shù)的單元, 用于為所述至少一個(gè)關(guān)系特征分配權(quán)重的單元, 用于基于所計(jì)算的分?jǐn)?shù)和所分配的權(quán)重計(jì)算各個(gè)候選標(biāo)識符的置信度的單元,以及用于基于所述置信度從該組候選標(biāo)識符中選擇一個(gè)標(biāo)識符作為所提及的人名的標(biāo)識符的單元。
27.一種用于管理會(huì)議記錄的裝置,包括: 用于利用權(quán)利要求22-26中任一項(xiàng)的裝置識別所提及的人的單元;以及 用于把與所選擇的標(biāo)識符相關(guān)的信息嵌入到輸出文本中所提及的人名處的單元。
28.一種用于管理會(huì)議記錄的裝置,包括: 用于利用權(quán)利要求22的裝置識別所提及的人的單元;以及 用于把與所選擇的標(biāo)識符相關(guān)的信息嵌入到輸出文本中所提及的人名處的單元, 其中所述關(guān)系特征包括以下至少一種: 頭銜差距特征,表示兩個(gè)人的頭銜之間的差距; 相同工作組特征,表示兩個(gè)人是否在同一工作組中;以及歷史稱呼特征,表示在兩個(gè)人間已經(jīng)使用過的稱呼。
29.一種用于管理會(huì)議的裝置,包括:用于利用權(quán)利要求22-26中任一項(xiàng)所述的裝置來識別所提及的人的單元;以及用于在屏幕上顯示與所選擇的標(biāo)識符相關(guān)的信息的單元。
30.一種用于管理會(huì)議的裝置,包括:用于利用權(quán)利要求22所述的裝置來識別所提及的人的單元;以及用于在屏幕上顯示與所選擇的標(biāo)識符相關(guān)的信息的單元,其中所述關(guān)系特征包括以下至少一種:頭銜差距特征,表示兩個(gè)人的頭銜之間的差距;相同工作組特征,表示兩個(gè)人是否在同一工作組中;歷史稱呼特征,表示在兩個(gè)人間已經(jīng)使用過的稱呼;座位級別差距特征,表示兩個(gè)人的座位級別的差距;以及座位距離特征,表示兩個(gè)人的座位之間的距離。
31.一種用于輔助即時(shí)消息的裝置,包括:用于利用權(quán)利要求22-26中任一項(xiàng)所述的裝置識別所提及的人的單元;以及用于把與所選擇的標(biāo)識符相關(guān)的信息嵌入到所述即時(shí)消息中所提及的人名處的單元。
32.一種用于輔助即時(shí)消息的 裝置,包括:用于利用權(quán)利要求22所述的裝置識別所提及的人的單元;以及用于把與所選擇的標(biāo)識符相關(guān)的信息嵌入到所述即時(shí)消息中所提及的人名處的單元,其中所述關(guān)系特征包括以下至少一種:頭銜差距特征,表示兩個(gè)人的頭銜之間的差距;年齡差距特征,表示兩個(gè)人的年齡之間的差距;姓名類別特征,表示兩個(gè)人是否彼此熟悉;討論頻率特征,表示兩個(gè)人之間進(jìn)行討論的頻率;以及歷史稱呼特征,表示在兩個(gè)人間已經(jīng)使用過的稱呼。
【文檔編號】G06F17/30GK103514165SQ201210201517
【公開日】2014年1月15日 申請日期:2012年6月15日 優(yōu)先權(quán)日:2012年6月15日
【發(fā)明者】黃耀海, 李榮軍, 胡欽諳 申請人:佳能株式會(huì)社