用戶特征數(shù)據(jù)的提取方法和裝置制造方法
【專利摘要】本發(fā)明提出一種用戶特征數(shù)據(jù)的提取方法和裝置,其中,所述用戶特征數(shù)據(jù)的提取方法包括以下步驟:采集用戶通過(guò)移動(dòng)終端輸入的日常語(yǔ)音數(shù)據(jù);對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別,以獲取用戶的多個(gè)語(yǔ)音特征數(shù)據(jù);以及根據(jù)獲取的多個(gè)語(yǔ)音特征數(shù)據(jù)建立用戶的特征數(shù)據(jù)庫(kù)。本發(fā)明的用戶特征數(shù)據(jù)的提取方法,根據(jù)用戶的語(yǔ)音數(shù)據(jù)進(jìn)行針對(duì)性的分析,能夠方便、準(zhǔn)確地獲取用戶的特征數(shù)據(jù)以及組成結(jié)構(gòu),因而有利于獲取用戶的潛在需求和個(gè)性化需求。
【專利說(shuō)明】用戶特征數(shù)據(jù)的提取方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,特別涉及一種用戶特征數(shù)據(jù)的提取方法和裝置。
【背景技術(shù)】
[0002]在移動(dòng)互聯(lián)網(wǎng)應(yīng)用中,為了能夠滿足用戶對(duì)資源的需求,需要對(duì)用戶特征數(shù)據(jù)進(jìn)行準(zhǔn)確、全面分析,從而可根據(jù)提取出的用戶特征數(shù)據(jù)提供符合不同用戶個(gè)性化需求的資源。目前,可對(duì)用戶在搜索引擎中輸入的文本進(jìn)行采集,并通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)采集到的數(shù)據(jù)中提取用戶特征數(shù)據(jù);或者直接通過(guò)用戶問(wèn)卷調(diào)查的方法獲取用戶的類別、需求等特征數(shù)據(jù)。
[0003]但是,通過(guò)采集用戶輸入的文本來(lái)挖掘用戶特征,主要是通過(guò)對(duì)用戶輸入的文本進(jìn)行概括后得到詞語(yǔ)或者短語(yǔ),并不能獲取用戶對(duì)這些詞語(yǔ)或短語(yǔ)的主觀感情色彩(是否喜歡、是否感興趣等),因而容易因誤判而難以準(zhǔn)確的獲取用戶的需求、興趣點(diǎn)等。另外,通過(guò)對(duì)用戶輸入的文本分析用戶特征數(shù)據(jù)的方法,需要與文本對(duì)應(yīng)的用戶標(biāo)識(shí)信息等數(shù)據(jù)進(jìn)行綁定,因而對(duì)于未綁定用戶標(biāo)識(shí)信息的用戶來(lái)說(shuō),進(jìn)行跟蹤記錄及特征數(shù)據(jù)的提取的難度很大。而通過(guò)用戶問(wèn)卷調(diào)查的方法受到人力物力資源的限制,局限性大,僅適用于小范圍的調(diào)查,并且數(shù)據(jù)資源過(guò)于集中,數(shù)據(jù)缺乏代表性,不利于對(duì)深層次的用戶特征的提取。
【發(fā)明內(nèi)容】
[0004]本發(fā)明旨在至少在一定程度上解決上述技術(shù)問(wèn)題。
[0005]為此,本發(fā)明的第一個(gè)目的在于提出一種用戶特征數(shù)據(jù)的提取方法,能夠方便、準(zhǔn)確地獲取用戶的特征數(shù)據(jù)以及組成結(jié)構(gòu),有利于獲取用戶的潛在需求和個(gè)性化需求。
[0006]本發(fā)明的第二個(gè)目的在于提出一種用戶特征數(shù)據(jù)的提取裝置。
[0007]為達(dá)上述目的,根據(jù)本發(fā)明第一方面實(shí)施例提出了一種用戶特征數(shù)據(jù)的提取方法,包括以下步驟:采集用戶通過(guò)移動(dòng)終端輸入的日常語(yǔ)音數(shù)據(jù);對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別,以獲取所述用戶的多個(gè)語(yǔ)音特征數(shù)據(jù);以及根據(jù)獲取的所述多個(gè)語(yǔ)音特征數(shù)據(jù)建立所述用戶的特征數(shù)據(jù)庫(kù)。
[0008]本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取方法,通過(guò)采集用戶輸入的日常語(yǔ)音數(shù)據(jù),并進(jìn)行特征識(shí)別,以獲取用戶的多個(gè)語(yǔ)音特征數(shù)據(jù),并據(jù)此建立用戶的特征數(shù)據(jù)庫(kù),從而根據(jù)用戶的語(yǔ)音數(shù)據(jù)進(jìn)行針對(duì)性的分析,能夠方便、準(zhǔn)確地獲取用戶的特征數(shù)據(jù)以及組成結(jié)構(gòu),并且語(yǔ)音數(shù)據(jù)本身可用于標(biāo)識(shí)用戶,因而有利于獲取用戶的潛在需求和個(gè)性化需求。
[0009]本發(fā)明第二方面實(shí)施例提供了一種用戶特征數(shù)據(jù)的提取裝置,包括:第一采集模塊,用于采集用戶通過(guò)移動(dòng)終端輸入的日常語(yǔ)音數(shù)據(jù);特征識(shí)別模塊,用于對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別,以獲取所述用戶的多個(gè)語(yǔ)音特征數(shù)據(jù);以及建立模塊,用于根據(jù)獲取的所述多個(gè)語(yǔ)音特征數(shù)據(jù)建立所述用戶的特征數(shù)據(jù)庫(kù)。
[0010]本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取裝置,通過(guò)采集用戶輸入的日常語(yǔ)音數(shù)據(jù),并進(jìn)行特征識(shí)別,以獲取用戶的多個(gè)語(yǔ)音特征數(shù)據(jù),并據(jù)此建立用戶的特征數(shù)據(jù)庫(kù),從而根據(jù)用戶的語(yǔ)音數(shù)據(jù)進(jìn)行針對(duì)性的分析,能夠方便、準(zhǔn)確地獲取用戶的特征數(shù)據(jù)以及組成結(jié)構(gòu),并且語(yǔ)音數(shù)據(jù)本身可用于標(biāo)識(shí)用戶,因而有利于獲取用戶的潛在需求和個(gè)性化需求。
[0011]本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【專利附圖】
【附圖說(shuō)明】
[0012]本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0013]圖1為根據(jù)本發(fā)明一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取方法的流程圖;
[0014]圖2為根據(jù)本發(fā)明另一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取方法的流程圖;
[0015]圖3為根據(jù)本發(fā)明又一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取方法的流程圖;
[0016]圖4為根據(jù)本發(fā)明一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取裝置的結(jié)構(gòu)示意圖;
[0017]圖5為根據(jù)本發(fā)明另一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取裝置的結(jié)構(gòu)示意圖;
[0018]圖6為根據(jù)本發(fā)明又一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取裝置的結(jié)構(gòu)示意圖;
[0019]圖7為根據(jù)本發(fā)明再一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取裝置的結(jié)構(gòu)示意圖;
[0020]圖8為根據(jù)本發(fā)明另又一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0021]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
[0022]在本發(fā)明的描述中,需要理解的是,術(shù)語(yǔ)“多個(gè)”指兩個(gè)或兩個(gè)以上;術(shù)語(yǔ)“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性。
[0023]下面參考附圖描述根據(jù)本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取方法和裝置。
[0024]為了更準(zhǔn)確的提取用戶的特征數(shù)據(jù),本發(fā)明提出了一種用戶特征數(shù)據(jù)的提取方法,包括以下步驟:采集用戶通過(guò)移動(dòng)終端輸入的日常語(yǔ)音數(shù)據(jù);對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別,以獲取用戶的特征數(shù)據(jù);以及根據(jù)獲取的特征數(shù)據(jù)建立用戶的特征數(shù)據(jù)庫(kù)。
[0025]圖1為根據(jù)本發(fā)明一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取方法的流程圖。
[0026]如圖1所示,根據(jù)本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取方法,包括:
[0027]S1I,采集用戶通過(guò)移動(dòng)終端輸入的日常語(yǔ)音數(shù)據(jù)。
[0028]其中,日常語(yǔ)音數(shù)據(jù)可以是通過(guò)安裝在移動(dòng)終端中的各種語(yǔ)音輸入裝置獲取的語(yǔ)音數(shù)據(jù)。在本發(fā)明的一個(gè)實(shí)施例中,舉例來(lái)說(shuō),可通過(guò)移動(dòng)終端中安裝的語(yǔ)音助手、語(yǔ)音SDK (Software Development Kit,軟件開(kāi)發(fā)工具包)以及使用語(yǔ)音識(shí)別引擎應(yīng)用程序等對(duì)用戶輸入的日常語(yǔ)音數(shù)據(jù)進(jìn)行采集,或者通過(guò)在用戶使用移動(dòng)終端進(jìn)行通話的過(guò)程中獲取的語(yǔ)音通話數(shù)據(jù)獲取用戶日常語(yǔ)音數(shù)據(jù)。
[0029]S102,對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別,以獲取用戶的多個(gè)語(yǔ)音特征數(shù)據(jù)。
[0030]在本發(fā)明的實(shí)施例中,用戶的語(yǔ)音特征數(shù)據(jù)可包括用戶的身份特征數(shù)據(jù)、年齡特征數(shù)據(jù)和用戶所處的地區(qū)特征數(shù)據(jù)中的一種或多種。
[0031]其中,用戶的身份特征數(shù)據(jù)可包括用戶的性別信息;年齡特征數(shù)據(jù)為用戶所屬的年齡階段,如青少年、中年、老年等;可獲取所述日常語(yǔ)音數(shù)據(jù)的基頻特征,并根據(jù)所述基頻特征獲取所述用戶的身份特征數(shù)據(jù)和/或年齡特征數(shù)據(jù)?;l特征是指聲音中最低且通常情況下最強(qiáng)的頻率,通常被認(rèn)為是聲音的基礎(chǔ)音調(diào)。男性和女性的聲音的基頻特征以及不同年齡段的人的聲音的基頻都具有較大的區(qū)別,因此可預(yù)先根據(jù)不同性別對(duì)應(yīng)的基頻特征和不同年齡段對(duì)應(yīng)的基頻特征的建立基頻特征數(shù)據(jù)庫(kù)。從而將據(jù)獲取的到的用戶的日常語(yǔ)音數(shù)據(jù)的基頻特征與基頻特征數(shù)據(jù)庫(kù)中的基頻特征進(jìn)行比對(duì),以得到該用戶的身份特征數(shù)據(jù)和/或年齡特征數(shù)據(jù)。
[0032]用戶所處的地區(qū)特征是指用戶所在地或者用戶的籍貫地區(qū),可根據(jù)用戶所使用語(yǔ)言種類來(lái)判斷。語(yǔ)言種類可包括不同語(yǔ)種、方言等,例如、英語(yǔ)、日語(yǔ)、韓語(yǔ)、阿拉伯語(yǔ)、粵語(yǔ)、四川方言等。具體地,可對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)義解析,以獲取所述日常語(yǔ)音數(shù)據(jù)所屬的語(yǔ)言種類,并根據(jù)所述所屬的語(yǔ)言種類獲取所述用戶所處的地區(qū)特征數(shù)據(jù)。在對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)義解析后,可得到語(yǔ)音的具體內(nèi)容。然后,根據(jù)具體內(nèi)容中的詞匯、語(yǔ)義等于預(yù)先建立的語(yǔ)言詞匯數(shù)據(jù)庫(kù)進(jìn)行比對(duì),其中,語(yǔ)言詞匯數(shù)據(jù)庫(kù)中包括不同語(yǔ)言種類對(duì)應(yīng)的詞匯庫(kù)。從而可根據(jù)用戶的日常語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的詞匯比對(duì)出對(duì)應(yīng)的語(yǔ)言種類,并進(jìn)一步預(yù)測(cè)出該用戶所處的地區(qū)特征數(shù)據(jù)。例如,如果用戶使用的是葡萄牙語(yǔ),則用戶可能為來(lái)自葡萄牙語(yǔ)使用國(guó)的用戶或者用戶正處于葡萄牙語(yǔ)使用國(guó),如果用戶使用的是粵語(yǔ),則用戶可能為來(lái)自廣東、香港等地的用戶或者用戶正處于廣東、香港等地。
[0033]S103,根據(jù)獲取的多個(gè)語(yǔ)音特征數(shù)據(jù)建立用戶的特征數(shù)據(jù)庫(kù)。
[0034]對(duì)于每個(gè)用戶來(lái)說(shuō),可根據(jù)該用戶的身份特征數(shù)據(jù)、年齡特征數(shù)據(jù)和用戶所處的地區(qū)特征數(shù)據(jù)中的一種或多種,建立該用戶的特征數(shù)據(jù)庫(kù)。此外,由于語(yǔ)音數(shù)據(jù)本身具有聲紋特征,因此可針對(duì)不同用戶分別建立對(duì)應(yīng)的特征數(shù)據(jù)庫(kù)。由此,能夠準(zhǔn)確地獲取用戶的組成結(jié)構(gòu),更有利于挖掘不同用戶的潛在需求特征和個(gè)性化需求特征。
[0035]本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取方法,通過(guò)采集用戶輸入的日常語(yǔ)音數(shù)據(jù),并進(jìn)行特征識(shí)別,以獲取用戶的多個(gè)語(yǔ)音特征數(shù)據(jù),并據(jù)此建立用戶的特征數(shù)據(jù)庫(kù),從而根據(jù)用戶的語(yǔ)音數(shù)據(jù)進(jìn)行針對(duì)性的分析,能夠方便、準(zhǔn)確地獲取用戶的特征數(shù)據(jù)以及組成結(jié)構(gòu),并且語(yǔ)音數(shù)據(jù)本身可用于標(biāo)識(shí)用戶,因而有利于獲取用戶的潛在需求和個(gè)性化需求。
[0036]圖2為根據(jù)本發(fā)明另一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取方法的流程圖。
[0037]如圖2所示,根據(jù)本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取方法,包括:
[0038]S201,采集用戶通過(guò)移動(dòng)終端輸入的日常語(yǔ)音數(shù)據(jù)。
[0039]其中,日常語(yǔ)音數(shù)據(jù)可以是通過(guò)安裝在移動(dòng)終端中的各種語(yǔ)音輸入裝置獲取的語(yǔ)音數(shù)據(jù)。在本發(fā)明的一個(gè)實(shí)施例中,舉例來(lái)說(shuō),可通過(guò)移動(dòng)終端中安裝的語(yǔ)音助手、語(yǔ)音SDK (Software Development Kit,軟件開(kāi)發(fā)工具包)以及使用語(yǔ)音識(shí)別引擎應(yīng)用程序等對(duì)用戶輸入的日常語(yǔ)音數(shù)據(jù)進(jìn)行采集,或者通過(guò)在用戶使用移動(dòng)終端進(jìn)行通話的過(guò)程中獲取的語(yǔ)音通話數(shù)據(jù)獲取用戶日常語(yǔ)音數(shù)據(jù)。
[0040]S202,獲取用戶的聲紋特征。
[0041]其中,聲紋特征是指語(yǔ)音的頻率、強(qiáng)度、聲壓隨時(shí)間推移的變化特征或者某一時(shí)間點(diǎn)上聲波強(qiáng)度和頻率的特征。具體地,在本發(fā)明的實(shí)施例中,可通過(guò)濾波器等方式對(duì)用戶的語(yǔ)音進(jìn)行分析得到該用戶的聲紋特征,當(dāng)然也可通過(guò)其他聲紋獲取方法來(lái)實(shí)現(xiàn),本發(fā)明對(duì)獲取聲紋特征的方式不做具體限定。
[0042]S203,根據(jù)用戶的聲紋特征對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行篩選,以濾除非用戶的語(yǔ)音數(shù)據(jù)。
[0043]具體地,在本發(fā)明的實(shí)施例中,可分別獲取采集到的日常語(yǔ)音數(shù)據(jù)的聲紋特征,并與用戶的聲紋特征進(jìn)行比對(duì),如果一個(gè)語(yǔ)音數(shù)據(jù)的聲紋特征與用戶的聲紋特征不一致,則說(shuō)明該語(yǔ)音數(shù)據(jù)不是該用戶的語(yǔ)音數(shù)據(jù)。由此,可根據(jù)比對(duì)結(jié)果從日常語(yǔ)音數(shù)據(jù)中篩選出與用戶的聲紋特征不一致的日常語(yǔ)音,并濾除。
[0044]S204,對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別,以獲取用戶的多個(gè)語(yǔ)音特征數(shù)據(jù)。
[0045]在本發(fā)明的實(shí)施例中,用戶的語(yǔ)音特征數(shù)據(jù)可包括用戶的身份特征數(shù)據(jù)、年齡特征數(shù)據(jù)和用戶所處的地區(qū)特征數(shù)據(jù)中的一種或多種。
[0046]其中,用戶的身份特征數(shù)據(jù)可包括用戶的性別信息;年齡特征數(shù)據(jù)為用戶所屬的年齡階段,如青少年、中年、老年等;可獲取所述日常語(yǔ)音數(shù)據(jù)的基頻特征,并根據(jù)所述基頻特征獲取所述用戶的身份特征數(shù)據(jù)和/或年齡特征數(shù)據(jù)?;l特征是指聲音中最低且通常情況下最強(qiáng)的頻率,通常被認(rèn)為是聲音的基礎(chǔ)音調(diào)。男性和女性的聲音的基頻特征以及不同年齡段的人的聲音的基頻都具有較大的區(qū)別,因此可預(yù)先根據(jù)不同性別對(duì)應(yīng)的基頻特征和不同年齡段對(duì)應(yīng)的基頻特征的建立基頻特征數(shù)據(jù)庫(kù)。從而將據(jù)獲取的到的用戶的日常語(yǔ)音數(shù)據(jù)的基頻特征與基頻特征數(shù)據(jù)庫(kù)中的基頻特征進(jìn)行比對(duì),以得到該用戶的身份特征數(shù)據(jù)和/或年齡特征數(shù)據(jù)。
[0047]用戶所處的地區(qū)特征是指用戶所在地或者用戶的籍貫地區(qū),可根據(jù)用戶所使用語(yǔ)言種類來(lái)判斷。語(yǔ)言種類可包括不同語(yǔ)種、方言等,例如、英語(yǔ)、日語(yǔ)、韓語(yǔ)、阿拉伯語(yǔ)、粵語(yǔ)、四川方言等。具體地,可對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)義解析,以獲取所述日常語(yǔ)音數(shù)據(jù)所屬的語(yǔ)言種類,并根據(jù)所述所屬的語(yǔ)言種類獲取所述用戶所處的地區(qū)特征數(shù)據(jù)。在對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)義解析后,可得到語(yǔ)音的具體內(nèi)容。然后,根據(jù)具體內(nèi)容中的詞匯、語(yǔ)義等于預(yù)先建立的語(yǔ)言詞匯數(shù)據(jù)庫(kù)進(jìn)行比對(duì),其中,語(yǔ)言詞匯數(shù)據(jù)庫(kù)中包括不同語(yǔ)言種類對(duì)應(yīng)的詞匯庫(kù)。從而可根據(jù)用戶的日常語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的詞匯比對(duì)出對(duì)應(yīng)的語(yǔ)言種類,并進(jìn)一步預(yù)測(cè)出該用戶所處的地區(qū)特征數(shù)據(jù)。例如,如果用戶使用的是葡萄牙語(yǔ),則用戶可能為來(lái)自葡萄牙語(yǔ)使用國(guó)的用戶或者用戶正處于葡萄牙語(yǔ)使用國(guó),如果用戶使用的是粵語(yǔ),則用戶可能為來(lái)自廣東、香港等地的用戶或者用戶正處于廣東、香港等地。
[0048]S205,根據(jù)獲取的多個(gè)語(yǔ)音特征數(shù)據(jù)建立用戶的特征數(shù)據(jù)庫(kù)。
[0049]對(duì)于每個(gè)用戶來(lái)說(shuō),可根據(jù)該用戶的身份特征數(shù)據(jù)、年齡特征數(shù)據(jù)和用戶所處的地區(qū)特征數(shù)據(jù)中的一種或多種,建立該用戶的特征數(shù)據(jù)庫(kù)。此外,由于語(yǔ)音數(shù)據(jù)本身具有聲紋特征,因此可針對(duì)不同用戶分別建立對(duì)應(yīng)的特征數(shù)據(jù)庫(kù)。由此,能夠準(zhǔn)確地獲取用戶的組成結(jié)構(gòu),更有利于挖掘不同用戶的潛在需求特征和個(gè)性化需求特征。
[0050]本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取方法,可根據(jù)用戶的聲紋特征對(duì)采集到的日常語(yǔ)音數(shù)據(jù)進(jìn)行篩選,以濾除非用戶的語(yǔ)音數(shù)據(jù),從而在提取用戶的特征數(shù)據(jù)時(shí),不會(huì)被其他用戶的語(yǔ)音數(shù)據(jù)干擾,能夠更準(zhǔn)確地提取用戶的特征數(shù)據(jù)。
[0051]圖3為根據(jù)本發(fā)明又一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取方法的流程圖。
[0052]如圖3所示,根據(jù)本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取方法,包括:
[0053]S301,采集用戶通過(guò)移動(dòng)終端輸入的日常語(yǔ)音數(shù)據(jù)。
[0054]其中,日常語(yǔ)音數(shù)據(jù)可以是通過(guò)安裝在移動(dòng)終端中的各種語(yǔ)音輸入裝置獲取的語(yǔ)音數(shù)據(jù)。在本發(fā)明的一個(gè)實(shí)施例中,舉例來(lái)說(shuō),可通過(guò)移動(dòng)終端中安裝的語(yǔ)音助手、語(yǔ)音SDK (Software Development Kit,軟件開(kāi)發(fā)工具包)以及使用語(yǔ)音識(shí)別引擎應(yīng)用程序等對(duì)用戶輸入的日常語(yǔ)音數(shù)據(jù)進(jìn)行采集,或者通過(guò)在用戶使用移動(dòng)終端進(jìn)行通話的過(guò)程中獲取的語(yǔ)音通話數(shù)據(jù)獲取用戶日常語(yǔ)音數(shù)據(jù)。
[0055]S302,獲取用戶的聲紋特征。
[0056]其中,聲紋特征是指語(yǔ)音的頻率、強(qiáng)度、聲壓隨時(shí)間推移的變化特征或者某一時(shí)間點(diǎn)上聲波強(qiáng)度和頻率的特征。具體地,在本發(fā)明的實(shí)施例中,可通過(guò)濾波器等方式對(duì)用戶的語(yǔ)音進(jìn)行分析得到該用戶的聲紋特征,當(dāng)然也可通過(guò)其他聲紋獲取方法來(lái)實(shí)現(xiàn),本發(fā)明對(duì)獲取聲紋特征的方式不做具體限定。
[0057]S303,根據(jù)用戶的聲紋特征對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行篩選,以濾除非用戶的語(yǔ)音數(shù)據(jù)。
[0058]具體地,在本發(fā)明的實(shí)施例中,可分別獲取采集到的日常語(yǔ)音數(shù)據(jù)的聲紋特征,并與用戶的聲紋特征進(jìn)行比對(duì),如果一個(gè)語(yǔ)音數(shù)據(jù)的聲紋特征與用戶的聲紋特征不一致,則說(shuō)明該語(yǔ)音數(shù)據(jù)不是該用戶的語(yǔ)音數(shù)據(jù)。由此,可根據(jù)比對(duì)結(jié)果從日常語(yǔ)音數(shù)據(jù)中篩選出與用戶的聲紋特征不一致的日常語(yǔ)音,并濾除。
[0059]S304,對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別,以獲取用戶的多個(gè)語(yǔ)音特征數(shù)據(jù)。
[0060]在本發(fā)明的實(shí)施例中,用戶的語(yǔ)音特征數(shù)據(jù)可包括用戶的身份特征數(shù)據(jù)、年齡特征數(shù)據(jù)和用戶所處的地區(qū)特征數(shù)據(jù)中的一種或多種。
[0061]其中,用戶的身份特征數(shù)據(jù)可包括用戶的性別信息;年齡特征數(shù)據(jù)為用戶所屬的年齡階段,如青少年、中年、老年等;可獲取所述日常語(yǔ)音數(shù)據(jù)的基頻特征,并根據(jù)所述基頻特征獲取所述用戶的身份特征數(shù)據(jù)和/或年齡特征數(shù)據(jù)?;l特征是指聲音中最低且通常情況下最強(qiáng)的頻率,通常被認(rèn)為是聲音的基礎(chǔ)音調(diào)。男性和女性的聲音的基頻特征以及不同年齡段的人的聲音的基頻都具有較大的區(qū)別,因此可預(yù)先根據(jù)不同性別對(duì)應(yīng)的基頻特征和不同年齡段對(duì)應(yīng)的基頻特征的建立基頻特征數(shù)據(jù)庫(kù)。從而將據(jù)獲取的到的用戶的日常語(yǔ)音數(shù)據(jù)的基頻特征與基頻特征數(shù)據(jù)庫(kù)中的基頻特征進(jìn)行比對(duì),以得到該用戶的身份特征數(shù)據(jù)和/或年齡特征數(shù)據(jù)。
[0062]用戶所處的地區(qū)特征是指用戶所在地或者用戶的籍貫地區(qū),可根據(jù)用戶所使用語(yǔ)言種類來(lái)判斷。語(yǔ)言種類可包括不同語(yǔ)種、方言等,例如、英語(yǔ)、日語(yǔ)、韓語(yǔ)、阿拉伯語(yǔ)、粵語(yǔ)、四川方言等。具體地,可對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)義解析,以獲取所述日常語(yǔ)音數(shù)據(jù)所屬的語(yǔ)言種類,并根據(jù)所述所屬的語(yǔ)言種類獲取所述用戶所處的地區(qū)特征數(shù)據(jù)。在對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)義解析后,可得到語(yǔ)音的具體內(nèi)容。然后,根據(jù)具體內(nèi)容中的詞匯、語(yǔ)義等于預(yù)先建立的語(yǔ)言詞匯數(shù)據(jù)庫(kù)進(jìn)行比對(duì),其中,語(yǔ)言詞匯數(shù)據(jù)庫(kù)中包括不同語(yǔ)言種類對(duì)應(yīng)的詞匯庫(kù)。從而可根據(jù)用戶的日常語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的詞匯比對(duì)出對(duì)應(yīng)的語(yǔ)言種類,并進(jìn)一步預(yù)測(cè)出該用戶所處的地區(qū)特征數(shù)據(jù)。例如,如果用戶使用的是葡萄牙語(yǔ),則用戶可能為來(lái)自葡萄牙語(yǔ)使用國(guó)的用戶或者用戶正處于葡萄牙語(yǔ)使用國(guó),如果用戶使用的是粵語(yǔ),則用戶可能為來(lái)自廣東、香港等地的用戶或者用戶正處于廣東、香港等地。
[0063]S305,根據(jù)獲取的多個(gè)語(yǔ)音特征數(shù)據(jù)建立用戶的特征數(shù)據(jù)庫(kù)。
[0064]對(duì)于每個(gè)用戶來(lái)說(shuō),可根據(jù)該用戶的身份特征數(shù)據(jù)、年齡特征數(shù)據(jù)和用戶所處的地區(qū)特征數(shù)據(jù)中的一種或多種,建立該用戶的特征數(shù)據(jù)庫(kù)。此外,由于語(yǔ)音數(shù)據(jù)本身具有聲紋特征,因此可針對(duì)不同用戶分別建立對(duì)應(yīng)的特征數(shù)據(jù)庫(kù)。由此,能夠準(zhǔn)確地獲取用戶的組成結(jié)構(gòu),更有利于挖掘不同用戶的潛在需求特征和個(gè)性化需求特征。
[0065]S306,采集用戶的歷史搜索數(shù)據(jù)。
[0066]其中,用戶的歷史搜索數(shù)據(jù)可包括用戶歷史搜索所使用的文本、語(yǔ)音、圖像等數(shù)據(jù)。具體地,可在用戶執(zhí)行搜索時(shí),對(duì)用戶輸入的文本、語(yǔ)音、圖像等數(shù)據(jù)進(jìn)行記錄,從而采集用戶的歷史搜索數(shù)據(jù)。
[0067]S307,根據(jù)歷史搜索數(shù)據(jù)獲取用戶的需求特征。
[0068]其中,用戶的需求特征為根據(jù)用戶喜歡或者感興趣的內(nèi)容、類別等信息預(yù)測(cè)出的用戶需求信息。
[0069]具體地,在本發(fā)明的實(shí)施例中,對(duì)于文本數(shù)據(jù),可對(duì)其進(jìn)行分詞、語(yǔ)義分析等以得到用戶搜索的關(guān)鍵字,從而可根據(jù)采集到的歷史文本數(shù)據(jù)統(tǒng)計(jì)挖掘出用戶經(jīng)常搜索的內(nèi)容、類別等;對(duì)于語(yǔ)音數(shù)據(jù),可對(duì)其進(jìn)行語(yǔ)音識(shí)別,以獲取語(yǔ)音數(shù)據(jù)的內(nèi)容,進(jìn)一步對(duì)該內(nèi)容進(jìn)行語(yǔ)義分析,從而可統(tǒng)計(jì)挖掘出用戶經(jīng)常搜索的內(nèi)容、類別等;對(duì)于圖像數(shù)據(jù),可對(duì)其進(jìn)行圖像識(shí)別,以獲取圖像內(nèi)容,從而可根據(jù)采集到的歷史圖像數(shù)據(jù)統(tǒng)計(jì)挖掘出用戶經(jīng)常搜索的內(nèi)容、類別等。
[0070]由此,可根據(jù)用戶經(jīng)常搜索的內(nèi)容、類別得到用戶喜歡或者感興趣的內(nèi)容、類別,并預(yù)測(cè)用戶的需求特征。舉例來(lái)說(shuō),如果用戶經(jīng)常搜索機(jī)票、風(fēng)景,可預(yù)測(cè)用戶的需求特征為旅游。
[0071 ] S308,根據(jù)用戶的需求特征更新用戶的特征數(shù)據(jù)庫(kù)。
[0072]在本發(fā)明的實(shí)施例中,可將用戶的需求特征加入到用戶的特征數(shù)據(jù)庫(kù)中。
[0073]進(jìn)一步地,還可根據(jù)用戶的需求特征對(duì)用戶的身份特征數(shù)據(jù)、年齡特征數(shù)據(jù)和用戶所處的地區(qū)特征數(shù)據(jù)進(jìn)一步精細(xì)化限定。
[0074]舉例來(lái)說(shuō),如果一個(gè)用戶經(jīng)常搜索衣服、美容等內(nèi)容,且該則用戶為一個(gè)男性,則可知用戶對(duì)時(shí)尚類比較感興趣,從而可將該用戶的身份特征由男性進(jìn)一步限定為時(shí)尚類行業(yè)相關(guān)人員。
[0075]由此,可根據(jù)進(jìn)一步限定后的用戶的特征數(shù)據(jù)更新用戶的特征數(shù)據(jù)庫(kù)。
[0076]應(yīng)當(dāng)理解,在本發(fā)明的實(shí)施例中,步驟S302和S303是可選的。
[0077]本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取方法,可根據(jù)用戶的歷史搜索數(shù)據(jù)獲取用戶的需求特征,并根據(jù)用戶的需求特征對(duì)用戶的特征數(shù)據(jù)庫(kù)進(jìn)行更新,從而能夠提取更精細(xì)化的用戶特征,有利于挖掘用戶省層次的需求。
[0078]在本發(fā)明的一個(gè)實(shí)施例中,在建立用戶的特征數(shù)據(jù)庫(kù)后,可根據(jù)用戶的特征數(shù)據(jù)庫(kù)中用戶的特征數(shù)據(jù)為用戶提供搜索結(jié)果,或者為用戶推送信息。
[0079]因此,在本發(fā)明的一個(gè)實(shí)施例中,還可包括獲取用戶的搜索詞,并根據(jù)用戶的特征數(shù)據(jù)庫(kù)和搜索詞向用戶反饋搜索結(jié)果的步驟。其中,用戶需要進(jìn)行搜索,可通過(guò)搜索引擎或者其他應(yīng)用程序輸入搜索詞,其中,搜索詞可以通過(guò)文本、語(yǔ)音等形式輸入。具體地,可根據(jù)搜索結(jié)果與搜索詞的相關(guān)度和匹配度獲取多個(gè)搜索結(jié)果,然后,根據(jù)用戶的特征數(shù)據(jù)庫(kù)中用戶的特征數(shù)據(jù)對(duì)獲取到的多個(gè)搜索結(jié)果進(jìn)步進(jìn)行篩選、重新排序后提供給用戶。由此,能夠更有針對(duì)性地為用戶提供搜索結(jié)果,搜索結(jié)果更能滿足用戶需求,提升了用戶的搜索體驗(yàn)。
[0080]舉例來(lái)說(shuō),對(duì)于搜索詞“美食”,可獲取多個(gè)餐飲相關(guān)的結(jié)果,而根據(jù)用戶的特征數(shù)據(jù)庫(kù)可知,該用戶為四川人,則可從多個(gè)餐飲結(jié)果用篩選出四川美食提供給用戶。
[0081]在本發(fā)明的另一個(gè)實(shí)施例中,還可包括根據(jù)用戶的特征數(shù)據(jù)庫(kù)向用戶推送信息的步驟。具體地,可根據(jù)用戶的特征數(shù)據(jù)中用戶的特征數(shù)據(jù)獲取符合用戶特征的信息,并推送給用戶,從而能夠智能根據(jù)用戶需求為用戶主動(dòng)提供信息,且推送的信息更符合用戶的需求和興趣,提升了用戶體驗(yàn)。
[0082]舉例來(lái)說(shuō),如果用戶為天津的孕婦,則可為用戶推薦天津比較好的婦產(chǎn)醫(yī)院,并可定期為用戶推薦一些孕婦在不同階段需要注意的事項(xiàng)等信息。
[0083]應(yīng)當(dāng)理解,本發(fā)明實(shí)施例建立的用戶的特征數(shù)據(jù)庫(kù),不僅可應(yīng)用于語(yǔ)音搜索、推薦系統(tǒng),也可以應(yīng)用于圖像搜索、推薦系統(tǒng)以及傳統(tǒng)的文本搜索、推薦系統(tǒng)。從而能夠根據(jù)用戶的特征更準(zhǔn)確的預(yù)測(cè)用戶需求,并為用戶精準(zhǔn)地提供或推薦其需要的信息,降低了用戶獲取信息的成本,提升了體驗(yàn)。
[0084]為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出一種用戶特征數(shù)據(jù)的提取裝置。
[0085]一種用戶特征數(shù)據(jù)的提取裝置,包括:第一采集模塊,用于采集用戶通過(guò)移動(dòng)終端輸入的日常語(yǔ)音數(shù)據(jù);特征識(shí)別模塊,用于對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別,以獲取用戶的多個(gè)語(yǔ)音特征數(shù)據(jù);以及建立模塊,用于根據(jù)獲取的多個(gè)語(yǔ)音特征數(shù)據(jù)建立用戶的特征數(shù)據(jù)庫(kù)。
[0086]圖4為根據(jù)本發(fā)明一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取裝置的結(jié)構(gòu)示意圖。
[0087]如圖4所示,根據(jù)本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取裝置,包括:第一采集模塊10、特征識(shí)別模塊20和建立模塊30。
[0088]具體地,第一采集模塊10用于采集用戶通過(guò)移動(dòng)終端輸入的日常語(yǔ)音數(shù)據(jù)。其中,日常語(yǔ)音數(shù)據(jù)可以是第一采集模塊10通過(guò)安裝在移動(dòng)終端中的各種語(yǔ)音輸入裝置獲取的語(yǔ)音數(shù)據(jù)。在本發(fā)明的一個(gè)實(shí)施例中,舉例來(lái)說(shuō),第一采集模塊10可通過(guò)移動(dòng)終端中安裝的語(yǔ)音助手、語(yǔ)音SDK (Software Development Kit,軟件開(kāi)發(fā)工具包)以及使用語(yǔ)音識(shí)別引擎應(yīng)用程序等對(duì)用戶輸入的日常語(yǔ)音數(shù)據(jù)進(jìn)行采集,或者通過(guò)在用戶使用移動(dòng)終端進(jìn)行通話的過(guò)程中獲取的語(yǔ)音通話數(shù)據(jù)獲取用戶日常語(yǔ)音數(shù)據(jù)。
[0089]特征識(shí)別模塊20用于對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別,以獲取用戶的多個(gè)語(yǔ)音特征數(shù)據(jù)。
[0090]在本發(fā)明的實(shí)施例中,用戶的語(yǔ)音特征數(shù)據(jù)可包括用戶的身份特征數(shù)據(jù)、年齡特征數(shù)據(jù)和用戶所處的地區(qū)特征數(shù)據(jù)中的一種或多種。
[0091]其中,用戶的身份特征數(shù)據(jù)可包括用戶的性別信息;年齡特征數(shù)據(jù)為用戶所屬的年齡階段,如青少年、中年、老年等;用戶所處的地區(qū)特征是指用戶所在地或者用戶的籍貫地區(qū)。
[0092]在本發(fā)明的實(shí)施例中,特征識(shí)別模塊20可具體包括:獲取單元21和語(yǔ)義解析單元22。
[0093]獲取單元21用于獲取所述日常語(yǔ)音數(shù)據(jù)的基頻特征,并根據(jù)所述基頻特征獲取所述用戶的身份特征數(shù)據(jù)和/或年齡特征數(shù)據(jù)?;l特征是指聲音中最低且通常情況下最強(qiáng)的頻率,通常被認(rèn)為是聲音的基礎(chǔ)音調(diào)。男性和女性的聲音的基頻特征以及不同年齡段的人的聲音的基頻都具有較大的區(qū)別,因此可預(yù)先根據(jù)不同性別對(duì)應(yīng)的基頻特征和不同年齡段對(duì)應(yīng)的基頻特征的建立基頻特征數(shù)據(jù)庫(kù)。從而獲取單元21將據(jù)獲取的到的用戶的日常語(yǔ)音數(shù)據(jù)的基頻特征與基頻特征數(shù)據(jù)庫(kù)中的基頻特征進(jìn)行比對(duì),以得到該用戶的身份特征數(shù)據(jù)和/或年齡特征數(shù)據(jù)。
[0094]語(yǔ)義解析單元22用于對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)義解析,以獲取所述日常語(yǔ)音數(shù)據(jù)所屬的語(yǔ)言種類,并根據(jù)所述所屬的語(yǔ)言種類獲取所述用戶所處的地區(qū)特征數(shù)據(jù)。用戶所處的地區(qū)特征可根據(jù)用戶所使用語(yǔ)言種類來(lái)判斷。語(yǔ)言種類可包括不同語(yǔ)種、方言等,例如、英語(yǔ)、日語(yǔ)、韓語(yǔ)、阿拉伯語(yǔ)、粵語(yǔ)、四川方言等。語(yǔ)義解析單元22可對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)義解析,以獲取所述日常語(yǔ)音數(shù)據(jù)所屬的語(yǔ)言種類,并根據(jù)所述所屬的語(yǔ)言種類獲取所述用戶所處的地區(qū)特征數(shù)據(jù)。在對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)義解析后,可得到語(yǔ)音的具體內(nèi)容。然后,根據(jù)具體內(nèi)容中的詞匯、語(yǔ)義等于預(yù)先建立的語(yǔ)言詞匯數(shù)據(jù)庫(kù)進(jìn)行比對(duì),其中,語(yǔ)言詞匯數(shù)據(jù)庫(kù)中包括不同語(yǔ)言種類對(duì)應(yīng)的詞匯庫(kù)。從而可根據(jù)用戶的日常語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的詞匯比對(duì)出對(duì)應(yīng)的語(yǔ)言種類,并進(jìn)一步預(yù)測(cè)出該用戶所處的地區(qū)特征數(shù)據(jù)。例如,如果用戶使用的是葡萄牙語(yǔ),則用戶可能為來(lái)自葡萄牙語(yǔ)使用國(guó)的用戶或者用戶正處于葡萄牙語(yǔ)使用國(guó),如果用戶使用的是粵語(yǔ),則用戶可能為來(lái)自廣東、香港等地的用戶或者用戶正處于廣東、香港等地。
[0095]建立模塊30用于根據(jù)獲取的多個(gè)語(yǔ)音特征數(shù)據(jù)建立用戶的特征數(shù)據(jù)庫(kù)。對(duì)于每個(gè)用戶來(lái)說(shuō),建立模塊30可根據(jù)該用戶的身份特征數(shù)據(jù)、年齡特征數(shù)據(jù)和用戶所處的地區(qū)特征數(shù)據(jù)中的一種或多種,建立該用戶的特征數(shù)據(jù)庫(kù)。此外,由于語(yǔ)音數(shù)據(jù)本身具有聲紋特征,因此可針對(duì)不同用戶分別建立對(duì)應(yīng)的特征數(shù)據(jù)庫(kù)。由此,能夠準(zhǔn)確地獲取用戶的組成結(jié)構(gòu),更有利于挖掘不同用戶的潛在需求特征和個(gè)性化需求特征。
[0096]本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取裝置,通過(guò)采集用戶輸入的日常語(yǔ)音數(shù)據(jù),并進(jìn)行特征識(shí)別,以獲取用戶的多個(gè)語(yǔ)音特征數(shù)據(jù),并據(jù)此建立用戶的特征數(shù)據(jù)庫(kù),從而根據(jù)用戶的語(yǔ)音數(shù)據(jù)進(jìn)行針對(duì)性的分析,能夠方便、準(zhǔn)確地獲取用戶的特征數(shù)據(jù)以及組成結(jié)構(gòu),并且語(yǔ)音數(shù)據(jù)本身可用于標(biāo)識(shí)用戶,因而有利于獲取用戶的潛在需求和個(gè)性化需求。
[0097]圖5為根據(jù)本發(fā)明一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取裝置的結(jié)構(gòu)示意圖。
[0098]如圖5所示,根據(jù)本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取裝置,包括:第一采集模塊10、特征識(shí)別模塊20、建立模塊30和篩選模塊40。
[0099]具體地,篩選模塊40用于在對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別之前,獲取用戶的聲紋特征,并根據(jù)用戶的聲紋特征對(duì)日常語(yǔ)音數(shù)據(jù)進(jìn)行篩選,以濾除非用戶的語(yǔ)音數(shù)據(jù)。
[0100]其中,聲紋特征是指語(yǔ)音的頻率、強(qiáng)度、聲壓隨時(shí)間推移的變化特征或者某一時(shí)間點(diǎn)上聲波強(qiáng)度和頻率的特征。具體地,在本發(fā)明的實(shí)施例中,篩選模塊40可通過(guò)濾波器等方式對(duì)用戶的語(yǔ)音進(jìn)行分析得到該用戶的聲紋特征,當(dāng)然也可通過(guò)其他聲紋獲取方法來(lái)實(shí)現(xiàn),本發(fā)明對(duì)獲取聲紋特征的方式不做具體限定。然后,篩選模塊40可分別獲取采集到的日常語(yǔ)音數(shù)據(jù)的聲紋特征,并與用戶的聲紋特征進(jìn)行比對(duì),如果一個(gè)語(yǔ)音數(shù)據(jù)的聲紋特征與用戶的聲紋特征不一致,則說(shuō)明該語(yǔ)音數(shù)據(jù)不是該用戶的語(yǔ)音數(shù)據(jù)。由此,篩選模塊40可根據(jù)比對(duì)結(jié)果從日常語(yǔ)音數(shù)據(jù)中篩選出與用戶的聲紋特征不一致的日常語(yǔ)音,并濾除。
[0101]本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取裝置,可根據(jù)用戶的聲紋特征對(duì)采集到的日常語(yǔ)音數(shù)據(jù)進(jìn)行篩選,以濾除非用戶的語(yǔ)音數(shù)據(jù),從而在提取用戶的特征數(shù)據(jù)時(shí),不會(huì)被其他用戶的語(yǔ)音數(shù)據(jù)干擾,能夠更準(zhǔn)確地提取用戶的特征數(shù)據(jù)。
[0102]圖6為根據(jù)本發(fā)明一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取裝置的結(jié)構(gòu)示意圖。
[0103]如圖6所示,根據(jù)本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取裝置,包括:第一采集模塊10、特征識(shí)別模塊20、建立模塊30、篩選模塊40、第二采集模塊50、獲取模塊60和更新模塊70。其中,篩選模塊40是可選的。
[0104]具體地,第二采集模塊50用于采集用戶的歷史搜索數(shù)據(jù)。其中,用戶的歷史搜索數(shù)據(jù)可包括用戶歷史搜索所使用的文本、語(yǔ)音、圖像等數(shù)據(jù)。更具體地,第二采集模塊50可在用戶執(zhí)行搜索時(shí),對(duì)用戶輸入的文本、語(yǔ)音、圖像等數(shù)據(jù)進(jìn)行記錄,從而采集用戶的歷史搜索數(shù)據(jù)。
[0105]獲取模塊60用于根據(jù)歷史搜索數(shù)據(jù)獲取用戶的需求特征。其中,用戶的需求特征為根據(jù)用戶喜歡或者感興趣的內(nèi)容、類別等信息預(yù)測(cè)出的用戶需求信息。
[0106]更具體地,在本發(fā)明的實(shí)施例中,對(duì)于文本數(shù)據(jù),獲取模塊60可對(duì)其進(jìn)行分詞、語(yǔ)義分析等以得到用戶搜索的關(guān)鍵字,從而可根據(jù)采集到的歷史文本數(shù)據(jù)統(tǒng)計(jì)挖掘出用戶經(jīng)常搜索的內(nèi)容、類別等;對(duì)于語(yǔ)音數(shù)據(jù),獲取模塊60可對(duì)其進(jìn)行語(yǔ)音識(shí)別,以獲取語(yǔ)音數(shù)據(jù)的內(nèi)容,進(jìn)一步對(duì)該內(nèi)容進(jìn)行語(yǔ)義分析,從而可統(tǒng)計(jì)挖掘出用戶經(jīng)常搜索的內(nèi)容、類別等;對(duì)于圖像數(shù)據(jù),獲取模塊60可對(duì)其進(jìn)行圖像識(shí)別,以獲取圖像內(nèi)容,從而可根據(jù)采集到的歷史圖像數(shù)據(jù)統(tǒng)計(jì)挖掘出用戶經(jīng)常搜索的內(nèi)容、類別等。
[0107]由此,獲取模塊60可根據(jù)用戶經(jīng)常搜索的內(nèi)容、類別得到用戶喜歡或者感興趣的內(nèi)容、類別,并預(yù)測(cè)用戶的需求特征。舉例來(lái)說(shuō),如果用戶經(jīng)常搜索機(jī)票、風(fēng)景,可預(yù)測(cè)用戶的需求特征為旅游。
[0108]更新模塊70用于根據(jù)用戶的需求特征更新用戶的特征數(shù)據(jù)庫(kù)。在本發(fā)明的實(shí)施例中,更新模塊70可將用戶的需求特征加入到用戶的特征數(shù)據(jù)庫(kù)中。進(jìn)一步地,更新模塊70還可根據(jù)用戶的需求特征對(duì)用戶的身份特征數(shù)據(jù)、年齡特征數(shù)據(jù)和用戶所處的地區(qū)特征數(shù)據(jù)進(jìn)一步精細(xì)化限定。
[0109]舉例來(lái)說(shuō),如果一個(gè)用戶經(jīng)常搜索衣服、美容等內(nèi)容,且該則用戶為一個(gè)男性,則可知用戶對(duì)時(shí)尚類比較感興趣,從而可將該用戶的身份特征由男性進(jìn)一步限定為時(shí)尚類行業(yè)相關(guān)人員。
[0110]由此,可根據(jù)進(jìn)一步限定后的用戶的特征數(shù)據(jù)更新用戶的特征數(shù)據(jù)庫(kù)。
[0111]本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取裝置,可根據(jù)用戶的歷史搜索數(shù)據(jù)獲取用戶的需求特征,并根據(jù)用戶的需求特征對(duì)用戶的特征數(shù)據(jù)庫(kù)進(jìn)行更新,從而能夠提取更精細(xì)化的用戶特征,有利于挖掘用戶省層次的需求。
[0112]圖7為根據(jù)本發(fā)明一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取裝置的結(jié)構(gòu)示意圖。
[0113]如圖7所示,根據(jù)本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取裝置,包括:第一采集模塊10、特征識(shí)別模塊20、建立模塊30、篩選模塊40、第二采集模塊50、獲取模塊60、更新模塊70和搜索模塊80。其中,篩選模塊40、第二采集模塊50、獲取模塊60和更新模塊70是可選的。
[0114]具體地,搜索模塊80用于獲取用戶的搜索詞,并根據(jù)用戶的特征數(shù)據(jù)庫(kù)和搜索詞向用戶反饋搜索結(jié)果。其中,用戶需要進(jìn)行搜索,可通過(guò)搜索引擎或者其他應(yīng)用程序輸入搜索詞,其中,搜索詞可以通過(guò)文本、語(yǔ)音等形式輸入。更具體地,搜索模塊80可根據(jù)搜索結(jié)果與搜索詞的相關(guān)度和匹配度獲取多個(gè)搜索結(jié)果,然后,根據(jù)用戶的特征數(shù)據(jù)庫(kù)中用戶的特征數(shù)據(jù)對(duì)獲取到的多個(gè)搜索結(jié)果進(jìn)步進(jìn)行篩選、重新排序后提供給用戶。
[0115]舉例來(lái)說(shuō),對(duì)于搜索詞“美食”,可獲取多個(gè)餐飲相關(guān)的結(jié)果,而根據(jù)用戶的特征數(shù)據(jù)庫(kù)可知,該用戶為四川人,則可從多個(gè)餐飲結(jié)果用篩選出四川美食提供給用戶。
[0116]本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取裝置,能夠更有針對(duì)性地為用戶提供搜索結(jié)果,搜索結(jié)果更能滿足用戶需求,提升了用戶的搜索體驗(yàn)。
[0117]圖8為根據(jù)本發(fā)明一個(gè)實(shí)施例的用戶特征數(shù)據(jù)的提取裝置的結(jié)構(gòu)示意圖。
[0118]如圖8所示,根據(jù)本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取裝置,包括:第一采集模塊10、特征識(shí)別模塊20、建立模塊30、篩選模塊40、第二采集模塊50、獲取模塊60、更新模塊70和推送模塊90。其中,篩選模塊40、第二采集模塊50、獲取模塊60和更新模塊70是可選的。
[0119]具體地,推送模塊90用于根據(jù)用戶的特征數(shù)據(jù)庫(kù)向用戶推送信息。更具體地,推送模塊90可根據(jù)用戶的特征數(shù)據(jù)中用戶的特征數(shù)據(jù)獲取符合用戶特征的信息,并推送給用戶。
[0120]舉例來(lái)說(shuō),如果用戶為天津的孕婦,則可為用戶推薦天津比較好的婦產(chǎn)醫(yī)院,并可定期為用戶推薦一些孕婦在不同階段需要注意的事項(xiàng)等信息。
[0121]本發(fā)明實(shí)施例的用戶特征數(shù)據(jù)的提取裝置,能夠智能根據(jù)用戶需求為用戶主動(dòng)提供信息,且推送的信息更符合用戶的需求和興趣,提升了用戶體驗(yàn)。
[0122]流程圖中或在此以其他方式描述的任何過(guò)程或方法描述可以被理解為,表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過(guò)程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來(lái)執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬【技術(shù)領(lǐng)域】的技術(shù)人員所理解。
[0123]在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認(rèn)為是用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實(shí)現(xiàn)在任何計(jì)算機(jī)可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計(jì)算機(jī)的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說(shuō)明書(shū)而言,"計(jì)算機(jī)可讀介質(zhì)"可以是任何可以包含、存儲(chǔ)、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計(jì)算機(jī)可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個(gè)或多個(gè)布線的電連接部(電子裝置),便攜式計(jì)算機(jī)盤盒(磁裝置),隨機(jī)存取存儲(chǔ)器(RAM),只讀存儲(chǔ)器(R0M),可擦除可編輯只讀存儲(chǔ)器(EPR0M或閃速存儲(chǔ)器),光纖裝置,以及便攜式光盤只讀存儲(chǔ)器(⑶ROM)。另外,計(jì)算機(jī)可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因?yàn)榭梢岳缤ㄟ^(guò)對(duì)紙或其他介質(zhì)進(jìn)行光學(xué)掃描,接著進(jìn)行編輯、解譯或必要時(shí)以其他合適方式進(jìn)行處理來(lái)以電子方式獲得所述程序,然后將其存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器中。
[0124]應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來(lái)實(shí)現(xiàn)。在上述實(shí)施方式中,多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來(lái)實(shí)現(xiàn)。例如,如果用硬件來(lái)實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來(lái)實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場(chǎng)可編程門陣列(FPGA)等。
[0125]本【技術(shù)領(lǐng)域】的普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括方法實(shí)施例的步驟之一或其組合。
[0126]此外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。
[0127]上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。
[0128]在本說(shuō)明書(shū)的描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書(shū)中,對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
[0129]盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,本領(lǐng)域的普通技術(shù)人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對(duì)這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由權(quán)利要求及其等同限定。
【權(quán)利要求】
1.一種用戶特征數(shù)據(jù)的提取方法,其特征在于,包括以下步驟: 采集用戶通過(guò)移動(dòng)終端輸入的日常語(yǔ)音數(shù)據(jù); 對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別,以獲取所述用戶的多個(gè)語(yǔ)音特征數(shù)據(jù);以及 根據(jù)獲取的所述多個(gè)語(yǔ)音特征數(shù)據(jù)建立所述用戶的特征數(shù)據(jù)庫(kù)。
2.如權(quán)利要求1所述的用戶特征數(shù)據(jù)的提取方法,其特征在于,所述對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別,以獲取所述用戶的多個(gè)語(yǔ)音特征數(shù)據(jù)具體包括: 獲取所述日常語(yǔ)音數(shù)據(jù)的基頻特征,并根據(jù)所述基頻特征獲取所述用戶的身份特征數(shù)據(jù)和/或年齡特征數(shù)據(jù);和/或, 對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)義解析,以獲取所述日常語(yǔ)音數(shù)據(jù)所屬的語(yǔ)言種類,并根據(jù)所述所屬的語(yǔ)言種類獲取所述用戶所處的地區(qū)特征數(shù)據(jù)。
3.如權(quán)利要求1所述的用戶特征數(shù)據(jù)的提取方法,其特征在于,在對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別之前還包括: 獲取所述用戶的聲紋特征;以及 根據(jù)所述用戶的聲紋特征對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行篩選,以濾除非所述用戶的語(yǔ)音數(shù)據(jù)。
4.如權(quán)利要求1所述的用戶特征數(shù)據(jù)的提取方法,其特征在于,還包括: 采集所述用戶的歷史搜索數(shù)據(jù); 根據(jù)所述歷史搜索數(shù)據(jù)獲取用戶的需求特征; 根據(jù)所述用戶的需求特征更新所述用戶的特征數(shù)據(jù)庫(kù)。
5.如權(quán)利要求1-4任一項(xiàng)所述的用戶特征數(shù)據(jù)的提取方法,其特征在于,還包括: 獲取所述用戶的搜索詞;以及 根據(jù)所述用戶的特征數(shù)據(jù)庫(kù)和所述搜索詞向所述用戶反饋搜索結(jié)果。
6.如權(quán)利要求1-4任一項(xiàng)所述的用戶特征數(shù)據(jù)的提取方法,其特征在于,還包括: 根據(jù)所述用戶的特征數(shù)據(jù)庫(kù)向所述用戶推送信息。
7.一種用戶特征數(shù)據(jù)的提取裝置,其特征在于,包括: 第一采集模塊,用于采集用戶通過(guò)移動(dòng)終端輸入的日常語(yǔ)音數(shù)據(jù); 特征識(shí)別模塊,用于對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別,以獲取所述用戶的多個(gè)語(yǔ)音特征數(shù)據(jù);以及 建立模塊,用于根據(jù)獲取的所述多個(gè)語(yǔ)音特征數(shù)據(jù)建立所述用戶的特征數(shù)據(jù)庫(kù)。
8.如權(quán)利要求7所述的用戶特征數(shù)據(jù)的提取裝置,其特征在于,所述特征識(shí)別模塊具體包括: 獲取單元,用于獲取所述日常語(yǔ)音數(shù)據(jù)的基頻特征,并根據(jù)所述基頻特征獲取所述用戶的身份特征數(shù)據(jù)和/或年齡特征數(shù)據(jù); 語(yǔ)義解析單元,用于對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)義解析,以獲取所述日常語(yǔ)音數(shù)據(jù)所屬的語(yǔ)言種類,并根據(jù)所述所屬的語(yǔ)言種類獲取所述用戶所處的地區(qū)特征數(shù)據(jù)。
9.如權(quán)利要求8所述的用戶特征數(shù)據(jù)的提取裝置,其特征在于,還包括: 篩選模塊,用于在對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行特征識(shí)別之前,獲取所述用戶的聲紋特征,并根據(jù)所述用戶的聲紋特征對(duì)所述日常語(yǔ)音數(shù)據(jù)進(jìn)行篩選,以濾除非所述用戶的語(yǔ)音數(shù)據(jù)。
10.如權(quán)利要求7所述的用戶特征數(shù)據(jù)的提取裝置,其特征在于,還包括: 第二采集模塊,用于采集所述用戶的歷史搜索數(shù)據(jù); 獲取模塊,用于根據(jù)所述歷史搜索數(shù)據(jù)獲取用戶的需求特征;更新模塊,用于根據(jù)所述用戶的需求特征更新所述用戶的特征數(shù)據(jù)庫(kù)。
11.如權(quán)利要求7-9任一項(xiàng)所述的用戶特征數(shù)據(jù)的提取裝置,其特征在于,還包括: 搜索模塊,用于獲取所述用戶的搜索詞,并根據(jù)所述用戶的特征數(shù)據(jù)庫(kù)和所述搜索詞向所述用戶反饋搜索結(jié)果。
12.如權(quán)利要求7-9任一項(xiàng)所述的用戶特征數(shù)據(jù)的提取裝置,其特征在于,還包括: 推送模塊,用于根據(jù)所述用戶的特征數(shù)據(jù)庫(kù)向所述用戶推送信息。
【文檔編號(hào)】G06F17/30GK104239456SQ201410443469
【公開(kāi)日】2014年12月24日 申請(qǐng)日期:2014年9月2日 優(yōu)先權(quán)日:2014年9月2日
【發(fā)明者】趙鵬飛, 馬旭, 楊亮 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司