两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

拼音字符串處理方法和裝置制造方法

文檔序號(hào):6508663閱讀:393來源:國(guó)知局
拼音字符串處理方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種拼音字符串處理方法和裝置,其中,拼音字符串處理方法包括:接收拼音字符串的輸入,獲取當(dāng)前環(huán)境信息;其中,所述當(dāng)前環(huán)境信息為接收所述拼音字符串的當(dāng)前應(yīng)用程序和/或輸入框的信息;依據(jù)預(yù)設(shè)的配置信息,獲取輸入所述拼音字符串的個(gè)性化信息;其中,所述個(gè)性化信息中包括用戶習(xí)慣信息和歷史環(huán)境信息,所述歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息;依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,從而確定所述拼音字符串中分詞符的位置。通過本申請(qǐng),減少了用戶在進(jìn)行漢字輸入時(shí)的交互動(dòng)作,提高了輸入效率。
【專利說明】拼音字符串處理方法和裝置

【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及輸入法【技術(shù)領(lǐng)域】,特別是涉及一種拼音字符串處理方法和裝置。

【背景技術(shù)】
[0002]輸入法是按照拼音字符串即拼音串輸入漢字的方法,為了能把用戶輸入的拼音字符串轉(zhuǎn)換為漢字輸出,需要首先對(duì)用戶輸入的拼音字符串進(jìn)行切分,將拼音字符串分割為合法的音節(jié)組合,然后將音節(jié)組合轉(zhuǎn)換為漢字。
[0003]一種拼音字符串處理方法如圖1所示,該方法包括以下步驟:步驟S102,對(duì)接收到的拼音字符串進(jìn)行切分,分別將拼音字符串中的聲母和韻母作為切分子串得到切分子串序列;步驟S104,對(duì)切分子串序列中的切分子串進(jìn)行擴(kuò)展,并根據(jù)擴(kuò)展結(jié)果生成擴(kuò)展子串序列集合;步驟S106,按照音節(jié)組成特征對(duì)擴(kuò)展子串序列集合中每個(gè)擴(kuò)展子串序列進(jìn)行音節(jié)抽取,得到對(duì)應(yīng)的音節(jié)序列;步驟S108,對(duì)各音節(jié)序列中的音節(jié)組合進(jìn)行合法性驗(yàn)證,并根據(jù)驗(yàn)證結(jié)果刪除包含有非法音節(jié)的音節(jié)序列;步驟S110,輸出進(jìn)行了合法性驗(yàn)證后的音節(jié)組合。
[0004]使用上述拼音字符串處理方法輸入漢字時(shí),由系統(tǒng)采用簡(jiǎn)單匹配的方式顯示各組音節(jié)組合供用戶選擇,如采用固有的規(guī)律對(duì)拼音字符串進(jìn)行分詞,按照順序顯示音節(jié)組合,也即,系統(tǒng)過于粗暴地為用戶將拼音字符串對(duì)應(yīng)的音節(jié)組合做了排序和選擇。尤其是在用戶使用傳統(tǒng)的九鍵鍵盤時(shí),使用九鍵拼音輸入法進(jìn)行輸入時(shí),由于鍵盤中每個(gè)按鍵存在復(fù)用的情況,輸入的每個(gè)拼音字符串對(duì)應(yīng)了很多的音節(jié)組合,上述傳統(tǒng)的拼音字符串處理方式無法滿足用戶對(duì)輸入的內(nèi)容的期望,這種方式僅能夠統(tǒng)一地給出同樣的各組音節(jié)組合的排序,導(dǎo)致用戶在選擇需要的音節(jié)組合時(shí)會(huì)使用較多的交互動(dòng)作才能查找到欲輸入的候選項(xiàng),降低了輸入效率。


【發(fā)明內(nèi)容】

[0005]本發(fā)明提供了一種拼音字符串處理方法和裝置,以解決目前的拼音字符串處理過程中,僅能夠統(tǒng)一地給出同樣的各組音節(jié)組合的排序,,導(dǎo)致用戶在選擇需要的音節(jié)組合時(shí)使用較多的交互動(dòng)作才能找到欲輸入的候選項(xiàng),無法滿足個(gè)性化輸入需求,輸入效率較低的問題。
[0006]為了解決上述問題,本發(fā)明公開了一種拼音字符串處理方法,包括:
[0007]接收拼音字符串的輸入,獲取當(dāng)前環(huán)境信息;其中,所述當(dāng)前環(huán)境信息為接收所述拼音字符串的當(dāng)前應(yīng)用程序和/或輸入框的信息;
[0008]依據(jù)預(yù)設(shè)的配置信息,獲取輸入所述拼音字符串的個(gè)性化信息;其中,所述個(gè)性化信息中包括用戶習(xí)慣信息和歷史環(huán)境信息,所述歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息;
[0009]依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,從而確定所述拼音字符串中分詞符的位置。
[0010]優(yōu)選地,所述個(gè)性化信息還包括:時(shí)間信息和/或位置信息;其中,所述時(shí)間信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的時(shí)間;所述位置信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的地理位置;
[0011]所述依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選時(shí),依據(jù)所述用戶習(xí)慣信息和所述當(dāng)前環(huán)境信息,以及所述當(dāng)前時(shí)間信息和/或所述當(dāng)前位置信息,對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選。
[0012]優(yōu)選地,所述依據(jù)所述用戶習(xí)慣信息和所述當(dāng)前環(huán)境的信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,從而確定所述拼音字符串中分詞符的位置的步驟包括:
[0013]根據(jù)所述拼音字符串對(duì)應(yīng)的各組音節(jié)組合與所述用戶習(xí)慣信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值;
[0014]根據(jù)所述當(dāng)前環(huán)境信息與所述歷史環(huán)境信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的環(huán)境權(quán)值;
[0015]根據(jù)所述當(dāng)前時(shí)間信息和/或所述當(dāng)前位置信息與對(duì)應(yīng)的所述時(shí)間信息和/或位置信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的時(shí)間權(quán)值和/或地點(diǎn)權(quán)值;
[0016]對(duì)所述各組音節(jié)組合對(duì)應(yīng)的各權(quán)值進(jìn)行求和,獲得所述各組音節(jié)組合的總特征權(quán)值,根據(jù)所述總特征權(quán)值對(duì)所述各組音節(jié)組合進(jìn)行排序,并根據(jù)排序在前的音節(jié)組合確定所述拼音字符串中分詞符的位置。
[0017]優(yōu)選地,所述個(gè)性化信息從服務(wù)器端獲取,并通過以下方式生成:
[0018]獲取所述用戶進(jìn)行網(wǎng)絡(luò)訪問時(shí)的歷史行為信息;其中,所述歷史行為信息中包括:所述用戶往期進(jìn)行輸入的內(nèi)容、時(shí)間、地理位置、輸入環(huán)境,和/或,所述用戶往期進(jìn)行網(wǎng)絡(luò)訪問的內(nèi)容、時(shí)間、地理位置;
[0019]分別根據(jù)預(yù)設(shè)的興趣模型、環(huán)境模型、時(shí)間模型和位置模型,分別對(duì)所述歷史行為信息進(jìn)行分析處理;
[0020]根據(jù)所述歷史行為信息進(jìn)行分析處理的結(jié)果,生成所述服務(wù)器端對(duì)應(yīng)的個(gè)性化信肩、O
[0021]優(yōu)選地,所述興趣模型包括個(gè)體興趣模型和群體興趣模型;
[0022]當(dāng)根據(jù)所述拼音字符串對(duì)應(yīng)的各組音節(jié)組合與所述用戶習(xí)慣信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值時(shí):將所述各組音節(jié)組合分別與通過所述個(gè)體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配;
[0023]若匹配不成功,則將所述各組音節(jié)組合分別與通過所述個(gè)體興趣模型對(duì)應(yīng)的群體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配;
[0024]根據(jù)所述各組音節(jié)組合與所述群體興趣模型的匹配結(jié)果獲得所述各組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值。
[0025]優(yōu)選地,所述習(xí)慣權(quán)值通過以下方式獲得:目標(biāo)音節(jié)組合被選擇次數(shù)+所述拼音字符串對(duì)應(yīng)的多個(gè)音節(jié)組合總輸入次數(shù)XN,其中,N為權(quán)重系數(shù),且N為大于O的自然數(shù)。
[0026]優(yōu)選地,在所述對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選之后,還包括:
[0027]獲得篩選得到的音節(jié)組合分別對(duì)應(yīng)的候選詞;
[0028]獲取各所述候選詞對(duì)應(yīng)的附加權(quán)值;其中,所述附加權(quán)值根據(jù)對(duì)所有用戶對(duì)所述各組漢字的選擇進(jìn)行分析統(tǒng)計(jì)后得到;
[0029]根據(jù)所述附加權(quán)值對(duì)所述候選詞進(jìn)行排序后輸出。
[0030]優(yōu)選地,所述附加權(quán)值除了根據(jù)對(duì)所有用戶對(duì)所述各組漢字的選擇進(jìn)行分析統(tǒng)計(jì)后得到外,還包括:
[0031]根據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息,對(duì)選擇出的所述各組漢字進(jìn)行分析統(tǒng)計(jì)后得到。
[0032]優(yōu)選地,所述用戶習(xí)慣信息根據(jù)當(dāng)前用戶使用各組音節(jié)組合的次數(shù)和用戶使用各組音節(jié)組合的最后時(shí)間獲得。
[0033]為了解決上述問題,本發(fā)明還公開了一種拼音字符串處理裝置,包括:
[0034]第一獲取模塊,用于接收拼音字符串的輸入,獲取當(dāng)前環(huán)境信息;其中,所述當(dāng)前環(huán)境信息為接收所述拼音字符串的當(dāng)前應(yīng)用程序和/或輸入框的信息;
[0035]第二獲取模塊,用于依據(jù)預(yù)設(shè)的配置信息,獲取輸入所述拼音字符串的個(gè)性化信息;其中,所述個(gè)性化信息中包括用戶習(xí)慣信息和歷史環(huán)境信息,所述歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息;
[0036]第三獲取模塊,用于依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,從而確定所述拼音字符串中分詞符的位置。
[0037]優(yōu)選地,所述個(gè)性化信息還包括:時(shí)間信息和/或位置信息;其中,所述時(shí)間信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的時(shí)間;所述位置信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的地理位置;
[0038]所述第三獲取模塊在依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選時(shí),依據(jù)所述用戶習(xí)慣信息和所述當(dāng)前環(huán)境信息,以及所述當(dāng)前時(shí)間信息和/或所述當(dāng)前位置信息,對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選。
[0039]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
[0040]本發(fā)明的拼音字符串處理方案中,當(dāng)用戶輸入拼音字符串時(shí),同時(shí)依據(jù)用戶的個(gè)性化信息以及當(dāng)前環(huán)境信息,對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,從而確定拼音字符串中分詞符的位置。當(dāng)前環(huán)境信息明確指示了接收當(dāng)前拼音字符串的應(yīng)用程序和/或輸入框的信息,而個(gè)性化信息中的歷史環(huán)境信息則指示了該用戶在不同輸入環(huán)境下進(jìn)行拼音字符串輸入的習(xí)慣或傾向性特征。因此,在對(duì)拼音字符串對(duì)應(yīng)的音節(jié)組合進(jìn)行篩選時(shí),將當(dāng)前環(huán)境信息與用戶個(gè)性化信息中的歷史環(huán)境信息相匹配,使篩選得到的音節(jié)組合更符合用戶的習(xí)慣,更具有針對(duì)性,從而解決了目前的拼音字符串處理過程中,僅能夠統(tǒng)一地給出同樣的各組音節(jié)組合的排序的問題。尤其是在用戶使用九鍵鍵盤輸入時(shí),可高效地將更接近用戶需求的音節(jié)組合篩選出來,避免了因鍵盤復(fù)用造成的選擇音節(jié)組合時(shí)需要重復(fù)進(jìn)行的多次觸發(fā),減少了用戶在進(jìn)行漢字輸入時(shí)的交互動(dòng)作,提高了輸入效率。

【專利附圖】

【附圖說明】
[0041]圖1是現(xiàn)有技術(shù)中的一種拼音字符串處理方法的步驟流程圖;
[0042]圖2是根據(jù)本發(fā)明實(shí)施例一的一種拼音字符串處理方法的步驟流程圖;
[0043]圖3是根據(jù)本發(fā)明實(shí)施例二的一種拼音字符串處理方法的步驟流程圖;
[0044]圖4是根據(jù)本發(fā)明實(shí)施例三的一種拼音字符串處理方法的步驟流程圖;
[0045]圖5是根據(jù)本發(fā)明實(shí)施例四的一種拼音字符串處理裝置的結(jié)構(gòu)框圖。

【具體實(shí)施方式】
[0046]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
[0047]實(shí)施例一
[0048]參照?qǐng)D2,示出了根據(jù)本申請(qǐng)實(shí)施例一的一種拼音字符串處理方法的步驟流程圖。
[0049]本實(shí)施例的拼音字符串處理方法包括以下步驟:
[0050]步驟S202:接收拼音字符串的輸入,獲取當(dāng)前環(huán)境信息。
[0051]其中,當(dāng)前環(huán)境信息為接收拼音字符串的當(dāng)前應(yīng)用程序和/或輸入框?qū)?yīng)的信息,包括當(dāng)前應(yīng)用程序所屬的行業(yè)類別信息,輸入框?qū)?yīng)的功能信息等,可通過獲取當(dāng)前應(yīng)用程序?qū)?yīng)的安裝描述信息或抓取輸入框?qū)?yīng)的提示文本進(jìn)行獲取得到。
[0052]用戶可以通過多種輸入形式來輸入拼音字符串,如通過傳統(tǒng)按鍵手機(jī)以九鍵鍵盤的形式輸入,也可以通過智能手機(jī)采用26鍵的QWERTY標(biāo)準(zhǔn)的傳統(tǒng)鍵盤輸入,還可以通過電腦鍵盤等其他形式輸入。輸入法能夠自動(dòng)獲取輸入拼音字符串的環(huán)境,即當(dāng)前輸入環(huán)境信息,例如:當(dāng)用戶在短信輸入框輸入內(nèi)容時(shí),輸入法自動(dòng)獲取當(dāng)前環(huán)境為短信輸入框,當(dāng)用戶在“google地圖”中輸入內(nèi)容時(shí),輸入法自動(dòng)獲取當(dāng)前環(huán)境為地圖軟件。
[0053]步驟S204:依據(jù)預(yù)設(shè)的配置信息,獲取輸入拼音字符串的個(gè)性化信息。
[0054]其中,個(gè)性化信息中包括用戶習(xí)慣信息和歷史環(huán)境信息,歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息。
[0055]個(gè)性化信息中,用戶習(xí)慣信息用于指示用戶往期漢字輸入和/或往期網(wǎng)絡(luò)訪問的傾向性特征;歷史環(huán)境信息用于指示用戶往期進(jìn)行漢字輸入的輸入環(huán)境的傾向性特征。預(yù)設(shè)的配置信息可以用于指示從本地或者從服務(wù)器端獲取用戶的個(gè)性化信息。
[0056]用戶習(xí)慣信息表征了用戶往期漢字輸入和/或往期網(wǎng)絡(luò)訪問的傾向性特征。例如,服務(wù)器監(jiān)測(cè)到用戶往期經(jīng)常在移動(dòng)終端中輸入釣魚、漁具、漁友等內(nèi)容,則通過該內(nèi)容可以分析得出該用戶具有釣魚的興趣,即采集到了用戶的習(xí)慣信息。該信息在后續(xù)的輸入中將指導(dǎo)拼音字符串的切分,如當(dāng)該用戶輸入“diaoyu”時(shí),對(duì)應(yīng)的優(yōu)先的音節(jié)組合應(yīng)為“diao”和“yu”,則分詞符的位置為“diao’ yu”,再調(diào)整其它可能音節(jié)組合,得到對(duì)應(yīng)的分詞符的位置如“di’ ao’ yu”等。再例如,用戶雖然沒有輸入過釣魚方面的內(nèi)容,但經(jīng)常瀏覽釣魚類網(wǎng)站,則服務(wù)器對(duì)用戶的往期網(wǎng)絡(luò)訪問數(shù)據(jù)進(jìn)行分析同樣可以得出該用戶具有釣魚的興趣,同樣采集到了用戶的習(xí)慣信息。那么,若該用戶輸入“diaoyu”時(shí),也會(huì)得到優(yōu)先的音節(jié)組合應(yīng)為“diao”和“yu”,從而將分詞符的位置設(shè)置為“diao’ yu”。此外,歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息,表征了用戶往期進(jìn)行漢字輸入的輸入環(huán)境的傾向性特征,如對(duì)于拼音字符串“diaoyu”,用戶往期在搜索引擎中輸入時(shí)傾向于得到音節(jié)組合為“diao”和“yu”,而往期在地圖中輸入時(shí)傾向于得到音節(jié)組合“di”、“ao “和“yu”,則結(jié)合上述用戶習(xí)慣信息,當(dāng)用戶在搜索引擎中輸入拼音字符串“diaoyu”時(shí),優(yōu)先將分詞符的位置設(shè)置為“diao’ yu”,而在其它應(yīng)用或輸入框中輸入“diaoyu”時(shí),則可以根據(jù)用戶習(xí)慣信息和當(dāng)前環(huán)境信息,確定“diaoyu”對(duì)應(yīng)的各組音節(jié)組合,如將分詞符的位置設(shè)置為“di,ao’ yu” 或 “diao,y’ u” 等。
[0057]步驟S206:依據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,從而確定拼音字符串中分詞符的位置。
[0058]由于拼音字符串中各組音節(jié)組合對(duì)應(yīng)不同的音節(jié)劃分,進(jìn)而根據(jù)得到的這些音節(jié)劃分確定分詞符在拼音字符串中的不同位置。
[0059]更進(jìn)一步地,在依據(jù)用戶習(xí)慣信息和當(dāng)前環(huán)境的信息對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選時(shí),還可以根據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息計(jì)算出每組音節(jié)組合的權(quán)值。依據(jù)權(quán)值的高低對(duì)多組拼音組合進(jìn)行排序,選擇排序最靠前的音節(jié)組合,再獲取與此音節(jié)組合對(duì)應(yīng)的匹配的漢字組合。在其他實(shí)施例中,也可以根據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息,在確定各組音節(jié)組合的顯示順序后,為各組漢字設(shè)定編號(hào),按照編號(hào)順序?yàn)槎嘟M拼音組合排序等等。
[0060]通過本實(shí)施例的拼音字符串處理方案,當(dāng)用戶輸入拼音字符串時(shí),同時(shí)依據(jù)用戶的個(gè)性化信息以及當(dāng)前環(huán)境信息,對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,從而確定所述拼音字符串中分詞符的位置。當(dāng)前環(huán)境信息明確指示了接收當(dāng)前拼音字符串輸入的應(yīng)用程序和/或輸入框的信息,而個(gè)性化信息中的歷史環(huán)境信息則指示了該用戶在不同輸入環(huán)境下進(jìn)行漢字輸入的習(xí)慣或傾向性特征。因此,在對(duì)拼音字符串進(jìn)行分詞,篩選各組音節(jié)組合時(shí),不僅參考用戶習(xí)慣信息,還將當(dāng)前環(huán)境信息與個(gè)性化信息中的歷史環(huán)境信息相匹配,根據(jù)匹配結(jié)果確定符合用戶習(xí)慣的音節(jié)組合,從而使得該得到的音節(jié)組合更符合用戶的習(xí)慣,提高用戶的輸入效率。通過本實(shí)施例的拼音字符串處理方案,解決了目前的拼音字符串處理過程中僅能夠統(tǒng)一地給出同樣的各組音節(jié)組合的排序,,導(dǎo)致用戶需要使用較多的交互動(dòng)作才能獲得需要的音節(jié)組合,輸入成本高,無法滿足用戶個(gè)性化輸入需求的問題,尤其是在用戶使用九鍵鍵盤輸入時(shí),通過上述方式對(duì)拼音字符串對(duì)應(yīng)的音節(jié)組合進(jìn)行篩選,可以將更接近用戶需求的音節(jié)組合篩選出來,解決了因鍵盤復(fù)用的情況造成的當(dāng)用戶輸入一個(gè)拼音字符串時(shí)會(huì)對(duì)應(yīng)多個(gè)音節(jié)組合,用戶在選擇需要的音節(jié)組合時(shí)需要重復(fù)多次進(jìn)行觸發(fā)的問題,減少了用戶在進(jìn)行漢字輸入時(shí)的交互動(dòng)作,提高了輸入效率。
[0061]實(shí)施例二
[0062]參照?qǐng)D3,示出了本申請(qǐng)實(shí)施例二的一種拼音字符串處理方法的步驟流程圖。
[0063]本實(shí)施例的拼音字符串處理方法包括以下步驟:
[0064]步驟S302:生成本地的個(gè)性化信息數(shù)據(jù)庫。
[0065]本地的個(gè)性化信息數(shù)據(jù)庫中除存儲(chǔ)有用戶習(xí)慣信息和歷史環(huán)境信息外,還可以存儲(chǔ)有用戶的時(shí)間信息和/或位置信息。
[0066]本地的個(gè)性化信息數(shù)據(jù)庫可以通過以下方式生成:獲取用戶在本地的歷史行為信息,其中,歷史行為信息中包括:用戶往期每次進(jìn)行漢字輸入的內(nèi)容、時(shí)間、地理位置、輸入環(huán)境,和/或,用戶往期每次進(jìn)行網(wǎng)絡(luò)訪問的內(nèi)容、時(shí)間、地理位置;對(duì)歷史行為信息進(jìn)行分析和統(tǒng)計(jì),并根據(jù)分析和統(tǒng)計(jì)結(jié)果生成本地的個(gè)性化信息數(shù)據(jù)庫。當(dāng)然,若個(gè)性化信息數(shù)據(jù)庫中不存儲(chǔ)用戶的時(shí)間信息和/或位置信息,也可以不獲取歷史行為信息中相對(duì)應(yīng)的內(nèi)容,如用戶往期每次進(jìn)行漢字輸入的時(shí)間、地理位置,和/或,用戶往期每次進(jìn)行網(wǎng)絡(luò)訪問的時(shí)間、地理位置等。優(yōu)選地,用戶習(xí)慣信息可以根據(jù)當(dāng)前用戶使用各組音節(jié)組合的次數(shù)和用戶使用各組音節(jié)組合的最后時(shí)間獲得。
[0067]本地的個(gè)性化信息數(shù)據(jù)庫保存的個(gè)性化信息可以實(shí)時(shí)或者每隔設(shè)定時(shí)間段進(jìn)行更新。例如,用戶本次選擇出適合的一組漢字進(jìn)行輸入后,該組漢字以及本次輸入對(duì)應(yīng)的時(shí)間、位置、輸入環(huán)境等會(huì)被記錄在本地的個(gè)性化信息數(shù)據(jù)庫中作為一次歷史行為信息,在下次對(duì)用戶個(gè)性化信息進(jìn)行更新時(shí)使用。具體地,如:用戶當(dāng)前通過在短信內(nèi)容輸入框中輸入“xian”這個(gè)拼音字符串,在給出的多組漢字中選定“西安”為候選詞時(shí),且當(dāng)時(shí)時(shí)間為下午三點(diǎn),根據(jù)GPS對(duì)移動(dòng)終端定位得到當(dāng)前位置為西安,則本地就會(huì)保存用戶輸入的拼音字符串“xian”、“xian”的分詞符位置“xi’ an”,以及與其對(duì)應(yīng)的候選詞“西安”、時(shí)間15點(diǎn)、輸入環(huán)境短信框以及地理位置西安的信息。在后續(xù)對(duì)用戶的個(gè)性化信息進(jìn)行更新時(shí),上述信息將作為歷史行為信息的一部分存儲(chǔ)至本地的個(gè)性化信息數(shù)據(jù)庫中,成為用戶的個(gè)性化信息更新的依據(jù)。如,假設(shè)更新前,該用戶輸入拼音字符串“xian”對(duì)應(yīng)的選擇“西安”的次數(shù)為10次,其中,在15點(diǎn)時(shí)間段選擇“西安”的次數(shù)為2次,在西安這個(gè)城市時(shí)選擇“西安”的次數(shù)為5次,在短信框輸入時(shí)選擇“西安”的次數(shù)也為5次,那么在更新后,總的選擇“西安”的次數(shù)為11次,對(duì)應(yīng)的在時(shí)間15點(diǎn)的輸入次數(shù)、在西安這個(gè)城市時(shí)的輸入次數(shù)、和使用短信框輸入的次數(shù)也均相應(yīng)的加I。
[0068]步驟S304:生成服務(wù)器端的個(gè)性化信息數(shù)據(jù)庫。
[0069]與本地的個(gè)性化信息數(shù)據(jù)庫相同,服務(wù)器端的個(gè)性化信息數(shù)據(jù)庫中除存儲(chǔ)有用戶習(xí)慣信息和歷史環(huán)境信息外,也可以對(duì)應(yīng)存儲(chǔ)有用戶的時(shí)間信息和/或位置信息。其中,時(shí)間信息為用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的時(shí)間;位置信息為用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的地理位置。
[0070]服務(wù)器端的個(gè)性化信息數(shù)據(jù)庫可以通過以下方式生成:獲取多個(gè)用戶進(jìn)行網(wǎng)絡(luò)訪問的歷史行為信息,其中,歷史行為信息中包括:用戶往期進(jìn)行輸入的內(nèi)容、時(shí)間、地理位置、輸入環(huán)境,和/或,用戶往期進(jìn)行網(wǎng)絡(luò)訪問的內(nèi)容、時(shí)間、地理位置;分別使用預(yù)設(shè)的興趣模型、環(huán)境模型、時(shí)間模型和位置模型對(duì)用戶對(duì)應(yīng)的歷史行為信息進(jìn)行分析處理;根據(jù)歷史行為信息進(jìn)行分析處理的結(jié)果生成服務(wù)器端的個(gè)性化信息,進(jìn)而生成服務(wù)器端的個(gè)性化信息數(shù)據(jù)庫。與生成本地的用戶個(gè)性化數(shù)據(jù)庫時(shí)相同,在其他實(shí)施例中,若服務(wù)器端的個(gè)性化信息數(shù)據(jù)庫中不存儲(chǔ)用戶的時(shí)間信息和/或位置信息,也可以不獲取歷史行為信息中相對(duì)應(yīng)的內(nèi)容,也無須使用對(duì)應(yīng)的模型進(jìn)行分析處理。
[0071]上述各種分析模型中,興趣模型可以采用相關(guān)的成熟模型,通過對(duì)用戶往期輸入的內(nèi)容和用戶的閱讀特征數(shù)據(jù)進(jìn)行訓(xùn)練得到。其中,用戶的閱讀特征包括用戶瀏覽的網(wǎng)頁、微博等互聯(lián)網(wǎng)資源,以及郵件、即時(shí)通信等文字資源。由于用戶關(guān)心的話題和內(nèi)容與輸入內(nèi)容有正相關(guān)特性,因此,通過用戶的往期輸入內(nèi)容以及用戶的閱讀特征即可分析出用戶的興趣傾向,如體育,娛樂,新聞,還是財(cái)經(jīng),社交等等。獲取用戶的往期輸入的內(nèi)容與用戶往期的閱讀內(nèi)容中,當(dāng)用戶瀏覽的內(nèi)容是互聯(lián)網(wǎng)內(nèi)容時(shí),將用戶訪問的URL網(wǎng)頁地址上傳到服務(wù)器,由服務(wù)器抓取所需網(wǎng)頁中的文本信息。如果文本信息為不可抓取的內(nèi)容,則由客戶端獲取所需的信息后,記錄并上傳到服務(wù)器。將抓取得到的內(nèi)容進(jìn)行文本分類,并按照屬性打分,從而最終確定內(nèi)容所屬的類別,亦即興趣類別。目前,廣泛應(yīng)用樸素貝葉斯模型,或者最鄰近節(jié)點(diǎn)算法KNN或者向量空間模型VSM進(jìn)行文本分類,根據(jù)分類結(jié)果動(dòng)態(tài)地影響后續(xù)的拼音字符串處理。
[0072]優(yōu)選地,興趣模型可以包括個(gè)體興趣模型和群體興趣模型,一個(gè)個(gè)體興趣模型對(duì)應(yīng)于至少一個(gè)群體興趣模型;其中,個(gè)體興趣模型用于對(duì)單個(gè)用戶的往期每次進(jìn)行漢字輸入和/或網(wǎng)絡(luò)訪問的內(nèi)容進(jìn)行分析處理,并根據(jù)分析處理的結(jié)果生成單個(gè)用戶的用戶習(xí)慣信息;群體興趣模型用于對(duì)多個(gè)用戶的往期每次進(jìn)行漢字輸入和/或網(wǎng)絡(luò)訪問的內(nèi)容進(jìn)行分析處理,并根據(jù)分析處理的結(jié)果生成多個(gè)用戶的用戶習(xí)慣信息。也即,通過線下對(duì)大量用戶數(shù)據(jù)進(jìn)行的聚類分析,從而對(duì)用戶分類,即將有同樣興趣的人合并。同一個(gè)用戶可以屬于多個(gè)類別,以瀏覽輸入類似的群體為單位。群體興趣模型可以采用已有的成熟的文本分類模型和算法,通過分類確定用戶的興趣點(diǎn),在此不在贅述。
[0073]環(huán)境模型也可以采用相關(guān)的成熟模型,通過收集全網(wǎng)用戶在不同輸入環(huán)境下輸入的音節(jié)組合和對(duì)應(yīng)輸入是所處的環(huán)境信息不斷學(xué)習(xí)訓(xùn)練得來。環(huán)境模型的影響因素主要有兩部分,一是輸入時(shí)對(duì)應(yīng)的程序,即應(yīng)用程序的行業(yè)類別,一是輸入時(shí)對(duì)應(yīng)的編輯框?qū)傩?。模型的學(xué)習(xí)和訓(xùn)練基于用戶的瀏覽和輸入,分別按地域、時(shí)間、興趣等特征進(jìn)行聚類,得到不同特性的特征詞庫。進(jìn)一步地,通過對(duì)聚類后得到的數(shù)據(jù)進(jìn)行檢索,可以得到輸入音節(jié)組合對(duì)應(yīng)的權(quán)重。用戶進(jìn)行輸入時(shí),客戶端將進(jìn)行輸入所在的應(yīng)用、編輯框類型等當(dāng)前環(huán)境信息發(fā)送給服務(wù)器,由服務(wù)器進(jìn)行打分。其中,編輯框類型可以按與編輯框匹配按鈕的對(duì)應(yīng)功能分為為搜索框、聯(lián)系人查找框、短信輸入框等等;應(yīng)用程序的行業(yè)類別可以按軟件的行業(yè)類別劃為即時(shí)信息類、安全類、地圖導(dǎo)航類、音頻視頻等等。根據(jù)不同的應(yīng)用程序的行業(yè)類另O,不同的輸入框,動(dòng)態(tài)給出在該輸入環(huán)境下,不同音節(jié)組合的排序,進(jìn)一步地,還可以給出各音節(jié)組合的權(quán)值。
[0074]時(shí)間分析模型同樣可以采用相關(guān)成熟模型,通過收集大量的用戶在不同時(shí)間段下輸入的音節(jié)組合,以輸入時(shí)間為特征依據(jù),將每個(gè)時(shí)間段下的所有用戶的輸入的音節(jié)組合進(jìn)行統(tǒng)計(jì),生成按時(shí)間段分類的特征詞庫。
[0075]位置模型也可以采用相關(guān)成熟模型,通過收集大量的用戶在不同地域輸入的音節(jié)組合,以輸入環(huán)境為特征依據(jù),將每個(gè)輸入環(huán)境下的所有用戶的輸入的音節(jié)組合進(jìn)行統(tǒng)計(jì),生成按地域特征分類的特征詞庫。
[0076]需要說明的是,上述步驟S302和S304的執(zhí)行不分先后順序,也可以并行執(zhí)行。并且,上述本地個(gè)性化信息數(shù)據(jù)庫和服務(wù)器端的個(gè)性化信息數(shù)據(jù)庫也可擇一建立,而不必全部建立。
[0077]此外,優(yōu)選地,上述本地和服務(wù)器端的個(gè)性化信息中的用戶習(xí)慣信息也可以根據(jù)當(dāng)前用戶使用各音節(jié)組合的次數(shù)和用戶使用各音節(jié)組合的最后使用時(shí)間獲得。并且,本實(shí)施例中,均以數(shù)據(jù)庫的形式存儲(chǔ)個(gè)性化信息,但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)明了,在實(shí)際應(yīng)用中,其它任意適當(dāng)?shù)拇鎯?chǔ)形式同樣適用,如文本形式或其它適當(dāng)形式。
[0078]步驟S306:接收拼音字符串的輸入。
[0079]其中,拼音字符串的輸入可以采用多種形式,例如:當(dāng)用戶輸入“xian”拼音字符串時(shí),九鍵形式輸入的為“9426”,而全鍵形式輸入的為“xian”。
[0080]步驟S308:獲取拼音字符串輸入的當(dāng)前環(huán)境信息。
[0081]優(yōu)選地,在獲取當(dāng)前環(huán)境信息的同時(shí),還可以獲取當(dāng)前時(shí)間信息或當(dāng)前位置信息,也可同時(shí)獲取當(dāng)前時(shí)間信息和當(dāng)前位置信息。
[0082]其中,環(huán)境信息為接收所述拼音字符串的應(yīng)用程序和/或輸入框的信息。例如:用戶在短信輸入框中輸入拼音字符串時(shí),則環(huán)境信息為短信輸入框;用戶在地圖軟件中輸入拼音字符串時(shí),則環(huán)境信息為地圖軟件。
[0083]拼音字符串輸入的當(dāng)前位置信息,可以通過用戶進(jìn)行輸入時(shí)的IP、WIFI網(wǎng)絡(luò)定位所在城市區(qū)域、設(shè)備的GPS全球定位系統(tǒng)等方式獲取,用戶的當(dāng)前位置信息精確到城市級(jí)。
[0084]當(dāng)前時(shí)間信息可以通過軟件設(shè)置自動(dòng)從用戶使用的設(shè)備,如手機(jī)或電腦以及其他輸入工具中獲取,當(dāng)前時(shí)間信息為北京時(shí)間,精確到小時(shí)。例如用戶是晚上7點(diǎn)輸入的一個(gè)拼音字符串,則將當(dāng)前時(shí)間信息記為19:00。
[0085]步驟S310:依據(jù)預(yù)設(shè)的配置信息,從服務(wù)器端獲取輸入拼音字符串的用戶的個(gè)性化信息。
[0086]配置信息指示了從本地還是服務(wù)器端獲取個(gè)性化信息,當(dāng)配置信息指示從本地獲取時(shí),輸入法從本地的個(gè)性化信息數(shù)據(jù)庫中獲取輸入拼音字符串的用戶的個(gè)性化信息;當(dāng)配置信息指示從服務(wù)器端獲取時(shí),輸入法從服務(wù)器端的個(gè)性化信息數(shù)據(jù)庫中獲取輸入拼音字符串的用戶的個(gè)性化信息。本實(shí)施例中,以從服務(wù)器端獲取用戶的個(gè)性化信息為例進(jìn)行描述。
[0087]步驟S312:依據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,從而確定拼音字符串中分詞符的位置。
[0088]一種可行方式是,分別將拼音字符串對(duì)應(yīng)的各個(gè)音節(jié)組合與個(gè)性化信息中的用戶習(xí)慣信息進(jìn)行匹配,將當(dāng)前環(huán)境信息與個(gè)性化信息中的歷史環(huán)境信息進(jìn)行匹配,篩選出符合更滿足用戶需求的音節(jié)組合,根據(jù)匹配結(jié)果確定拼音字符串中分詞符的位置。當(dāng)然,還可以對(duì)匹配結(jié)果進(jìn)行進(jìn)一步的處理,如對(duì)各部分信息的匹配結(jié)果加權(quán)求和,根據(jù)加權(quán)求和結(jié)果將拼音字符串對(duì)應(yīng)的各個(gè)音節(jié)組合進(jìn)行篩選,從而確定拼音字符串中分詞符的位置。
[0089]優(yōu)選地,在獲取了輸入拼音字符串時(shí)的當(dāng)前時(shí)間信息和/或當(dāng)前位置信息的情況下,還可以依據(jù)用戶個(gè)性化信息和當(dāng)前環(huán)境信息,以及當(dāng)前時(shí)間信息和/或當(dāng)前位置信息對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,從而確定拼音字符串中分詞符的位置。
[0090]一種具體實(shí)現(xiàn)方式包括:按照設(shè)定規(guī)則,分別根據(jù)拼音字符串對(duì)應(yīng)的各音節(jié)組合與用戶習(xí)慣信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的用戶習(xí)慣權(quán)值;根據(jù)當(dāng)前環(huán)境信息與歷史環(huán)境信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的環(huán)境權(quán)值;根據(jù)當(dāng)前時(shí)間信息和/或當(dāng)前位置信息與對(duì)應(yīng)的用戶時(shí)間信息和/或用戶位置信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的時(shí)間權(quán)值和/或地點(diǎn)權(quán)值;對(duì)各組音節(jié)組合對(duì)應(yīng)權(quán)值進(jìn)行求和,獲得各組音節(jié)組合的總特征權(quán)值,根據(jù)總特征權(quán)值對(duì)至少一組音節(jié)組合進(jìn)行排序,并根據(jù)排序在前的音節(jié)組合確定拼音字符串中分詞符的位置。其中,上述各個(gè)權(quán)值的獲取可以不分先后順序,也可以并行進(jìn)行。
[0091]此外,優(yōu)選地,當(dāng)從服務(wù)器端獲取個(gè)性化信息且服務(wù)器端的興趣模型包括個(gè)體興趣模型和群體興趣模型時(shí),當(dāng)根據(jù)拼音字符串對(duì)應(yīng)的各組音節(jié)組合與用戶習(xí)慣信息的匹配結(jié)果分別獲得每組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值時(shí):將各組音節(jié)組合分別與通過個(gè)體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配;若匹配不成功,則將各組音節(jié)組合分別與通過個(gè)體興趣模型對(duì)應(yīng)的群體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配;根據(jù)各組音節(jié)組合與群體興趣模型的匹配結(jié)果獲得各組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值。其中,習(xí)慣權(quán)值通過以下方式獲得:目標(biāo)音節(jié)組合被選擇次數(shù)+拼音字符串對(duì)應(yīng)的多個(gè)音節(jié)組合總輸入次數(shù)XN,其中,N為權(quán)重系數(shù),且N為大于O的自然數(shù)。
[0092]這是因?yàn)?,在某些情況下,用戶歷史行為信息的缺失會(huì)造成用戶習(xí)慣信息的不完全,導(dǎo)致漢字與通過個(gè)體興趣模型生成的用戶信息匹配不成功。但同時(shí),因?yàn)榫哂邢嗤d趣的人可能具有相同的用戶習(xí)慣特征,因此群體中其它用戶的用戶習(xí)慣特征可以作為單個(gè)用戶習(xí)慣特征的參照。此時(shí),可以分別根據(jù)各組音節(jié)組合與群體興趣模型的匹配結(jié)果獲得各組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值。例如,用戶A歸屬于群體X,通過對(duì)群體X中所有用戶的數(shù)據(jù)進(jìn)行分析得知,群體X中的所有用戶的共同興趣為購物,那么當(dāng)A用戶輸入“baisheng”這個(gè)拼音字符串時(shí),如果在用戶A通過個(gè)體興趣模型生成的個(gè)性化信息中并沒有對(duì)應(yīng)的用戶習(xí)慣信息,也即用戶A往期沒有輸入過該拼音字符串,則將“baisheng”與通過群體興趣模型生成的群體用戶的個(gè)性化信息進(jìn)行匹配,獲得“baisheng”對(duì)應(yīng)的最優(yōu)匹配的音節(jié)組合為“bai’ sheng”,而不是由于在移動(dòng)平臺(tái)中按鍵復(fù)用產(chǎn)生的“bai,she’ ni “等音節(jié)組合。
[0093]另一種優(yōu)選排序方案是,在獲得拼首字符串對(duì)應(yīng)的多組首節(jié)組合之后,獲取每組音節(jié)組合中各音節(jié)的固有權(quán)值;其中,固有權(quán)值通過對(duì)全網(wǎng)用戶對(duì)各組音節(jié)組合的選擇進(jìn)行分析統(tǒng)計(jì)后得到;對(duì)各組音節(jié)組合對(duì)應(yīng)的固有權(quán)值和總特征權(quán)值進(jìn)行求和,獲得各音節(jié)組合的總權(quán)值;根據(jù)總權(quán)值排前的音節(jié)組合中的各音節(jié)確定拼音字符串中分詞符的位置。例如,設(shè)定固有權(quán)值的范圍為0-2048,總特征權(quán)值的范圍也為0-2048,總權(quán)值中,時(shí)間權(quán)值的范圍為0-512,地點(diǎn)權(quán)值的范圍為0-512,環(huán)境權(quán)值的范圍為0-512,習(xí)慣權(quán)值的范圍為0-512。由此,一組音節(jié)組合對(duì)應(yīng)的總權(quán)值在0-4096之間,數(shù)值越大表示優(yōu)先級(jí)越高。
[0094]在計(jì)算總特征權(quán)值時(shí),一種方式是運(yùn)用如下計(jì)算公式:
[0095]Weight (總特征)=Weight (習(xí)慣)+Weight (環(huán)境)+Weight (時(shí)間)+Weight (地點(diǎn))
[0096]其中,Weight (總特征)表示一組音節(jié)組合的總特征權(quán)值,為根據(jù)個(gè)性化信息獲得的各個(gè)權(quán)值之和;Weight (習(xí)慣)表示本音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值,為本音節(jié)組合與用戶習(xí)慣信息匹配結(jié)果的權(quán)值;Weight (環(huán)境)表示用戶輸入拼音字符串時(shí)對(duì)應(yīng)的環(huán)境權(quán)值,為輸入拼音字符串的當(dāng)前環(huán)境與歷史環(huán)境信息匹配結(jié)果的權(quán)值;Weight (時(shí)間)表示用戶輸入拼音字符串時(shí)對(duì)應(yīng)的時(shí)間權(quán)值,為輸入拼音字符串的當(dāng)前時(shí)間與用戶時(shí)間信息匹配結(jié)果的權(quán)值;Weight (地點(diǎn))表示用戶輸入拼音字符串時(shí)的地點(diǎn)權(quán)值,為輸入拼音字符串的當(dāng)前位置與用戶位置信息匹配結(jié)果的權(quán)值。當(dāng)然,在計(jì)算總特征權(quán)值時(shí)可以只考慮用戶習(xí)慣與環(huán)境的權(quán)重,也可以在考慮用戶習(xí)慣與輸入環(huán)境的權(quán)重的同時(shí)考慮當(dāng)前時(shí)間、當(dāng)前地點(diǎn)中的一個(gè)或全部權(quán)重。
[0097]上述公式中,
[0098]Weight (時(shí)間)=該時(shí)段該音節(jié)組合輸入的次數(shù)/該音節(jié)組合總輸入次數(shù)X512 ;
[0099]Weight (地點(diǎn))=該地點(diǎn)輸入該音節(jié)組合的次數(shù)/該音節(jié)組合總輸入次數(shù)X 512 ;
[0100]Weight (習(xí)慣)=該音節(jié)組合被選擇次數(shù)/拼音字符串對(duì)應(yīng)的各組音節(jié)組合總輸入次數(shù)X 512 ;
[0101]Weight (環(huán)境)=該應(yīng)用輸入該音節(jié)組合的次數(shù)/該音節(jié)組合總輸入次數(shù)X512 ;
[0102]其中,個(gè)性化信息為本地個(gè)性化信息或服務(wù)器端個(gè)性化信息,數(shù)字512、2048、4096只是代表各個(gè)特征的權(quán)重?cái)?shù)值,還可以依據(jù)權(quán)重的不同,自行將數(shù)字進(jìn)行設(shè)置為任意適當(dāng)?shù)淖匀粩?shù)。
[0103]步驟S314:獲得音節(jié)組合分別對(duì)應(yīng)的候選詞。
[0104]例如:當(dāng)篩選得到的各音節(jié)組合中被觸發(fā)的音節(jié)組合為“xi’ an”時(shí),從詞庫中獲得該音節(jié)組合對(duì)應(yīng)匹配的候選詞為“西安”、“西岸”、“錫安”。
[0105]步驟S316:獲取各候選詞對(duì)應(yīng)的附加權(quán)值。
[0106]其中,附加權(quán)值根據(jù)對(duì)所有用戶對(duì)選中的音節(jié)組合對(duì)應(yīng)的各候選詞的選擇比例進(jìn)行分析統(tǒng)計(jì)后得到。
[0107]例如,在針對(duì)音節(jié)組合“xi’ an”時(shí),經(jīng)過對(duì)所有用戶的選擇進(jìn)行統(tǒng)計(jì)后得到,候選詞“西安”被選擇次數(shù)為50次,而候選詞“西岸”被選擇次數(shù)為30次,那么,候選詞“西安”對(duì)應(yīng)的附加權(quán)值就高于候選詞“西岸”對(duì)應(yīng)的附加權(quán)值。
[0108]優(yōu)選地,附加權(quán)值還可以根據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息對(duì)選擇出的候選詞進(jìn)行分析統(tǒng)計(jì)后得到,即對(duì)所有用戶對(duì)各組候選詞的選擇進(jìn)行分析統(tǒng)計(jì)以及根據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息進(jìn)行分析統(tǒng)計(jì)后得到。
[0109]例如,還是以候選詞“西安”與“西岸”,當(dāng)用戶輸入字符串“xian”,確定音節(jié)組合“xi’ an”為需要的音節(jié)組合后,獲取音節(jié)組合對(duì)應(yīng)的候選詞有“西安”和“西岸”。那么要考慮這兩組候選詞在該用戶的個(gè)性化信息中,在當(dāng)前輸入環(huán)境下的被選擇次數(shù),以及這兩組候選詞分別被所有用戶選擇的次數(shù),綜合考慮這兩方面的因素,給每組候選詞以附加權(quán)值。
[0110]步驟S318:根據(jù)附加權(quán)值對(duì)候選詞進(jìn)行排序后輸出。
[0111]如,可以計(jì)算出每組候選詞的附加權(quán)值,依據(jù)附加權(quán)值的高低對(duì)多組候選詞進(jìn)行排序;也可以在確定各組漢字的顯示順序后,為各組候選詞設(shè)定編號(hào),按照編號(hào)順序?yàn)槎嘟M候選詞進(jìn)行排序等等,并在移動(dòng)終端的漢字區(qū)域中按排序后的順序?qū)⒏骱蜻x詞進(jìn)行展示。
[0112]優(yōu)選地,在用戶對(duì)顯示的多組候選詞進(jìn)行選擇后,還可以獲取用戶所選擇的候選詞;并保存用戶本次的輸入信息,如,最終選擇的候選詞、對(duì)應(yīng)的音節(jié)組合、輸入時(shí)對(duì)應(yīng)的環(huán)境、時(shí)間、地點(diǎn)等信息,為后續(xù)用戶個(gè)性化信息更新提供依據(jù)。
[0113]通過本實(shí)施例的拼音字符串處理方法,當(dāng)用戶輸入拼音字符串時(shí),依據(jù)用戶的個(gè)性化信息以及當(dāng)前環(huán)境、時(shí)間、地點(diǎn),計(jì)算每組音節(jié)組合的總特征權(quán)值,按照總特征權(quán)值的高低調(diào)整拼音字符串中分詞符的位置,解決了目前的拼音字符串處理過程中僅能夠統(tǒng)一地給出同樣的各組音節(jié)組合的排序,導(dǎo)致用戶需要使用較多的交互動(dòng)作才能得到需要的音節(jié)組合,輸入效率低,無法滿足用戶個(gè)性化輸入需求的問題。同時(shí),對(duì)選中的音節(jié)組合對(duì)應(yīng)的多組候選詞依據(jù)附加權(quán)值進(jìn)行排序,優(yōu)先顯示更符合用戶需求的漢字組合,該種拼音字符串處理方式能夠依據(jù)用戶的個(gè)性化信息與當(dāng)前環(huán)境信息對(duì)候選詞進(jìn)行排序,將用戶期望的候選詞優(yōu)先輸出。當(dāng)用戶使用九鍵鍵盤輸入時(shí),可以將滿足用戶需求的拼音組合篩選出來,避免了因鍵盤復(fù)用造成的選擇音節(jié)組合時(shí)需要重復(fù)進(jìn)行的多次觸發(fā),減少了用戶在輸入時(shí)的交互動(dòng)作,提高了輸入效率,滿足了用戶的個(gè)性化需求。
[0114]實(shí)施例三
[0115]參照?qǐng)D4,示出了本申請(qǐng)實(shí)施例三的一種拼音字符串處理方法的步驟流程圖。
[0116]本實(shí)施例的拼音字符串處理方法包括以下步驟:
[0117]步驟S402:用戶輸入拼音字符串。
[0118]用戶可以輸入按鍵序列,例如用戶想輸入“西安”時(shí),則在移動(dòng)終端的鍵盤中對(duì)應(yīng)的九鍵輸入形式為“9426”,全鍵輸入形式為“xian”。
[0119]步驟S404:獲取輸入拼音字符串的當(dāng)前位置、當(dāng)前時(shí)間、當(dāng)前環(huán)境信息。
[0120]步驟S406:獲取個(gè)性化信息,結(jié)合輸入拼音字符串的當(dāng)前位置、當(dāng)前時(shí)間、以及當(dāng)前環(huán)境信息,對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,根據(jù)排序在前的音節(jié)組合確定拼音字符串中分詞符的位置。
[0121]排序在前的音節(jié)組合可以是排序在最前的音節(jié)組合,也可以是設(shè)定的排序在前幾位的音節(jié)組合。
[0122]本實(shí)施例中,在獲取到用戶的個(gè)性化信息后,根據(jù)個(gè)性化信息,結(jié)合進(jìn)行輸入的客戶端的當(dāng)前位置、當(dāng)前時(shí)間、以及當(dāng)前環(huán)境對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,從而確定拼音字符串中分詞符的位置。
[0123]用戶的個(gè)性化信息表示用戶的個(gè)性化特征,包括用戶特征與環(huán)境特征兩部分,其中用戶特征對(duì)應(yīng)的用戶特征信息包括時(shí)間信息、地點(diǎn)信息和用戶習(xí)慣信息,分別表示用戶的時(shí)間特征、地點(diǎn)特征和用戶習(xí)慣興趣。
[0124]對(duì)于用戶的時(shí)間特征:比如,在九鍵下“Si”與“qi”是同碼,當(dāng)16:00-17:00時(shí)間段,用戶更傾向于輸入音節(jié)組合“Si”,即候選詞“四點(diǎn)”相關(guān)的詞條,而其他時(shí)間,更傾向于輸入音節(jié)組合“qi”,即候選詞“七點(diǎn)”相關(guān)的詞條。另外,“晚上”和“早上”在九鍵也是重碼,對(duì)于每個(gè)人的習(xí)慣也不盡相同。
[0125]對(duì)于用戶的地點(diǎn)特征:不同的地點(diǎn)輸入的內(nèi)容也會(huì)不盡相同,比如說在工作的地方,和在旅游途中,輸入的內(nèi)容不盡相同。輸入相同的拼音字符串,用戶可能期待不同的候選。如,用戶在移動(dòng)設(shè)備中的九鍵鍵盤下輸入“9426 ”對(duì)應(yīng)的拼音字符串為“xian”,在家里用戶可能更傾向于輸入音節(jié)組合“xian”,而在旅游時(shí),或者當(dāng)用戶在西安時(shí),可能更需要音節(jié)組合“xi’ an”排在前面。
[0126]對(duì)于用戶習(xí)慣興趣:用戶的輸入習(xí)慣是長(zhǎng)期養(yǎng)成的,不易改變。如一個(gè)簡(jiǎn)拼用戶,在九鍵鍵盤下輸入的時(shí)候會(huì)盡量使用末字簡(jiǎn)拼,這時(shí),根據(jù)用戶的習(xí)慣所做的排序優(yōu)化就會(huì)顯得異常貼心,更能提高用戶的輸入效率。如,將拼音字符串“ban”切分成音節(jié)組合“ba’n”將“ba’n”排在前面推薦給用戶;再如將拼音字符串“beng”切分成音節(jié)組合“ben’g”等,類似的例子還有很多。同樣,用戶閱讀的內(nèi)容和用戶輸入的內(nèi)容也具有正相關(guān)性,通過對(duì)用戶大量瀏覽的內(nèi)容和輸入內(nèi)容可以分析出用戶的興趣方向,從而通過具有相同興趣的人群的輸入習(xí)慣加權(quán)影響當(dāng)前的拼音字符串中分詞符的位置。
[0127]用戶輸入拼音字符串時(shí)的環(huán)境特征對(duì)應(yīng)的信息是描述用戶個(gè)性化特征的另一部分,同樣的拼音字符串,在不同的輸入環(huán)境下,表現(xiàn)也不盡相同,如用戶輸入拼音字符串“yuan”,如果用戶在word文檔中使用過音節(jié)組合“yu’ an”(預(yù)案),而在地圖應(yīng)用中使用過音節(jié)組合“yuan”(園),則根據(jù)用戶的歷史使用習(xí)慣,當(dāng)二者同時(shí)是用戶使用過的詞條時(shí)且存在輸入環(huán)境信息時(shí),輸入環(huán)境因素將決定拼音字符串對(duì)應(yīng)的各音節(jié)組合的篩選,從而調(diào)整拼音字符串中分詞符的位置。
[0128]個(gè)性化信息可以在本地獲取,也可以從服務(wù)器端獲取。從本地獲取個(gè)性化信息時(shí),基于用戶的歷史輸入數(shù)據(jù),不斷累加,形成影響當(dāng)前輸入拼音字符串的附加權(quán)值。如,對(duì)所有可能的拼音字符串,在配置文件中進(jìn)行二分查找,在查找時(shí),將其個(gè)性化信息中用戶特征的時(shí)間、地點(diǎn)等信息轉(zhuǎn)化為相應(yīng)的可比較的權(quán)值。從服務(wù)器端獲取個(gè)性化信息時(shí),發(fā)送用戶輸入的拼音字符串到服務(wù)器端,通過興趣模型、環(huán)境模型、時(shí)間模型和位置模型進(jìn)行分析,獲取相應(yīng)的習(xí)慣權(quán)值、環(huán)境權(quán)值、時(shí)間權(quán)值和地點(diǎn)權(quán)值。
[0129]本實(shí)施例中,以個(gè)性化信息從本地獲取為例。如“xi ’ an”這個(gè)音節(jié)組合在手機(jī)共計(jì)使用過10次,其中地圖應(yīng)用中使用過8次,word文檔中使用過2次,使用過的時(shí)間為:14:002次、15:003次、16:003次、18:002次。在西安使用過9次,在北京使用過I次?!皒ian”這個(gè)音節(jié)組合使用過30次,在西安使用過I次,在北京使用29次。使用過的時(shí)間為:14:005次、15:005次、16:005次、17:005次、18:005次、19:005次,在地圖應(yīng)用中沒有用過,在word中用過30次?!皒i’ an”最后一次使用時(shí)間是15:01。
[0130]綜上,假定當(dāng)前時(shí)間為15:30,通過GPS獲取用戶所在的當(dāng)前位置為西安,在地圖應(yīng)用中輸入拼音字符串“xian”,則對(duì)應(yīng)的音節(jié)組合中的“xi’ an”音節(jié)組合獲得的總權(quán)值為:(3/10) X512+(9/10) X512+ (10/35) X512+ (8/10) X512=1170.29 ;而“1丨811”音節(jié)組合獲得的總權(quán)值為:(1/30) X 512+(5/30) X 512+[30/ (10+30) ] X 512+(0/30) X 512=486.4。將音節(jié)組合按照總權(quán)值的高低進(jìn)行排序,可知音節(jié)組合“xi’ an”排序在“xian”前。
[0131]而如果將拼音字符串“xian”附帶當(dāng)前的時(shí)間、地點(diǎn)、輸入環(huán)境等信息發(fā)送到服務(wù)器端,將由各種特征模型給出分?jǐn)?shù)。如果用戶之前經(jīng)常瀏覽西安的名勝古跡信息,那么,興趣模型分析出當(dāng)前用戶愛好旅游,根據(jù)當(dāng)前用戶的個(gè)人興趣和其他與當(dāng)前用戶有共同興趣的用戶對(duì)應(yīng)的輸入特點(diǎn),給當(dāng)前用戶相應(yīng)的習(xí)慣權(quán)值,同樣,也會(huì)經(jīng)過環(huán)境模型、時(shí)間模型和位置模型分析,給出相應(yīng)的環(huán)境權(quán)值、時(shí)間權(quán)值和地點(diǎn)權(quán)值。最終,拼音字符串“xian”對(duì)應(yīng)的各個(gè)音節(jié)組合的總權(quán)值,由服務(wù)器端的各個(gè)特征模型共同決定,通過總權(quán)值得到各個(gè)音節(jié)組合的排序,或者,將相應(yīng)的權(quán)值加到固有權(quán)值上得到各個(gè)音節(jié)組合的排序。
[0132]步驟S408:用戶選擇到需要的音節(jié)組合,上屏選擇的音節(jié)組合對(duì)應(yīng)的候選詞。
[0133]步驟S410:記錄用戶最終所選擇候選詞對(duì)應(yīng)的音節(jié)組合至相應(yīng)的配置文件,并同時(shí)存儲(chǔ)對(duì)應(yīng)的個(gè)性化信息,為用戶下次輸入提供個(gè)性化的加權(quán)依據(jù)。
[0134]當(dāng)將用戶最終選擇的漢字的音節(jié)組合及對(duì)應(yīng)的個(gè)性化信息存儲(chǔ)至本地的配置文件中時(shí),本地配置文件可分別以四個(gè)維度為索引,分別存儲(chǔ)數(shù)據(jù)到四個(gè)文件,即按用戶習(xí)慣、時(shí)間、地點(diǎn)、輸入環(huán)境進(jìn)行結(jié)構(gòu)化存儲(chǔ)。以時(shí)間對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)為例,該表格中含有24個(gè)KEY,分別是24個(gè)小時(shí),即0-23。每個(gè)時(shí)段后面對(duì)應(yīng)相應(yīng)的音節(jié)組合和該音節(jié)組合在該時(shí)間段的輸入詞頻。地點(diǎn)對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)也是同樣的記錄方式進(jìn)行存儲(chǔ)。環(huán)境特征和用戶習(xí)慣的記錄方式則不區(qū)分時(shí)間和地點(diǎn),記錄該音節(jié)組合對(duì)應(yīng)的輸入環(huán)境,即拼音字符串所輸入的軟件客體對(duì)應(yīng)的類型(例如是在word,還是在地圖應(yīng)用,還是音視頻應(yīng)用中進(jìn)行的輸入),和當(dāng)前用戶的使用習(xí)慣,是否輸入過相同的拼音字符串以及輸入的次數(shù)和最后輸入的時(shí)間等。其中,當(dāng)前用戶的使用習(xí)慣通過對(duì)用戶的輸入設(shè)置、本地各應(yīng)用的觸發(fā)記錄進(jìn)行分析得到。
[0135]仍以用戶選擇“xi’an”這個(gè)音節(jié)組合為例,本機(jī)配置文件在本次輸入后被更新為:“xi’ an”這個(gè)音節(jié)組合共計(jì)使用過11次,其中地圖應(yīng)用中使用過9次,word文檔中使用過2次,使用時(shí)對(duì)應(yīng)的時(shí)間分別為,14:002次、15:004次、16:003次、18:002次;使用時(shí)對(duì)應(yīng)的地理位置分別為,在西安使用過10次,在北京使用過I次,從而作為用戶下次輸入提供本地個(gè)性化信息的加權(quán)依據(jù)。同時(shí),還可以將該上述信息傳至服務(wù)器端,通過服務(wù)器端的各種特征模型將相關(guān)內(nèi)容進(jìn)行聚類,作為用戶下次輸入提服務(wù)器端供個(gè)性化信息的加權(quán)依據(jù)。
[0136]通過本實(shí)施例的拼音字符串處理方案,結(jié)合了用戶習(xí)慣、輸入環(huán)境、時(shí)間和位置等與用戶輸入密切相關(guān)且對(duì)于每個(gè)用戶又不盡相同的特征,通過這些特征影響用戶輸入,減少了用戶選擇輸入時(shí)的交互次數(shù),降低了輸入時(shí)間成本,提高了輸入效率。
[0137]實(shí)施例四
[0138]參照?qǐng)D5,示出了本申請(qǐng)實(shí)施例四的一種拼音字符串處理裝置的結(jié)構(gòu)框圖。
[0139]如圖5所示,本實(shí)施例的拼音字符串處理裝置包括:第一獲取模塊502,用于接收拼音字符串的輸入,獲取當(dāng)前環(huán)境信息;其中,當(dāng)前環(huán)境信息為接收拼音字符串的當(dāng)前應(yīng)用程序和/或輸入框的信息;第二獲取模塊504,用于依據(jù)預(yù)設(shè)的配置信息,獲取輸入拼音字符串的個(gè)性化信息;其中,個(gè)性化信息中包括用戶習(xí)慣信息和歷史環(huán)境信息,歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息;第三獲取模塊506,用于依據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,從而確定拼音字符串中分詞符的位置。
[0140]優(yōu)選地,用戶個(gè)性化信息還包括:時(shí)間信息和/或位置信息;其中,時(shí)間信息為與用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的時(shí)間;位置信息為用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的地理位置;
[0141]第三獲取模塊506在依據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選時(shí),依據(jù)用戶習(xí)慣信息和當(dāng)前環(huán)境信息,以及當(dāng)前時(shí)間信息和/或當(dāng)前位置信息,對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選。
[0142]優(yōu)選地,第三獲取模塊506包括:獲取權(quán)值子模塊5062,用于根據(jù)拼音字符串對(duì)應(yīng)的各組音節(jié)組合與用戶習(xí)慣信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值;根據(jù)當(dāng)前環(huán)境信息與歷史環(huán)境信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的環(huán)境權(quán)值;根據(jù)當(dāng)前時(shí)間信息和/或當(dāng)前位置信息與對(duì)應(yīng)的時(shí)間信息和/或位置信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的時(shí)間權(quán)值和/或地點(diǎn)權(quán)值;求和子模塊5064,用于對(duì)各組音節(jié)組合對(duì)應(yīng)的各權(quán)值進(jìn)行求和,獲得各組音節(jié)組合的總特征權(quán)值;確定子模塊5066,用于根據(jù)各組音節(jié)組合的總特征權(quán)值對(duì)至少一組音節(jié)組合進(jìn)行排序,并根據(jù)排前的音節(jié)組合確定所述拼音字符串中分詞符的位置。
[0143]優(yōu)選地,第二獲取模塊504在依據(jù)預(yù)設(shè)的配置信息,獲取輸入拼音字符串的個(gè)性化信息時(shí),依據(jù)預(yù)設(shè)的配置信息,確定從服務(wù)器端獲取個(gè)性化信息;其中,服務(wù)器端的用戶個(gè)性化信息通過以下方式生成:獲取用戶進(jìn)行網(wǎng)絡(luò)訪問時(shí)的歷史行為信息;其中,歷史行為信息中包括:用戶往期進(jìn)行輸入的內(nèi)容、時(shí)間、地理位置、輸入環(huán)境,和/或,用戶往期進(jìn)行網(wǎng)絡(luò)訪問的內(nèi)容、時(shí)間、地理位置;分別根據(jù)預(yù)設(shè)的興趣模型、環(huán)境模型、時(shí)間模型和位置模型,分別對(duì)歷史行為信息進(jìn)行分析處理;根據(jù)歷史行為信息進(jìn)行分析處理的結(jié)果,生成服務(wù)器端對(duì)應(yīng)的個(gè)性化信息。
[0144]優(yōu)選地,興趣特征分析模型包括個(gè)體興趣模型和群體興趣模型,當(dāng)獲取權(quán)值子模塊5062在根據(jù)拼音字符串對(duì)應(yīng)的各組音節(jié)組合與所述用戶習(xí)慣信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值時(shí):將各組音節(jié)組合分別與通過個(gè)體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配;若匹配不成功,則將各組音節(jié)組合分別與通過個(gè)體興趣模型對(duì)應(yīng)的群體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配;根據(jù)各組音節(jié)組合與群體興趣模型的匹配結(jié)果獲得各組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值。
[0145]優(yōu)選地,獲取權(quán)值子模塊5062獲取的習(xí)慣權(quán)值通過以下方式獲得:目標(biāo)音節(jié)組合被選擇次數(shù)/拼音字符串對(duì)應(yīng)的多組音節(jié)組合總輸入次數(shù)XN,其中,權(quán)重系數(shù),且N為大于O的自然數(shù)。
[0146]優(yōu)選地,本實(shí)施例的拼音字符串處理裝置還包括:第四獲取模塊508,用于在第三獲取模塊506對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選之后,獲得篩選得到的音節(jié)組合分別對(duì)應(yīng)的候選詞;第五獲取模塊510,用于獲取各候選詞對(duì)應(yīng)的附加權(quán)值;其中,附加權(quán)值根據(jù)對(duì)所有用戶對(duì)各組漢字的選擇進(jìn)行分析統(tǒng)計(jì)后得到;輸出模塊512,用于根據(jù)附加權(quán)值對(duì)候選詞進(jìn)行排序后輸出。
[0147]優(yōu)選地,輸出模塊512用于對(duì)候選詞進(jìn)行排序的附加權(quán)值,除了根據(jù)對(duì)所有用戶對(duì)各組漢字的選擇進(jìn)行分析統(tǒng)計(jì)后得到外,還根據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息對(duì)選擇出的各組漢字進(jìn)行分析統(tǒng)計(jì)后得到。
[0148]優(yōu)選地,第二獲取模塊504獲取的用戶習(xí)慣信息,根據(jù)當(dāng)前用戶使用各組音節(jié)組合的次數(shù)和用戶使用各組音節(jié)組合的最后時(shí)間獲得。
[0149]本實(shí)施例的拼音字符串處理裝置用于實(shí)現(xiàn)前述多個(gè)方法實(shí)施例中相應(yīng)的拼音字符串處理方法,并且具有相應(yīng)的方法實(shí)施的有益效果,在此不再贅述。
[0150]本發(fā)明提供了一種拼音字符串處理方案,該方案可廣泛用于所有可以采用輸入法進(jìn)行內(nèi)容輸入的裝置,如:手機(jī)、個(gè)人電腦等。本發(fā)明的拼音字符串處理方案當(dāng)用戶輸入拼音字符串時(shí),依據(jù)用戶的個(gè)性化信息、當(dāng)前環(huán)境信息、當(dāng)前時(shí)間信息、當(dāng)前地點(diǎn)信息,對(duì)拼音字符串對(duì)應(yīng)的多組音節(jié)組合進(jìn)行篩選,優(yōu)先提供給用戶更貼近欲輸入目標(biāo)的音節(jié)組合,減少用戶在輸入時(shí)的交互動(dòng)作,降低輸入時(shí)間成本,滿足了用戶的個(gè)性化需求。
[0151]本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
[0152]以上對(duì)本發(fā)明所提供的一種拼音字符串處理方法和裝置進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【權(quán)利要求】
1.一種拼音字符串處理方法,其特征在于,包括: 接收拼音字符串的輸入,獲取當(dāng)前環(huán)境信息;其中,所述當(dāng)前環(huán)境信息為接收所述拼音字符串的當(dāng)前應(yīng)用程序和/或輸入框的信息; 依據(jù)預(yù)設(shè)的配置信息,獲取輸入所述拼音字符串的個(gè)性化信息;其中,所述個(gè)性化信息中包括用戶習(xí)慣信息和歷史環(huán)境信息,所述歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息; 依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,從而確定所述拼音字符串中分詞符的位置。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述個(gè)性化信息還包括:時(shí)間信息和/或位置信息;其中,所述時(shí)間信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的時(shí)間;所述位置信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的地理位置; 所述依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選時(shí),依據(jù)所述用戶習(xí)慣信息和所述當(dāng)前環(huán)境信息,以及所述當(dāng)前時(shí)間信息和/或所述當(dāng)前位置信息,對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述依據(jù)所述用戶習(xí)慣信息和所述當(dāng)前環(huán)境的信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,從而確定所述拼音字符串中分詞符的位置的步驟包括: 根據(jù)所述拼音字符串對(duì)應(yīng)的各組音節(jié)組合與所述用戶習(xí)慣信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值; 根據(jù)所述當(dāng)前環(huán)境信息與所述歷史環(huán)境信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的環(huán)境權(quán)值; 根據(jù)所述當(dāng)前時(shí)間信息和/或所述當(dāng)前位置信息與對(duì)應(yīng)的所述時(shí)間信息和/或位置信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的時(shí)間權(quán)值和/或地點(diǎn)權(quán)值; 對(duì)所述各組音節(jié)組合對(duì)應(yīng)的各權(quán)值進(jìn)行求和,獲得所述各組音節(jié)組合的總特征權(quán)值,根據(jù)所述總特征權(quán)值對(duì)所述各組音節(jié)組合進(jìn)行排序,并根據(jù)排序在前的音節(jié)組合確定所述拼音字符串中分詞符的位置。
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述個(gè)性化信息從服務(wù)器端獲取,并通過以下方式生成: 獲取所述用戶進(jìn)行網(wǎng)絡(luò)訪問時(shí)的歷史行為信息;其中,所述歷史行為信息中包括:所述用戶往期進(jìn)行輸入的內(nèi)容、時(shí)間、地理位置、輸入環(huán)境,和/或,所述用戶往期進(jìn)行網(wǎng)絡(luò)訪問的內(nèi)容、時(shí)間、地理位置; 分別根據(jù)預(yù)設(shè)的興趣模型、環(huán)境模型、時(shí)間模型和位置模型,分別對(duì)所述歷史行為信息進(jìn)行分析處理; 根據(jù)所述歷史行為信息進(jìn)行分析處理的結(jié)果,生成所述服務(wù)器端對(duì)應(yīng)的個(gè)性化信息。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述興趣模型包括個(gè)體興趣模型和群體興趣模型; 當(dāng)根據(jù)所述拼音字符串對(duì)應(yīng)的各組音節(jié)組合與所述用戶習(xí)慣信息的匹配結(jié)果,分別獲得每組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值時(shí):將所述各組音節(jié)組合分別與通過所述個(gè)體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配; 若匹配不成功,則將所述各組音節(jié)組合分別與通過所述個(gè)體興趣模型對(duì)應(yīng)的群體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配; 根據(jù)所述各組音節(jié)組合與所述群體興趣模型的匹配結(jié)果獲得所述各組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值。
6.根據(jù)權(quán)利要求3或5所述的方法,其特征在于,所述習(xí)慣權(quán)值通過以下方式獲得: 目標(biāo)音節(jié)組合被選擇次數(shù)+所述拼音字符串對(duì)應(yīng)的多個(gè)音節(jié)組合總輸入次數(shù)XN,其中,N為權(quán)重系數(shù),且N為大于O的自然數(shù)。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選之后,還包括: 獲得篩選得到的音節(jié)組合分別對(duì)應(yīng)的候選詞; 獲取各所述候選詞對(duì)應(yīng)的附加權(quán)值;其中,所述附加權(quán)值根據(jù)對(duì)所有用戶對(duì)所述各組漢字的選擇進(jìn)行分析統(tǒng)計(jì)后得到; 根據(jù)所述附加權(quán)值對(duì)所述候選詞進(jìn)行排序后輸出。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述附加權(quán)值除了根據(jù)對(duì)所有用戶對(duì)所述各組漢字的選擇進(jìn)行分析統(tǒng)計(jì)后得到外,還包括: 根據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息,對(duì)選擇出的所述各組漢字進(jìn)行分析統(tǒng)計(jì)后得到。
9.根據(jù)權(quán)利要求1、2、3或5中任一項(xiàng)所述的方法,其特征在于,所述用戶習(xí)慣信息根據(jù)當(dāng)前用戶使用各組音節(jié)組合的次數(shù)和用戶使用各組音節(jié)組合的最后時(shí)間獲得。
10.一種拼音字符串處理裝置,其特征在于,包括: 第一獲取模塊,用于接收拼音字符串的輸入,獲取當(dāng)前環(huán)境信息;其中,所述當(dāng)前環(huán)境信息為接收所述拼音字符串的當(dāng)前應(yīng)用程序和/或輸入框的信息; 第二獲取模塊,用于依據(jù)預(yù)設(shè)的配置信息,獲取輸入所述拼音字符串的個(gè)性化信息;其中,所述個(gè)性化信息中包括用戶習(xí)慣信息和歷史環(huán)境信息,所述歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息; 第三獲取模塊,用于依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選,從而確定所述拼音字符串中分詞符的位置。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于, 所述個(gè)性化信息還包括:時(shí)間信息和/或位置信息;其中,所述時(shí)間信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的時(shí)間;所述位置信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的地理位置; 所述第三獲取模塊在依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選時(shí),依據(jù)所述用戶習(xí)慣信息和所述當(dāng)前環(huán)境信息,以及所述當(dāng)前時(shí)間信息和/或所述當(dāng)前位置信息,對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選。
【文檔編號(hào)】G06F3/023GK104423621SQ201310370370
【公開日】2015年3月18日 申請(qǐng)日期:2013年8月22日 優(yōu)先權(quán)日:2013年8月22日
【發(fā)明者】張雷, 張霓 申請(qǐng)人:北京搜狗科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
灵川县| 剑河县| 华蓥市| 栖霞市| 孙吴县| 都江堰市| 古丈县| 万盛区| 神农架林区| 阳朔县| 浮山县| 东山县| 柳林县| 佛坪县| 临桂县| 德安县| 邯郸县| 射洪县| 宜城市| 江华| 酒泉市| 徐州市| 龙井市| 库伦旗| 天祝| 伊川县| 陵川县| 安徽省| 博白县| 永城市| 绵阳市| 建平县| 双城市| 西城区| 南皮县| 天长市| 赣州市| 富裕县| 梅河口市| 札达县| 景谷|