拼音字符串處理方法和裝置制造方法

文檔序號(hào)：6508663閱讀：393來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

拼音字符串處理方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種拼音字符串處理方法和裝置，其中，拼音字符串處理方法包括：接收拼音字符串的輸入，獲取當(dāng)前環(huán)境信息；其中，所述當(dāng)前環(huán)境信息為接收所述拼音字符串的當(dāng)前應(yīng)用程序和/或輸入框的信息；依據(jù)預(yù)設(shè)的配置信息，獲取輸入所述拼音字符串的個(gè)性化信息；其中，所述個(gè)性化信息中包括用戶習(xí)慣信息和歷史環(huán)境信息，所述歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息；依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，從而確定所述拼音字符串中分詞符的位置。通過本申請(qǐng)，減少了用戶在進(jìn)行漢字輸入時(shí)的交互動(dòng)作，提高了輸入效率。
【專利說明】拼音字符串處理方法和裝置

【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及輸入法【技術(shù)領(lǐng)域】，特別是涉及一種拼音字符串處理方法和裝置。

【背景技術(shù)】
[0002]輸入法是按照拼音字符串即拼音串輸入漢字的方法，為了能把用戶輸入的拼音字符串轉(zhuǎn)換為漢字輸出，需要首先對(duì)用戶輸入的拼音字符串進(jìn)行切分，將拼音字符串分割為合法的音節(jié)組合，然后將音節(jié)組合轉(zhuǎn)換為漢字。
[0003]一種拼音字符串處理方法如圖1所示，該方法包括以下步驟:步驟S102，對(duì)接收到的拼音字符串進(jìn)行切分，分別將拼音字符串中的聲母和韻母作為切分子串得到切分子串序列；步驟S104，對(duì)切分子串序列中的切分子串進(jìn)行擴(kuò)展，并根據(jù)擴(kuò)展結(jié)果生成擴(kuò)展子串序列集合；步驟S106，按照音節(jié)組成特征對(duì)擴(kuò)展子串序列集合中每個(gè)擴(kuò)展子串序列進(jìn)行音節(jié)抽取，得到對(duì)應(yīng)的音節(jié)序列；步驟S108，對(duì)各音節(jié)序列中的音節(jié)組合進(jìn)行合法性驗(yàn)證，并根據(jù)驗(yàn)證結(jié)果刪除包含有非法音節(jié)的音節(jié)序列；步驟S110，輸出進(jìn)行了合法性驗(yàn)證后的音節(jié)組合。
[0004]使用上述拼音字符串處理方法輸入漢字時(shí)，由系統(tǒng)采用簡(jiǎn)單匹配的方式顯示各組音節(jié)組合供用戶選擇，如采用固有的規(guī)律對(duì)拼音字符串進(jìn)行分詞，按照順序顯示音節(jié)組合，也即，系統(tǒng)過于粗暴地為用戶將拼音字符串對(duì)應(yīng)的音節(jié)組合做了排序和選擇。尤其是在用戶使用傳統(tǒng)的九鍵鍵盤時(shí)，使用九鍵拼音輸入法進(jìn)行輸入時(shí)，由于鍵盤中每個(gè)按鍵存在復(fù)用的情況，輸入的每個(gè)拼音字符串對(duì)應(yīng)了很多的音節(jié)組合，上述傳統(tǒng)的拼音字符串處理方式無法滿足用戶對(duì)輸入的內(nèi)容的期望，這種方式僅能夠統(tǒng)一地給出同樣的各組音節(jié)組合的排序，導(dǎo)致用戶在選擇需要的音節(jié)組合時(shí)會(huì)使用較多的交互動(dòng)作才能查找到欲輸入的候選項(xiàng)，降低了輸入效率。

【發(fā)明內(nèi)容】

[0005]本發(fā)明提供了一種拼音字符串處理方法和裝置，以解決目前的拼音字符串處理過程中，僅能夠統(tǒng)一地給出同樣的各組音節(jié)組合的排序，，導(dǎo)致用戶在選擇需要的音節(jié)組合時(shí)使用較多的交互動(dòng)作才能找到欲輸入的候選項(xiàng)，無法滿足個(gè)性化輸入需求，輸入效率較低的問題。
[0006]為了解決上述問題，本發(fā)明公開了一種拼音字符串處理方法，包括:
[0007]接收拼音字符串的輸入，獲取當(dāng)前環(huán)境信息；其中，所述當(dāng)前環(huán)境信息為接收所述拼音字符串的當(dāng)前應(yīng)用程序和/或輸入框的信息；
[0008]依據(jù)預(yù)設(shè)的配置信息，獲取輸入所述拼音字符串的個(gè)性化信息；其中，所述個(gè)性化信息中包括用戶習(xí)慣信息和歷史環(huán)境信息，所述歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息；
[0009]依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，從而確定所述拼音字符串中分詞符的位置。
[0010]優(yōu)選地，所述個(gè)性化信息還包括:時(shí)間信息和/或位置信息；其中，所述時(shí)間信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的時(shí)間；所述位置信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的地理位置；
[0011]所述依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選時(shí)，依據(jù)所述用戶習(xí)慣信息和所述當(dāng)前環(huán)境信息，以及所述當(dāng)前時(shí)間信息和/或所述當(dāng)前位置信息，對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選。
[0012]優(yōu)選地，所述依據(jù)所述用戶習(xí)慣信息和所述當(dāng)前環(huán)境的信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，從而確定所述拼音字符串中分詞符的位置的步驟包括:
[0013]根據(jù)所述拼音字符串對(duì)應(yīng)的各組音節(jié)組合與所述用戶習(xí)慣信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值；
[0014]根據(jù)所述當(dāng)前環(huán)境信息與所述歷史環(huán)境信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的環(huán)境權(quán)值；
[0015]根據(jù)所述當(dāng)前時(shí)間信息和/或所述當(dāng)前位置信息與對(duì)應(yīng)的所述時(shí)間信息和/或位置信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的時(shí)間權(quán)值和/或地點(diǎn)權(quán)值；
[0016]對(duì)所述各組音節(jié)組合對(duì)應(yīng)的各權(quán)值進(jìn)行求和，獲得所述各組音節(jié)組合的總特征權(quán)值，根據(jù)所述總特征權(quán)值對(duì)所述各組音節(jié)組合進(jìn)行排序，并根據(jù)排序在前的音節(jié)組合確定所述拼音字符串中分詞符的位置。
[0017]優(yōu)選地，所述個(gè)性化信息從服務(wù)器端獲取，并通過以下方式生成:
[0018]獲取所述用戶進(jìn)行網(wǎng)絡(luò)訪問時(shí)的歷史行為信息；其中，所述歷史行為信息中包括:所述用戶往期進(jìn)行輸入的內(nèi)容、時(shí)間、地理位置、輸入環(huán)境，和/或，所述用戶往期進(jìn)行網(wǎng)絡(luò)訪問的內(nèi)容、時(shí)間、地理位置；
[0019]分別根據(jù)預(yù)設(shè)的興趣模型、環(huán)境模型、時(shí)間模型和位置模型，分別對(duì)所述歷史行為信息進(jìn)行分析處理；
[0020]根據(jù)所述歷史行為信息進(jìn)行分析處理的結(jié)果，生成所述服務(wù)器端對(duì)應(yīng)的個(gè)性化信肩、O
[0021]優(yōu)選地，所述興趣模型包括個(gè)體興趣模型和群體興趣模型；
[0022]當(dāng)根據(jù)所述拼音字符串對(duì)應(yīng)的各組音節(jié)組合與所述用戶習(xí)慣信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值時(shí):將所述各組音節(jié)組合分別與通過所述個(gè)體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配；
[0023]若匹配不成功，則將所述各組音節(jié)組合分別與通過所述個(gè)體興趣模型對(duì)應(yīng)的群體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配；
[0024]根據(jù)所述各組音節(jié)組合與所述群體興趣模型的匹配結(jié)果獲得所述各組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值。
[0025]優(yōu)選地，所述習(xí)慣權(quán)值通過以下方式獲得:目標(biāo)音節(jié)組合被選擇次數(shù)+所述拼音字符串對(duì)應(yīng)的多個(gè)音節(jié)組合總輸入次數(shù)XN，其中，N為權(quán)重系數(shù)，且N為大于O的自然數(shù)。
[0026]優(yōu)選地，在所述對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選之后，還包括:
[0027]獲得篩選得到的音節(jié)組合分別對(duì)應(yīng)的候選詞；
[0028]獲取各所述候選詞對(duì)應(yīng)的附加權(quán)值；其中，所述附加權(quán)值根據(jù)對(duì)所有用戶對(duì)所述各組漢字的選擇進(jìn)行分析統(tǒng)計(jì)后得到；
[0029]根據(jù)所述附加權(quán)值對(duì)所述候選詞進(jìn)行排序后輸出。
[0030]優(yōu)選地，所述附加權(quán)值除了根據(jù)對(duì)所有用戶對(duì)所述各組漢字的選擇進(jìn)行分析統(tǒng)計(jì)后得到外，還包括:
[0031]根據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息，對(duì)選擇出的所述各組漢字進(jìn)行分析統(tǒng)計(jì)后得到。
[0032]優(yōu)選地，所述用戶習(xí)慣信息根據(jù)當(dāng)前用戶使用各組音節(jié)組合的次數(shù)和用戶使用各組音節(jié)組合的最后時(shí)間獲得。
[0033]為了解決上述問題，本發(fā)明還公開了一種拼音字符串處理裝置，包括:
[0034]第一獲取模塊，用于接收拼音字符串的輸入，獲取當(dāng)前環(huán)境信息；其中，所述當(dāng)前環(huán)境信息為接收所述拼音字符串的當(dāng)前應(yīng)用程序和/或輸入框的信息；
[0035]第二獲取模塊，用于依據(jù)預(yù)設(shè)的配置信息，獲取輸入所述拼音字符串的個(gè)性化信息；其中，所述個(gè)性化信息中包括用戶習(xí)慣信息和歷史環(huán)境信息，所述歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息；
[0036]第三獲取模塊，用于依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，從而確定所述拼音字符串中分詞符的位置。
[0037]優(yōu)選地，所述個(gè)性化信息還包括:時(shí)間信息和/或位置信息；其中，所述時(shí)間信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的時(shí)間；所述位置信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的地理位置；
[0038]所述第三獲取模塊在依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選時(shí)，依據(jù)所述用戶習(xí)慣信息和所述當(dāng)前環(huán)境信息，以及所述當(dāng)前時(shí)間信息和/或所述當(dāng)前位置信息，對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選。
[0039]與現(xiàn)有技術(shù)相比，本發(fā)明具有以下優(yōu)點(diǎn):
[0040]本發(fā)明的拼音字符串處理方案中，當(dāng)用戶輸入拼音字符串時(shí)，同時(shí)依據(jù)用戶的個(gè)性化信息以及當(dāng)前環(huán)境信息，對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，從而確定拼音字符串中分詞符的位置。當(dāng)前環(huán)境信息明確指示了接收當(dāng)前拼音字符串的應(yīng)用程序和/或輸入框的信息，而個(gè)性化信息中的歷史環(huán)境信息則指示了該用戶在不同輸入環(huán)境下進(jìn)行拼音字符串輸入的習(xí)慣或傾向性特征。因此，在對(duì)拼音字符串對(duì)應(yīng)的音節(jié)組合進(jìn)行篩選時(shí)，將當(dāng)前環(huán)境信息與用戶個(gè)性化信息中的歷史環(huán)境信息相匹配，使篩選得到的音節(jié)組合更符合用戶的習(xí)慣，更具有針對(duì)性，從而解決了目前的拼音字符串處理過程中，僅能夠統(tǒng)一地給出同樣的各組音節(jié)組合的排序的問題。尤其是在用戶使用九鍵鍵盤輸入時(shí)，可高效地將更接近用戶需求的音節(jié)組合篩選出來，避免了因鍵盤復(fù)用造成的選擇音節(jié)組合時(shí)需要重復(fù)進(jìn)行的多次觸發(fā)，減少了用戶在進(jìn)行漢字輸入時(shí)的交互動(dòng)作，提高了輸入效率。

【專利附圖】

【附圖說明】
[0041]圖1是現(xiàn)有技術(shù)中的一種拼音字符串處理方法的步驟流程圖；
[0042]圖2是根據(jù)本發(fā)明實(shí)施例一的一種拼音字符串處理方法的步驟流程圖；
[0043]圖3是根據(jù)本發(fā)明實(shí)施例二的一種拼音字符串處理方法的步驟流程圖；
[0044]圖4是根據(jù)本發(fā)明實(shí)施例三的一種拼音字符串處理方法的步驟流程圖；
[0045]圖5是根據(jù)本發(fā)明實(shí)施例四的一種拼音字符串處理裝置的結(jié)構(gòu)框圖。

【具體實(shí)施方式】
[0046]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂，下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
[0047]實(shí)施例一
[0048]參照?qǐng)D2，示出了根據(jù)本申請(qǐng)實(shí)施例一的一種拼音字符串處理方法的步驟流程圖。
[0049]本實(shí)施例的拼音字符串處理方法包括以下步驟:
[0050]步驟S202:接收拼音字符串的輸入，獲取當(dāng)前環(huán)境信息。
[0051]其中，當(dāng)前環(huán)境信息為接收拼音字符串的當(dāng)前應(yīng)用程序和/或輸入框?qū)?yīng)的信息，包括當(dāng)前應(yīng)用程序所屬的行業(yè)類別信息，輸入框?qū)?yīng)的功能信息等，可通過獲取當(dāng)前應(yīng)用程序?qū)?yīng)的安裝描述信息或抓取輸入框?qū)?yīng)的提示文本進(jìn)行獲取得到。
[0052]用戶可以通過多種輸入形式來輸入拼音字符串，如通過傳統(tǒng)按鍵手機(jī)以九鍵鍵盤的形式輸入，也可以通過智能手機(jī)采用26鍵的QWERTY標(biāo)準(zhǔn)的傳統(tǒng)鍵盤輸入，還可以通過電腦鍵盤等其他形式輸入。輸入法能夠自動(dòng)獲取輸入拼音字符串的環(huán)境，即當(dāng)前輸入環(huán)境信息，例如:當(dāng)用戶在短信輸入框輸入內(nèi)容時(shí)，輸入法自動(dòng)獲取當(dāng)前環(huán)境為短信輸入框，當(dāng)用戶在“google地圖”中輸入內(nèi)容時(shí)，輸入法自動(dòng)獲取當(dāng)前環(huán)境為地圖軟件。
[0053]步驟S204:依據(jù)預(yù)設(shè)的配置信息，獲取輸入拼音字符串的個(gè)性化信息。
[0054]其中，個(gè)性化信息中包括用戶習(xí)慣信息和歷史環(huán)境信息，歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息。
[0055]個(gè)性化信息中，用戶習(xí)慣信息用于指示用戶往期漢字輸入和/或往期網(wǎng)絡(luò)訪問的傾向性特征；歷史環(huán)境信息用于指示用戶往期進(jìn)行漢字輸入的輸入環(huán)境的傾向性特征。預(yù)設(shè)的配置信息可以用于指示從本地或者從服務(wù)器端獲取用戶的個(gè)性化信息。
[0056]用戶習(xí)慣信息表征了用戶往期漢字輸入和/或往期網(wǎng)絡(luò)訪問的傾向性特征。例如，服務(wù)器監(jiān)測(cè)到用戶往期經(jīng)常在移動(dòng)終端中輸入釣魚、漁具、漁友等內(nèi)容，則通過該內(nèi)容可以分析得出該用戶具有釣魚的興趣，即采集到了用戶的習(xí)慣信息。該信息在后續(xù)的輸入中將指導(dǎo)拼音字符串的切分，如當(dāng)該用戶輸入“diaoyu”時(shí)，對(duì)應(yīng)的優(yōu)先的音節(jié)組合應(yīng)為“diao”和“yu”，則分詞符的位置為“diao’ yu”，再調(diào)整其它可能音節(jié)組合，得到對(duì)應(yīng)的分詞符的位置如“di’ ao’ yu”等。再例如，用戶雖然沒有輸入過釣魚方面的內(nèi)容，但經(jīng)常瀏覽釣魚類網(wǎng)站，則服務(wù)器對(duì)用戶的往期網(wǎng)絡(luò)訪問數(shù)據(jù)進(jìn)行分析同樣可以得出該用戶具有釣魚的興趣，同樣采集到了用戶的習(xí)慣信息。那么，若該用戶輸入“diaoyu”時(shí)，也會(huì)得到優(yōu)先的音節(jié)組合應(yīng)為“diao”和“yu”，從而將分詞符的位置設(shè)置為“diao’ yu”。此外，歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息，表征了用戶往期進(jìn)行漢字輸入的輸入環(huán)境的傾向性特征，如對(duì)于拼音字符串“diaoyu”，用戶往期在搜索引擎中輸入時(shí)傾向于得到音節(jié)組合為“diao”和“yu”，而往期在地圖中輸入時(shí)傾向于得到音節(jié)組合“di”、“ao “和“yu”，則結(jié)合上述用戶習(xí)慣信息，當(dāng)用戶在搜索引擎中輸入拼音字符串“diaoyu”時(shí)，優(yōu)先將分詞符的位置設(shè)置為“diao’ yu”，而在其它應(yīng)用或輸入框中輸入“diaoyu”時(shí)，則可以根據(jù)用戶習(xí)慣信息和當(dāng)前環(huán)境信息，確定“diaoyu”對(duì)應(yīng)的各組音節(jié)組合，如將分詞符的位置設(shè)置為“di，ao’ yu” 或 “diao，y’ u” 等。
[0057]步驟S206:依據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，從而確定拼音字符串中分詞符的位置。
[0058]由于拼音字符串中各組音節(jié)組合對(duì)應(yīng)不同的音節(jié)劃分，進(jìn)而根據(jù)得到的這些音節(jié)劃分確定分詞符在拼音字符串中的不同位置。
[0059]更進(jìn)一步地，在依據(jù)用戶習(xí)慣信息和當(dāng)前環(huán)境的信息對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選時(shí)，還可以根據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息計(jì)算出每組音節(jié)組合的權(quán)值。依據(jù)權(quán)值的高低對(duì)多組拼音組合進(jìn)行排序，選擇排序最靠前的音節(jié)組合，再獲取與此音節(jié)組合對(duì)應(yīng)的匹配的漢字組合。在其他實(shí)施例中，也可以根據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息，在確定各組音節(jié)組合的顯示順序后，為各組漢字設(shè)定編號(hào)，按照編號(hào)順序?yàn)槎嘟M拼音組合排序等等。
[0060]通過本實(shí)施例的拼音字符串處理方案，當(dāng)用戶輸入拼音字符串時(shí)，同時(shí)依據(jù)用戶的個(gè)性化信息以及當(dāng)前環(huán)境信息，對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，從而確定所述拼音字符串中分詞符的位置。當(dāng)前環(huán)境信息明確指示了接收當(dāng)前拼音字符串輸入的應(yīng)用程序和/或輸入框的信息，而個(gè)性化信息中的歷史環(huán)境信息則指示了該用戶在不同輸入環(huán)境下進(jìn)行漢字輸入的習(xí)慣或傾向性特征。因此，在對(duì)拼音字符串進(jìn)行分詞，篩選各組音節(jié)組合時(shí)，不僅參考用戶習(xí)慣信息，還將當(dāng)前環(huán)境信息與個(gè)性化信息中的歷史環(huán)境信息相匹配，根據(jù)匹配結(jié)果確定符合用戶習(xí)慣的音節(jié)組合，從而使得該得到的音節(jié)組合更符合用戶的習(xí)慣，提高用戶的輸入效率。通過本實(shí)施例的拼音字符串處理方案，解決了目前的拼音字符串處理過程中僅能夠統(tǒng)一地給出同樣的各組音節(jié)組合的排序，，導(dǎo)致用戶需要使用較多的交互動(dòng)作才能獲得需要的音節(jié)組合，輸入成本高，無法滿足用戶個(gè)性化輸入需求的問題，尤其是在用戶使用九鍵鍵盤輸入時(shí)，通過上述方式對(duì)拼音字符串對(duì)應(yīng)的音節(jié)組合進(jìn)行篩選，可以將更接近用戶需求的音節(jié)組合篩選出來，解決了因鍵盤復(fù)用的情況造成的當(dāng)用戶輸入一個(gè)拼音字符串時(shí)會(huì)對(duì)應(yīng)多個(gè)音節(jié)組合，用戶在選擇需要的音節(jié)組合時(shí)需要重復(fù)多次進(jìn)行觸發(fā)的問題，減少了用戶在進(jìn)行漢字輸入時(shí)的交互動(dòng)作，提高了輸入效率。
[0061]實(shí)施例二
[0062]參照?qǐng)D3，示出了本申請(qǐng)實(shí)施例二的一種拼音字符串處理方法的步驟流程圖。
[0063]本實(shí)施例的拼音字符串處理方法包括以下步驟:
[0064]步驟S302:生成本地的個(gè)性化信息數(shù)據(jù)庫。
[0065]本地的個(gè)性化信息數(shù)據(jù)庫中除存儲(chǔ)有用戶習(xí)慣信息和歷史環(huán)境信息外，還可以存儲(chǔ)有用戶的時(shí)間信息和/或位置信息。
[0066]本地的個(gè)性化信息數(shù)據(jù)庫可以通過以下方式生成:獲取用戶在本地的歷史行為信息，其中，歷史行為信息中包括:用戶往期每次進(jìn)行漢字輸入的內(nèi)容、時(shí)間、地理位置、輸入環(huán)境，和/或，用戶往期每次進(jìn)行網(wǎng)絡(luò)訪問的內(nèi)容、時(shí)間、地理位置；對(duì)歷史行為信息進(jìn)行分析和統(tǒng)計(jì)，并根據(jù)分析和統(tǒng)計(jì)結(jié)果生成本地的個(gè)性化信息數(shù)據(jù)庫。當(dāng)然，若個(gè)性化信息數(shù)據(jù)庫中不存儲(chǔ)用戶的時(shí)間信息和/或位置信息，也可以不獲取歷史行為信息中相對(duì)應(yīng)的內(nèi)容，如用戶往期每次進(jìn)行漢字輸入的時(shí)間、地理位置，和/或，用戶往期每次進(jìn)行網(wǎng)絡(luò)訪問的時(shí)間、地理位置等。優(yōu)選地，用戶習(xí)慣信息可以根據(jù)當(dāng)前用戶使用各組音節(jié)組合的次數(shù)和用戶使用各組音節(jié)組合的最后時(shí)間獲得。
[0067]本地的個(gè)性化信息數(shù)據(jù)庫保存的個(gè)性化信息可以實(shí)時(shí)或者每隔設(shè)定時(shí)間段進(jìn)行更新。例如，用戶本次選擇出適合的一組漢字進(jìn)行輸入后，該組漢字以及本次輸入對(duì)應(yīng)的時(shí)間、位置、輸入環(huán)境等會(huì)被記錄在本地的個(gè)性化信息數(shù)據(jù)庫中作為一次歷史行為信息，在下次對(duì)用戶個(gè)性化信息進(jìn)行更新時(shí)使用。具體地，如:用戶當(dāng)前通過在短信內(nèi)容輸入框中輸入“xian”這個(gè)拼音字符串，在給出的多組漢字中選定“西安”為候選詞時(shí)，且當(dāng)時(shí)時(shí)間為下午三點(diǎn)，根據(jù)GPS對(duì)移動(dòng)終端定位得到當(dāng)前位置為西安，則本地就會(huì)保存用戶輸入的拼音字符串“xian”、“xian”的分詞符位置“xi’ an”，以及與其對(duì)應(yīng)的候選詞“西安”、時(shí)間15點(diǎn)、輸入環(huán)境短信框以及地理位置西安的信息。在后續(xù)對(duì)用戶的個(gè)性化信息進(jìn)行更新時(shí)，上述信息將作為歷史行為信息的一部分存儲(chǔ)至本地的個(gè)性化信息數(shù)據(jù)庫中，成為用戶的個(gè)性化信息更新的依據(jù)。如，假設(shè)更新前，該用戶輸入拼音字符串“xian”對(duì)應(yīng)的選擇“西安”的次數(shù)為10次，其中，在15點(diǎn)時(shí)間段選擇“西安”的次數(shù)為2次，在西安這個(gè)城市時(shí)選擇“西安”的次數(shù)為5次，在短信框輸入時(shí)選擇“西安”的次數(shù)也為5次，那么在更新后，總的選擇“西安”的次數(shù)為11次，對(duì)應(yīng)的在時(shí)間15點(diǎn)的輸入次數(shù)、在西安這個(gè)城市時(shí)的輸入次數(shù)、和使用短信框輸入的次數(shù)也均相應(yīng)的加I。
[0068]步驟S304:生成服務(wù)器端的個(gè)性化信息數(shù)據(jù)庫。
[0069]與本地的個(gè)性化信息數(shù)據(jù)庫相同，服務(wù)器端的個(gè)性化信息數(shù)據(jù)庫中除存儲(chǔ)有用戶習(xí)慣信息和歷史環(huán)境信息外，也可以對(duì)應(yīng)存儲(chǔ)有用戶的時(shí)間信息和/或位置信息。其中，時(shí)間信息為用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的時(shí)間；位置信息為用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的地理位置。
[0070]服務(wù)器端的個(gè)性化信息數(shù)據(jù)庫可以通過以下方式生成:獲取多個(gè)用戶進(jìn)行網(wǎng)絡(luò)訪問的歷史行為信息，其中，歷史行為信息中包括:用戶往期進(jìn)行輸入的內(nèi)容、時(shí)間、地理位置、輸入環(huán)境，和/或，用戶往期進(jìn)行網(wǎng)絡(luò)訪問的內(nèi)容、時(shí)間、地理位置；分別使用預(yù)設(shè)的興趣模型、環(huán)境模型、時(shí)間模型和位置模型對(duì)用戶對(duì)應(yīng)的歷史行為信息進(jìn)行分析處理；根據(jù)歷史行為信息進(jìn)行分析處理的結(jié)果生成服務(wù)器端的個(gè)性化信息，進(jìn)而生成服務(wù)器端的個(gè)性化信息數(shù)據(jù)庫。與生成本地的用戶個(gè)性化數(shù)據(jù)庫時(shí)相同，在其他實(shí)施例中，若服務(wù)器端的個(gè)性化信息數(shù)據(jù)庫中不存儲(chǔ)用戶的時(shí)間信息和/或位置信息，也可以不獲取歷史行為信息中相對(duì)應(yīng)的內(nèi)容，也無須使用對(duì)應(yīng)的模型進(jìn)行分析處理。
[0071]上述各種分析模型中，興趣模型可以采用相關(guān)的成熟模型，通過對(duì)用戶往期輸入的內(nèi)容和用戶的閱讀特征數(shù)據(jù)進(jìn)行訓(xùn)練得到。其中，用戶的閱讀特征包括用戶瀏覽的網(wǎng)頁、微博等互聯(lián)網(wǎng)資源，以及郵件、即時(shí)通信等文字資源。由于用戶關(guān)心的話題和內(nèi)容與輸入內(nèi)容有正相關(guān)特性，因此，通過用戶的往期輸入內(nèi)容以及用戶的閱讀特征即可分析出用戶的興趣傾向，如體育，娛樂，新聞，還是財(cái)經(jīng)，社交等等。獲取用戶的往期輸入的內(nèi)容與用戶往期的閱讀內(nèi)容中，當(dāng)用戶瀏覽的內(nèi)容是互聯(lián)網(wǎng)內(nèi)容時(shí)，將用戶訪問的URL網(wǎng)頁地址上傳到服務(wù)器，由服務(wù)器抓取所需網(wǎng)頁中的文本信息。如果文本信息為不可抓取的內(nèi)容，則由客戶端獲取所需的信息后，記錄并上傳到服務(wù)器。將抓取得到的內(nèi)容進(jìn)行文本分類，并按照屬性打分，從而最終確定內(nèi)容所屬的類別，亦即興趣類別。目前，廣泛應(yīng)用樸素貝葉斯模型，或者最鄰近節(jié)點(diǎn)算法KNN或者向量空間模型VSM進(jìn)行文本分類，根據(jù)分類結(jié)果動(dòng)態(tài)地影響后續(xù)的拼音字符串處理。
[0072]優(yōu)選地，興趣模型可以包括個(gè)體興趣模型和群體興趣模型，一個(gè)個(gè)體興趣模型對(duì)應(yīng)于至少一個(gè)群體興趣模型；其中，個(gè)體興趣模型用于對(duì)單個(gè)用戶的往期每次進(jìn)行漢字輸入和/或網(wǎng)絡(luò)訪問的內(nèi)容進(jìn)行分析處理，并根據(jù)分析處理的結(jié)果生成單個(gè)用戶的用戶習(xí)慣信息；群體興趣模型用于對(duì)多個(gè)用戶的往期每次進(jìn)行漢字輸入和/或網(wǎng)絡(luò)訪問的內(nèi)容進(jìn)行分析處理，并根據(jù)分析處理的結(jié)果生成多個(gè)用戶的用戶習(xí)慣信息。也即，通過線下對(duì)大量用戶數(shù)據(jù)進(jìn)行的聚類分析，從而對(duì)用戶分類，即將有同樣興趣的人合并。同一個(gè)用戶可以屬于多個(gè)類別，以瀏覽輸入類似的群體為單位。群體興趣模型可以采用已有的成熟的文本分類模型和算法，通過分類確定用戶的興趣點(diǎn)，在此不在贅述。
[0073]環(huán)境模型也可以采用相關(guān)的成熟模型，通過收集全網(wǎng)用戶在不同輸入環(huán)境下輸入的音節(jié)組合和對(duì)應(yīng)輸入是所處的環(huán)境信息不斷學(xué)習(xí)訓(xùn)練得來。環(huán)境模型的影響因素主要有兩部分，一是輸入時(shí)對(duì)應(yīng)的程序，即應(yīng)用程序的行業(yè)類別，一是輸入時(shí)對(duì)應(yīng)的編輯框?qū)傩?。模型的學(xué)習(xí)和訓(xùn)練基于用戶的瀏覽和輸入，分別按地域、時(shí)間、興趣等特征進(jìn)行聚類，得到不同特性的特征詞庫。進(jìn)一步地，通過對(duì)聚類后得到的數(shù)據(jù)進(jìn)行檢索，可以得到輸入音節(jié)組合對(duì)應(yīng)的權(quán)重。用戶進(jìn)行輸入時(shí)，客戶端將進(jìn)行輸入所在的應(yīng)用、編輯框類型等當(dāng)前環(huán)境信息發(fā)送給服務(wù)器，由服務(wù)器進(jìn)行打分。其中，編輯框類型可以按與編輯框匹配按鈕的對(duì)應(yīng)功能分為為搜索框、聯(lián)系人查找框、短信輸入框等等；應(yīng)用程序的行業(yè)類別可以按軟件的行業(yè)類別劃為即時(shí)信息類、安全類、地圖導(dǎo)航類、音頻視頻等等。根據(jù)不同的應(yīng)用程序的行業(yè)類另O，不同的輸入框，動(dòng)態(tài)給出在該輸入環(huán)境下，不同音節(jié)組合的排序，進(jìn)一步地，還可以給出各音節(jié)組合的權(quán)值。
[0074]時(shí)間分析模型同樣可以采用相關(guān)成熟模型，通過收集大量的用戶在不同時(shí)間段下輸入的音節(jié)組合，以輸入時(shí)間為特征依據(jù)，將每個(gè)時(shí)間段下的所有用戶的輸入的音節(jié)組合進(jìn)行統(tǒng)計(jì)，生成按時(shí)間段分類的特征詞庫。
[0075]位置模型也可以采用相關(guān)成熟模型，通過收集大量的用戶在不同地域輸入的音節(jié)組合，以輸入環(huán)境為特征依據(jù)，將每個(gè)輸入環(huán)境下的所有用戶的輸入的音節(jié)組合進(jìn)行統(tǒng)計(jì)，生成按地域特征分類的特征詞庫。
[0076]需要說明的是，上述步驟S302和S304的執(zhí)行不分先后順序，也可以并行執(zhí)行。并且，上述本地個(gè)性化信息數(shù)據(jù)庫和服務(wù)器端的個(gè)性化信息數(shù)據(jù)庫也可擇一建立，而不必全部建立。
[0077]此外，優(yōu)選地，上述本地和服務(wù)器端的個(gè)性化信息中的用戶習(xí)慣信息也可以根據(jù)當(dāng)前用戶使用各音節(jié)組合的次數(shù)和用戶使用各音節(jié)組合的最后使用時(shí)間獲得。并且，本實(shí)施例中，均以數(shù)據(jù)庫的形式存儲(chǔ)個(gè)性化信息，但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)明了，在實(shí)際應(yīng)用中，其它任意適當(dāng)?shù)拇鎯?chǔ)形式同樣適用，如文本形式或其它適當(dāng)形式。
[0078]步驟S306:接收拼音字符串的輸入。
[0079]其中，拼音字符串的輸入可以采用多種形式，例如:當(dāng)用戶輸入“xian”拼音字符串時(shí)，九鍵形式輸入的為“9426”，而全鍵形式輸入的為“xian”。
[0080]步驟S308:獲取拼音字符串輸入的當(dāng)前環(huán)境信息。
[0081]優(yōu)選地，在獲取當(dāng)前環(huán)境信息的同時(shí)，還可以獲取當(dāng)前時(shí)間信息或當(dāng)前位置信息，也可同時(shí)獲取當(dāng)前時(shí)間信息和當(dāng)前位置信息。
[0082]其中，環(huán)境信息為接收所述拼音字符串的應(yīng)用程序和/或輸入框的信息。例如:用戶在短信輸入框中輸入拼音字符串時(shí)，則環(huán)境信息為短信輸入框；用戶在地圖軟件中輸入拼音字符串時(shí)，則環(huán)境信息為地圖軟件。
[0083]拼音字符串輸入的當(dāng)前位置信息，可以通過用戶進(jìn)行輸入時(shí)的IP、WIFI網(wǎng)絡(luò)定位所在城市區(qū)域、設(shè)備的GPS全球定位系統(tǒng)等方式獲取，用戶的當(dāng)前位置信息精確到城市級(jí)。
[0084]當(dāng)前時(shí)間信息可以通過軟件設(shè)置自動(dòng)從用戶使用的設(shè)備，如手機(jī)或電腦以及其他輸入工具中獲取，當(dāng)前時(shí)間信息為北京時(shí)間，精確到小時(shí)。例如用戶是晚上7點(diǎn)輸入的一個(gè)拼音字符串，則將當(dāng)前時(shí)間信息記為19:00。
[0085]步驟S310:依據(jù)預(yù)設(shè)的配置信息，從服務(wù)器端獲取輸入拼音字符串的用戶的個(gè)性化信息。
[0086]配置信息指示了從本地還是服務(wù)器端獲取個(gè)性化信息，當(dāng)配置信息指示從本地獲取時(shí)，輸入法從本地的個(gè)性化信息數(shù)據(jù)庫中獲取輸入拼音字符串的用戶的個(gè)性化信息；當(dāng)配置信息指示從服務(wù)器端獲取時(shí)，輸入法從服務(wù)器端的個(gè)性化信息數(shù)據(jù)庫中獲取輸入拼音字符串的用戶的個(gè)性化信息。本實(shí)施例中，以從服務(wù)器端獲取用戶的個(gè)性化信息為例進(jìn)行描述。
[0087]步驟S312:依據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，從而確定拼音字符串中分詞符的位置。
[0088]一種可行方式是，分別將拼音字符串對(duì)應(yīng)的各個(gè)音節(jié)組合與個(gè)性化信息中的用戶習(xí)慣信息進(jìn)行匹配，將當(dāng)前環(huán)境信息與個(gè)性化信息中的歷史環(huán)境信息進(jìn)行匹配，篩選出符合更滿足用戶需求的音節(jié)組合，根據(jù)匹配結(jié)果確定拼音字符串中分詞符的位置。當(dāng)然，還可以對(duì)匹配結(jié)果進(jìn)行進(jìn)一步的處理，如對(duì)各部分信息的匹配結(jié)果加權(quán)求和，根據(jù)加權(quán)求和結(jié)果將拼音字符串對(duì)應(yīng)的各個(gè)音節(jié)組合進(jìn)行篩選，從而確定拼音字符串中分詞符的位置。
[0089]優(yōu)選地，在獲取了輸入拼音字符串時(shí)的當(dāng)前時(shí)間信息和/或當(dāng)前位置信息的情況下，還可以依據(jù)用戶個(gè)性化信息和當(dāng)前環(huán)境信息，以及當(dāng)前時(shí)間信息和/或當(dāng)前位置信息對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，從而確定拼音字符串中分詞符的位置。
[0090]一種具體實(shí)現(xiàn)方式包括:按照設(shè)定規(guī)則，分別根據(jù)拼音字符串對(duì)應(yīng)的各音節(jié)組合與用戶習(xí)慣信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的用戶習(xí)慣權(quán)值；根據(jù)當(dāng)前環(huán)境信息與歷史環(huán)境信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的環(huán)境權(quán)值；根據(jù)當(dāng)前時(shí)間信息和/或當(dāng)前位置信息與對(duì)應(yīng)的用戶時(shí)間信息和/或用戶位置信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的時(shí)間權(quán)值和/或地點(diǎn)權(quán)值；對(duì)各組音節(jié)組合對(duì)應(yīng)權(quán)值進(jìn)行求和，獲得各組音節(jié)組合的總特征權(quán)值，根據(jù)總特征權(quán)值對(duì)至少一組音節(jié)組合進(jìn)行排序，并根據(jù)排序在前的音節(jié)組合確定拼音字符串中分詞符的位置。其中，上述各個(gè)權(quán)值的獲取可以不分先后順序，也可以并行進(jìn)行。
[0091]此外，優(yōu)選地，當(dāng)從服務(wù)器端獲取個(gè)性化信息且服務(wù)器端的興趣模型包括個(gè)體興趣模型和群體興趣模型時(shí)，當(dāng)根據(jù)拼音字符串對(duì)應(yīng)的各組音節(jié)組合與用戶習(xí)慣信息的匹配結(jié)果分別獲得每組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值時(shí):將各組音節(jié)組合分別與通過個(gè)體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配；若匹配不成功，則將各組音節(jié)組合分別與通過個(gè)體興趣模型對(duì)應(yīng)的群體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配；根據(jù)各組音節(jié)組合與群體興趣模型的匹配結(jié)果獲得各組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值。其中，習(xí)慣權(quán)值通過以下方式獲得:目標(biāo)音節(jié)組合被選擇次數(shù)+拼音字符串對(duì)應(yīng)的多個(gè)音節(jié)組合總輸入次數(shù)XN，其中，N為權(quán)重系數(shù)，且N為大于O的自然數(shù)。
[0092]這是因?yàn)?，在某些情況下，用戶歷史行為信息的缺失會(huì)造成用戶習(xí)慣信息的不完全，導(dǎo)致漢字與通過個(gè)體興趣模型生成的用戶信息匹配不成功。但同時(shí)，因?yàn)榫哂邢嗤d趣的人可能具有相同的用戶習(xí)慣特征，因此群體中其它用戶的用戶習(xí)慣特征可以作為單個(gè)用戶習(xí)慣特征的參照。此時(shí)，可以分別根據(jù)各組音節(jié)組合與群體興趣模型的匹配結(jié)果獲得各組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值。例如，用戶A歸屬于群體X，通過對(duì)群體X中所有用戶的數(shù)據(jù)進(jìn)行分析得知，群體X中的所有用戶的共同興趣為購物，那么當(dāng)A用戶輸入“baisheng”這個(gè)拼音字符串時(shí)，如果在用戶A通過個(gè)體興趣模型生成的個(gè)性化信息中并沒有對(duì)應(yīng)的用戶習(xí)慣信息，也即用戶A往期沒有輸入過該拼音字符串，則將“baisheng”與通過群體興趣模型生成的群體用戶的個(gè)性化信息進(jìn)行匹配，獲得“baisheng”對(duì)應(yīng)的最優(yōu)匹配的音節(jié)組合為“bai’ sheng”,而不是由于在移動(dòng)平臺(tái)中按鍵復(fù)用產(chǎn)生的“bai，she’ ni “等音節(jié)組合。
[0093]另一種優(yōu)選排序方案是，在獲得拼首字符串對(duì)應(yīng)的多組首節(jié)組合之后，獲取每組音節(jié)組合中各音節(jié)的固有權(quán)值；其中，固有權(quán)值通過對(duì)全網(wǎng)用戶對(duì)各組音節(jié)組合的選擇進(jìn)行分析統(tǒng)計(jì)后得到；對(duì)各組音節(jié)組合對(duì)應(yīng)的固有權(quán)值和總特征權(quán)值進(jìn)行求和，獲得各音節(jié)組合的總權(quán)值；根據(jù)總權(quán)值排前的音節(jié)組合中的各音節(jié)確定拼音字符串中分詞符的位置。例如，設(shè)定固有權(quán)值的范圍為0-2048，總特征權(quán)值的范圍也為0-2048，總權(quán)值中，時(shí)間權(quán)值的范圍為0-512，地點(diǎn)權(quán)值的范圍為0-512，環(huán)境權(quán)值的范圍為0-512，習(xí)慣權(quán)值的范圍為0-512。由此，一組音節(jié)組合對(duì)應(yīng)的總權(quán)值在0-4096之間，數(shù)值越大表示優(yōu)先級(jí)越高。
[0094]在計(jì)算總特征權(quán)值時(shí)，一種方式是運(yùn)用如下計(jì)算公式:
[0095]Weight (總特征)=Weight (習(xí)慣)+Weight (環(huán)境)+Weight (時(shí)間)+Weight (地點(diǎn))
[0096]其中，Weight (總特征)表示一組音節(jié)組合的總特征權(quán)值，為根據(jù)個(gè)性化信息獲得的各個(gè)權(quán)值之和；Weight (習(xí)慣)表示本音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值，為本音節(jié)組合與用戶習(xí)慣信息匹配結(jié)果的權(quán)值;Weight (環(huán)境)表示用戶輸入拼音字符串時(shí)對(duì)應(yīng)的環(huán)境權(quán)值，為輸入拼音字符串的當(dāng)前環(huán)境與歷史環(huán)境信息匹配結(jié)果的權(quán)值;Weight (時(shí)間)表示用戶輸入拼音字符串時(shí)對(duì)應(yīng)的時(shí)間權(quán)值，為輸入拼音字符串的當(dāng)前時(shí)間與用戶時(shí)間信息匹配結(jié)果的權(quán)值；Weight (地點(diǎn))表示用戶輸入拼音字符串時(shí)的地點(diǎn)權(quán)值，為輸入拼音字符串的當(dāng)前位置與用戶位置信息匹配結(jié)果的權(quán)值。當(dāng)然，在計(jì)算總特征權(quán)值時(shí)可以只考慮用戶習(xí)慣與環(huán)境的權(quán)重，也可以在考慮用戶習(xí)慣與輸入環(huán)境的權(quán)重的同時(shí)考慮當(dāng)前時(shí)間、當(dāng)前地點(diǎn)中的一個(gè)或全部權(quán)重。
[0097]上述公式中，
[0098]Weight (時(shí)間)=該時(shí)段該音節(jié)組合輸入的次數(shù)/該音節(jié)組合總輸入次數(shù)X512 ；
[0099]Weight (地點(diǎn))=該地點(diǎn)輸入該音節(jié)組合的次數(shù)/該音節(jié)組合總輸入次數(shù)X 512 ；
[0100]Weight (習(xí)慣)=該音節(jié)組合被選擇次數(shù)/拼音字符串對(duì)應(yīng)的各組音節(jié)組合總輸入次數(shù)X 512 ；
[0101]Weight (環(huán)境)=該應(yīng)用輸入該音節(jié)組合的次數(shù)/該音節(jié)組合總輸入次數(shù)X512 ；
[0102]其中，個(gè)性化信息為本地個(gè)性化信息或服務(wù)器端個(gè)性化信息，數(shù)字512、2048、4096只是代表各個(gè)特征的權(quán)重?cái)?shù)值，還可以依據(jù)權(quán)重的不同，自行將數(shù)字進(jìn)行設(shè)置為任意適當(dāng)?shù)淖匀粩?shù)。
[0103]步驟S314:獲得音節(jié)組合分別對(duì)應(yīng)的候選詞。
[0104]例如:當(dāng)篩選得到的各音節(jié)組合中被觸發(fā)的音節(jié)組合為“xi’ an”時(shí)，從詞庫中獲得該音節(jié)組合對(duì)應(yīng)匹配的候選詞為“西安”、“西岸”、“錫安”。
[0105]步驟S316:獲取各候選詞對(duì)應(yīng)的附加權(quán)值。
[0106]其中，附加權(quán)值根據(jù)對(duì)所有用戶對(duì)選中的音節(jié)組合對(duì)應(yīng)的各候選詞的選擇比例進(jìn)行分析統(tǒng)計(jì)后得到。
[0107]例如，在針對(duì)音節(jié)組合“xi’ an”時(shí)，經(jīng)過對(duì)所有用戶的選擇進(jìn)行統(tǒng)計(jì)后得到，候選詞“西安”被選擇次數(shù)為50次，而候選詞“西岸”被選擇次數(shù)為30次，那么，候選詞“西安”對(duì)應(yīng)的附加權(quán)值就高于候選詞“西岸”對(duì)應(yīng)的附加權(quán)值。
[0108]優(yōu)選地，附加權(quán)值還可以根據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息對(duì)選擇出的候選詞進(jìn)行分析統(tǒng)計(jì)后得到，即對(duì)所有用戶對(duì)各組候選詞的選擇進(jìn)行分析統(tǒng)計(jì)以及根據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息進(jìn)行分析統(tǒng)計(jì)后得到。
[0109]例如，還是以候選詞“西安”與“西岸”，當(dāng)用戶輸入字符串“xian”，確定音節(jié)組合“xi’ an”為需要的音節(jié)組合后，獲取音節(jié)組合對(duì)應(yīng)的候選詞有“西安”和“西岸”。那么要考慮這兩組候選詞在該用戶的個(gè)性化信息中，在當(dāng)前輸入環(huán)境下的被選擇次數(shù)，以及這兩組候選詞分別被所有用戶選擇的次數(shù)，綜合考慮這兩方面的因素，給每組候選詞以附加權(quán)值。
[0110]步驟S318:根據(jù)附加權(quán)值對(duì)候選詞進(jìn)行排序后輸出。
[0111]如，可以計(jì)算出每組候選詞的附加權(quán)值，依據(jù)附加權(quán)值的高低對(duì)多組候選詞進(jìn)行排序；也可以在確定各組漢字的顯示順序后，為各組候選詞設(shè)定編號(hào)，按照編號(hào)順序?yàn)槎嘟M候選詞進(jìn)行排序等等，并在移動(dòng)終端的漢字區(qū)域中按排序后的順序?qū)⒏骱蜻x詞進(jìn)行展示。
[0112]優(yōu)選地，在用戶對(duì)顯示的多組候選詞進(jìn)行選擇后，還可以獲取用戶所選擇的候選詞；并保存用戶本次的輸入信息，如，最終選擇的候選詞、對(duì)應(yīng)的音節(jié)組合、輸入時(shí)對(duì)應(yīng)的環(huán)境、時(shí)間、地點(diǎn)等信息，為后續(xù)用戶個(gè)性化信息更新提供依據(jù)。
[0113]通過本實(shí)施例的拼音字符串處理方法，當(dāng)用戶輸入拼音字符串時(shí)，依據(jù)用戶的個(gè)性化信息以及當(dāng)前環(huán)境、時(shí)間、地點(diǎn)，計(jì)算每組音節(jié)組合的總特征權(quán)值，按照總特征權(quán)值的高低調(diào)整拼音字符串中分詞符的位置，解決了目前的拼音字符串處理過程中僅能夠統(tǒng)一地給出同樣的各組音節(jié)組合的排序，導(dǎo)致用戶需要使用較多的交互動(dòng)作才能得到需要的音節(jié)組合，輸入效率低，無法滿足用戶個(gè)性化輸入需求的問題。同時(shí)，對(duì)選中的音節(jié)組合對(duì)應(yīng)的多組候選詞依據(jù)附加權(quán)值進(jìn)行排序，優(yōu)先顯示更符合用戶需求的漢字組合，該種拼音字符串處理方式能夠依據(jù)用戶的個(gè)性化信息與當(dāng)前環(huán)境信息對(duì)候選詞進(jìn)行排序，將用戶期望的候選詞優(yōu)先輸出。當(dāng)用戶使用九鍵鍵盤輸入時(shí)，可以將滿足用戶需求的拼音組合篩選出來，避免了因鍵盤復(fù)用造成的選擇音節(jié)組合時(shí)需要重復(fù)進(jìn)行的多次觸發(fā)，減少了用戶在輸入時(shí)的交互動(dòng)作，提高了輸入效率，滿足了用戶的個(gè)性化需求。
[0114]實(shí)施例三
[0115]參照?qǐng)D4，示出了本申請(qǐng)實(shí)施例三的一種拼音字符串處理方法的步驟流程圖。
[0116]本實(shí)施例的拼音字符串處理方法包括以下步驟:
[0117]步驟S402:用戶輸入拼音字符串。
[0118]用戶可以輸入按鍵序列，例如用戶想輸入“西安”時(shí)，則在移動(dòng)終端的鍵盤中對(duì)應(yīng)的九鍵輸入形式為“9426”，全鍵輸入形式為“xian”。
[0119]步驟S404:獲取輸入拼音字符串的當(dāng)前位置、當(dāng)前時(shí)間、當(dāng)前環(huán)境信息。
[0120]步驟S406:獲取個(gè)性化信息，結(jié)合輸入拼音字符串的當(dāng)前位置、當(dāng)前時(shí)間、以及當(dāng)前環(huán)境信息，對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，根據(jù)排序在前的音節(jié)組合確定拼音字符串中分詞符的位置。
[0121]排序在前的音節(jié)組合可以是排序在最前的音節(jié)組合，也可以是設(shè)定的排序在前幾位的音節(jié)組合。
[0122]本實(shí)施例中，在獲取到用戶的個(gè)性化信息后，根據(jù)個(gè)性化信息，結(jié)合進(jìn)行輸入的客戶端的當(dāng)前位置、當(dāng)前時(shí)間、以及當(dāng)前環(huán)境對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，從而確定拼音字符串中分詞符的位置。
[0123]用戶的個(gè)性化信息表示用戶的個(gè)性化特征，包括用戶特征與環(huán)境特征兩部分，其中用戶特征對(duì)應(yīng)的用戶特征信息包括時(shí)間信息、地點(diǎn)信息和用戶習(xí)慣信息，分別表示用戶的時(shí)間特征、地點(diǎn)特征和用戶習(xí)慣興趣。
[0124]對(duì)于用戶的時(shí)間特征:比如，在九鍵下“Si”與“qi”是同碼，當(dāng)16:00-17:00時(shí)間段，用戶更傾向于輸入音節(jié)組合“Si”，即候選詞“四點(diǎn)”相關(guān)的詞條，而其他時(shí)間，更傾向于輸入音節(jié)組合“qi”，即候選詞“七點(diǎn)”相關(guān)的詞條。另外，“晚上”和“早上”在九鍵也是重碼，對(duì)于每個(gè)人的習(xí)慣也不盡相同。
[0125]對(duì)于用戶的地點(diǎn)特征:不同的地點(diǎn)輸入的內(nèi)容也會(huì)不盡相同，比如說在工作的地方，和在旅游途中，輸入的內(nèi)容不盡相同。輸入相同的拼音字符串，用戶可能期待不同的候選。如，用戶在移動(dòng)設(shè)備中的九鍵鍵盤下輸入“9426 ”對(duì)應(yīng)的拼音字符串為“xian”，在家里用戶可能更傾向于輸入音節(jié)組合“xian”，而在旅游時(shí)，或者當(dāng)用戶在西安時(shí)，可能更需要音節(jié)組合“xi’ an”排在前面。
[0126]對(duì)于用戶習(xí)慣興趣:用戶的輸入習(xí)慣是長(zhǎng)期養(yǎng)成的，不易改變。如一個(gè)簡(jiǎn)拼用戶，在九鍵鍵盤下輸入的時(shí)候會(huì)盡量使用末字簡(jiǎn)拼，這時(shí)，根據(jù)用戶的習(xí)慣所做的排序優(yōu)化就會(huì)顯得異常貼心，更能提高用戶的輸入效率。如，將拼音字符串“ban”切分成音節(jié)組合“ba’n”將“ba’n”排在前面推薦給用戶；再如將拼音字符串“beng”切分成音節(jié)組合“ben’g”等，類似的例子還有很多。同樣，用戶閱讀的內(nèi)容和用戶輸入的內(nèi)容也具有正相關(guān)性，通過對(duì)用戶大量瀏覽的內(nèi)容和輸入內(nèi)容可以分析出用戶的興趣方向，從而通過具有相同興趣的人群的輸入習(xí)慣加權(quán)影響當(dāng)前的拼音字符串中分詞符的位置。
[0127]用戶輸入拼音字符串時(shí)的環(huán)境特征對(duì)應(yīng)的信息是描述用戶個(gè)性化特征的另一部分，同樣的拼音字符串，在不同的輸入環(huán)境下，表現(xiàn)也不盡相同，如用戶輸入拼音字符串“yuan”,如果用戶在word文檔中使用過音節(jié)組合“yu’ an”(預(yù)案),而在地圖應(yīng)用中使用過音節(jié)組合“yuan”(園)，則根據(jù)用戶的歷史使用習(xí)慣，當(dāng)二者同時(shí)是用戶使用過的詞條時(shí)且存在輸入環(huán)境信息時(shí)，輸入環(huán)境因素將決定拼音字符串對(duì)應(yīng)的各音節(jié)組合的篩選，從而調(diào)整拼音字符串中分詞符的位置。
[0128]個(gè)性化信息可以在本地獲取，也可以從服務(wù)器端獲取。從本地獲取個(gè)性化信息時(shí)，基于用戶的歷史輸入數(shù)據(jù)，不斷累加，形成影響當(dāng)前輸入拼音字符串的附加權(quán)值。如，對(duì)所有可能的拼音字符串，在配置文件中進(jìn)行二分查找，在查找時(shí)，將其個(gè)性化信息中用戶特征的時(shí)間、地點(diǎn)等信息轉(zhuǎn)化為相應(yīng)的可比較的權(quán)值。從服務(wù)器端獲取個(gè)性化信息時(shí)，發(fā)送用戶輸入的拼音字符串到服務(wù)器端，通過興趣模型、環(huán)境模型、時(shí)間模型和位置模型進(jìn)行分析，獲取相應(yīng)的習(xí)慣權(quán)值、環(huán)境權(quán)值、時(shí)間權(quán)值和地點(diǎn)權(quán)值。
[0129]本實(shí)施例中，以個(gè)性化信息從本地獲取為例。如“xi ’ an”這個(gè)音節(jié)組合在手機(jī)共計(jì)使用過10次,其中地圖應(yīng)用中使用過8次，word文檔中使用過2次,使用過的時(shí)間為:14:002次、15:003次、16:003次、18:002次。在西安使用過9次，在北京使用過I次?！皒ian”這個(gè)音節(jié)組合使用過30次，在西安使用過I次,在北京使用29次。使用過的時(shí)間為:14:005次、15:005次、16:005次、17:005次、18:005次、19:005次，在地圖應(yīng)用中沒有用過，在word中用過30次?！皒i’ an”最后一次使用時(shí)間是15:01。
[0130]綜上，假定當(dāng)前時(shí)間為15:30，通過GPS獲取用戶所在的當(dāng)前位置為西安，在地圖應(yīng)用中輸入拼音字符串“xian”，則對(duì)應(yīng)的音節(jié)組合中的“xi’ an”音節(jié)組合獲得的總權(quán)值為:(3/10) X512+(9/10) X512+ (10/35) X512+ (8/10) X512=1170.29 ;而“1丨811”音節(jié)組合獲得的總權(quán)值為:(1/30) X 512+(5/30) X 512+[30/ (10+30) ] X 512+(0/30) X 512=486.4。將音節(jié)組合按照總權(quán)值的高低進(jìn)行排序，可知音節(jié)組合“xi’ an”排序在“xian”前。
[0131]而如果將拼音字符串“xian”附帶當(dāng)前的時(shí)間、地點(diǎn)、輸入環(huán)境等信息發(fā)送到服務(wù)器端，將由各種特征模型給出分?jǐn)?shù)。如果用戶之前經(jīng)常瀏覽西安的名勝古跡信息，那么，興趣模型分析出當(dāng)前用戶愛好旅游，根據(jù)當(dāng)前用戶的個(gè)人興趣和其他與當(dāng)前用戶有共同興趣的用戶對(duì)應(yīng)的輸入特點(diǎn)，給當(dāng)前用戶相應(yīng)的習(xí)慣權(quán)值，同樣，也會(huì)經(jīng)過環(huán)境模型、時(shí)間模型和位置模型分析，給出相應(yīng)的環(huán)境權(quán)值、時(shí)間權(quán)值和地點(diǎn)權(quán)值。最終，拼音字符串“xian”對(duì)應(yīng)的各個(gè)音節(jié)組合的總權(quán)值，由服務(wù)器端的各個(gè)特征模型共同決定，通過總權(quán)值得到各個(gè)音節(jié)組合的排序，或者，將相應(yīng)的權(quán)值加到固有權(quán)值上得到各個(gè)音節(jié)組合的排序。
[0132]步驟S408:用戶選擇到需要的音節(jié)組合，上屏選擇的音節(jié)組合對(duì)應(yīng)的候選詞。
[0133]步驟S410:記錄用戶最終所選擇候選詞對(duì)應(yīng)的音節(jié)組合至相應(yīng)的配置文件，并同時(shí)存儲(chǔ)對(duì)應(yīng)的個(gè)性化信息，為用戶下次輸入提供個(gè)性化的加權(quán)依據(jù)。
[0134]當(dāng)將用戶最終選擇的漢字的音節(jié)組合及對(duì)應(yīng)的個(gè)性化信息存儲(chǔ)至本地的配置文件中時(shí)，本地配置文件可分別以四個(gè)維度為索引，分別存儲(chǔ)數(shù)據(jù)到四個(gè)文件，即按用戶習(xí)慣、時(shí)間、地點(diǎn)、輸入環(huán)境進(jìn)行結(jié)構(gòu)化存儲(chǔ)。以時(shí)間對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)為例，該表格中含有24個(gè)KEY，分別是24個(gè)小時(shí)，即0-23。每個(gè)時(shí)段后面對(duì)應(yīng)相應(yīng)的音節(jié)組合和該音節(jié)組合在該時(shí)間段的輸入詞頻。地點(diǎn)對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)也是同樣的記錄方式進(jìn)行存儲(chǔ)。環(huán)境特征和用戶習(xí)慣的記錄方式則不區(qū)分時(shí)間和地點(diǎn)，記錄該音節(jié)組合對(duì)應(yīng)的輸入環(huán)境，即拼音字符串所輸入的軟件客體對(duì)應(yīng)的類型(例如是在word，還是在地圖應(yīng)用，還是音視頻應(yīng)用中進(jìn)行的輸入)，和當(dāng)前用戶的使用習(xí)慣，是否輸入過相同的拼音字符串以及輸入的次數(shù)和最后輸入的時(shí)間等。其中，當(dāng)前用戶的使用習(xí)慣通過對(duì)用戶的輸入設(shè)置、本地各應(yīng)用的觸發(fā)記錄進(jìn)行分析得到。
[0135]仍以用戶選擇“xi’an”這個(gè)音節(jié)組合為例，本機(jī)配置文件在本次輸入后被更新為:“xi’ an”這個(gè)音節(jié)組合共計(jì)使用過11次,其中地圖應(yīng)用中使用過9次,word文檔中使用過2次，使用時(shí)對(duì)應(yīng)的時(shí)間分別為，14:002次、15:004次、16:003次、18:002次；使用時(shí)對(duì)應(yīng)的地理位置分別為，在西安使用過10次，在北京使用過I次，從而作為用戶下次輸入提供本地個(gè)性化信息的加權(quán)依據(jù)。同時(shí)，還可以將該上述信息傳至服務(wù)器端，通過服務(wù)器端的各種特征模型將相關(guān)內(nèi)容進(jìn)行聚類，作為用戶下次輸入提服務(wù)器端供個(gè)性化信息的加權(quán)依據(jù)。
[0136]通過本實(shí)施例的拼音字符串處理方案，結(jié)合了用戶習(xí)慣、輸入環(huán)境、時(shí)間和位置等與用戶輸入密切相關(guān)且對(duì)于每個(gè)用戶又不盡相同的特征，通過這些特征影響用戶輸入，減少了用戶選擇輸入時(shí)的交互次數(shù)，降低了輸入時(shí)間成本，提高了輸入效率。
[0137]實(shí)施例四
[0138]參照?qǐng)D5，示出了本申請(qǐng)實(shí)施例四的一種拼音字符串處理裝置的結(jié)構(gòu)框圖。
[0139]如圖5所示，本實(shí)施例的拼音字符串處理裝置包括:第一獲取模塊502，用于接收拼音字符串的輸入，獲取當(dāng)前環(huán)境信息；其中，當(dāng)前環(huán)境信息為接收拼音字符串的當(dāng)前應(yīng)用程序和/或輸入框的信息；第二獲取模塊504，用于依據(jù)預(yù)設(shè)的配置信息，獲取輸入拼音字符串的個(gè)性化信息；其中，個(gè)性化信息中包括用戶習(xí)慣信息和歷史環(huán)境信息，歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息；第三獲取模塊506，用于依據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，從而確定拼音字符串中分詞符的位置。
[0140]優(yōu)選地，用戶個(gè)性化信息還包括:時(shí)間信息和/或位置信息；其中，時(shí)間信息為與用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的時(shí)間；位置信息為用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的地理位置；
[0141]第三獲取模塊506在依據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選時(shí)，依據(jù)用戶習(xí)慣信息和當(dāng)前環(huán)境信息，以及當(dāng)前時(shí)間信息和/或當(dāng)前位置信息，對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選。
[0142]優(yōu)選地，第三獲取模塊506包括:獲取權(quán)值子模塊5062，用于根據(jù)拼音字符串對(duì)應(yīng)的各組音節(jié)組合與用戶習(xí)慣信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值；根據(jù)當(dāng)前環(huán)境信息與歷史環(huán)境信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的環(huán)境權(quán)值；根據(jù)當(dāng)前時(shí)間信息和/或當(dāng)前位置信息與對(duì)應(yīng)的時(shí)間信息和/或位置信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的時(shí)間權(quán)值和/或地點(diǎn)權(quán)值；求和子模塊5064，用于對(duì)各組音節(jié)組合對(duì)應(yīng)的各權(quán)值進(jìn)行求和，獲得各組音節(jié)組合的總特征權(quán)值；確定子模塊5066，用于根據(jù)各組音節(jié)組合的總特征權(quán)值對(duì)至少一組音節(jié)組合進(jìn)行排序，并根據(jù)排前的音節(jié)組合確定所述拼音字符串中分詞符的位置。
[0143]優(yōu)選地，第二獲取模塊504在依據(jù)預(yù)設(shè)的配置信息，獲取輸入拼音字符串的個(gè)性化信息時(shí)，依據(jù)預(yù)設(shè)的配置信息，確定從服務(wù)器端獲取個(gè)性化信息；其中，服務(wù)器端的用戶個(gè)性化信息通過以下方式生成:獲取用戶進(jìn)行網(wǎng)絡(luò)訪問時(shí)的歷史行為信息；其中，歷史行為信息中包括:用戶往期進(jìn)行輸入的內(nèi)容、時(shí)間、地理位置、輸入環(huán)境，和/或，用戶往期進(jìn)行網(wǎng)絡(luò)訪問的內(nèi)容、時(shí)間、地理位置；分別根據(jù)預(yù)設(shè)的興趣模型、環(huán)境模型、時(shí)間模型和位置模型，分別對(duì)歷史行為信息進(jìn)行分析處理；根據(jù)歷史行為信息進(jìn)行分析處理的結(jié)果，生成服務(wù)器端對(duì)應(yīng)的個(gè)性化信息。
[0144]優(yōu)選地，興趣特征分析模型包括個(gè)體興趣模型和群體興趣模型，當(dāng)獲取權(quán)值子模塊5062在根據(jù)拼音字符串對(duì)應(yīng)的各組音節(jié)組合與所述用戶習(xí)慣信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值時(shí):將各組音節(jié)組合分別與通過個(gè)體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配；若匹配不成功，則將各組音節(jié)組合分別與通過個(gè)體興趣模型對(duì)應(yīng)的群體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配；根據(jù)各組音節(jié)組合與群體興趣模型的匹配結(jié)果獲得各組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值。
[0145]優(yōu)選地，獲取權(quán)值子模塊5062獲取的習(xí)慣權(quán)值通過以下方式獲得:目標(biāo)音節(jié)組合被選擇次數(shù)/拼音字符串對(duì)應(yīng)的多組音節(jié)組合總輸入次數(shù)XN，其中，權(quán)重系數(shù)，且N為大于O的自然數(shù)。
[0146]優(yōu)選地，本實(shí)施例的拼音字符串處理裝置還包括:第四獲取模塊508，用于在第三獲取模塊506對(duì)拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選之后，獲得篩選得到的音節(jié)組合分別對(duì)應(yīng)的候選詞；第五獲取模塊510，用于獲取各候選詞對(duì)應(yīng)的附加權(quán)值；其中，附加權(quán)值根據(jù)對(duì)所有用戶對(duì)各組漢字的選擇進(jìn)行分析統(tǒng)計(jì)后得到；輸出模塊512，用于根據(jù)附加權(quán)值對(duì)候選詞進(jìn)行排序后輸出。
[0147]優(yōu)選地，輸出模塊512用于對(duì)候選詞進(jìn)行排序的附加權(quán)值，除了根據(jù)對(duì)所有用戶對(duì)各組漢字的選擇進(jìn)行分析統(tǒng)計(jì)后得到外，還根據(jù)個(gè)性化信息和當(dāng)前環(huán)境信息對(duì)選擇出的各組漢字進(jìn)行分析統(tǒng)計(jì)后得到。
[0148]優(yōu)選地，第二獲取模塊504獲取的用戶習(xí)慣信息，根據(jù)當(dāng)前用戶使用各組音節(jié)組合的次數(shù)和用戶使用各組音節(jié)組合的最后時(shí)間獲得。
[0149]本實(shí)施例的拼音字符串處理裝置用于實(shí)現(xiàn)前述多個(gè)方法實(shí)施例中相應(yīng)的拼音字符串處理方法，并且具有相應(yīng)的方法實(shí)施的有益效果，在此不再贅述。
[0150]本發(fā)明提供了一種拼音字符串處理方案，該方案可廣泛用于所有可以采用輸入法進(jìn)行內(nèi)容輸入的裝置，如:手機(jī)、個(gè)人電腦等。本發(fā)明的拼音字符串處理方案當(dāng)用戶輸入拼音字符串時(shí)，依據(jù)用戶的個(gè)性化信息、當(dāng)前環(huán)境信息、當(dāng)前時(shí)間信息、當(dāng)前地點(diǎn)信息，對(duì)拼音字符串對(duì)應(yīng)的多組音節(jié)組合進(jìn)行篩選，優(yōu)先提供給用戶更貼近欲輸入目標(biāo)的音節(jié)組合，減少用戶在輸入時(shí)的交互動(dòng)作，降低輸入時(shí)間成本，滿足了用戶的個(gè)性化需求。
[0151]本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述，每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處，各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于裝置實(shí)施例而言，由于其與方法實(shí)施例基本相似，所以描述的比較簡(jiǎn)單，相關(guān)之處參見方法實(shí)施例的部分說明即可。
[0152]以上對(duì)本發(fā)明所提供的一種拼音字符串處理方法和裝置進(jìn)行了詳細(xì)介紹，本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述，以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時(shí)，對(duì)于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【權(quán)利要求】
1.一種拼音字符串處理方法，其特征在于，包括: 接收拼音字符串的輸入，獲取當(dāng)前環(huán)境信息；其中，所述當(dāng)前環(huán)境信息為接收所述拼音字符串的當(dāng)前應(yīng)用程序和/或輸入框的信息；依據(jù)預(yù)設(shè)的配置信息，獲取輸入所述拼音字符串的個(gè)性化信息；其中，所述個(gè)性化信息中包括用戶習(xí)慣信息和歷史環(huán)境信息，所述歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息；依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，從而確定所述拼音字符串中分詞符的位置。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述個(gè)性化信息還包括:時(shí)間信息和/或位置信息；其中，所述時(shí)間信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的時(shí)間；所述位置信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的地理位置；所述依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選時(shí)，依據(jù)所述用戶習(xí)慣信息和所述當(dāng)前環(huán)境信息，以及所述當(dāng)前時(shí)間信息和/或所述當(dāng)前位置信息，對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述依據(jù)所述用戶習(xí)慣信息和所述當(dāng)前環(huán)境的信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，從而確定所述拼音字符串中分詞符的位置的步驟包括: 根據(jù)所述拼音字符串對(duì)應(yīng)的各組音節(jié)組合與所述用戶習(xí)慣信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值；根據(jù)所述當(dāng)前環(huán)境信息與所述歷史環(huán)境信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的環(huán)境權(quán)值；根據(jù)所述當(dāng)前時(shí)間信息和/或所述當(dāng)前位置信息與對(duì)應(yīng)的所述時(shí)間信息和/或位置信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的時(shí)間權(quán)值和/或地點(diǎn)權(quán)值；對(duì)所述各組音節(jié)組合對(duì)應(yīng)的各權(quán)值進(jìn)行求和，獲得所述各組音節(jié)組合的總特征權(quán)值，根據(jù)所述總特征權(quán)值對(duì)所述各組音節(jié)組合進(jìn)行排序，并根據(jù)排序在前的音節(jié)組合確定所述拼音字符串中分詞符的位置。
4.根據(jù)權(quán)利要求2或3所述的方法，其特征在于，所述個(gè)性化信息從服務(wù)器端獲取，并通過以下方式生成: 獲取所述用戶進(jìn)行網(wǎng)絡(luò)訪問時(shí)的歷史行為信息；其中，所述歷史行為信息中包括:所述用戶往期進(jìn)行輸入的內(nèi)容、時(shí)間、地理位置、輸入環(huán)境，和/或，所述用戶往期進(jìn)行網(wǎng)絡(luò)訪問的內(nèi)容、時(shí)間、地理位置；分別根據(jù)預(yù)設(shè)的興趣模型、環(huán)境模型、時(shí)間模型和位置模型，分別對(duì)所述歷史行為信息進(jìn)行分析處理；根據(jù)所述歷史行為信息進(jìn)行分析處理的結(jié)果，生成所述服務(wù)器端對(duì)應(yīng)的個(gè)性化信息。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述興趣模型包括個(gè)體興趣模型和群體興趣模型；當(dāng)根據(jù)所述拼音字符串對(duì)應(yīng)的各組音節(jié)組合與所述用戶習(xí)慣信息的匹配結(jié)果，分別獲得每組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值時(shí):將所述各組音節(jié)組合分別與通過所述個(gè)體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配；若匹配不成功，則將所述各組音節(jié)組合分別與通過所述個(gè)體興趣模型對(duì)應(yīng)的群體興趣模型生成的用戶習(xí)慣信息進(jìn)行匹配；根據(jù)所述各組音節(jié)組合與所述群體興趣模型的匹配結(jié)果獲得所述各組音節(jié)組合對(duì)應(yīng)的習(xí)慣權(quán)值。
6.根據(jù)權(quán)利要求3或5所述的方法，其特征在于，所述習(xí)慣權(quán)值通過以下方式獲得: 目標(biāo)音節(jié)組合被選擇次數(shù)+所述拼音字符串對(duì)應(yīng)的多個(gè)音節(jié)組合總輸入次數(shù)XN，其中，N為權(quán)重系數(shù),且N為大于O的自然數(shù)。
7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選之后，還包括: 獲得篩選得到的音節(jié)組合分別對(duì)應(yīng)的候選詞；獲取各所述候選詞對(duì)應(yīng)的附加權(quán)值；其中，所述附加權(quán)值根據(jù)對(duì)所有用戶對(duì)所述各組漢字的選擇進(jìn)行分析統(tǒng)計(jì)后得到；根據(jù)所述附加權(quán)值對(duì)所述候選詞進(jìn)行排序后輸出。
8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述附加權(quán)值除了根據(jù)對(duì)所有用戶對(duì)所述各組漢字的選擇進(jìn)行分析統(tǒng)計(jì)后得到外，還包括: 根據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息，對(duì)選擇出的所述各組漢字進(jìn)行分析統(tǒng)計(jì)后得到。
9.根據(jù)權(quán)利要求1、2、3或5中任一項(xiàng)所述的方法，其特征在于，所述用戶習(xí)慣信息根據(jù)當(dāng)前用戶使用各組音節(jié)組合的次數(shù)和用戶使用各組音節(jié)組合的最后時(shí)間獲得。
10.一種拼音字符串處理裝置，其特征在于，包括: 第一獲取模塊，用于接收拼音字符串的輸入，獲取當(dāng)前環(huán)境信息；其中，所述當(dāng)前環(huán)境信息為接收所述拼音字符串的當(dāng)前應(yīng)用程序和/或輸入框的信息；第二獲取模塊，用于依據(jù)預(yù)設(shè)的配置信息，獲取輸入所述拼音字符串的個(gè)性化信息；其中，所述個(gè)性化信息中包括用戶習(xí)慣信息和歷史環(huán)境信息，所述歷史環(huán)境信息包括用戶往期進(jìn)行漢字輸入時(shí)所處的環(huán)境信息；第三獲取模塊，用于依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選，從而確定所述拼音字符串中分詞符的位置。
11.根據(jù)權(quán)利要求10所述的裝置，其特征在于，所述個(gè)性化信息還包括:時(shí)間信息和/或位置信息；其中，所述時(shí)間信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的時(shí)間；所述位置信息為所述用戶往期進(jìn)行輸入和/或往期進(jìn)行網(wǎng)絡(luò)訪問時(shí)所處的地理位置；所述第三獲取模塊在依據(jù)所述個(gè)性化信息和所述當(dāng)前環(huán)境信息對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選時(shí)，依據(jù)所述用戶習(xí)慣信息和所述當(dāng)前環(huán)境信息，以及所述當(dāng)前時(shí)間信息和/或所述當(dāng)前位置信息，對(duì)所述拼音字符串對(duì)應(yīng)的至少一組音節(jié)組合進(jìn)行篩選。
【文檔編號(hào)】G06F3/023GK104423621SQ201310370370
【公開日】2015年3月18日申請(qǐng)日期:2013年8月22日優(yōu)先權(quán)日:2013年8月22日
【發(fā)明者】張雷, 張霓申請(qǐng)人:北京搜狗科技發(fā)展有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張雷;張霓;
技術(shù)所有人：北京搜狗科技發(fā)展有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

字符串處理方法相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

拼音字符串處理方法和裝置制造方法