两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

文本涉及地分析方法及其系統(tǒng)的制作方法

文檔序號(hào):9844093閱讀:683來(lái)源:國(guó)知局
文本涉及地分析方法及其系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本分析領(lǐng)域,尤其涉及一種文本涉及地分析方法及其系統(tǒng)。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和用戶數(shù)量的不斷增長(zhǎng),網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù)正經(jīng)歷爆炸式的 增長(zhǎng),這對(duì)網(wǎng)絡(luò)數(shù)據(jù)的分析提出了更多和更高的要求。文本分析和挖掘技術(shù)是目前被廣泛 應(yīng)用的一項(xiàng)技術(shù),通過(guò)相應(yīng)的技術(shù)和方法對(duì)文本的語(yǔ)義內(nèi)容進(jìn)行分析,歸類(lèi)等一系列操作, 主要用于商品推薦,輿情分析,文本搜索等領(lǐng)域。
[0003] 在輿情分析中,需要對(duì)網(wǎng)絡(luò)中輿情在不同的主題下進(jìn)行整理和分析,例如不同地 域存在的輿情熱點(diǎn)和發(fā)展趨勢(shì)。為此,對(duì)于發(fā)帖內(nèi)容中所涉及的地域信息進(jìn)行抽取和判斷 是輿情分析中一個(gè)相對(duì)重要的環(huán)節(jié)。
[0004] 在地域判斷這一個(gè)環(huán)節(jié)中,已存在的技術(shù)在通過(guò)分詞技術(shù)提取地域相關(guān)名詞后, 主要通過(guò)在地域區(qū)劃數(shù)據(jù)查找匹配來(lái)判斷文本內(nèi)容的地域?qū)傩浴?br>[0005] 基于區(qū)劃數(shù)據(jù)庫(kù)的方法直觀、易實(shí)現(xiàn)。然而,該方法的效果卻不理想,而且依賴文 本中存在對(duì)應(yīng)的地區(qū)名稱?,F(xiàn)實(shí)中,網(wǎng)絡(luò)發(fā)帖文本中往往不直接提及區(qū)劃地域名稱,通常只 出現(xiàn)一些街道、地標(biāo);而同一街道或地標(biāo)名稱可能對(duì)應(yīng)了多個(gè)城市。在這種情況下,該方法 無(wú)法提取和判斷文本的地域?qū)傩浴?br>[0006] 在大數(shù)據(jù)和知識(shí)圖譜的發(fā)展背景下,文本分析有新的研究方向和技術(shù)。例如通過(guò) 知識(shí)圖譜來(lái)對(duì)文本進(jìn)行分析能夠取得更好的效果。但由于知識(shí)圖譜相關(guān)技術(shù)和應(yīng)用仍存在 效率和易用性上的問(wèn)題,在實(shí)際應(yīng)用中未被廣泛應(yīng)用。
[0007] 在申請(qǐng)?zhí)枮?01210581448.8的公開(kāi)文件中,提出了一種文本分析方法及文本分析 器,所述方法包括:對(duì)獲取的文本以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先 設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串;按照預(yù)先構(gòu)建的分詞模型,對(duì)特征字串進(jìn)行 分詞處理,得到包含字序的分詞結(jié)果;根據(jù)分詞結(jié)果中的字序進(jìn)行合并處理,對(duì)合并得到的 詞按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征詞串;根據(jù)預(yù)先構(gòu)建的詞性標(biāo)注模型, 對(duì)特征詞串進(jìn)行詞性標(biāo)注,得到詞性標(biāo)注結(jié)果;確認(rèn)詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注, 則按照相鄰相同規(guī)則,合并詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注的實(shí)體詞,得到文本分析 結(jié)果。但該方法主要分析文本中的實(shí)體詞,無(wú)法分析文本的涉及地。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明所要解決的技術(shù)問(wèn)題是:提供一種文本涉及地分析方法及其系統(tǒng),可對(duì)文 本內(nèi)容進(jìn)行分析判斷,獲取文本屬地。
[0009] 為了解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案為:一種文本涉及地分析方法,包 括
[0010] 提取文本的地域相關(guān)名詞;
[0011] 將所述地域相關(guān)名詞進(jìn)行地域匹配,得到包含文本涉及地的地域區(qū)劃列表;
[0012] 計(jì)算所述地域相關(guān)名詞在所述文本中的詞頻概率,確定所述地域區(qū)劃列表中對(duì)應(yīng) 的文本涉及地的第一概率;
[0013] 計(jì)算所述地域相關(guān)名詞及其對(duì)應(yīng)的文本涉及地的語(yǔ)義相關(guān)度;根據(jù)所述語(yǔ)義相關(guān) 度,獲取所述文本涉及地的語(yǔ)義概率;
[0014] 獲取所述文本所在版塊的統(tǒng)計(jì)信息或發(fā)布人的統(tǒng)計(jì)信息;分別獲取所述文本涉及 地在所述統(tǒng)計(jì)信息中的歷史概率;根據(jù)所述歷史概率,獲取所述文本涉及地的第二概率;
[0015] 根據(jù)所述第一概率、語(yǔ)義概率和第二概率,獲取所述文本涉及地的綜合概率;
[0016] 若所述綜合概率大于等于第一預(yù)設(shè)閾值,則判定所述文本涉及地為所述文本的屬 地;將所述文本涉及地添加至所述文本的地域?qū)傩詷?biāo)簽。
[0017] 本發(fā)明還涉及一種文本涉及地分析系統(tǒng),包括
[0018] 提取模塊,用于提取文本的地域相關(guān)名詞;
[0019] 匹配模塊,用于將所述地域相關(guān)名詞進(jìn)行地域匹配,得到包含文本涉及地的地域 區(qū)劃列表;
[0020] 第一確定模塊,用于計(jì)算所述地域相關(guān)名詞在所述文本中的詞頻概率,確定所述 地域區(qū)劃列表中對(duì)應(yīng)的文本涉及地的第一概率;
[0021] 第一計(jì)算模塊,用于計(jì)算所述地域相關(guān)名詞及其對(duì)應(yīng)的文本涉及地的語(yǔ)義相關(guān) 度;
[0022] 第一獲取模塊,用于根據(jù)所述語(yǔ)義相關(guān)度,獲取所述文本涉及地的語(yǔ)義概率;
[0023] 第二獲取模塊,用于獲取所述文本所在版塊的統(tǒng)計(jì)信息或發(fā)布人的統(tǒng)計(jì)信息;
[0024] 第三獲取模塊,用于分別獲取所述文本涉及地在所述統(tǒng)計(jì)信息中的歷史概率
[0025] 第四獲取模塊,用于根據(jù)所述歷史概率,獲取所述文本涉及地的第二概率;
[0026] 第五獲取模塊,用于根據(jù)所述第一概率、語(yǔ)義概率和第二概率,獲取所述文本涉及 地的綜合概率;
[0027] 第一判定模塊,用于若所述綜合概率大于等于第一預(yù)設(shè)閾值,則判定所述文本涉 及地為所述文本的屬地;
[0028] 第一添加模塊,用于將所述文本涉及地添加至所述文本的地域?qū)傩詷?biāo)簽。
[0029] 本發(fā)明的有益效果在于:對(duì)文本所在版塊和發(fā)布人進(jìn)行涉及地信息的統(tǒng)計(jì),并將 所述統(tǒng)計(jì)信息應(yīng)用于文本的地域判斷,所述統(tǒng)計(jì)信息能夠有效地反映所述版本或人物的地 域偏好特性,從而更有效地輔助判斷文本的地域?qū)傩?,提高地域分析判斷的?zhǔn)確性;對(duì)地域 相關(guān)名詞和涉及地進(jìn)行語(yǔ)義關(guān)聯(lián)計(jì)算,并將所述關(guān)聯(lián)度用于地域判斷,通過(guò)對(duì)包含第一概 率、語(yǔ)義概率和第二概率的綜合概率進(jìn)行分析,進(jìn)一步提高了地域分析判斷的準(zhǔn)確性。
【附圖說(shuō)明】
[0030] 圖1為本發(fā)明一種文本涉及地分析方法的流程圖;
[0031 ]圖2為本發(fā)明實(shí)施例一的方法流程圖;
[0032]圖3為本發(fā)明實(shí)施例二的方法流程圖;
[0033]圖4為本發(fā)明一種文本涉及地分析系統(tǒng)的結(jié)構(gòu)示意圖;
[0034] 圖5為本發(fā)明實(shí)施例三的系統(tǒng)結(jié)構(gòu)示意圖;
[0035] 圖6為本發(fā)明實(shí)施例四的系統(tǒng)結(jié)構(gòu)示意圖。
[0036] 標(biāo)號(hào)說(shuō)明:
[0037] 1、提取模塊;2、匹配模塊;3、第一確定模塊;4、第一計(jì)算模塊;5、第一獲取模塊;6、 第二獲取模塊;7、第三獲取模塊;8、第四獲取模塊;9、第五獲取模塊;10、第一判定模塊;11、 第一添加模塊;12、第二添加模塊;13、更新模塊;14、第二確定模塊;15、第三確定模塊;16、 關(guān)聯(lián)模塊;17、第一判斷模塊;18、第二判定模塊;19、第二判斷模塊;20、修改模塊。
【具體實(shí)施方式】
[0038]為詳細(xì)說(shuō)明本發(fā)明的技術(shù)內(nèi)容、所實(shí)現(xiàn)目的及效果,以下結(jié)合實(shí)施方式并配合附 圖詳予說(shuō)明。
[0039]本發(fā)明最關(guān)鍵的構(gòu)思在于:依據(jù)文本所在版塊屬地和發(fā)布人屬地進(jìn)行涉及地信息 的統(tǒng)計(jì),并將統(tǒng)計(jì)信息應(yīng)用于文本的地域判斷中。
[0040] 請(qǐng)參閱圖1,一種文本涉及地分析方法,包括
[0041] 提取文本的地域相關(guān)名詞;
[0042] 將所述地域相關(guān)名詞進(jìn)行地域匹配,得到包含文本涉及地的地域區(qū)劃列表;
[0043] 計(jì)算所述地域相關(guān)名詞在所述文本中的詞頻概率,確定所述地域區(qū)劃列表中對(duì)應(yīng) 的文本涉及地的第一概率;
[0044] 計(jì)算所述地域相關(guān)名詞及其對(duì)應(yīng)的文
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
沙河市| 星座| 双城市| 道孚县| 白朗县| 林周县| 定边县| 长泰县| 保定市| 绥化市| 九江市| 上杭县| 南平市| 潮安县| 宁远县| 加查县| 永泰县| 金塔县| 新建县| 边坝县| 沾益县| 彰化市| 深圳市| 河源市| 昌乐县| 同仁县| 桂东县| 紫云| 且末县| 五台县| 南投县| 康保县| 缙云县| 合川市| 安庆市| 连州市| 北京市| 河津市| 荔浦县| 三原县| 广德县|