技術總結
一種多維度短文本特征提取方法,其包括如下步驟:S1、對短文本進行預處理;將短文本中信息劃分為表情符號信息、文本信息、語音信息;S2、分類對短文本中各種信息進行處理并得到統(tǒng)一的文本信息集;S3、將統(tǒng)一的文本信息集中中文短文本采用分詞工具進行分詞處理,然后利用正則匹配與字符串替換來過濾掉無效字符、連續(xù)空格、大小寫混用噪音信息;對于英文短文本采用詞干提取工具進行預處理;S4、通過向量空間模型表示文本表示模型;通過選擇算法來獲取輸入的短文本特征。本發(fā)明還提供一種多維度短文本特征提取系統(tǒng)。
技術研發(fā)人員:李成華;劉麗君
受保護的技術使用者:武漢泰迪智慧科技有限公司
文檔號碼:201611034985
技術研發(fā)日:2016.11.09
技術公布日:2017.05.31