两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于主題模型的文檔標(biāo)注方法與流程

文檔序號(hào):11133899閱讀:358來源:國知局
一種基于主題模型的文檔標(biāo)注方法與制造工藝

本發(fā)明涉及一種文檔標(biāo)注方法,具體涉及一種基于主題模型的文章主題的提取與標(biāo)注方法,屬于智能信息處理領(lǐng)域。



背景技術(shù):

近年來,隨著出版行業(yè)的發(fā)展以及各種互聯(lián)網(wǎng)應(yīng)用的出現(xiàn),各個(gè)領(lǐng)域的信息資源都出現(xiàn)了前所未有的增長。人們在能夠分享越來越多信息資源的同時(shí)也面臨信息過量的問題,依靠個(gè)人的時(shí)間和精力難以準(zhǔn)確地找到自己所需要的信息。特別是在學(xué)術(shù)領(lǐng)域,一個(gè)學(xué)術(shù)會(huì)議就有成千上萬篇文章,依靠人去查找自己相關(guān)領(lǐng)域的文章并進(jìn)行分類是不現(xiàn)實(shí)的?,F(xiàn)在人們急切需要一個(gè)工具來幫助他們搜集和總結(jié)自己的需求信息,快速了解新聞媒體、報(bào)刊及互聯(lián)網(wǎng)上的信息。

面對(duì)已出版的海量新聞文章,為了幫助企業(yè)和個(gè)人準(zhǔn)確獲取需求信息,我們需要標(biāo)注出文章的標(biāo)簽,用這些標(biāo)簽表達(dá)文章的主題以及描述文章的類別。這樣人們就可以在不閱讀全文的情況下,通過文章的標(biāo)簽較為準(zhǔn)確地了解文章的內(nèi)容。

現(xiàn)有的主題模型技術(shù)主要有LSA(Latent Semantic Analysis,潛在語義分析),pLSA(Probabilistic Latent Semantic Analysis,概率潛在語義分析),LDA(Latent Dirichlet Allocation,隱形狄利克雷分布),其中LDA模型用表達(dá)主題的主題詞及其概率分布作為文章的主題模型,可以識(shí)別大規(guī)模文檔集或語料庫中潛藏的主題信息。很多研究者基于LDA模型對(duì)文檔進(jìn)行主題的分析、建模,以及算法的性能優(yōu)化。2015年,秦曉慧等人的論文《基于LDA主題關(guān)聯(lián)過濾的領(lǐng)域主題演化研究》用LDA和主題關(guān)聯(lián)過濾規(guī)則相結(jié)合的方法發(fā)現(xiàn)領(lǐng)域文獻(xiàn)中主題的新生、消亡、繼承、分裂和合并的演化軌跡。2016年,嚴(yán)宇宇等人的論文《基于層次狄利克雷過程的交互式主題建模》用HDP(Hierarchical Dirichlet Process,層次狄利克雷過程)、Termite視圖和ProjCloud詞云相結(jié)合的方法實(shí)現(xiàn)了交互式主題建模。2016年,黃河燕等人的專利《一種基于局部敏感哈希的主題標(biāo)簽快速賦予方法》用標(biāo)簽主題模型和局部敏感哈希的方法實(shí)現(xiàn)了主題標(biāo)簽的快速賦予,主要解決了不能為新出現(xiàn)主題賦予標(biāo)簽的問題,但是并沒有實(shí)現(xiàn)給文章標(biāo)注標(biāo)簽的功能,并且無法對(duì)文章做分類。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于實(shí)現(xiàn)一種基于主題模型的標(biāo)注文檔的方法,能夠快速地為文章標(biāo)注標(biāo)簽,人們可以通過這些標(biāo)簽準(zhǔn)確了解文章的主題以及類別。本發(fā)明為文章標(biāo)注標(biāo)簽的過程分為四個(gè)階段:第一個(gè)階段:A)選取訓(xùn)練集的文章,并分為若干類;第二個(gè)階段:對(duì)訓(xùn)練集中的每一類文檔提取主題、標(biāo)注標(biāo)簽,具體步驟包括:B)選取某一類文檔N(N≥1)篇作為訓(xùn)練樣本,用LDA方法提取主題的主題詞及其概率分布;C)通過算法篩選優(yōu)勢主題,人工為每個(gè)優(yōu)勢主題標(biāo)注標(biāo)簽Fi;第三階段:構(gòu)造整個(gè)訓(xùn)練集的向量空間,具體步驟包括:D)將訓(xùn)練集中所有類別的所有優(yōu)勢主題的主題詞轉(zhuǎn)換到一個(gè)高維向量空間S中,每個(gè)主題的主題詞對(duì)應(yīng)的向量構(gòu)成一個(gè)集合Ai;E)求每個(gè)主題的向量集合Ai的重心向量Vi,將訓(xùn)練集中所有的向量Vi構(gòu)成一個(gè)高維向量集合A′;第四個(gè)階段:對(duì)測試集的每篇文章進(jìn)行打標(biāo)簽處理:F)為每篇文章提取一個(gè)主題,將該主題的主題詞轉(zhuǎn)換為S空間中的一個(gè)高維向量集合B;G)求集合B的重心向量B′;H)在A′中找到與B′最相似的主題的向量Vi,把Vi對(duì)應(yīng)的標(biāo)簽Fi賦給被測文章,從而實(shí)現(xiàn)為文章標(biāo)注標(biāo)簽的功能。

具體來說,本發(fā)明的方法包括下列步驟:

A.選取訓(xùn)練集的文章,并分為若干類;

B.選取某一類文檔N(N≥1)篇作為訓(xùn)練樣本,用LDA方法提取主題的主題詞及其概率分布,具體步驟如下:

B1.對(duì)選取的每一篇文檔進(jìn)行預(yù)處理以及分詞處理,形成訓(xùn)練集,具體步驟如下:

B1.1.將文檔中的繁體轉(zhuǎn)化為簡體;

B1.2.將文檔轉(zhuǎn)化成UTF-8編碼;

B1.3.去除文檔中的標(biāo)點(diǎn)符號(hào);

B1.4.對(duì)文檔進(jìn)行分詞處理;

B1.5.將處理后的每個(gè)文檔作為一行合并到一個(gè)文檔中,作為訓(xùn)練集;

B2.通過LDA對(duì)訓(xùn)練集進(jìn)行多次迭代提取主題模型,得到主題的主題詞及其概率分布,具體步驟如下:

B2.1.通過訓(xùn)練得到合適的α、β參數(shù),以便獲取能充分表達(dá)文檔主題特征的主題;

B2.2.以N/25作為初始主題數(shù),對(duì)訓(xùn)練集進(jìn)行多次迭代提取主題模型;

C.通過算法篩選優(yōu)勢主題,人工為每個(gè)優(yōu)勢主題標(biāo)注標(biāo)簽Fi,具體步驟如下:

C.1.求所有主題的主題詞的概率的平均值p;

C.2.選取閾值參數(shù)ε(1≤ε≤3),設(shè)置概率閾值p′=p/ε;

C.3.將每個(gè)主題的主題詞概率和與p′比較,概率值大于p′的主題為優(yōu)勢主題;

C.4.請專業(yè)人士為每個(gè)優(yōu)勢主題標(biāo)注標(biāo)簽Fi

D.將訓(xùn)練集中所有類別的所有優(yōu)勢主題的主題詞用word2vec轉(zhuǎn)換到一個(gè)高維向量空間S中,每個(gè)主題的主題詞對(duì)應(yīng)的向量構(gòu)成一個(gè)集合Ai,具體步驟如下:

D.1.將訓(xùn)練集中所有優(yōu)勢主題的主題詞作為word2vec的輸入,每一行代表一個(gè)優(yōu)勢主題的主題詞;

D.2.設(shè)置word2vec參數(shù),經(jīng)過word2vec訓(xùn)練,輸出為多維詞向量集合;

E.求每個(gè)主題的向量集合Ai的重心向量Vi,將訓(xùn)練集中所有的向量Vi構(gòu)成一個(gè)高維向量集合A′,具體步驟如下:

E.1.假設(shè)訓(xùn)練集中的主題為{T1,T2,...,Tm},每個(gè)主題的主題詞為{W1,W2,...,Wk},每個(gè)主題詞向量為Wi(xi1,xi2,...,xin)(1≤i≤k,n=400),每個(gè)主題的重心向量為Vj(yj1,yj2,...,yjn)(1≤j≤m,n=400),求重心向量Vj的每一個(gè)元素yjp的公式為:

E.2.將訓(xùn)練集中所有的高維向量Vi構(gòu)成一個(gè)高維向量集合A′={V1,V2,...,Vm};

F.為每篇被測文章提取一個(gè)主題,將該主題的主題詞轉(zhuǎn)換為S空間中的一個(gè)高維向量集合B,具體實(shí)現(xiàn)如下:

F1.對(duì)被測文章進(jìn)行預(yù)處理以及分詞處理,具體實(shí)現(xiàn)按照B1過程進(jìn)行;

F2.通過LDA對(duì)被測文章進(jìn)行多次迭代提取一個(gè)主題,得到該主題的主題詞及其概率分布;

F3.將主題詞轉(zhuǎn)換為S空間中的一個(gè)高維向量集合B,具體實(shí)現(xiàn)按照D過程進(jìn)行;

G.求集合B的重心向量B′,具體實(shí)現(xiàn)按照E.1過程進(jìn)行;

H.在A′中找到與B′最相似的主題的向量Vi,把Vi對(duì)應(yīng)的標(biāo)簽Fi賦給被測文章,從而實(shí)現(xiàn)為文章標(biāo)注標(biāo)簽的功能。

本發(fā)明在LDA基礎(chǔ)上進(jìn)行改進(jìn),針對(duì)LDA在文章分類、智能標(biāo)注功能上的不足,將LDA算法模型與word2vec算法結(jié)合,將文本信息轉(zhuǎn)換成詞向量數(shù)學(xué)信息,然后進(jìn)行向量相似度比較,并根據(jù)為訓(xùn)練集里的每個(gè)主題標(biāo)注的標(biāo)簽,為被測文章標(biāo)注標(biāo)簽,實(shí)現(xiàn)了自動(dòng)為文章標(biāo)注標(biāo)簽的功能。本發(fā)明的優(yōu)點(diǎn)是算法具有高效性,計(jì)算成本相對(duì)較低,準(zhǔn)確性高,并且能夠提高使用者了解文章內(nèi)容的效率,減少用戶的信息負(fù)擔(dān)。算法在需求數(shù)據(jù)提取、特定主題文章搜索、廣告針對(duì)投放等方面能夠智能高效地應(yīng)用。

附圖說明

圖1:文檔標(biāo)注方法流程圖

具體實(shí)施方式

下面結(jié)合附圖,進(jìn)行為文章標(biāo)注標(biāo)簽的過程,通過實(shí)例對(duì)本發(fā)明作進(jìn)一步描述。

方法流程圖如圖1所示。本發(fā)明為文章標(biāo)注標(biāo)簽的過程分為四個(gè)階段:第一個(gè)階段:1)選取訓(xùn)練集的文章,并分為若干類;第二個(gè)階段:對(duì)每一類樣本文檔提取主題、標(biāo)注標(biāo)簽:2)選取某一類文檔N(N≥1)篇作為訓(xùn)練樣本,用LDA方法提取主題的主題詞及其概率分布;3)通過算法篩選優(yōu)勢主題,人工為每個(gè)優(yōu)勢主題標(biāo)注標(biāo)簽Fi;第三階段:構(gòu)造訓(xùn)練集的向量空間:4)將訓(xùn)練集中所有類別的所有優(yōu)勢主題的主題詞轉(zhuǎn)換到一個(gè)高維向量空間S中,每個(gè)主題的主題詞對(duì)應(yīng)的向量構(gòu)成一個(gè)集合Ai;5)求每個(gè)主題的向量集合Ai的重心向量Vi,將訓(xùn)練集中所有的向量Vi構(gòu)成一個(gè)高維向量集合A′;第四個(gè)階段:對(duì)測試集的每篇文章進(jìn)行打標(biāo)簽處理:6)為每篇文章提取一個(gè)主題,將該主題的主題詞轉(zhuǎn)換為S空間中的一個(gè)高維向量集合B;7)求集合B的重心向量B′;8)在A′中找到與B′最相似的主題的向量Vi,把Vi對(duì)應(yīng)的標(biāo)簽Fi賦給被測文章,從而實(shí)現(xiàn)為文章標(biāo)注標(biāo)簽的功能。具體實(shí)施步驟如下:

1.選取訓(xùn)練集的文章:分為經(jīng)濟(jì)、計(jì)算機(jī)、歷史、藝術(shù)、體育、教育、環(huán)境、法律等類別,每一類選取1000篇文章;

2.選取經(jīng)濟(jì)類文檔1000篇作為訓(xùn)練樣本,用LDA方法提取主題的主題詞及其概率分布,具體步驟如下:

2.1對(duì)選取的文檔進(jìn)行預(yù)處理以及分詞處理,構(gòu)成訓(xùn)練集;

處理之前的語料為:

【文獻(xiàn)號(hào)】2-930

【原文出處】當(dāng)代經(jīng)濟(jì)科學(xué)

【原刊地名】西安

【原刊期號(hào)】200001

【原刊頁號(hào)】5~11

【分類號(hào)】F51

【分類名】商業(yè)經(jīng)濟(jì)

【復(fù)印期號(hào)】200004

【標(biāo)題】流通經(jīng)濟(jì)學(xué)的貧困與構(gòu)建設(shè)想

【作者】夏春玉/鄭文全

【作者簡介】夏春玉,鄭文全,東北財(cái)經(jīng)大學(xué),遼寧 大連 116025

夏春玉,教授,博士,東北財(cái)經(jīng)大學(xué)工商管理學(xué)院院長

鄭文全,東北財(cái)經(jīng)大學(xué)工商管理學(xué)院碩士研究生。

【內(nèi)容提要】在區(qū)分了流通經(jīng)濟(jì)學(xué)與流通理論的不同后,本文認(rèn)為流通經(jīng)濟(jì)學(xué)存在著貧困現(xiàn)象。這種貧困的原因在于經(jīng)濟(jì)學(xué)在發(fā)展的過程中忽

視了對(duì)流通問題的研究,比如新古典經(jīng)濟(jì)學(xué)生產(chǎn)者與消費(fèi)者直接見面的假設(shè)使流通被抽象掉了;經(jīng)濟(jì)學(xué)格式化的過程又間接影響了經(jīng)濟(jì)學(xué)對(duì)流

通問題的研究;經(jīng)濟(jì)學(xué)家認(rèn)識(shí)能力的有限性又限制了經(jīng)濟(jì)學(xué)關(guān)注流通的視野。我國流通理論的建立基礎(chǔ)注定我國流通經(jīng)濟(jì)學(xué)的研究先天不足。

在分析了流通經(jīng)濟(jì)學(xué)貧困原因的基礎(chǔ)上,本文針對(duì)流通經(jīng)濟(jì)學(xué)研究對(duì)象的界定、流通經(jīng)濟(jì)學(xué)建立的理論基礎(chǔ)以及馬克思流通理論的地位等問題

對(duì)流通經(jīng)濟(jì)學(xué)的體系構(gòu)建提出了一些初步設(shè)想。

【關(guān)鍵詞】流通/流通理論/流通經(jīng)濟(jì)學(xué)

【正文】

一、新古典經(jīng)濟(jì)學(xué)公理性研究方法的假設(shè)使流通被抽象掉

1.生產(chǎn)者與消費(fèi)者直接見面的假設(shè)使流通從新古典經(jīng)濟(jì)學(xué)的視野中消失

諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主賈林·庫普曼1955年就認(rèn)識(shí)到理論研究中存在著一個(gè)公理性的研究方法,即“假設(shè)——推理”兩階段法(注:賈林·庫普曼:《關(guān)于經(jīng)濟(jì)學(xué)現(xiàn)狀的三篇論文》,商務(wù)印書館,1992年版。):首先,對(duì)現(xiàn)象進(jìn)行觀察,然后對(duì)觀察到的事實(shí)進(jìn)行歸納、抽象,得到基本的假設(shè)或前提;其次,在基本假設(shè)或前提的基礎(chǔ)上進(jìn)行推理,然后得出命題或結(jié)論。在自然科學(xué)中這兩個(gè)階段很大程度上實(shí)行了分工,彼此獨(dú)立進(jìn)行,相互檢驗(yàn)。但在經(jīng)濟(jì)學(xué)中這兩個(gè)階段的工作至今仍混在一起。經(jīng)濟(jì)學(xué)的這種前提與結(jié)論混為一體的弊病,在于難以揭示出經(jīng)濟(jì)知識(shí)賴以存在的基礎(chǔ),無法揭示出經(jīng)濟(jì)知識(shí)中哪些來自觀察,哪些來自推理,這些推理又是從何種前提出發(fā)的。這些都會(huì)影響經(jīng)濟(jì)學(xué)對(duì)現(xiàn)實(shí)的解釋力和經(jīng)濟(jì)學(xué)本身的發(fā)展。

...

處理后的語料為:

文獻(xiàn)號(hào) 當(dāng)代 經(jīng)濟(jì) 科學(xué) 西安 期號(hào) 原刊 分類號(hào) 分類 商業(yè) 經(jīng)濟(jì) 復(fù)印 期號(hào) 流通 經(jīng)濟(jì)學(xué) 貧困 構(gòu)建 設(shè)想 夏春玉 鄭文全 作者簡介 夏春玉 鄭文全 東北財(cái)經(jīng)大學(xué) 遼寧大連 夏春玉 教授 博士 東北財(cái)經(jīng)大學(xué) 工商管理 學(xué)院 院長 鄭文全 東北財(cái)經(jīng)大學(xué) 工商管理 學(xué)院 碩士 研究生 內(nèi)容提要 區(qū)分 流通 經(jīng)濟(jì)學(xué) 流通 理論 本文 流通 經(jīng)濟(jì)學(xué) 貧困 現(xiàn)象 貧困 原因 經(jīng)濟(jì)學(xué) 發(fā)展 過程 流通 研究 古典 經(jīng)濟(jì)學(xué) 生產(chǎn)者 消費(fèi)者 見面 假設(shè) 流通 抽象 經(jīng)濟(jì)學(xué) 格式化 過程 間接 影響 經(jīng)濟(jì)學(xué) 對(duì)流 研究 經(jīng)濟(jì)學(xué)家 能力 有限性 經(jīng)濟(jì)學(xué) 關(guān)注 流通 視野 我國 流通 理論 建立 基礎(chǔ) 注定 我國 流通 經(jīng)濟(jì)學(xué) 研究......面臨 兩種 理論 自成一體 互不 缺乏 共同語言 簡單 拼湊 而是 有機(jī) 綜合 困難 困難 馬克思 流通 理論 拋棄 解決不了 意味著 解決不了 各種 流通 理論 尋找 共同點(diǎn) 繼承 前人 研究成果 此基礎(chǔ) 走向 流通 經(jīng)濟(jì)學(xué) 彼岸 流通 理論 存活 理論 市場 競爭 決定 收稿 日期 責(zé)任編輯 權(quán)利 校對(duì)者 權(quán)利

2.2通過LDA對(duì)訓(xùn)練集進(jìn)行多次迭代提取主題模型,得到主題的主題詞及其概率分布;

2.2.1.α參數(shù)的取值為0.5,β參數(shù)的取值為0.01;

2.2.2.初始主題數(shù)取值為40(N/25);

LDA處理后的結(jié)果為:

第0類:

臺(tái)灣0.0093035873867

研究0.00582471594536

近代0.00327141580493

嚴(yán)復(fù)0.00323949955317

經(jīng)濟(jì)史0.00272883952509

論文0.00260117451806

人口遷移0.002218179497

中國0.0019309332312

研究所0.00142027320312

糧價(jià)0.00119685944083

思想0.00106919443381

近代史0.00100536193029

計(jì)劃0.000941529426784

時(shí)期0.000941529426784

財(cái)政0.000941529426784

第1類:

該區(qū)0.00127100387764

河南省0.000926324859974

經(jīng)濟(jì)區(qū)劃0.000926324859974

農(nóng)業(yè)區(qū)劃0.000366221456269

糧棉油0.000323136579061

.

.

.

第3類:

經(jīng)濟(jì)0.0353750156364

美國0.0175311439945

世界0.0131088071464

國際0.0114973399754

國家0.0109086761687

全球化0.0103641621474

日本0.00792120734947

全球0.00689104568767

貿(mào)易0.00678802952149

投資0.00547089425391

發(fā)展0.00525014532638

出口0.00510297937469

發(fā)展中國家0.00510297937469

合作0.00494109682784

億美元0.00485279725683

.

.

.

3.通過算法篩選優(yōu)勢主題,人工為每個(gè)優(yōu)勢主題標(biāo)注標(biāo)簽Fi,具體步驟如下:

3.1.求出所有主題的主題詞的概率的平均值p為0.041;

3.2.選取閾值參數(shù)ε為2,得出概率閾值p′為0.021;

3.3.將每個(gè)主題的主題詞概率和與p′比較,概率值大于p′的主題為優(yōu)勢主題;

運(yùn)行程序后選取出的優(yōu)勢主題為0、5、6、7、9、11、13、19、20、21、23、24、26、27、28、29、30、32、35、36。為優(yōu)勢主題重新編號(hào),依次為0到19。

3.4.請專業(yè)人士為每個(gè)優(yōu)勢主題標(biāo)注標(biāo)簽Fi;

4.將訓(xùn)練集中所有類別的所有優(yōu)勢主題的主題詞用word2vec的方法轉(zhuǎn)換到一個(gè)高維向量空間S中,每個(gè)主題的主題詞對(duì)應(yīng)的向量構(gòu)成一個(gè)集合Ai,具體步驟如下:

4.1.將訓(xùn)練集中所有主題的主題詞作為word2vec的輸入;

4.2.設(shè)置word2vec參數(shù):維度size為400維,詞語最小出現(xiàn)的閾值min_count為1次

4.3.經(jīng)過word2vec訓(xùn)練,輸出為多維詞向量集合;

向量集合結(jié)果為:

嚴(yán)復(fù)0.001245 -0.000519 -0.000495 -0.001123 0.000328 0.000739...

近代史-0.001178 0.001127 0.000608 0.000713 0.000670 -0.001215...

思想0.001181 0.001109 -0.000149 0.000083 -0.000937 0.000768...

研究0.000465 -0.000580 -0.000128 -0.000482 0.000757 -0.000270...

臺(tái)灣-0.000567 -0.001224 0.000558 0.001195 0.000366 0.000715...

.

.

.

節(jié)日0.001188 -0.000657 -0.000957 -0.000231 -0.000706...

休閑0.000072 0.000821 -0.000639 -0.000611 -0.001027...

娛樂0.001220 0.000326 -0.000225 0.000961 -0.001143...

假日0.000007 -0.000903 0.000521 -0.000911 0.000211...

假日經(jīng)濟(jì)0.000867 0.000445 -0.000286 0.000224 0.000037...

.

.

.

5.求每個(gè)主題的向量集合Ai的重心向量Vi,將訓(xùn)練集中所有的向量Vi構(gòu)成一個(gè)高維向量集合A′,具體步驟如下:

5.1.假設(shè)訓(xùn)練集中的主題為{T1,T2,...,Tm},每個(gè)主題的主題詞為{W1,W2,...,Wk},每個(gè)主題詞向量為Wi(xi1,xi2,...,xin)(1≤i≤k,n=400),每個(gè)主題的重心向量為Vj(yj1,yj2,...,yjn)(1≤j≤m,n=400),求重心向量Vj的每一個(gè)元素yjp的公式為:

5.2.將訓(xùn)練集中所有的高維向量Vi構(gòu)成一個(gè)高維向量集合A′={V1,V2,...,Vm};

6.為每篇被測文章提取一個(gè)主題,將該主題的主題詞轉(zhuǎn)換為S空間中的一個(gè)高維向量集合B,具體實(shí)現(xiàn)如下:

6.1.對(duì)被測文章進(jìn)行預(yù)處理以及分詞處理,具體實(shí)現(xiàn)按照2.1過程進(jìn)行;

被測試的文章:

【文獻(xiàn)號(hào)】1-551

【原文出處】文史哲

【原刊地名】濟(jì)南

【原刊期號(hào)】199906

【原刊頁號(hào)】18~24

【分類號(hào)】F8

【分類名】世界經(jīng)濟(jì)

【復(fù)印期號(hào)】200003

【標(biāo)題】21世紀(jì)亞太地區(qū)的經(jīng)濟(jì)與中國的發(fā)展方略

【作者】趙明義/趙巖

【作者簡介】趙明義,山東大學(xué)國政學(xué)院教授

趙巖,山東大學(xué)出版社技術(shù)編輯。郵編:250100。

【內(nèi)容提要】在21世紀(jì),包括亞太地區(qū)在內(nèi)的世界經(jīng)濟(jì)發(fā)展的總體趨勢,是在充滿利益矛盾和不斷解決這些矛盾的曲折歷程中,繼續(xù)推進(jìn)和強(qiáng)

化世界經(jīng)濟(jì)全球化和一體化。面對(duì)這樣一種世界經(jīng)濟(jì)大勢,中國在制定和實(shí)施經(jīng)濟(jì)社會(huì)發(fā)展戰(zhàn)略時(shí),應(yīng)準(zhǔn)確估計(jì)自身經(jīng)濟(jì)發(fā)展的現(xiàn)實(shí)水平;保

持農(nóng)業(yè)和農(nóng)村經(jīng)濟(jì)的持續(xù)穩(wěn)定發(fā)展;繼續(xù)深化國有企業(yè)改革;高度重視金融工作;建設(shè)面向知識(shí)經(jīng)濟(jì)時(shí)代的國家創(chuàng)新體系,加大教育在科教興

國戰(zhàn)略中的貢獻(xiàn)力度。

【關(guān)鍵詞】經(jīng)濟(jì)全球化/東亞奇跡/亞洲金融危機(jī)/知識(shí)創(chuàng)新工程

【正文】

在20世紀(jì)即將結(jié)束、21世紀(jì)即將來臨之際,我們來研究新世紀(jì)亞太地區(qū)的經(jīng)濟(jì)發(fā)展問題,必然會(huì)涉及到20世紀(jì)后半葉出現(xiàn)的“東亞奇跡”和1997年下半年以來發(fā)生的“亞洲金融危機(jī)”這兩件大事。

...

預(yù)處理后的結(jié)果:

文獻(xiàn)號(hào) 文史哲 濟(jì)南 期號(hào) 原刊 分類號(hào) 分類 世界 經(jīng)濟(jì) 復(fù)印 期號(hào) 世紀(jì) 亞太地區(qū) 經(jīng)濟(jì) 中國 發(fā)展 方略 趙明義 趙巖 作者簡介 趙明義 山東大學(xué) 國政 學(xué)院 教授 趙巖 山東大學(xué) 出版社 技術(shù) 編輯 郵編 內(nèi)容提要 世紀(jì) 包括 亞太地區(qū) 在內(nèi) 世界 經(jīng)濟(jì) 發(fā)展 總體 趨勢 充滿 利益 矛盾 解決 矛盾 曲折 歷程 推進(jìn) 世界 經(jīng)濟(jì) 全球化 一體化 面對(duì) 一種 世界 經(jīng)濟(jì) 大勢 中國 制定 實(shí)施 經(jīng)濟(jì)社會(huì) 發(fā)展戰(zhàn)略 時(shí)應(yīng) 準(zhǔn)確 估計(jì) 經(jīng)濟(jì) 發(fā)展 現(xiàn)實(shí) 水平 農(nóng)業(yè) 農(nóng)村 經(jīng)濟(jì) 持續(xù) 穩(wěn)定 發(fā)展 深化 國有企業(yè) 改革 高度重視 金融 工作 建設(shè) 面向 知識(shí)經(jīng)濟(jì) 時(shí)代 國家......建設(shè) 主戰(zhàn)場 高校 科技產(chǎn)業(yè) 新格局 實(shí)行教學(xué)科研 高科技 產(chǎn)業(yè)化 良性循環(huán) 世紀(jì)末 亞太地區(qū) 東亞 發(fā)生 一場 金融危機(jī) 東亞國家 遭受 巨大損失 波及 世界 地區(qū) 但是 東亞 充滿希望 東亞 東亞 悲觀主義 態(tài)度 缺乏 科學(xué) 盲目樂觀 主義者 悲觀主義 對(duì)東 亞在 世紀(jì) 發(fā)展前景 這一 涉及 大局 慎重 態(tài)度 責(zé)任編輯 劉京希

6.2.通過LDA對(duì)被測文章進(jìn)行多次迭代提取一個(gè)主題,得到該主題的主題詞及其概率分布,如下所示:

第0類:

經(jīng)濟(jì)0.0324316375319

發(fā)展0.0218737273948

世界0.0188571816413

全球化0.0147094312303

國家0.0147094312303

世紀(jì)0.0132011583536

改革0.0101846126001

金融0.00943047616175

中國0.00905340794256

金融危機(jī)0.00905340794256

東亞0.00867633972338

一體化0.0082992715042

我國0.0082992715042

創(chuàng)新0.00792220328502

發(fā)生0.00679099862747

6.3.將主題詞轉(zhuǎn)換為S空間中的一個(gè)高維向量集合B,具體實(shí)現(xiàn)按照4過程進(jìn)行;

向量集合為:

改革-0.001177 0.000880 -0.000978 0.000261 0.001086...

經(jīng)濟(jì)-0.000261 0.000734 0.000929 -0.000735 -0.000275...

國家-0.001003 -0.000225 0.000333 -0.000081 -0.000570...

發(fā)展-0.000024 0.000906-0.000212 -0.000218 -0.000284...

世界-0.000660 -0.000270 0.000747 -0.000561 -0.000351...

世紀(jì)0.000182 -0.000836 -0.000933 -0.000419 -0.000978...

東亞-0.000059 0.000999 0.000366 -0.001174 0.000688...

發(fā)生0.001056 0.001104 -0.000019 0.000843 -0.000971...

創(chuàng)新0.000111 -0.000802 0.001129 -0.001083 0.001075...

中國-0.000485 0.000278 -0.000912 -0.000545 0.001048...

全球化0.000366 0.001173 0.000929 -0.000339 -0.000200...

一體化0.000918 0.000734 0.000358 0.000717 0.000510...

金融0.000093 -0.000947 0.001178 -0.001115 0.001023...

我國0.000563 0.000432 0.001191 -0.001084 -0.001123...

金融危機(jī)-0.000633 0.001228 0.000563 -0.000828 0.000512...

7.求集合B的重心向量B′,具體實(shí)現(xiàn)按照5.1過程進(jìn)行;

8.在A′中找到與B′最相似的主題的向量Vi,把Vi對(duì)應(yīng)的標(biāo)簽Fi賦給被測文章,從而實(shí)現(xiàn)為文章標(biāo)注標(biāo)簽的功能。輸出結(jié)果如下所示:

被測文章與各個(gè)主題的距離:[0.073481604704851128,0.078504077613841192,0.078336335987841552,0.061545240701454729,0.079063511027527747,0.075805686171948869,0.076113120629757391,0.07993119940924194,0.077377356733090846,0.07746437462472669, 0.081380901623169549,0.078786159736339484,0.066455768906845097,0.068993944676326482,0.086852141568299859,0.079853004602206415,0.079017015344797728,0.082121533479349987,0.071288116358899548,0.079924345746461997]

與被測文章最相似的主題類:3

結(jié)果顯示,與被測文章最相似的是第3個(gè)優(yōu)勢主題,訓(xùn)練集的第3個(gè)優(yōu)勢主題的標(biāo)簽為經(jīng)濟(jì)、發(fā)展、全球化、貿(mào)易,所以為被測文章標(biāo)注的標(biāo)簽就是經(jīng)濟(jì)、發(fā)展、全球化、貿(mào)易。

本發(fā)明的方法實(shí)現(xiàn)了對(duì)文章的分類標(biāo)注,通過4個(gè)階段能夠快速地為文章標(biāo)注標(biāo)簽,具有高效性和準(zhǔn)確性,在需求數(shù)據(jù)提取、特定主題文章搜索、廣告針對(duì)投放等方面具有很好的應(yīng)用價(jià)值。

最后需要注意的是,公布實(shí)例的目的在于幫助進(jìn)一步理解本發(fā)明,但是本領(lǐng)域的技術(shù)人員可以理解:在不脫離本發(fā)明及所附的權(quán)利要求的精神和范圍內(nèi),各種替換和修改都是可能的。因此,本發(fā)明不應(yīng)局限于實(shí)例所公開的內(nèi)容,本發(fā)明要求保護(hù)的范圍以權(quán)利要求書界定的范圍為準(zhǔn)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
靖远县| 鄂托克前旗| 明溪县| 太谷县| 长沙县| 襄垣县| 城口县| 阿拉善左旗| 绥阳县| 峨山| 拜泉县| 彭山县| 辛集市| 安义县| 商城县| 博湖县| 岱山县| 南投市| 汉沽区| 偏关县| 汽车| 荥经县| 闵行区| 临沂市| 福安市| 磐石市| 石阡县| 高碑店市| 怀仁县| 余江县| 遵义县| 伊吾县| 台中县| 漯河市| 谢通门县| 东光县| 兴仁县| 当雄县| 平舆县| 兴安县| 武川县|