两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于翻譯模板的互聯(lián)網(wǎng)網(wǎng)頁建構(gòu)移動(dòng)頁面的方法與系統(tǒng)的制作方法

文檔序號(hào):9304611閱讀:566來源:國(guó)知局
基于翻譯模板的互聯(lián)網(wǎng)網(wǎng)頁建構(gòu)移動(dòng)頁面的方法與系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及移動(dòng)網(wǎng)站建站技術(shù),更具體地說,涉及一種基于翻譯模板的互聯(lián)網(wǎng)網(wǎng)頁自動(dòng)化同步建構(gòu)移動(dòng)頁面的方法與系統(tǒng)。
【背景技術(shù)】
[0002]隨著智能手機(jī)、平板電腦等移動(dòng)設(shè)備的普及,移動(dòng)互聯(lián)網(wǎng)成為了一大流量入口。傳統(tǒng)企業(yè)不僅考慮PC站的網(wǎng)站,同時(shí)也急需移動(dòng)站點(diǎn)。未移動(dòng)化的PC企業(yè)網(wǎng)站對(duì)移動(dòng)終端設(shè)備用戶瀏覽體驗(yàn)造成了極大的影響,簡(jiǎn)單的優(yōu)化與調(diào)整并不能完美展現(xiàn)企業(yè)的品牌文化和產(chǎn)品特色。
[0003]企業(yè)的傳統(tǒng)移動(dòng)站點(diǎn)制作一般采取2種方式:1)尋找專門的網(wǎng)絡(luò)公司定制開發(fā),該方式制作成本高,周期長(zhǎng),需要專門公司維護(hù);2)通過移動(dòng)建站的平臺(tái)開通賬號(hào),自助錄入站點(diǎn)信息。該方式,需要重新再次錄入已有的站點(diǎn)的數(shù)據(jù),操作繁瑣,數(shù)據(jù)維護(hù)困難,往往會(huì)導(dǎo)致數(shù)據(jù)不同步。
[0004]現(xiàn)有的互聯(lián)網(wǎng)網(wǎng)頁轉(zhuǎn)為為移動(dòng)頁面,大都只考慮單頁的內(nèi)容,來實(shí)現(xiàn)自動(dòng)轉(zhuǎn)換,沒有考慮網(wǎng)站整體結(jié)構(gòu)布局。采取整站分析技術(shù),不論在信息完整性、轉(zhuǎn)換性能、提取準(zhǔn)確率、頁面渲染等都有絕對(duì)的優(yōu)勢(shì)。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種將企業(yè)的傳統(tǒng)的互聯(lián)網(wǎng)站點(diǎn)自動(dòng)轉(zhuǎn)換為企業(yè)的移動(dòng)站點(diǎn),并實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)的同步更新的基于翻譯模板的互聯(lián)網(wǎng)網(wǎng)頁自動(dòng)化同步建構(gòu)移動(dòng)頁面的方法與系統(tǒng)。
[0006]本發(fā)明的技術(shù)方案如下:
一種基于翻譯模板的互聯(lián)網(wǎng)網(wǎng)頁自動(dòng)化同步建構(gòu)移動(dòng)頁面的方法,將適合PC顯示的互聯(lián)網(wǎng)網(wǎng)頁轉(zhuǎn)換為適用移動(dòng)設(shè)備顯示的移動(dòng)頁面,包括翻譯模板后臺(tái)學(xué)習(xí)步驟、移動(dòng)內(nèi)容轉(zhuǎn)換步驟;
翻譯模板后臺(tái)學(xué)習(xí)步驟:對(duì)原始的互聯(lián)網(wǎng)網(wǎng)頁重建成為適用設(shè)備顯示的移動(dòng)頁面的結(jié)構(gòu),并保存于翻譯模板中;
移動(dòng)內(nèi)容轉(zhuǎn)換步驟:通過移動(dòng)設(shè)備訪問翻譯模板后臺(tái)學(xué)習(xí)步驟中已生成翻譯模板的互聯(lián)網(wǎng)網(wǎng)頁,獲取翻譯模板,并對(duì)互聯(lián)網(wǎng)網(wǎng)頁的內(nèi)容進(jìn)行轉(zhuǎn)換,填入翻譯模板對(duì)應(yīng)的位置,生成移動(dòng)頁面。
[0007]作為優(yōu)選,翻譯模板后臺(tái)學(xué)習(xí)步驟如下:
1.1)互聯(lián)網(wǎng)網(wǎng)頁結(jié)構(gòu)分析:根據(jù)HTML源代碼,分析互聯(lián)網(wǎng)網(wǎng)頁的各個(gè)模塊與網(wǎng)頁布局;
1.2)鏈接分析:對(duì)互聯(lián)網(wǎng)網(wǎng)頁包含的所有鏈接進(jìn)行分類歸組;
1.3)創(chuàng)建翻譯模板:根據(jù)步驟1.1)與步驟1.2)的分析結(jié)果,重建互聯(lián)網(wǎng)網(wǎng)頁的結(jié)構(gòu)信息,保存于對(duì)應(yīng)的翻譯模板中。
[0008]作為優(yōu)選,移動(dòng)內(nèi)容轉(zhuǎn)換步驟中,通過移動(dòng)設(shè)備進(jìn)行如下操作中的一種或多種:對(duì)互聯(lián)網(wǎng)網(wǎng)頁的內(nèi)容進(jìn)行轉(zhuǎn)義、剔除不適用于翻譯模板的文本內(nèi)容、存儲(chǔ)圖片至本地。
[0009]作為優(yōu)選,翻譯模板后臺(tái)學(xué)習(xí)步驟的結(jié)果或移動(dòng)內(nèi)容轉(zhuǎn)換步驟的結(jié)果允許進(jìn)行人工修改。
[0010]作為優(yōu)選,翻譯模板中保存從互聯(lián)網(wǎng)網(wǎng)頁提取的URL的正則表達(dá)集合,以及Xpath
ο
[0011]作為優(yōu)選,步驟1.1)具體為:
1.1.1)根據(jù)用戶提交企業(yè)網(wǎng)站網(wǎng)址,獲取目標(biāo)網(wǎng)站入口頁的HTML源代碼;
1.1.2)根據(jù)HTML源代碼,提取菜單模塊,并劃分菜單鏈接類型:
1.1.2.1)預(yù)定義導(dǎo)航欄的菜單關(guān)鍵詞字典;
1.1.2.2)對(duì)導(dǎo)航欄的每個(gè)欄目中超鏈接都提取候選節(jié)點(diǎn):選擇一個(gè)導(dǎo)航欄的一個(gè)欄目,將目標(biāo)網(wǎng)站入口頁的HTML源代碼轉(zhuǎn)換為DOM節(jié)點(diǎn)樹,首先提取全部超鏈接,并循環(huán)遍歷每個(gè)超鏈接,取得每個(gè)超鏈接的文本及URL,如果當(dāng)前URL或文本存在于菜單關(guān)鍵詞字典中,根據(jù)DOM節(jié)點(diǎn)樹,對(duì)當(dāng)前URL或文本對(duì)應(yīng)的超鏈接進(jìn)行自下而上的遞歸操作,取得父節(jié)點(diǎn),判斷當(dāng)前父節(jié)點(diǎn)下面的全部子鏈接在菜單關(guān)鍵詞字典命中的個(gè)數(shù),如果大于預(yù)設(shè)的命中閥值,則提取當(dāng)前父節(jié)點(diǎn)為候選節(jié)點(diǎn),作為候選菜單模塊保存;
1.1.2.3)取得導(dǎo)航欄的所有菜單的全部候選節(jié)點(diǎn)后,將命中次數(shù)最多的一個(gè)父節(jié)點(diǎn),作為最終判定的菜單模塊;
1.1.2.4)根據(jù)導(dǎo)航欄的菜單模塊,提取出全部超鏈接,分別歸類為列表風(fēng)格頁面、單頁風(fēng)格頁面。
[0012]作為優(yōu)選,步驟1.2)對(duì)步驟1.1)劃分的列表風(fēng)格頁面、單頁風(fēng)格頁面進(jìn)行鏈接分析,具體為:
對(duì)于列表風(fēng)格頁面:首先,按預(yù)設(shè)的規(guī)則劃分成若干一級(jí)模塊,并對(duì)一級(jí)模塊中的超鏈接根據(jù)相同的Xpath層級(jí)結(jié)構(gòu)劃分若干二級(jí)模塊;遍歷二級(jí)模塊并提取出當(dāng)前二級(jí)模塊對(duì)應(yīng)的超鏈接集合,以及超鏈接集合對(duì)應(yīng)的分類模塊、列表數(shù)據(jù)模塊;
然后,提取列表數(shù)據(jù)模塊中的列表詳細(xì)頁面:提取正文,定位URL的正文的節(jié)點(diǎn),取得該節(jié)點(diǎn)的Xpath ;根據(jù)列表數(shù)據(jù)模塊包含的標(biāo)題,定位包含文本及標(biāo)題的節(jié)點(diǎn)的Xpath ;如果有圖片地址,則根據(jù)圖片地址遍歷圖片節(jié)點(diǎn),提取對(duì)應(yīng)的圖片節(jié)點(diǎn)的Xpath作為圖片的Xpath ;
對(duì)于單頁風(fēng)格頁面:提取包含正文的節(jié)點(diǎn)的Xpath ;
列表風(fēng)格頁面與單頁風(fēng)格頁面都提取分類模塊:遍歷超鏈接集合中的每個(gè)超鏈接,如果每個(gè)超鏈接能提取出來正則模式的數(shù)量與超鏈接集合的占比大于預(yù)設(shè)的分類占比閥值,則成功提取到分類模塊;否則判斷每個(gè)超鏈接對(duì)應(yīng)的Xpath的層級(jí)結(jié)構(gòu),如果屬于同一標(biāo)簽層級(jí),則成功提取到分類模塊。
[0013]作為優(yōu)選,步驟1.3)中,根據(jù)步驟1.1)、步驟1.2)的結(jié)果,對(duì)每個(gè)超鏈接包含的各個(gè)模塊的內(nèi)容表達(dá)為與內(nèi)容無關(guān)的HTML的Xpath標(biāo)記語言,然后通過keyvalue形式儲(chǔ)存到翻譯模板中。
[0014]作為優(yōu)選,移動(dòng)內(nèi)容轉(zhuǎn)換步驟具體為:根據(jù)URL取得對(duì)應(yīng)域名,取得已學(xué)習(xí)好的翻譯模板;通過http,請(qǐng)求輸入U(xiǎn)RL的HTML內(nèi)容;根據(jù)翻譯模板,通過正則匹配模式取得當(dāng)前URL對(duì)應(yīng)的各自模塊的Xpath路徑,將提取的當(dāng)前頁面所需要的內(nèi)容信息顯示在移動(dòng)頁面上的對(duì)應(yīng)位置。
[0015]作為優(yōu)選,對(duì)于單頁風(fēng)格頁面、列表風(fēng)格頁面的列表數(shù)據(jù)模塊的正文,根據(jù)提取出來的HTML內(nèi)容,進(jìn)行內(nèi)容自動(dòng)修正,包括:鏈接地址轉(zhuǎn)換為絕對(duì)地址,并轉(zhuǎn)換到對(duì)應(yīng)的中轉(zhuǎn)服務(wù)的URL ;圖片地址轉(zhuǎn)換為絕對(duì)地址并自動(dòng)壓縮轉(zhuǎn)換;根據(jù)預(yù)設(shè)的規(guī)則過濾信息。
[0016]—種基于翻譯模板的互聯(lián)網(wǎng)網(wǎng)頁自動(dòng)化同步建構(gòu)移動(dòng)頁面的系統(tǒng),包括翻譯模板后臺(tái)學(xué)習(xí)子系統(tǒng)、移動(dòng)內(nèi)容轉(zhuǎn)換子系統(tǒng);
翻譯模板后臺(tái)學(xué)習(xí)子系統(tǒng)包括:
數(shù)據(jù)采集儲(chǔ)存模塊:根據(jù)URL采集互聯(lián)網(wǎng)網(wǎng)頁的內(nèi)容并儲(chǔ)存;
網(wǎng)站風(fēng)格分析模塊:根據(jù)互聯(lián)網(wǎng)網(wǎng)頁的HTML源代碼,分析網(wǎng)站的各個(gè)模塊,網(wǎng)頁布局; 網(wǎng)站鏈接分析模塊:為各個(gè)超鏈接進(jìn)行分類歸組;
網(wǎng)站結(jié)構(gòu)建模模塊:根據(jù)網(wǎng)站的各個(gè)模塊,網(wǎng)頁布局,以及鏈接的分類歸組結(jié)果,重建互聯(lián)網(wǎng)網(wǎng)頁的結(jié)構(gòu)信息,并對(duì)全部超鏈接地址采取轉(zhuǎn)義方式,提取URL的正則表達(dá)式集合,以及Xpath標(biāo)記,保存到對(duì)應(yīng)的翻譯模板中;
移動(dòng)內(nèi)容轉(zhuǎn)換子系統(tǒng)包括:
移動(dòng)內(nèi)容轉(zhuǎn)換模塊:對(duì)互聯(lián)網(wǎng)網(wǎng)頁的內(nèi)容進(jìn)行轉(zhuǎn)義、剔除不適用于翻譯模板的文本內(nèi)容、存儲(chǔ)圖片至本地;
前臺(tái)實(shí)時(shí)渲染訪問模塊:用戶輸入網(wǎng)址后,直接調(diào)用翻譯模板來解析對(duì)應(yīng)網(wǎng)址內(nèi)容。
[0017]作為優(yōu)選,還包括人工修正模塊:翻譯模板后臺(tái)學(xué)習(xí)子系統(tǒng)與移動(dòng)內(nèi)容轉(zhuǎn)換子系統(tǒng)進(jìn)行的自動(dòng)匹配提取結(jié)果、以及各個(gè)模塊,通過人工修正模塊允許進(jìn)行人工修正。
[0018]本發(fā)明的有益效果如下:
本發(fā)明所述的方法與系統(tǒng),在實(shí)施后,只需提供企業(yè)網(wǎng)址即可通過翻譯模板訪問實(shí)時(shí)更新的互聯(lián)網(wǎng)網(wǎng)頁。本發(fā)明所述的方法與系統(tǒng)直接分析網(wǎng)站的URL,實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)更新,將不存在數(shù)據(jù)延時(shí)問題。而且采取整站分析技術(shù),在生成移動(dòng)站點(diǎn)的同時(shí)分析出了網(wǎng)站URL類型,比如:聯(lián)系方式,招聘信息,企業(yè)介紹等,在處理海量數(shù)據(jù)中的企業(yè)結(jié)構(gòu)化信息的提取當(dāng)中非常重要。
[0019]本發(fā)明的實(shí)施,能夠解決傳統(tǒng)企業(yè)網(wǎng)站的移動(dòng)站點(diǎn)制作問題,極大降低了企業(yè)移動(dòng)站點(diǎn)制作成本,使用時(shí),只需提供企業(yè)網(wǎng)址即可。
【附圖說明】
[0020]圖1是本發(fā)明的原理示意圖。
【具體實(shí)施方式】
[0021]以下結(jié)合附圖及實(shí)施例對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)說明。
[0022]本發(fā)明提供一種基于翻譯模板的互聯(lián)網(wǎng)網(wǎng)頁自動(dòng)化同步建構(gòu)移動(dòng)頁面的方法,如圖1所示。本發(fā)明用于將適合PC顯示的互聯(lián)網(wǎng)網(wǎng)頁轉(zhuǎn)換為適用移動(dòng)設(shè)備顯示的移動(dòng)頁面,包括翻譯模板后臺(tái)學(xué)習(xí)步驟、移動(dòng)內(nèi)容轉(zhuǎn)換步驟。本發(fā)明所述的翻譯模板定義為WTM模板,以下稱為WTM模板,即Website Translate Mobile模板,從而本發(fā)明為一種基于WTM模板的互聯(lián)網(wǎng)網(wǎng)頁自動(dòng)化同步建構(gòu)移動(dòng)頁面的方法,同時(shí)提供了一種WTM技術(shù)。
[0023]所述的WTM模板后臺(tái)學(xué)習(xí)步驟:對(duì)原始的互聯(lián)網(wǎng)網(wǎng)頁重建成為適用設(shè)備顯示的移動(dòng)頁面的結(jié)構(gòu),并保存于WTM模板中。進(jìn)一步具體化,WTM模板后臺(tái)學(xué)習(xí)步驟如下:
1.1)互聯(lián)網(wǎng)網(wǎng)頁結(jié)構(gòu)分析:根據(jù)HTML源代碼,分析互聯(lián)網(wǎng)網(wǎng)頁的各個(gè)模塊與網(wǎng)頁布局;
1.1.1)根據(jù)用戶提交企業(yè)網(wǎng)站網(wǎng)址,獲取目標(biāo)網(wǎng)站入口頁的HTML源代碼;
1.1.2)根據(jù)HTML源代碼,提取菜單模塊,并劃分菜單鏈接類型:
1.1.2.1)預(yù)定義導(dǎo)航欄的菜單關(guān)鍵詞字典;
1.1.2.2)對(duì)導(dǎo)航欄的每個(gè)欄目中超鏈接都提
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
宜城市| 宣恩县| 大田县| 汉川市| 鄂温| 马龙县| 兴义市| 邯郸市| 石棉县| 阿坝| 米脂县| 河北省| 钦州市| 象州县| 浠水县| 岚皋县| 张掖市| 云龙县| 玛沁县| 六盘水市| 巴青县| 安丘市| 焦作市| 天长市| 三门县| 苏尼特左旗| 延吉市| 宝坻区| 东平县| 黎城县| 云南省| 汽车| 乐业县| 农安县| 维西| 揭东县| 新沂市| 洱源县| 正定县| 苍山县| 静宁县|