本發(fā)明涉及高性能集群運(yùn)維技術(shù)領(lǐng)域,具體提供一種基于網(wǎng)絡(luò)的linux集群計算節(jié)點(diǎn)操作系統(tǒng)恢復(fù)方法。
背景技術(shù):
計算機(jī)在人們的生活和工作中扮演著重要的角色,特別是近年來隨著經(jīng)濟(jì)及社會的進(jìn)一步發(fā)展,計算機(jī)的應(yīng)用更加的普遍,同時,使用者對計算機(jī)的各項性能的要求也逐漸提高,特別是對計算機(jī)的計算能力要求越來越高,云計算、大數(shù)據(jù)技術(shù)飛速發(fā)展開來。大數(shù)據(jù)必然無法用單臺的計算機(jī)進(jìn)行處理,一臺計算機(jī)的配置已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足使用者對計算機(jī)計算能力的需求。
服務(wù)器集群是很多服務(wù)器集中起來一起進(jìn)行同一種服務(wù),可以利用多個計算機(jī)進(jìn)行計算從而獲得很高的計算速度,能夠滿足使用者對計算機(jī)的計算能力的需求。服務(wù)器集群從誕生起應(yīng)用范圍越來越廣泛,也越來越受到人們的關(guān)注。但是由于服務(wù)器集群是很多服務(wù)器集中在一起同時進(jìn)行同一種服務(wù)的,故高性能服務(wù)器集群中的單個服務(wù)器進(jìn)行穩(wěn)定的運(yùn)行才能保證服務(wù)器集群順利完成服務(wù),因而需要對高性能服務(wù)器集群系統(tǒng)的運(yùn)行系統(tǒng)進(jìn)行維護(hù)。在高性能集群系統(tǒng)運(yùn)維過程中,安裝操作系統(tǒng)及系統(tǒng)安裝完成后的配置工作是一項不可或缺同時又費(fèi)時費(fèi)力的工作。特別是在大規(guī)模集群中,計算節(jié)點(diǎn)上千規(guī)模,這種配置工作更顯得繁瑣。一旦操作系統(tǒng)出現(xiàn)故障無法正常運(yùn)行,或者硬盤出現(xiàn)故障,需要更換硬盤時,就需要維護(hù)人員對系統(tǒng)重新配置。不僅增加了維護(hù)人員的工作量,并且維護(hù)效率較低,有待進(jìn)一步改進(jìn)。
技術(shù)實現(xiàn)要素:
本發(fā)明的技術(shù)任務(wù)是針對上述存在的問題,提供一種能大幅度提高集群維護(hù)效率,節(jié)省人力成本的基于網(wǎng)絡(luò)的linux集群計算節(jié)點(diǎn)操作系統(tǒng)恢復(fù)方法。
為實現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:
一種基于網(wǎng)絡(luò)的linux集群計算節(jié)點(diǎn)操作系統(tǒng)恢復(fù)方法,通過配置集群管理節(jié)點(diǎn)的PXE網(wǎng)絡(luò)灌裝系統(tǒng),提取集群計算節(jié)點(diǎn)的mac地址,通過集群的配置內(nèi)容,修改PXE網(wǎng)絡(luò)灌裝系統(tǒng)的ks文件,在操作系統(tǒng)安裝過程中即可配置好操作系統(tǒng)的各種服務(wù),能一鍵修復(fù)操作系統(tǒng),無需更改任何操作系統(tǒng)配置,該linux集群計算節(jié)點(diǎn)操作系統(tǒng)恢復(fù)方法的具體步驟為:
S1:集群管理節(jié)點(diǎn)的環(huán)境配置;
S2:集群管理節(jié)點(diǎn)的服務(wù)配置,包括HTTP服務(wù)、TFTP服務(wù)、TFTPBOOT服務(wù)、DHCP服務(wù)和Kickstart腳本;
S3:啟動PXE網(wǎng)絡(luò)灌裝系統(tǒng)的相關(guān)服務(wù),恢復(fù)計算節(jié)點(diǎn)操作系統(tǒng)。
步驟S2中,通過配置Kickstart腳本文件,在操作系統(tǒng)安裝過程中,自動加載設(shè)備驅(qū)動,自動配置系統(tǒng)服務(wù),自動配置集群作業(yè)調(diào)度系統(tǒng)和集群管理軟件客戶端。
步驟S2中,TFTPBOOT服務(wù)配置時,創(chuàng)建/tftpboot文件目錄,把啟動引導(dǎo)文件、啟動菜單配置文件、系統(tǒng)引導(dǎo)內(nèi)核文件拷入/tftpboot文件目錄并配置完全。
步驟S3中,有計算節(jié)點(diǎn)需要恢復(fù)操作系統(tǒng)時,在管理節(jié)點(diǎn)上啟動HTTP服務(wù)和DHCP服務(wù)后,該計算節(jié)點(diǎn)在啟動BIOS自檢過程按F12強(qiáng)制從網(wǎng)絡(luò)引導(dǎo)后即可自動恢復(fù)操作系統(tǒng),若機(jī)器能進(jìn)系統(tǒng)需要重新恢復(fù),可以用ipmitool chassis bootdev pxe命令使下次系統(tǒng)從pxe網(wǎng)絡(luò)啟動,或者用dd if=/dev/zero of=/dev/sda bs=1M count=1000抹掉sda磁盤的分區(qū),下次重啟直接從網(wǎng)絡(luò)引導(dǎo)恢復(fù)系統(tǒng)。
作為優(yōu)選,步驟S1所述集群管理節(jié)點(diǎn)的環(huán)境配置包括配置主機(jī)名、內(nèi)網(wǎng)IP地址、關(guān)閉防火墻和關(guān)閉selinux。
作為優(yōu)選,步驟S2中DHCP服務(wù)配置時,提取所有計算節(jié)點(diǎn)的mac地址,實現(xiàn)計算節(jié)點(diǎn)通過DHCP服務(wù)獲取一個預(yù)設(shè)的IP地址。
提取所有計算節(jié)點(diǎn)的mac地址,并在配置文件中對應(yīng)mac地址和IP地址關(guān)系,保證計算節(jié)點(diǎn)通過DHCP服務(wù)不是隨機(jī)獲取到一個IP地址,而是通過mac地址的對應(yīng),獲取一個預(yù)設(shè)的IP地址。
作為優(yōu)選,步驟S2中通過Kickstart腳本文件配置,在操作系統(tǒng)安裝過程中,自動設(shè)置節(jié)點(diǎn)主機(jī)名、IP地址、硬件驅(qū)動、服務(wù)配置、集群作業(yè)調(diào)度配置、集群管理軟件配置和集群用戶配置,實現(xiàn)操作系統(tǒng)安裝完畢后,計算節(jié)點(diǎn)即恢復(fù)正常,自動加入到集群中。
Kickstart腳本軟件包的配置一直到%post符號結(jié)束,后面內(nèi)容就是shell腳本命令,自由發(fā)揮,系統(tǒng)安裝完畢后會執(zhí)行%post后面的命令,進(jìn)而進(jìn)行恢復(fù)計算節(jié)點(diǎn)操作系統(tǒng)。
與現(xiàn)有技術(shù)相比,本發(fā)明的基于網(wǎng)絡(luò)的linux集群計算節(jié)點(diǎn)操作系統(tǒng)恢復(fù)方法具有以下突出的有益效果:本發(fā)明所述基于網(wǎng)絡(luò)的linux集群計算節(jié)點(diǎn)操作系統(tǒng)恢復(fù)方法對計算節(jié)點(diǎn)的數(shù)量無限制,特別是在大規(guī)模的集群維護(hù)中,遇到計算節(jié)點(diǎn)操作系統(tǒng)問題或者硬盤問題導(dǎo)致需要重新部署系統(tǒng)時,可以實現(xiàn)計算節(jié)點(diǎn)操作系統(tǒng)的快速恢復(fù),大幅度提高集群維護(hù)效率,節(jié)省人力成本。
附圖說明
圖1是本發(fā)明所述基于網(wǎng)絡(luò)的linux集群計算節(jié)點(diǎn)操作系統(tǒng)恢復(fù)方法的過程示意圖。
具體實施方式
下面將結(jié)合附圖和實施例,對本發(fā)明的基于網(wǎng)絡(luò)的linux集群計算節(jié)點(diǎn)操作系統(tǒng)恢復(fù)方法作進(jìn)一步詳細(xì)說明。
實施例
如圖1所示,本發(fā)明的基于網(wǎng)絡(luò)的linux集群計算節(jié)點(diǎn)操作系統(tǒng)恢復(fù)方法通過配置集群管理節(jié)點(diǎn)的PXE網(wǎng)絡(luò)灌裝系統(tǒng),提取集群計算節(jié)點(diǎn)的mac地址,通過集群的配置內(nèi)容,修改PXE網(wǎng)絡(luò)灌裝系統(tǒng)的ks文件,在操作系統(tǒng)安裝過程中即可配置好操作系統(tǒng)的各種服務(wù),能一鍵修復(fù)操作系統(tǒng),無需更改任何操作系統(tǒng)配置。
該linux集群計算節(jié)點(diǎn)操作系統(tǒng)恢復(fù)方法的具體步驟為:
S1:集群管理節(jié)點(diǎn)的環(huán)境配置,包括配置主機(jī)名、內(nèi)網(wǎng)IP地址、關(guān)閉防火墻和關(guān)閉selinux。
S2:集群管理節(jié)點(diǎn)的服務(wù)配置,包括HTTP服務(wù)、TFTP服務(wù)、TFTPBOOT服務(wù)、DHCP服務(wù)和Kickstart腳本。
DHCP服務(wù)配置時,提取所有計算節(jié)點(diǎn)的mac地址,并在配置文件中對應(yīng)mac地址和IP地址關(guān)系,保證計算節(jié)點(diǎn)通過DHCP服務(wù)不是隨機(jī)獲取到一個IP地址,而是通過mac地址的對應(yīng),獲取一個預(yù)設(shè)的IP地址。
Kickstart腳本軟件包的配置一直到%post符號結(jié)束,后面內(nèi)容就是shell腳本命令,自由發(fā)揮,系統(tǒng)安裝完畢后會執(zhí)行%post后面的命令,通過配置該Kickstart腳本,在操作系統(tǒng)安裝過程中,自動設(shè)置節(jié)點(diǎn)主機(jī)名、IP地址、硬件驅(qū)動、服務(wù)配置、集群作業(yè)調(diào)度配置、集群管理軟件配置和集群用戶配置,實現(xiàn)操作系統(tǒng)安裝完畢后,計算節(jié)點(diǎn)即恢復(fù)正常,自動加入到集群中。
S3:啟動PXE網(wǎng)絡(luò)灌裝系統(tǒng)的相關(guān)服務(wù),恢復(fù)計算節(jié)點(diǎn)操作系統(tǒng)。
當(dāng)有計算節(jié)點(diǎn)需要恢復(fù)操作系統(tǒng)時,在管理節(jié)點(diǎn)上啟動HTTP服務(wù)和DHCP服務(wù)后,該計算節(jié)點(diǎn)在啟動BIOS自檢過程按F12強(qiáng)制從網(wǎng)絡(luò)引導(dǎo)后即可自動恢復(fù)操作系統(tǒng),若機(jī)器能進(jìn)系統(tǒng)需要重新恢復(fù),可以用ipmitool chassis bootdev pxe命令使下次系統(tǒng)從pxe網(wǎng)絡(luò)啟動,或者用dd if=/dev/zero of=/dev/sda bs=1M count=1000抹掉sda磁盤的分區(qū),下次重啟直接從網(wǎng)絡(luò)引導(dǎo)恢復(fù)系統(tǒng)。
以上所述的實施例,只是本發(fā)明較優(yōu)選的具體實施方式,本領(lǐng)域的技術(shù)人員在本發(fā)明技術(shù)方案范圍內(nèi)進(jìn)行的通常變化和替換都應(yīng)包含在本發(fā)明的保護(hù)范圍內(nèi)。