運維私藏的28條運維保命秘訣
從買(mǎi)域名開(kāi)始,要買(mǎi)多個(gè)域名,50個(gè)甚至100個(gè)。分為主域名和推廣域名(給推廣鏈接用的)。要從godaddy上買(mǎi)域名,因為這里的域名穩定,不會(huì )出現被攻擊等事情。同時(shí)還要買(mǎi)域名保護,這樣互聯(lián)網(wǎng)用戶(hù)ping這個(gè)域名就解析不到真實(shí)的服務(wù)器地址。同時(shí)域名解析的操作不要在godaddy上進(jìn)行,要把解析的操作放在cloudflare上或者dnspod上進(jìn)行操作,也可以放到zndns上(這個(gè)dns可以做到一個(gè)域名解析多個(gè)IP地址,根據就近原則,把最快的IP地址解析給用戶(hù)。)也可以自己搭建dns服務(wù)器,在godaddy上只想到自己搭建的dns服務(wù)器就可以了。這樣,修改dns指向的時(shí)候會(huì )更快。
2 Cdn,一定要買(mǎi)cdn服務(wù)。如果出現部分用戶(hù)訪(fǎng)問(wèn)不了就使用cdn服務(wù)??梢詮腸loudflare上購買(mǎi)cdn服務(wù),這樣域名解析到cdn上,然后cdn解析到肉盾擊還是那個(gè),然后肉盾擊指向核心服務(wù)器上。Cdn充當一個(gè)緩存和轉發(fā)的作用,大流量攻擊的時(shí)候他可以防御至少200G的攻擊。Cdn是全球緩存的。 3 圖片服務(wù)器,在國內租用幾臺服務(wù)器做圖片緩存服務(wù)器即可,這樣提高訪(fǎng)問(wèn)速度。其實(shí)nginx本身就是一個(gè)圖片緩存服務(wù)器。 4 機房:選擇機房太重要了,一般來(lái)說(shuō)用戶(hù)在哪里,機房就要選擇哪里,因為這樣才最快。但是美國的服務(wù)器帶寬很大,如果是需要大帶寬的只能美國。買(mǎi)服務(wù)器之前一定要測試ping值,可以用chinaz工具,測試全國到這臺服務(wù)器的ping值。要服務(wù)質(zhì)量好的,還要高防好的,還要可靠性高的,還要相應及時(shí)的,還要能隨時(shí)可以查看服務(wù)器狀態(tài)的,最重要還要服務(wù)態(tài)度好了。機房要買(mǎi)香港九河(用戶(hù)核心服務(wù)器),美國圣安娜機房(用于肉盾擊)(雖然慢,但是安全高防做的真好,大流量攻擊的時(shí)候,這里的機房還是可以訪(fǎng)問(wèn),所以,雞蛋不要放在一個(gè)籃子里頭,要各個(gè)等級都有才叫好的,國內機房快,但是高防效果差,美國機房慢但是高防效果好) 5 一個(gè)主頁(yè),就是招商或成為打廣告的網(wǎng)站,可以租用云主機,這樣被打死就被打死吧。里面可以有一個(gè)鏈接,指向游戲首頁(yè),這個(gè)鏈接可以是帶端口號的,那就簡(jiǎn)單了。也可以是不帶端口號的,這時(shí)候就一定要用cdn服務(wù)器,或者使用免備案機房,把肉盾擊放在免備案機房,因為國內搭建網(wǎng)站都是要備案的,博彩這個(gè)行業(yè)是被禁止的,為了避免域名或者IP地址被和諧了(gwf)所以要用免備案機房?;蛘呔桶讶舛軗粢卜诺较愀刍蛘吲_灣或者韓國等等機房。這樣用戶(hù)可以不使用端口號,直接用域名就可以訪(fǎng)問(wèn)咱們的網(wǎng)站。 6 一個(gè)網(wǎng)站要有監控系統,實(shí)時(shí)監控服務(wù)器是否有攻擊,功過(guò)查看日志是否激增,還要把日志放到日志服務(wù)器上(syslog服務(wù)),使用cacti服務(wù)可以把日志放到cacti上。網(wǎng)速是一定要查看的,網(wǎng)速激增則證明一定是有攻擊。每天要看日志,要用日志分析軟件,看看訪(fǎng)問(wèn)源是單一訪(fǎng)問(wèn)源還是多個(gè)不同的訪(fǎng)問(wèn)源.監控服務(wù)器要有報警功能,一旦情況異常就要立刻報警,然后起床處理攻擊。 7 攻擊一般看情況而定,一般的攻擊都是直接攻擊域名。小量的攻擊可以通過(guò)nginx和iptables本身的防御功能就防掉。大量的攻擊由于直接把網(wǎng)絡(luò )帶寬占用滿(mǎn)了,服務(wù)器無(wú)法正常相應,只能依靠機房的高防了。所以要買(mǎi)大量的高防,建議至少200G。如果攻擊源是單一IP或者幾個(gè)IP,那么就讓機房把這幾個(gè)IP給屏蔽就可以了。遇到cc或者ddos攻擊,只能靠機房解決。一臺服務(wù)器被打死后,需要立刻把域名指向另一臺服務(wù)器,(或者直接把域名指向百度)。大量的攻擊還要使用cdn,讓cdn直接指向核心服務(wù)器就可以了,這樣能快一點(diǎn),讓用戶(hù)還可以玩??傊罅髁抗羰遣荒芡耆乐沟?。 8 一個(gè)網(wǎng)站一定要有冗余,比如現在是1000人同時(shí)訪(fǎng)問(wèn)的并發(fā)量,一定要讓網(wǎng)站的負載達到2000人的并發(fā)量,要不然一搞活動(dòng),網(wǎng)站負載不了那么多人就完了。
9 服務(wù)器的配置,要用三網(wǎng)卡,一個(gè)用于用戶(hù)連接,對外的訪(fǎng)問(wèn)(要好的網(wǎng)卡)。一個(gè)用于內網(wǎng)服務(wù)器之間的訪(fǎng)問(wèn)使用。一個(gè)用于ssh管理,這樣大量攻擊的時(shí)候咱們還可以操作服務(wù)器。每個(gè)網(wǎng)卡還要多個(gè)IP地址,這樣防止某個(gè)IP被屏蔽了。國內網(wǎng)絡(luò )和國外網(wǎng)絡(luò )經(jīng)常會(huì )有IP不好用的情況。硬盤(pán)至少要鏡像(raid 1),cpu要兩路的,雙電源,總之不要有單點(diǎn)故障。至于肉盾擊的配置可以低一些,甚至臺式機的配置都可以,但是網(wǎng)絡(luò )一定要好,尤其是和核心服務(wù)器之間的網(wǎng)絡(luò )一定要好。 10 數據庫要做主從復制,要有異地備份,nginx服務(wù)器要做集群,就是upstream。前臺(提供用戶(hù)訪(fǎng)問(wèn)頁(yè)面)和后臺(員工管理界面)要用兩臺不同的機器,不要互相影響。其余的服務(wù)可以使用一臺虛擬機完成。這樣可以省錢(qián),郵箱直接買(mǎi)google的gmail企業(yè)郵箱就好了,非常好用,最好沒(méi)人一個(gè)?;蛘吖緝炔看罱ㄗ约旱牧奶燔浖ㄗ詈眠€錢(qián)買(mǎi)聊天軟件)。 11 測試環(huán)境要三套,開(kāi)發(fā)人員電腦上自己的環(huán)境,要局域網(wǎng)一套測試環(huán)境,互聯(lián)網(wǎng)一套測試環(huán)境,生產(chǎn)環(huán)境。局域網(wǎng)的測試環(huán)境一定要穩定,可以買(mǎi)一個(gè)機柜等等的網(wǎng)絡(luò )設備放在一起,不要用普通電腦。局域網(wǎng)要有svn或git的代碼管理工具。充分測試后在上傳到生產(chǎn)環(huán)境。 12 肉盾擊和核心服務(wù)器之間一定要可以使用ping命令,這樣可以看看那個(gè)IP地址不能使用了,網(wǎng)絡(luò )連通性都可以看出來(lái)。 13 運維人員至少兩個(gè),如果有運維經(jīng)理一個(gè)運維人員就夠了。這樣所有運維工作必須有操作文檔,兩個(gè)人互相協(xié)調工作,不需要倒班,但是24小時(shí)待命。網(wǎng)管一個(gè)就夠了。 14 普通的運維部門(mén)大概就這樣,如果是大的網(wǎng)絡(luò )架構,會(huì )有自己的數據中心機房到時(shí)候在安排人手。 15 Linux系統要有優(yōu)化和安全配置,比如說(shuō)nginx基于cpu的優(yōu)化,每個(gè)程序基于cpu和內存的限制。 16 所有密碼要3個(gè)月就修改一次,尤其是域名的賬號和郵箱密碼,域名是最重要也是最脆弱的環(huán)節。
17 局域網(wǎng)一定要穩定,可以買(mǎi)兩條網(wǎng)線(xiàn),至少10M帶寬,還要買(mǎi)一個(gè)移動(dòng)wifi,給員工手機上網(wǎng)。 18 如果是大型網(wǎng)絡(luò )架構,那得有自己的核心機房,就不是租用機房了,每個(gè)崗位都是若干人組成的,包括運維工程師,數據庫管理工程師,網(wǎng)絡(luò )工程師,安全工程師,存儲備份系統工程師,運維經(jīng)歷負責協(xié)調各個(gè)部門(mén)間的工作。目前就是一個(gè)運維就能完成所有的工作。 19 運維的工具要統一,比如連接數據庫使用sqlyog工具,連接服務(wù)器使用crt工具,密碼管理用keepass,上傳服務(wù)器代碼使用winscp工具,等等。這樣運維人員之間工作比較好協(xié)調。另外運維一定要有大量時(shí)間學(xué)習,每天都要上網(wǎng)找新技術(shù),好的資料,最好要懂英文,因為好的技術(shù)文檔都是英文寫(xiě)的。這樣對運維工作很有幫助,而且運維技術(shù)實(shí)力會(huì )有很大的進(jìn)步的,為迎接更大的需求做準備。 20 最后一定要有預案,就是服務(wù)器一旦出現重大問(wèn)題,就是解決不了了,這個(gè)時(shí)候就不要去解決這臺服務(wù)器,使用預案,把啟用備用方案,盡快讓網(wǎng)站可用。平時(shí)多做預案演習,還要多做備份的還原操作,因為有的備份不可用,這是常見(jiàn)現象。別到關(guān)鍵時(shí)刻備份不能用,整個(gè)網(wǎng)站就完了。 21 服務(wù)器安全要有一整套的安全配置,包括用戶(hù)安全,應用安全,系統安全,文件安全等。這樣防止服務(wù)器被黑客侵入。 22 一定要做高并發(fā)測試,模擬同時(shí)在線(xiàn)用戶(hù)2000人,看服務(wù)器的負載情況,要有服務(wù)器高并發(fā)配置,網(wǎng)絡(luò )方面是機房的事情,但是得選擇最合適的IP地址,最適合的機房,及出口帶寬。高并發(fā)是服務(wù)器架構的事情,不是單單一臺服務(wù)器的事情。該花錢(qián)的地方一定要花,可以省錢(qián)的地方要知道怎么省錢(qián)。 23 運維所有信息兩個(gè)人共享,包括密碼和服務(wù)器配置步驟,由運維經(jīng)理帶領(lǐng)團隊,打造成一個(gè)互相學(xué)習,技術(shù)實(shí)力雄厚,目標一致的和諧團隊。讓每個(gè)人在團隊中都得到自己想要的。運維經(jīng)理的為人就很重要,要不然留不住人,大家心不往一起使勁。運維工作技術(shù)不是最重要的,因為這個(gè)職位現學(xué)現用也來(lái)得及,所以工作態(tài)度/為人和經(jīng)驗是最重要的。 24 對服務(wù)器建立日志,所有服務(wù)器的所有操作都要有記錄,并且寫(xiě)清時(shí)間操作內容。對生產(chǎn)服務(wù)器操作之前一定要做風(fēng)險評估及解決方案。 25 運維之道:網(wǎng)站可用性/監控與報警/容量規劃/流程規范/知識管理與積累/自動(dòng)化管理。 26 應用上線(xiàn)后,運維工作才剛開(kāi)始,具體工作可能包括:升級版本上線(xiàn)工作、服務(wù)監控、應用狀態(tài)統計、日常服務(wù)狀態(tài)巡檢、突發(fā)故障處理、服務(wù)日常變更調整、集群管理、服務(wù)性能評估優(yōu)化、數據庫管理優(yōu)化、隨著(zhù)應用PV增減進(jìn)行應用架構的伸縮、安全、運維開(kāi)發(fā)工作。 27 圖片服務(wù)器和其他服務(wù)器要分開(kāi),肉盾擊可做圖片緩存。 28 查看了連接數和當前的連接數,分別是 netstat -ant | grep $ip:80 | wc -l netstat -ant | grep $ip:80 | grep EST | wc -l