-
運維思索:系統監控體系
因此接下來(lái)一段時(shí)間,我可能會(huì )陸續分享運維過(guò)程中對一些問(wèn)題的思考,希望給大家帶來(lái)一定的啟發(fā)。本次分享的是確立一套運維監控體系,構建可持續成長(cháng)的監控平臺。系統監控現狀及問(wèn)題1.如何監控?硬件、基礎狀態(tài)、應用、業(yè)務(wù),監控對象多而且雜,如何能夠全部覆蓋?企業(yè)內部的各種監控工具,我們應該如何管理?監控工具之間的信息孤島如何處理?2.如何告警?告警太多,如何沉淀有效告警?告警泛濫,如何進(jìn)行收斂,避免告警的狂轟
2024-07-10 Jinyu
-
金山文檔崩了:數據安全問(wèn)題是最大的擔憂(yōu)
今天是周一,公司上午有例會(huì ),匯報內容都存放在金山文檔中。九點(diǎn)鐘準時(shí)打開(kāi)金山文檔時(shí),系統提示需要重新登錄。通過(guò)微信掃碼登錄后,文檔依然打不開(kāi)。第一時(shí)間懷疑是金山客戶(hù)端的問(wèn)題,但在進(jìn)一步排查后發(fā)現,問(wèn)題出在金山服務(wù)器上。遺憾的是,沒(méi)有及時(shí)截圖記錄這個(gè)問(wèn)題。更令人擔憂(yōu)的是數據丟失的風(fēng)險,因為金山文檔中不僅存放了匯報內容,還有許多其它與工作相關(guān)的重要文檔和材料。作為云服務(wù),特別是與數據息息相關(guān)的服務(wù),用戶(hù)
2024-07-10 Jinyu
-
國際化新篇章!2024上半年 ITU DevOps 國際標準新進(jìn)展
信息化標準是國家標準體系的重要組成部分,是以信息化驅動(dòng)引領(lǐng)高質(zhì)量發(fā)展的重要支撐。2024上半年,我國企業(yè)在國際標準化方面取得了顯著(zhù)進(jìn)展,進(jìn)一步增強了其在國際標準化領(lǐng)域的影響力,也為全球相關(guān)產(chǎn)業(yè)的技術(shù)進(jìn)步和標準化工作做出重要貢獻。以中國信通院 DevOps 標準評估為例,上半年中,共有13家企業(yè)通過(guò)26項 DevOps 標準評估。經(jīng)過(guò)6年發(fā)展,中國信通院 DevOps 標準如今都有哪些成果?隨著(zhù) I
2024-07-10 Jinyu
-
紙上得來(lái)終覺(jué)淺-案例二-《SD-WAN在低成本POP運營(yíng)場(chǎng)景下的實(shí)戰案例》
首先感謝很多兄弟們的留言,同時(shí)也在這里有二個(gè)問(wèn)題也統一回答一下,有人反駁說(shuō)SD-WAN還是會(huì )搶了專(zhuān)線(xiàn)的生意,這個(gè)問(wèn)題我之前已回答過(guò),我在此呢也再加一句哈,小型企業(yè)使用Internet比較多本身使用專(zhuān)線(xiàn)就較少,而大型企業(yè)也是專(zhuān)線(xiàn)使用的大頭,所以所謂線(xiàn)路成本優(yōu)劣一目了然,中小企業(yè)更多喜歡互聯(lián)網(wǎng)搞定所有,這對整個(gè)專(zhuān)線(xiàn)的大盤(pán)子沒(méi)有什么影響,因為他們本身也不是使用專(zhuān)線(xiàn)的主力軍;然后還有想談?wù)劮腔ヂ?lián)網(wǎng)收口場(chǎng)景
2024-07-10 Jinyu
-
Linux 系統 CPU 100% 異常問(wèn)題,能否用一個(gè) Shell 腳本完美解決?
昨天下午突然收到運維郵件報警,顯示數據平臺服務(wù)器cpu利用率達到了98.94%,而且最近一段時(shí)間一直持續在70%以上,看起來(lái)像是硬件資源到瓶頸需要擴容了,但仔細思考就會(huì )發(fā)現咱們的業(yè)務(wù)系統并不是一個(gè)高并發(fā)或者CPU密集型的應用,這個(gè)利用率有點(diǎn)太夸張,硬件瓶頸應該不會(huì )這么快就到了,一定是哪里的業(yè)務(wù)代碼邏輯有問(wèn)題。2、排查思路2.1 定位高負載進(jìn)程 pid首先登錄到服務(wù)器使用top命令確認服務(wù)器的具體情
2024-07-10 Jinyu
-
當運維遇上LLM:大模型 Agent 在 AIOps 運維場(chǎng)景有哪些新實(shí)踐
一、為什么要用大模型Agent技術(shù)近期,大模型的迅猛發(fā)展為 AI 行業(yè)帶來(lái)了巨大的進(jìn)步,也有力地推動(dòng)了 AIOps 的變革。大模型主要通過(guò)對話(huà)的方式實(shí)現智能賦能,Agent 借助多步對話(huà),利用規劃、反思以及工具的使用,以目標為驅動(dòng),形成能夠自治完成復雜任務(wù)的智能體。Agent 對大模型的加持,極大地提升了大模型的智能能力,并且能對 AIOps 任務(wù)類(lèi)場(chǎng)景起到很好的智能增強作用,有助于提升運維的人效
2024-07-04 Jinyu
-
SkyWalking v10 APM 原生數據庫發(fā)布:革新云原生環(huán)境中的監控與部署
在當今云原生技術(shù)迅猛發(fā)展的背景下,現代應用程序的架構日益復雜。微服務(wù)、容器化以及動(dòng)態(tài)編排工具廣泛應用,傳統的監控方法往往難以應對復雜多變的環(huán)境,尤其是在處理頻繁的變更和復雜的服務(wù)交互時(shí)顯得力不從心。云原生環(huán)境要求監控工具具備更高的靈活性和效率,以適應快速迭代和動(dòng)態(tài)擴展的需求。面對這些挑戰,Apache SkyWalking 團隊推出了其第十版應用性能監控(APM)解決方案——SkyWalking
2024-07-04 Jinyu
-
服務(wù)器被入侵了怎么辦?這11個(gè)步驟助你完美排查!
隨著(zhù)開(kāi)源產(chǎn)品的越來(lái)越盛行,作為一個(gè)Linux運維工程師,能夠清晰地鑒別異常機器是否已經(jīng)被入侵了顯得至關(guān)重要,個(gè)人結合自己的工作經(jīng)歷,整理了幾種常見(jiàn)的機器被黑情況供參考:背景信息:以下情況是在 CentOS 的系統中查看的,其它 Linux 發(fā)行版類(lèi)似。1. 入侵者可能會(huì )刪除機器的日志信息可以查看日志信息是否還存在或者是否被清空,相關(guān)命令示例:2. 入侵者可能創(chuàng )建一個(gè)新的存放用戶(hù)名及密碼文件可以查看
2024-07-04 Jinyu