前言
在數(shù)字化轉型浪潮下,全球基礎軟件行業(yè)正經(jīng)歷革命性變革。隨著物聯(lián)網(wǎng)設備數(shù)量的激增,企業(yè)每天產(chǎn)生的運維日志、設備狀態(tài)、網(wǎng)絡流量等可觀測性數(shù)據(jù)呈指數(shù)級增長。企業(yè)運維團隊面對 TB 級數(shù)據(jù)如同「大海撈針」,故障定位耗時從分鐘級延長至小時級,人工經(jīng)驗主導的決策更讓企業(yè)錯失實時響應的黃金窗口。
在此背景下,作為全球領先的「云邊端」連接與數(shù)據(jù)平臺供應商,EMQ 創(chuàng)新性的結合 EMQX 的可觀測性數(shù)據(jù)與 DeepSeek 的 LLM(大語言模型)服務,利用向量化知識庫、自動化代碼生成和自然語言處理等 AI 技術,幫助用戶快速解決設備數(shù)據(jù)無法上傳、設備斷連、連接時延增加、數(shù)據(jù)轉發(fā)緩慢等問題。
現(xiàn)有物聯(lián)網(wǎng)數(shù)據(jù)可觀測性工具的局限
物聯(lián)網(wǎng)數(shù)據(jù)的可觀測性是通過監(jiān)控和管理車聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)等平臺的數(shù)據(jù),確保數(shù)據(jù)在復雜的系統(tǒng)、流程和管道中保持高質(zhì)量、可用性和可靠性的一種實踐。它幫助用戶全面了解數(shù)據(jù)的狀態(tài),快速定位和分析問題,提升系統(tǒng)的穩(wěn)定性和運維效率。
在車聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)等場景中,由于網(wǎng)絡條件和應用的復雜性等原因,設備斷線、訂閱消息變慢、消息轉發(fā)滯后、消息丟失等問題時有發(fā)生。如果沒有高效的可觀測性數(shù)據(jù)采集、存儲和分析系統(tǒng),運維團隊將花費大量時間定位和分析相關故障,導致系統(tǒng) MTTR(Mean time to recovery)增加、用戶體驗下降,甚至引發(fā)客戶投訴和品牌聲譽受損等問題。
一般而言,可觀測性數(shù)據(jù)分析依賴于指標(metrics)、跟蹤 (tracing)和日志 (logs)三大數(shù)據(jù)源:
1. 指標(metrics)
用戶可以從基于時間維度的折線圖等整體快速判斷系統(tǒng)總體上是否有問題。
·通過系統(tǒng)的 CPU、內(nèi)存和網(wǎng)絡等指標使用情況來了解在指定時間段是否存在異常情況;
·通過 EMQX 系統(tǒng)了解連接、消息發(fā)送和轉發(fā)等情況。
市場已經(jīng)有 Prometheus 和 Grafana 等成熟的相關產(chǎn)品,可以非常方便地對這些數(shù)據(jù)進行存儲和展示。
2. 跟蹤(tracing)
了解系統(tǒng)內(nèi)部的運行狀態(tài),知道問題出在哪里。
·通過在系統(tǒng)內(nèi)部埋點的方式來跟蹤系統(tǒng)內(nèi)部、跨系統(tǒng)之間的調(diào)用鏈關系,以及各組件所消耗的時間。
目前市場上 Jaeger 等相關產(chǎn)品可以對鏈路數(shù)據(jù)進行存儲、分析和展示。
3. 日志(logs)
用于定位故障的準確原因。
·日志是程序在執(zhí)行過程中通過代碼打印的,用于讓開發(fā)和運維人員了解系統(tǒng)的執(zhí)行狀態(tài),以及執(zhí)行過程中發(fā)生的一些錯誤和異常情況。
市場上有 ElasticSearch 等相關成熟的產(chǎn)品可以實現(xiàn)對日志的存儲、查詢和展示。
目前,市場中的大部分可觀測性數(shù)據(jù)工具都存在以下局限性:
· 功能預置化:大部分功能依賴供應商預設,無法靈活應對未知異常。
· 知識庫靜態(tài)化:依賴文字匹配搜索解決方法,無法針對相關問題提供精準建議。
· 智能化不足:缺乏問題推理能力,難以應對復雜場景下的問題分析。
利用 AI 實現(xiàn)更加智能的可觀測性數(shù)據(jù)分析
基于大語言模型(LLM)提供的推理能力,可以顯著提升可觀測性數(shù)據(jù)分析的智能化水平:
· 智能化推理:結合上下文對系統(tǒng)異常進行推理和判斷,而非依賴硬編碼規(guī)則。
· 自然語言處理:通過 AI 生成代碼的方式靈活處理數(shù)據(jù),滿足特殊場景需求。
· 向量化知識庫:利用 AI 推理能力,精準輸出問題解決方案。
· AI Agent 框架:基于 LLM 推理提供的方案提供自動化運維的能力,實現(xiàn) AI 時代的智能運維。
DeepSeek R1 是深度求索 (DeepSeek) 公司開發(fā)的推理優(yōu)化模型,通過強化學習訓練(RL),能夠在復雜場景中進行高效的推理和內(nèi)容生成。而 DeepSeek V3 是一款強大的生成式大語言模型,采用混合專家架構,優(yōu)化了訓練效果和內(nèi)容生成的效率與質(zhì)量。通過結合 DeepSeek 的 R1 和 V3 模型,可以高效處理物聯(lián)網(wǎng)場景中的海量異構數(shù)據(jù)和交互需求。
為了幫助用戶進行更加高效的物聯(lián)網(wǎng)系統(tǒng)運維,EMQX ECP 最新版本集成了基于 DeepSeek V3 的數(shù)據(jù)可觀測性工具。在 EMQX 集群和邊緣服務快速部署、遠程操作、集中管理等功能的基礎上,用戶可以充分利用 AI 的推理能力,實現(xiàn)數(shù)據(jù)驅(qū)動的物聯(lián)網(wǎng)智能運維。
該數(shù)據(jù)可觀測性工具主要包含以下三部分:
1. 向量知識庫構建:將產(chǎn)品文檔、運維知識和事故分析報告等文檔進行向量化,增強 LLM 對相關問題的高效檢索和應用;
2. 數(shù)據(jù)源收集:EMQX 將指標、跟蹤和日志等數(shù)據(jù)通過 OpenTelemetry 等協(xié)議發(fā)送到 Datalayers 數(shù)據(jù)庫中,為 LLM 提供需要分析的數(shù)據(jù)源;
3. 問題解決:
(1)直接從向量庫中搜索到相應的內(nèi)容作為上下文,并結合 prompt,把推理結果 (output) 直接返回給用戶;
(2)根據(jù)用戶的需求,在 Datalayers 數(shù)據(jù)庫中加載相關的數(shù)據(jù),并生成相關的代碼,對數(shù)據(jù)進行處理。同時將有問題的數(shù)據(jù)和向量庫中找到的結果作為上下文發(fā)送給 LLM,由 LLM 推理,形成相關的解決方案,組織為自然語言并返回給用戶。
根據(jù)客戶需求,后續(xù)還可以增加 Agent 自動運維編排的場景。例如:當發(fā)生某些情況時,自動發(fā)起擴容或發(fā)送通知等操作;另外還可以增加自動線上運維巡檢,生成并發(fā)送高質(zhì)量的巡檢報告等。
AI 交互操作演示
接下來,我們將展示如何使用 AI 進行交互操作。在部署 EMQX ECP 后,用戶可以進入工作臺并點擊左側導航欄中的「鏈路追蹤」功能,利用 EMQX 提供的端到端鏈路追蹤能力來分析和排查問題。盡管鏈路追蹤提供了強大的數(shù)據(jù)支持,幫助定位和發(fā)現(xiàn)問題,但在復雜情況下仍需要專業(yè)背景來分析問題根源。為提高效率,我們將 DeepSeek 的大語言模型集成到鏈路追蹤高級查詢頁面的數(shù)據(jù)分析能力中,利用 AI 模型的推理和生成能力來幫助用戶更快速、智能地定位問題并提供解決方案。
數(shù)據(jù)分析概覽功能
首先,進入鏈路追蹤頁面并點擊右上角的「高級查詢」按鈕,進入查詢頁面。在這里,用戶需要選擇一個 EMQX 集群標識,并根據(jù)需要選擇一個或多個 Client ID 來定位數(shù)據(jù)源。接著,選擇想要查詢分析的時間段(默認為全部時間段),然后點擊查詢按鈕,系統(tǒng)會返回指定 Client ID 下的所有鏈路追蹤數(shù)據(jù)。
當查詢結果返回后,用戶將看到包含多個鏈路追蹤數(shù)據(jù)的列表,通常數(shù)據(jù)量較大。人工識別異常數(shù)據(jù)可能較為困難,此時可以使用 AI 助手功能,點擊右下角的 AI 助手按鈕后,會彈出一個對話框。用戶可以在對話框中輸入需要分析的數(shù)據(jù)的需求,AI 助手會根據(jù)輸入的信息生成數(shù)據(jù)分析結果,并提供優(yōu)化建議等。
當點擊右下角的 AI 助手中的「追蹤數(shù)據(jù)概覽」快捷按鈕后,系統(tǒng)會生成針對當前查詢到的所有追蹤數(shù)據(jù)的概覽分析。該分析通常包括以下幾個部分:
· 整體狀況:展示當前查詢的所有客戶端 ID 的總追蹤條數(shù)、成功率、平均響應時間、最小響應時間、最大響應時間,以及 P95 和 P99 響應時間。
· 異常情況:顯示錯誤率較高的客戶端(錯誤率超過一定閾值)、響應時間異常的客戶端(平均響應時間超過閾值)以及異常追蹤(例如耗時特別長的追蹤)。
· 關鍵發(fā)現(xiàn):列出主要異常的客戶端或鏈路,幫助用戶定位潛在的故障點。
· 建議:根據(jù)數(shù)據(jù)分析結果,系統(tǒng)會給出針對性的優(yōu)化建議和排查方向。
根據(jù)概覽功能生成的報告,用戶就可以迅速識別出異常的鏈路數(shù)據(jù)。例如,系統(tǒng)可能會指出某個客戶端的響應時間過長,或某些 Client ID 的鏈路錯誤率過高?;谶@些信息,用戶可以通過搜索和過濾,立即找到異常鏈路的 Trace ID。后續(xù)只要點擊 Trace ID,下方就會顯示該追蹤的詳細信息,展示相關服務和操作的時間軸的鏈路結構,其中每個 Span 代表一個操作,用戶可以將鼠標懸停在某個操作上,查看具體步驟和信息。
雖然有效數(shù)據(jù)屬性有助于定位問題,但在例如只有錯誤碼的情況下,問題可能不夠清晰。這時,可以使用 AI 助手功能,點擊「Spans 數(shù)據(jù)概覽」按鈕,快速分析詳細原因。
AI 助手將提供每個 Span 操作的詳細分析,包含錯誤信息、潛在原因及修復建議。通過接入我們構建的知識庫,AI 能夠更加準確地分析錯誤原因,并給出針對性的排查方案或修復建議。借助知識庫中積累的歷史案例和解決方案,AI 可以迅速定位真實問題,避免用戶手動搜索和排查,提高問題定位的精準度和效率。
腳本模式功能
EMQX ECP AI 助手還提供了自定義腳本功能。通過對話框上方的腳本模式開關,用戶可以啟用腳本模式,利用 DeepSeek 強大的模型和編碼推理能力。腳本模式開啟后,用戶可以通過對話框發(fā)送自定義數(shù)據(jù)需求,AI 會自動生成相應的數(shù)據(jù)分析腳本,并根據(jù)當前的數(shù)據(jù)執(zhí)行運算,快速得出分析結果。AI 可基于結果自動生成圖表或文檔,幫助用戶直觀地理解數(shù)據(jù),快速定位問題。
示例 1:計算 duration 的平均值
在腳本模式下,用戶發(fā)送了一個「計算當前追蹤數(shù)據(jù)中 duration 字段(耗時)的平均值」的請求。AI 助手此時會根據(jù)需求自動生成并執(zhí)行相關的腳本代碼,然后計算出 duration 的平均值,并返回結果。結果將直接顯示在對話框內(nèi),同時生成了一份關于結果分析的總結報告。
示例 2:查看錯誤的 Trace 對于當前總的 Traces 的占比分布
AI 助手會根據(jù)用戶需求來自動判斷是否需要生成對應的圖表,例如當用戶提問了「查看錯誤的 Trace 對于當前總的 Traces 的占比分布」時,AI 助手會根據(jù)請求生成分析腳本,計算出錯誤 Trace 的占比,并自動繪制以圖表的形式呈現(xiàn),并附加上結果和圖表的分析報告。此功能非常適合用戶通過比例分析來評估系統(tǒng)健康狀態(tài)。
通過腳本模式,AI 不僅可以幫助用戶完成復雜的數(shù)據(jù)分析任務,還能根據(jù)用戶的需求靈活生成代碼。用戶無需編寫代碼或手動計算數(shù)據(jù),AI 會自動進行推理和計算,減少人工干預,提高數(shù)據(jù)分析效率。此外,生成的圖表和報告更加直觀,幫助用戶迅速掌握關鍵信息,優(yōu)化決策過程。
總結
結合 EMQX 的可觀測性數(shù)據(jù)與 LLM DeepSeek 的數(shù)據(jù)推理能力,可以顯著降低系統(tǒng)運維的工作量和成本,提升運維效率和質(zhì)量,同時大幅縮短系統(tǒng)故障的定位和分析時間,并提供有針對性的方案或建議,進一步提升客戶滿意度。隨著 LLM 技術的快速發(fā)展,智能運維 Agent 正在實現(xiàn)更復雜的自動化能力,逐步解放運維和支持人員的工作負擔,為企業(yè)的數(shù)字化轉型提供強有力的支持。
免責聲明:以上內(nèi)容為本網(wǎng)站轉自其它媒體,相關信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點,亦不代表本網(wǎng)站贊同其觀點或證實其內(nèi)容的真實性。如稿件版權單位或個人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。
互聯(lián)網(wǎng)新聞信息服務許可證10120230012 信息網(wǎng)絡傳播視聽節(jié)目許可證0121673 增值電信業(yè)務經(jīng)營許可證京B2-20171219 廣播電視節(jié)目制作經(jīng)營許可證(京)字第10250號
關于我們 中宏網(wǎng)動態(tài) 廣告服務 中宏網(wǎng)版權所有 京ICP備2023030128號-1 舉報電話:010-63359623
Copyright ? 2016-2025 by netresults-search.com. all rights reserved 運營管理:國家發(fā)展和改革委員會宏觀經(jīng)濟雜志社