多模態(tài)大語言模型在鐵路行業(yè)應(yīng)用探索
一、鐵路行業(yè)多模態(tài)大語言模型應(yīng)用面臨的挑戰(zhàn) 1、鐵路行業(yè)數(shù)據(jù)特點 鐵路行業(yè)涉及的數(shù)據(jù)模態(tài)豐富多樣,每種模態(tài)都有其獨特特點。 文本數(shù)據(jù)方面,包含大量專業(yè)的規(guī)章制度、技術(shù)手冊、維修記錄等,具有術(shù)語專業(yè)性強、邏輯結(jié)構(gòu)嚴謹?shù)奶攸c。例如鐵路信號設(shè)備維護手冊,其中包含大量特定的信號術(shù)語和詳細的操作流程描述,對模型理解和處理專業(yè)文本能力要求極高。 圖像數(shù)據(jù)涵蓋設(shè)備外觀圖像、軌道線路圖像、作業(yè)現(xiàn)場圖像和大量監(jiān)控視頻截圖等。設(shè)備外觀圖像需模型準確識別設(shè)備部件狀態(tài)、是否存在故障痕跡等;軌道線路圖像要求模型能識別軌道幾何形狀、道岔狀態(tài)等,圖像數(shù)據(jù)具有分辨率高、細節(jié)特征復雜的特性。 語音數(shù)據(jù)主要為調(diào)度指揮語音、設(shè)備故障報警語音等,具有實時性強、語音質(zhì)量受環(huán)境影響大的特點,如在嘈雜的車站環(huán)境中,調(diào)度語音可能存在噪聲干擾,增加了語音識別和理解的難度。 2、鐵路行業(yè)應(yīng)用挑戰(zhàn) 領(lǐng)域知識融合與專業(yè)性的要求。鐵路行業(yè)涉及高度專業(yè)化的要求、規(guī)程(如信號系統(tǒng)邏輯、軌道工程標準),需將領(lǐng)域知識和專業(yè)知識有效嵌入模型訓練和模型推理過程,避免生成錯誤或不符合規(guī)范的輸出。 系統(tǒng)兼容性與既有設(shè)施改造。既有鐵路系統(tǒng)(如傳統(tǒng)信號設(shè)備、老舊傳感器、傳統(tǒng)架構(gòu)信息化系統(tǒng))可能無法直接支持AI模型的輸入輸出接口,需解決新舊系統(tǒng)兼容性問題,導致部署成本增加。 鐵路運輸生產(chǎn)過程人員協(xié)作與置信度。運輸生產(chǎn)、運營維護過程中鐵路對應(yīng)專業(yè)人員(如調(diào)度員、維修工)對AI決策的接受度有限,需通過可解釋性技術(shù)(如可視化推理路徑)提升模型透明度,建立人機協(xié)同機制。 模型研發(fā)部署成本與應(yīng)用的平衡。多模態(tài)大模型訓練需要大規(guī)模算力支持,且鐵路場景定制化開發(fā)成本高,面臨模型研發(fā)部署成本與應(yīng)用平衡的問題。 二、多模態(tài)大語言模型關(guān)鍵技術(shù)研究 針對鐵路行業(yè)的特點、專業(yè)分工,多專業(yè)數(shù)據(jù)源特性及多模態(tài)大語言模型應(yīng)用過程中面臨的挑戰(zhàn),開展相關(guān)關(guān)鍵技術(shù)的研究工作。 1、多模態(tài)大語言模型定義 多模態(tài)大語言模型(MultiModal Large Language Models,簡稱MLLMs)是一類結(jié)合了大語言模型(Large Language Models,簡稱LLMs)的自然語言處理能力與對其他模態(tài)(如視覺、音頻等)數(shù)據(jù)的理解與生成能力的模型。這些模型通過整合文本、圖像、聲音等多種類型的輸入和輸出,提供更加豐富和自然的交互體驗。 2、多模態(tài)大語言模型架構(gòu) 多模態(tài)模型架構(gòu)包含5個部分,分別是:模態(tài)編碼器(Modality Encoder)、輸入映射器(Input Projector)、大模型骨干(LLM Backbone)、輸出映射器(Output Projector)以及模態(tài)生成器(Modality Generator)[1]。模型架構(gòu)如下圖所示: 模態(tài)編碼器:多模態(tài)大模型中的一個關(guān)鍵組件,它的主要任務(wù)是將不同模態(tài)的輸入數(shù)據(jù)轉(zhuǎn)換成模型能夠進一步處理的特征表示。這些輸入數(shù)據(jù)可以包括圖像、文本、音頻、視頻等多種形式,而模態(tài)編碼器的作用就像是翻譯官,將這些不同語言(模態(tài))的信息轉(zhuǎn)換成一種共同的“語言”,以便模型能夠理解和處理。 輸入映射器:多模態(tài)大模型中的一種關(guān)鍵組件,它的主要作用是將不同模態(tài)的編碼特征映射到一個共同的特征語義空間,以便這些特征可以被大型語言模型(LLM Backbone)統(tǒng)一處理和理解。 輸出映射器:多模態(tài)大模型中的一種關(guān)鍵組件,它的主要任務(wù)是將大型語言模型(LLM)的輸出信號映射回原始模態(tài)的空間,同時轉(zhuǎn)換成適合不同模態(tài)生成器使用的特征表示。這些生成器可能是用于生成圖像、視頻、音頻或其他模態(tài)的模型。 模態(tài)生成器:多模態(tài)大模型中的一種關(guān)鍵組件,它的主要作用是生成不同模態(tài)的輸出,例如圖像、視頻或音頻。使得模型能夠靈活地處理和生成多種類型的數(shù)據(jù),為用戶提供更加豐富和自然的交互體驗。 3、多模態(tài)大語言模型訓練 多模態(tài)大模型的訓練主要分為兩個階段:多模態(tài)預訓練(MM PT, MultiModal Pre-Training)和多模態(tài)指令微調(diào)(MM IT, MultiModal Instruction Tuning)。 (1)多模態(tài)預訓練,采用X?text數(shù)據(jù)集,輸入和輸出映射器用于實現(xiàn)不同模態(tài)之間的對齊。對于多模態(tài)理解模型,只優(yōu)化文本生成損失;對于多模態(tài)生成模型,需要優(yōu)化文本生成損失、模態(tài)生成損失和輸出對齊損失。 (2)多模態(tài)指令微調(diào),通過指令格式化的數(shù)據(jù)集對預訓練的MLLMs進行微調(diào),以提高模型遵循新指令的能力,增強其在未見任務(wù)上的性能。指令微調(diào)包括監(jiān)督微調(diào)(SFT)和人類反饋強化學習(RLHF),增強多模態(tài)大模型的交互能力,顯著改善零樣本性能,極大增強泛化能力。 4、基于Visual-RFT的多模態(tài)大模型推理能力提升方法 開源 Visual-RFT,將RFT擴展到視覺任務(wù),通過設(shè)計針對不同視覺任務(wù)的可驗證獎勵函數(shù),提升多模態(tài)大模型在視覺感知和推理任務(wù)中的性能。Visual-RFT 的核心在于利用多模態(tài)大模型,生成多個包含推理過程和最終答案的響應(yīng),并通過可驗證獎勵函數(shù)對模型進行策略優(yōu)化[2]。Visual-RFT 原理圖,如下圖所示: 獎勵模型訓練。給定問題和視覺圖像輸入后,策略模型會生成多個包含推理步驟的響應(yīng)。然后,使用可驗證獎勵(如IoU獎勵和分類獎勵)與策略梯度優(yōu)化算法來更新策略模型??沈炞C獎勵函數(shù)包括: IoU獎勵(目標檢測):通過計算預測邊界框與真實邊界框的交并比(IoU)來評估檢測任務(wù)的獎勵。 分類準確率獎勵(分類任務(wù)):通過比較模型輸出類別與真實類別來評估獎勵。 基于視覺強化微調(diào)(Visual-RFT)的能力特征,結(jié)合鐵路行業(yè)的復雜環(huán)境要求,在細粒度圖像分類、少樣本目標檢測、推理定位以及開放詞匯目標檢測基準測試中的實驗結(jié)果表明,與監(jiān)督微調(diào)(SFT)相比,Visual-RFT具有競爭力的性能和先進的泛化能力: 在大約100個樣本的單樣本細粒度圖像分類中,Visual-RFT的準確率比基線提高了24.3%。 在少樣本目標檢測中,Visual-RFT在COCO的兩樣本設(shè)置中超過了基線21.9,在LVIS上超過了15.4。 Visual-RFT 減少了對人工標注的依賴,簡化了獎勵計算過程,并在多種視覺感知任務(wù)上取得了顯著的性能提升。在細粒度分類、開放詞匯檢測、推理定位和少樣本學習等任務(wù)中均優(yōu)于監(jiān)督微調(diào)方法,且在數(shù)據(jù)有限的情況下表現(xiàn)出強大的泛化能力。 三、Qwen2.5-VL-32B-Instruct大模型及鐵路AI視頻分析場景下模型能力測試驗證 2025年3月24日,通義千問推出了Qwen2.5-VL系列大模型,獲得了社區(qū)的廣泛關(guān)注和積極反饋。在Qwen2.5-VL系列的基礎(chǔ)上,使用強化學習持續(xù)優(yōu)化模型,并使用 Apache 2.0協(xié)議開源32B參數(shù)規(guī)模的新VL模型-Qwen2.5-VL-32B-Instruct。本次推出的32B模型的核心特點如下: 多模態(tài)能力:支持視覺語言理解、圖像細粒度解析(如交通指示牌分析)、視覺邏輯推理等任務(wù),在復雜場景中表現(xiàn)優(yōu)異。 數(shù)學推理突破:通過強化學習優(yōu)化,顯著提升復雜數(shù)學問題的求解準確性和分步推導能力,例如幾何證明和多元函數(shù)優(yōu)化。 本地部署優(yōu)勢:32B參數(shù)規(guī)模兼顧性能與效率,支持通過MLX框架在Apple Silicon設(shè)備本地運行,適合注重隱私的企業(yè)用戶。 交互體驗優(yōu)化:輸出風格更貼近人類偏好,回答更詳細、格式規(guī)范,支持多輪深度對話。 Qwen2.5-VL中,模型的整體架構(gòu)由三個主要組件構(gòu)成:大型語言模型(LLM)、視覺編碼器(Vision Encoder)和基于MLP的視覺-語言融合器[3],模型架構(gòu)如下圖所示: Qwen2.5-VL-32B 在強化學習框架下優(yōu)化了主觀體驗和數(shù)學推理能力,下一步研究將聚焦于長且有效的推理過程[4],以突破視覺模型在處理高度復雜、多步驟視覺推理任務(wù)中的邊界。 通義千問官方未明確本地化部署Qwen2.5-VL-32B-Instruct模型的硬件最低配置,但基于32B參數(shù)規(guī)模推測,需較高內(nèi)存(建議至少32GB以上)及支持大規(guī)模計算的GPU芯片。綜合數(shù)據(jù)量、樣本數(shù)量、并發(fā)量和吞吐量的核心關(guān)鍵要素,本次本地化部署選取硅基流動一體機,完成鐵路AI視頻分析場景Qwen2.5-VL-32模型能力測試驗證。實驗室模型能力測試驗證信息統(tǒng)計如下表所示[5]: 模型能力測試驗證結(jié)論: (1)本次實驗室模型能力測試驗證,基于本地化部署的Qwen2.5-VL-32B大模型,共計測試驗證鐵路AI視頻分析場景16個。 (2)在接觸網(wǎng)異物、煙火識別、室內(nèi)打電話/玩手機、室外打電話/玩手機、睡覺判斷、塌陷檢測、防護網(wǎng)開口、鐵路入侵異物檢測這8個場景中,Qwen2.5-VL-32B多模態(tài)大模型的正檢率均超過70%。但是在另外8個場景中,Qwen2.5-VL-32B多模態(tài)大模型存在較多漏檢、誤檢以及思考過程與輸出結(jié)果不相符的情況。 (3)原始的Qwen2.5-VL-32B多模態(tài)大模型不適合直接用于有數(shù)據(jù)量基礎(chǔ)的檢測場景。在鐵路行業(yè)有數(shù)據(jù)基礎(chǔ)的場景中,基于有監(jiān)督訓練小模型的檢出能力比多模態(tài)大模型強。在沒有數(shù)據(jù)基礎(chǔ)的場景中,可以基于多模態(tài)大模型進行初步分析,后基于過濾策略及復核策略進行輸出結(jié)果的篩選。 (4)在鐵路行業(yè)AI視頻分析場景下,可以嘗試基于多模態(tài)大模型進行微調(diào)和重新訓練,使其更好地適應(yīng)鐵路場景的需求。 參考文獻: [1] https://qianfan.cloud.baidu.com/qianfandev/topic/374006 [2] https://arxiv.org/pdf/2308.01825 [3] https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/ [4] https://arxiv.org/abs/2502.13923 [5] 人工智能視覺大模型在鐵路線路異物入侵場景中的應(yīng)用
-
2021大數(shù)據(jù)“星河”璀璨,“鐵路數(shù)據(jù)倉庫和數(shù)據(jù)治理平臺”榜上有名
2022-05-17 -
海外項目再傳喜訊,佳訊飛鴻為莫桑比克現(xiàn)代化鐵路建設(shè)“提速”
2022-05-17 -
護航冬奧、保障京張 佳訊飛鴻科技助力“中國加速度”
2022-05-17 -
云領(lǐng)未來!佳訊飛鴻攜手華為發(fā)布鐵路物聯(lián)網(wǎng)解決方案
2022-05-17 -
佳訊飛鴻參與京廣鐵路塌方線路搶險
2021-02-08 -
5G創(chuàng)新再獲殊榮,佳訊飛鴻智慧賦能城市建設(shè)
2022-02-08 -
共建外貿(mào)經(jīng)濟新高地,佳訊飛鴻全資子公司航通智能為智慧綜保區(qū)建設(shè)科技助力
2022-02-08 -
佳訊飛鴻智慧賦能中老鐵路 續(xù)寫“中國鐵路出?!毙缕?/h5> 2022-05-17
-
《智能鐵路通信云技術(shù)白皮書(2020)》和《鐵路下一代承載網(wǎng)應(yīng)用技術(shù)白皮書(2020)》隆重發(fā)布
2022-02-08 -
兩會之聲 | 鐘章隊委員:補齊軌道交通新基建短板 建成高質(zhì)量綜合軌交網(wǎng)絡(luò)
2022-02-08