亚洲av成人综合网,亚洲av岛国动作片在线观看,天天av天天翘天天综合网,午夜福利一区二区三区在线观看,五月综合激情婷婷六月

多模態(tài)大語言模型在鐵路行業(yè)應(yīng)用探索

2025-06-03

來源:佳訊飛鴻官微

一、鐵路行業(yè)多模態(tài)大語言模型應(yīng)用面臨的挑戰(zhàn)

1、鐵路行業(yè)數(shù)據(jù)特點

鐵路行業(yè)涉及的數(shù)據(jù)模態(tài)豐富多樣,每種模態(tài)都有其獨特特點。

文本數(shù)據(jù)方面,包含大量專業(yè)的規(guī)章制度、技術(shù)手冊、維修記錄等,具有術(shù)語專業(yè)性強、邏輯結(jié)構(gòu)嚴謹?shù)奶攸c。例如鐵路信號設(shè)備維護手冊,其中包含大量特定的信號術(shù)語和詳細的操作流程描述,對模型理解和處理專業(yè)文本能力要求極高。

圖像數(shù)據(jù)涵蓋設(shè)備外觀圖像、軌道線路圖像、作業(yè)現(xiàn)場圖像和大量監(jiān)控視頻截圖等。設(shè)備外觀圖像需模型準確識別設(shè)備部件狀態(tài)、是否存在故障痕跡等;軌道線路圖像要求模型能識別軌道幾何形狀、道岔狀態(tài)等,圖像數(shù)據(jù)具有分辨率高、細節(jié)特征復雜的特性。

語音數(shù)據(jù)主要為調(diào)度指揮語音、設(shè)備故障報警語音等,具有實時性強、語音質(zhì)量受環(huán)境影響大的特點,如在嘈雜的車站環(huán)境中,調(diào)度語音可能存在噪聲干擾,增加了語音識別和理解的難度。

2、鐵路行業(yè)應(yīng)用挑戰(zhàn)

領(lǐng)域知識融合與專業(yè)性的要求。鐵路行業(yè)涉及高度專業(yè)化的要求、規(guī)程(如信號系統(tǒng)邏輯、軌道工程標準),需將領(lǐng)域知識和專業(yè)知識有效嵌入模型訓練和模型推理過程,避免生成錯誤或不符合規(guī)范的輸出。

系統(tǒng)兼容性與既有設(shè)施改造。既有鐵路系統(tǒng)(如傳統(tǒng)信號設(shè)備、老舊傳感器、傳統(tǒng)架構(gòu)信息化系統(tǒng))可能無法直接支持AI模型的輸入輸出接口,需解決新舊系統(tǒng)兼容性問題,導致部署成本增加。

鐵路運輸生產(chǎn)過程人員協(xié)作與置信度。運輸生產(chǎn)、運營維護過程中鐵路對應(yīng)專業(yè)人員(如調(diào)度員、維修工)對AI決策的接受度有限,需通過可解釋性技術(shù)(如可視化推理路徑)提升模型透明度,建立人機協(xié)同機制。

模型研發(fā)部署成本與應(yīng)用的平衡。多模態(tài)大模型訓練需要大規(guī)模算力支持,且鐵路場景定制化開發(fā)成本高,面臨模型研發(fā)部署成本與應(yīng)用平衡的問題。

二、多模態(tài)大語言模型關(guān)鍵技術(shù)研究

針對鐵路行業(yè)的特點、專業(yè)分工,多專業(yè)數(shù)據(jù)源特性及多模態(tài)大語言模型應(yīng)用過程中面臨的挑戰(zhàn),開展相關(guān)關(guān)鍵技術(shù)的研究工作。

1、多模態(tài)大語言模型定義

多模態(tài)大語言模型(MultiModal Large Language Models,簡稱MLLMs)是一類結(jié)合了大語言模型(Large Language Models,簡稱LLMs)的自然語言處理能力與對其他模態(tài)(如視覺、音頻等)數(shù)據(jù)的理解與生成能力的模型。這些模型通過整合文本、圖像、聲音等多種類型的輸入和輸出,提供更加豐富和自然的交互體驗。

2、多模態(tài)大語言模型架構(gòu)

多模態(tài)模型架構(gòu)包含5個部分,分別是:模態(tài)編碼器(Modality Encoder)、輸入映射器(Input Projector)、大模型骨干(LLM Backbone)、輸出映射器(Output Projector)以及模態(tài)生成器(Modality Generator)[1]。模型架構(gòu)如下圖所示:

1933408784665702401.png

模態(tài)編碼器:多模態(tài)大模型中的一個關(guān)鍵組件,它的主要任務(wù)是將不同模態(tài)的輸入數(shù)據(jù)轉(zhuǎn)換成模型能夠進一步處理的特征表示。這些輸入數(shù)據(jù)可以包括圖像、文本、音頻、視頻等多種形式,而模態(tài)編碼器的作用就像是翻譯官,將這些不同語言(模態(tài))的信息轉(zhuǎn)換成一種共同的“語言”,以便模型能夠理解和處理。

輸入映射器:多模態(tài)大模型中的一種關(guān)鍵組件,它的主要作用是將不同模態(tài)的編碼特征映射到一個共同的特征語義空間,以便這些特征可以被大型語言模型(LLM Backbone)統(tǒng)一處理和理解。

輸出映射器:多模態(tài)大模型中的一種關(guān)鍵組件,它的主要任務(wù)是將大型語言模型(LLM)的輸出信號映射回原始模態(tài)的空間,同時轉(zhuǎn)換成適合不同模態(tài)生成器使用的特征表示。這些生成器可能是用于生成圖像、視頻、音頻或其他模態(tài)的模型。

模態(tài)生成器:多模態(tài)大模型中的一種關(guān)鍵組件,它的主要作用是生成不同模態(tài)的輸出,例如圖像、視頻或音頻。使得模型能夠靈活地處理和生成多種類型的數(shù)據(jù),為用戶提供更加豐富和自然的交互體驗。

3、多模態(tài)大語言模型訓練

多模態(tài)大模型的訓練主要分為兩個階段:多模態(tài)預訓練(MM PT, MultiModal Pre-Training)和多模態(tài)指令微調(diào)(MM IT, MultiModal Instruction Tuning)。

(1)多模態(tài)預訓練,采用X?text數(shù)據(jù)集,輸入和輸出映射器用于實現(xiàn)不同模態(tài)之間的對齊。對于多模態(tài)理解模型,只優(yōu)化文本生成損失;對于多模態(tài)生成模型,需要優(yōu)化文本生成損失、模態(tài)生成損失和輸出對齊損失。

(2)多模態(tài)指令微調(diào),通過指令格式化的數(shù)據(jù)集對預訓練的MLLMs進行微調(diào),以提高模型遵循新指令的能力,增強其在未見任務(wù)上的性能。指令微調(diào)包括監(jiān)督微調(diào)(SFT)和人類反饋強化學習(RLHF),增強多模態(tài)大模型的交互能力,顯著改善零樣本性能,極大增強泛化能力。

4、基于Visual-RFT的多模態(tài)大模型推理能力提升方法

開源 Visual-RFT,將RFT擴展到視覺任務(wù),通過設(shè)計針對不同視覺任務(wù)的可驗證獎勵函數(shù),提升多模態(tài)大模型在視覺感知和推理任務(wù)中的性能。Visual-RFT 的核心在于利用多模態(tài)大模型,生成多個包含推理過程和最終答案的響應(yīng),并通過可驗證獎勵函數(shù)對模型進行策略優(yōu)化[2]。Visual-RFT 原理圖,如下圖所示:

1933409212967055361.png

獎勵模型訓練。給定問題和視覺圖像輸入后,策略模型會生成多個包含推理步驟的響應(yīng)。然后,使用可驗證獎勵(如IoU獎勵和分類獎勵)與策略梯度優(yōu)化算法來更新策略模型??沈炞C獎勵函數(shù)包括:

IoU獎勵(目標檢測):通過計算預測邊界框與真實邊界框的交并比(IoU)來評估檢測任務(wù)的獎勵。

分類準確率獎勵(分類任務(wù)):通過比較模型輸出類別與真實類別來評估獎勵。

基于視覺強化微調(diào)(Visual-RFT)的能力特征,結(jié)合鐵路行業(yè)的復雜環(huán)境要求,在細粒度圖像分類、少樣本目標檢測、推理定位以及開放詞匯目標檢測基準測試中的實驗結(jié)果表明,與監(jiān)督微調(diào)(SFT)相比,Visual-RFT具有競爭力的性能和先進的泛化能力:

在大約100個樣本的單樣本細粒度圖像分類中,Visual-RFT的準確率比基線提高了24.3%。

在少樣本目標檢測中,Visual-RFT在COCO的兩樣本設(shè)置中超過了基線21.9,在LVIS上超過了15.4。

Visual-RFT 減少了對人工標注的依賴,簡化了獎勵計算過程,并在多種視覺感知任務(wù)上取得了顯著的性能提升。在細粒度分類、開放詞匯檢測、推理定位和少樣本學習等任務(wù)中均優(yōu)于監(jiān)督微調(diào)方法,且在數(shù)據(jù)有限的情況下表現(xiàn)出強大的泛化能力。

三、Qwen2.5-VL-32B-Instruct大模型及鐵路AI視頻分析場景下模型能力測試驗證

2025年3月24日,通義千問推出了Qwen2.5-VL系列大模型,獲得了社區(qū)的廣泛關(guān)注和積極反饋。在Qwen2.5-VL系列的基礎(chǔ)上,使用強化學習持續(xù)優(yōu)化模型,并使用 Apache 2.0協(xié)議開源32B參數(shù)規(guī)模的新VL模型-Qwen2.5-VL-32B-Instruct。本次推出的32B模型的核心特點如下:

多模態(tài)能力:支持視覺語言理解、圖像細粒度解析(如交通指示牌分析)、視覺邏輯推理等任務(wù),在復雜場景中表現(xiàn)優(yōu)異。

數(shù)學推理突破:通過強化學習優(yōu)化,顯著提升復雜數(shù)學問題的求解準確性和分步推導能力,例如幾何證明和多元函數(shù)優(yōu)化。

本地部署優(yōu)勢:32B參數(shù)規(guī)模兼顧性能與效率,支持通過MLX框架在Apple Silicon設(shè)備本地運行,適合注重隱私的企業(yè)用戶。

交互體驗優(yōu)化:輸出風格更貼近人類偏好,回答更詳細、格式規(guī)范,支持多輪深度對話。

Qwen2.5-VL中,模型的整體架構(gòu)由三個主要組件構(gòu)成:大型語言模型(LLM)、視覺編碼器(Vision Encoder)和基于MLP的視覺-語言融合器[3],模型架構(gòu)如下圖所示:

1933410454598479873.png

Qwen2.5-VL-32B 在強化學習框架下優(yōu)化了主觀體驗和數(shù)學推理能力,下一步研究將聚焦于長且有效的推理過程[4],以突破視覺模型在處理高度復雜、多步驟視覺推理任務(wù)中的邊界。

通義千問官方未明確本地化部署Qwen2.5-VL-32B-Instruct模型的硬件最低配置,但基于32B參數(shù)規(guī)模推測,需較高內(nèi)存(建議至少32GB以上)及支持大規(guī)模計算的GPU芯片。綜合數(shù)據(jù)量、樣本數(shù)量、并發(fā)量和吞吐量的核心關(guān)鍵要素,本次本地化部署選取硅基流動一體機,完成鐵路AI視頻分析場景Qwen2.5-VL-32模型能力測試驗證。實驗室模型能力測試驗證信息統(tǒng)計如下表所示[5]:

1933410648224329729.png

模型能力測試驗證結(jié)論:

(1)本次實驗室模型能力測試驗證,基于本地化部署的Qwen2.5-VL-32B大模型,共計測試驗證鐵路AI視頻分析場景16個。

(2)在接觸網(wǎng)異物、煙火識別、室內(nèi)打電話/玩手機、室外打電話/玩手機、睡覺判斷、塌陷檢測、防護網(wǎng)開口、鐵路入侵異物檢測這8個場景中,Qwen2.5-VL-32B多模態(tài)大模型的正檢率均超過70%。但是在另外8個場景中,Qwen2.5-VL-32B多模態(tài)大模型存在較多漏檢、誤檢以及思考過程與輸出結(jié)果不相符的情況。

(3)原始的Qwen2.5-VL-32B多模態(tài)大模型不適合直接用于有數(shù)據(jù)量基礎(chǔ)的檢測場景。在鐵路行業(yè)有數(shù)據(jù)基礎(chǔ)的場景中,基于有監(jiān)督訓練小模型的檢出能力比多模態(tài)大模型強。在沒有數(shù)據(jù)基礎(chǔ)的場景中,可以基于多模態(tài)大模型進行初步分析,后基于過濾策略及復核策略進行輸出結(jié)果的篩選。

(4)在鐵路行業(yè)AI視頻分析場景下,可以嘗試基于多模態(tài)大模型進行微調(diào)和重新訓練,使其更好地適應(yīng)鐵路場景的需求。


參考文獻:

[1] https://qianfan.cloud.baidu.com/qianfandev/topic/374006

[2] https://arxiv.org/pdf/2308.01825

[3] https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/

[4] https://arxiv.org/abs/2502.13923

[5] 人工智能視覺大模型在鐵路線路異物入侵場景中的應(yīng)用