无码精品a∨在线观看十八禁,午夜a级理论片在线播放,天堂а√中文最新版地址在线

多模態(tài)大語言模型在鐵路行業(yè)應(yīng)用探索

2025-06-03

來源：佳訊飛鴻官微

一、鐵路行業(yè)多模態(tài)大語言模型應(yīng)用面臨的挑戰(zhàn)

1、鐵路行業(yè)數(shù)據(jù)特點

鐵路行業(yè)涉及的數(shù)據(jù)模態(tài)豐富多樣，每種模態(tài)都有其獨特特點。

文本數(shù)據(jù)方面，包含大量專業(yè)的規(guī)章制度、技術(shù)手冊、維修記錄等，具有術(shù)語專業(yè)性強、邏輯結(jié)構(gòu)嚴謹?shù)奶攸c。例如鐵路信號設(shè)備維護手冊，其中包含大量特定的信號術(shù)語和詳細的操作流程描述，對模型理解和處理專業(yè)文本能力要求極高。

圖像數(shù)據(jù)涵蓋設(shè)備外觀圖像、軌道線路圖像、作業(yè)現(xiàn)場圖像和大量監(jiān)控視頻截圖等。設(shè)備外觀圖像需模型準確識別設(shè)備部件狀態(tài)、是否存在故障痕跡等；軌道線路圖像要求模型能識別軌道幾何形狀、道岔狀態(tài)等，圖像數(shù)據(jù)具有分辨率高、細節(jié)特征復雜的特性。

語音數(shù)據(jù)主要為調(diào)度指揮語音、設(shè)備故障報警語音等，具有實時性強、語音質(zhì)量受環(huán)境影響大的特點，如在嘈雜的車站環(huán)境中，調(diào)度語音可能存在噪聲干擾，增加了語音識別和理解的難度。

2、鐵路行業(yè)應(yīng)用挑戰(zhàn)

領(lǐng)域知識融合與專業(yè)性的要求。鐵路行業(yè)涉及高度專業(yè)化的要求、規(guī)程（如信號系統(tǒng)邏輯、軌道工程標準），需將領(lǐng)域知識和專業(yè)知識有效嵌入模型訓練和模型推理過程，避免生成錯誤或不符合規(guī)范的輸出。

系統(tǒng)兼容性與既有設(shè)施改造。既有鐵路系統(tǒng)（如傳統(tǒng)信號設(shè)備、老舊傳感器、傳統(tǒng)架構(gòu)信息化系統(tǒng)）可能無法直接支持AI模型的輸入輸出接口，需解決新舊系統(tǒng)兼容性問題，導致部署成本增加。

鐵路運輸生產(chǎn)過程人員協(xié)作與置信度。運輸生產(chǎn)、運營維護過程中鐵路對應(yīng)專業(yè)人員（如調(diào)度員、維修工）對AI決策的接受度有限，需通過可解釋性技術(shù)（如可視化推理路徑）提升模型透明度，建立人機協(xié)同機制。

模型研發(fā)部署成本與應(yīng)用的平衡。多模態(tài)大模型訓練需要大規(guī)模算力支持，且鐵路場景定制化開發(fā)成本高，面臨模型研發(fā)部署成本與應(yīng)用平衡的問題。

二、多模態(tài)大語言模型關(guān)鍵技術(shù)研究

針對鐵路行業(yè)的特點、專業(yè)分工，多專業(yè)數(shù)據(jù)源特性及多模態(tài)大語言模型應(yīng)用過程中面臨的挑戰(zhàn)，開展相關(guān)關(guān)鍵技術(shù)的研究工作。

1、多模態(tài)大語言模型定義

多模態(tài)大語言模型（MultiModal Large Language Models，簡稱MLLMs）是一類結(jié)合了大語言模型（Large Language Models，簡稱LLMs）的自然語言處理能力與對其他模態(tài)（如視覺、音頻等）數(shù)據(jù)的理解與生成能力的模型。這些模型通過整合文本、圖像、聲音等多種類型的輸入和輸出，提供更加豐富和自然的交互體驗。

2、多模態(tài)大語言模型架構(gòu)

多模態(tài)模型架構(gòu)包含5個部分，分別是：模態(tài)編碼器（Modality Encoder）、輸入映射器（Input Projector）、大模型骨干（LLM Backbone）、輸出映射器（Output Projector）以及模態(tài)生成器（Modality Generator）[1]。模型架構(gòu)如下圖所示：

模態(tài)編碼器：多模態(tài)大模型中的一個關(guān)鍵組件，它的主要任務(wù)是將不同模態(tài)的輸入數(shù)據(jù)轉(zhuǎn)換成模型能夠進一步處理的特征表示。這些輸入數(shù)據(jù)可以包括圖像、文本、音頻、視頻等多種形式，而模態(tài)編碼器的作用就像是翻譯官，將這些不同語言（模態(tài)）的信息轉(zhuǎn)換成一種共同的“語言”，以便模型能夠理解和處理。

輸入映射器：多模態(tài)大模型中的一種關(guān)鍵組件，它的主要作用是將不同模態(tài)的編碼特征映射到一個共同的特征語義空間，以便這些特征可以被大型語言模型（LLM Backbone）統(tǒng)一處理和理解。

輸出映射器：多模態(tài)大模型中的一種關(guān)鍵組件，它的主要任務(wù)是將大型語言模型（LLM）的輸出信號映射回原始模態(tài)的空間，同時轉(zhuǎn)換成適合不同模態(tài)生成器使用的特征表示。這些生成器可能是用于生成圖像、視頻、音頻或其他模態(tài)的模型。

模態(tài)生成器：多模態(tài)大模型中的一種關(guān)鍵組件，它的主要作用是生成不同模態(tài)的輸出，例如圖像、視頻或音頻。使得模型能夠靈活地處理和生成多種類型的數(shù)據(jù)，為用戶提供更加豐富和自然的交互體驗。

3、多模態(tài)大語言模型訓練

多模態(tài)大模型的訓練主要分為兩個階段：多模態(tài)預訓練（MM PT, MultiModal Pre-Training）和多模態(tài)指令微調(diào)（MM IT, MultiModal Instruction Tuning）。

（1）多模態(tài)預訓練，采用X?text數(shù)據(jù)集，輸入和輸出映射器用于實現(xiàn)不同模態(tài)之間的對齊。對于多模態(tài)理解模型，只優(yōu)化文本生成損失；對于多模態(tài)生成模型，需要優(yōu)化文本生成損失、模態(tài)生成損失和輸出對齊損失。

（2）多模態(tài)指令微調(diào)，通過指令格式化的數(shù)據(jù)集對預訓練的MLLMs進行微調(diào)，以提高模型遵循新指令的能力，增強其在未見任務(wù)上的性能。指令微調(diào)包括監(jiān)督微調(diào)（SFT）和人類反饋強化學習（RLHF），增強多模態(tài)大模型的交互能力，顯著改善零樣本性能，極大增強泛化能力。

4、基于Visual-RFT的多模態(tài)大模型推理能力提升方法

開源 Visual-RFT，將RFT擴展到視覺任務(wù)，通過設(shè)計針對不同視覺任務(wù)的可驗證獎勵函數(shù)，提升多模態(tài)大模型在視覺感知和推理任務(wù)中的性能。Visual-RFT 的核心在于利用多模態(tài)大模型，生成多個包含推理過程和最終答案的響應(yīng)，并通過可驗證獎勵函數(shù)對模型進行策略優(yōu)化[2]。Visual-RFT 原理圖，如下圖所示：

獎勵模型訓練。給定問題和視覺圖像輸入后，策略模型會生成多個包含推理步驟的響應(yīng)。然后，使用可驗證獎勵（如IoU獎勵和分類獎勵）與策略梯度優(yōu)化算法來更新策略模型?？沈炞C獎勵函數(shù)包括：

IoU獎勵（目標檢測）：通過計算預測邊界框與真實邊界框的交并比（IoU）來評估檢測任務(wù)的獎勵。

分類準確率獎勵（分類任務(wù)）：通過比較模型輸出類別與真實類別來評估獎勵。

基于視覺強化微調(diào)（Visual-RFT）的能力特征，結(jié)合鐵路行業(yè)的復雜環(huán)境要求，在細粒度圖像分類、少樣本目標檢測、推理定位以及開放詞匯目標檢測基準測試中的實驗結(jié)果表明，與監(jiān)督微調(diào)（SFT）相比，Visual-RFT具有競爭力的性能和先進的泛化能力：

在大約100個樣本的單樣本細粒度圖像分類中，Visual-RFT的準確率比基線提高了24.3%。

在少樣本目標檢測中，Visual-RFT在COCO的兩樣本設(shè)置中超過了基線21.9，在LVIS上超過了15.4。

Visual-RFT 減少了對人工標注的依賴，簡化了獎勵計算過程，并在多種視覺感知任務(wù)上取得了顯著的性能提升。在細粒度分類、開放詞匯檢測、推理定位和少樣本學習等任務(wù)中均優(yōu)于監(jiān)督微調(diào)方法，且在數(shù)據(jù)有限的情況下表現(xiàn)出強大的泛化能力。

三、Qwen2.5-VL-32B-Instruct大模型及鐵路AI視頻分析場景下模型能力測試驗證

2025年3月24日，通義千問推出了Qwen2.5-VL系列大模型，獲得了社區(qū)的廣泛關(guān)注和積極反饋。在Qwen2.5-VL系列的基礎(chǔ)上，使用強化學習持續(xù)優(yōu)化模型，并使用 Apache 2.0協(xié)議開源32B參數(shù)規(guī)模的新VL模型-Qwen2.5-VL-32B-Instruct。本次推出的32B模型的核心特點如下：

多模態(tài)能力：支持視覺語言理解、圖像細粒度解析（如交通指示牌分析）、視覺邏輯推理等任務(wù)，在復雜場景中表現(xiàn)優(yōu)異。

數(shù)學推理突破：通過強化學習優(yōu)化，顯著提升復雜數(shù)學問題的求解準確性和分步推導能力，例如幾何證明和多元函數(shù)優(yōu)化。

本地部署優(yōu)勢：32B參數(shù)規(guī)模兼顧性能與效率，支持通過MLX框架在Apple Silicon設(shè)備本地運行，適合注重隱私的企業(yè)用戶。

交互體驗優(yōu)化：輸出風格更貼近人類偏好，回答更詳細、格式規(guī)范，支持多輪深度對話。

Qwen2.5-VL中，模型的整體架構(gòu)由三個主要組件構(gòu)成：大型語言模型（LLM）、視覺編碼器（Vision Encoder）和基于MLP的視覺-語言融合器[3]，模型架構(gòu)如下圖所示：

Qwen2.5-VL-32B 在強化學習框架下優(yōu)化了主觀體驗和數(shù)學推理能力，下一步研究將聚焦于長且有效的推理過程[4]，以突破視覺模型在處理高度復雜、多步驟視覺推理任務(wù)中的邊界。

通義千問官方未明確本地化部署Qwen2.5-VL-32B-Instruct模型的硬件最低配置，但基于32B參數(shù)規(guī)模推測，需較高內(nèi)存（建議至少32GB以上）及支持大規(guī)模計算的GPU芯片。綜合數(shù)據(jù)量、樣本數(shù)量、并發(fā)量和吞吐量的核心關(guān)鍵要素，本次本地化部署選取硅基流動一體機，完成鐵路AI視頻分析場景Qwen2.5-VL-32模型能力測試驗證。實驗室模型能力測試驗證信息統(tǒng)計如下表所示[5]：

模型能力測試驗證結(jié)論：

（1）本次實驗室模型能力測試驗證，基于本地化部署的Qwen2.5-VL-32B大模型，共計測試驗證鐵路AI視頻分析場景16個。

（2）在接觸網(wǎng)異物、煙火識別、室內(nèi)打電話/玩手機、室外打電話/玩手機、睡覺判斷、塌陷檢測、防護網(wǎng)開口、鐵路入侵異物檢測這8個場景中，Qwen2.5-VL-32B多模態(tài)大模型的正檢率均超過70%。但是在另外8個場景中，Qwen2.5-VL-32B多模態(tài)大模型存在較多漏檢、誤檢以及思考過程與輸出結(jié)果不相符的情況。

（3）原始的Qwen2.5-VL-32B多模態(tài)大模型不適合直接用于有數(shù)據(jù)量基礎(chǔ)的檢測場景。在鐵路行業(yè)有數(shù)據(jù)基礎(chǔ)的場景中，基于有監(jiān)督訓練小模型的檢出能力比多模態(tài)大模型強。在沒有數(shù)據(jù)基礎(chǔ)的場景中，可以基于多模態(tài)大模型進行初步分析，后基于過濾策略及復核策略進行輸出結(jié)果的篩選。

（4）在鐵路行業(yè)AI視頻分析場景下，可以嘗試基于多模態(tài)大模型進行微調(diào)和重新訓練，使其更好地適應(yīng)鐵路場景的需求。

參考文獻：

[1] https://qianfan.cloud.baidu.com/qianfandev/topic/374006

[2] https://arxiv.org/pdf/2308.01825

[3] https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/

[4] https://arxiv.org/abs/2502.13923

[5] 人工智能視覺大模型在鐵路線路異物入侵場景中的應(yīng)用

相關(guān)動態(tài)

亚洲av成人综合网,亚洲av岛国动作片在线观看,天天av天天翘天天综合网,午夜福利一区二区三区在线观看,五月综合激情婷婷六月

5G通信，開啟智慧新時代

城市大腦提高城市治理效能

可視化管理駕駛艙數(shù)據(jù)隨行盡在掌握

5G通信，開啟智慧新時代

城市大腦提高城市治理效能

可視化管理駕駛艙數(shù)據(jù)隨行盡在掌握

技術(shù)研發(fā)中心

研究方向

研究成果

5G通信，開啟智慧新時代

城市大腦提高城市治理效能

可視化管理駕駛艙數(shù)據(jù)隨行盡在掌握

5G通信，開啟智慧新時代

城市大腦提高城市治理效能

可視化管理駕駛艙數(shù)據(jù)隨行盡在掌握

5G通信，開啟智慧新時代

城市大腦提高城市治理效能

可視化管理駕駛艙數(shù)據(jù)隨行盡在掌握

分子公司

2021大數(shù)據(jù)“星河”璀璨，“鐵路數(shù)據(jù)倉庫和數(shù)據(jù)治理平臺”榜上有名

海外項目再傳喜訊，佳訊飛鴻為莫桑比克現(xiàn)代化鐵路建設(shè)“提速”

護航冬奧、保障京張佳訊飛鴻科技助力“中國加速度”

云領(lǐng)未來！佳訊飛鴻攜手華為發(fā)布鐵路物聯(lián)網(wǎng)解決方案

佳訊飛鴻參與京廣鐵路塌方線路搶險

5G創(chuàng)新再獲殊榮，佳訊飛鴻智慧賦能城市建設(shè)

共建外貿(mào)經(jīng)濟新高地，佳訊飛鴻全資子公司航通智能為智慧綜保區(qū)建設(shè)科技助力

佳訊飛鴻智慧賦能中老鐵路續(xù)寫“中國鐵路出?！毙缕?/h5> 2022-05-17

《智能鐵路通信云技術(shù)白皮書（2020）》和《鐵路下一代承載網(wǎng)應(yīng)用技術(shù)白皮書（2020）》隆重發(fā)布

兩會之聲 | 鐘章隊委員：補齊軌道交通新基建短板建成高質(zhì)量綜合軌交網(wǎng)絡(luò)

5G通信，開啟智慧新時代

城市大腦 提高城市治理效能

可視化管理駕駛艙 數(shù)據(jù)隨行 盡在掌握

5G通信，開啟智慧新時代

城市大腦 提高城市治理效能

可視化管理駕駛艙 數(shù)據(jù)隨行 盡在掌握

5G通信，開啟智慧新時代

城市大腦 提高城市治理效能

可視化管理駕駛艙 數(shù)據(jù)隨行 盡在掌握

5G通信，開啟智慧新時代

城市大腦 提高城市治理效能

可視化管理駕駛艙 數(shù)據(jù)隨行 盡在掌握

5G通信，開啟智慧新時代

城市大腦 提高城市治理效能

可視化管理駕駛艙 數(shù)據(jù)隨行 盡在掌握

2021大數(shù)據(jù)“星河”璀璨，“鐵路數(shù)據(jù)倉庫和數(shù)據(jù)治理平臺”榜上有名

海外項目再傳喜訊，佳訊飛鴻為莫桑比克現(xiàn)代化鐵路建設(shè)“提速”

護航冬奧、保障京張 佳訊飛鴻科技助力“中國加速度”

云領(lǐng)未來！佳訊飛鴻攜手華為發(fā)布鐵路物聯(lián)網(wǎng)解決方案

佳訊飛鴻參與京廣鐵路塌方線路搶險

5G創(chuàng)新再獲殊榮，佳訊飛鴻智慧賦能城市建設(shè)

共建外貿(mào)經(jīng)濟新高地，佳訊飛鴻全資子公司航通智能為智慧綜保區(qū)建設(shè)科技助力

《智能鐵路通信云技術(shù)白皮書（2020）》和《鐵路下一代承載網(wǎng)應(yīng)用技術(shù)白皮書（2020）》隆重發(fā)布

兩會之聲 | 鐘章隊委員：補齊軌道交通新基建短板 建成高質(zhì)量綜合軌交網(wǎng)絡(luò)

城市大腦提高城市治理效能

可視化管理駕駛艙數(shù)據(jù)隨行盡在掌握

5G通信，開啟智慧新時代

城市大腦提高城市治理效能

可視化管理駕駛艙數(shù)據(jù)隨行盡在掌握

5G通信，開啟智慧新時代

城市大腦提高城市治理效能

可視化管理駕駛艙數(shù)據(jù)隨行盡在掌握

5G通信，開啟智慧新時代

城市大腦提高城市治理效能

可視化管理駕駛艙數(shù)據(jù)隨行盡在掌握

城市大腦提高城市治理效能

可視化管理駕駛艙數(shù)據(jù)隨行盡在掌握

海外項目再傳喜訊，佳訊飛鴻為莫桑比克現(xiàn)代化鐵路建設(shè)“提速”

護航冬奧、保障京張佳訊飛鴻科技助力“中國加速度”

云領(lǐng)未來！佳訊飛鴻攜手華為發(fā)布鐵路物聯(lián)網(wǎng)解決方案

5G創(chuàng)新再獲殊榮，佳訊飛鴻智慧賦能城市建設(shè)

兩會之聲 | 鐘章隊委員：補齊軌道交通新基建短板建成高質(zhì)量綜合軌交網(wǎng)絡(luò)