亚洲情综合五月天,在线.www资源,阿v天堂2018在无码免费

大眾時報網科技正文

CVPR2025：中科視語發布首個具身物理空間大模型PhysVLM！戰略布局“AI+機器人”新生態

2025-03-19 10:39 來源：互聯網

在人工智能技術加速向具身智能（Embodied AI）演進的關鍵節點，中科視語重磅發布其最新前沿成果 ——PhysVLM（首個機器人物理空間具身大模型），作為具身智能領域的里程碑式突破，PhysVLM 率先實現 “環境感知 - 本體理解 - 決策執行” 全鏈條技術閉環，通過多模態感知、動態環境建模、自主決策規劃的深度融合，賦予機器人在復雜物理空間的類人級操作能力。

作為首創“環境感知、本體理解、決策執行”全鏈條技術突破的AI企業，中科視語以PhysVLM的發布為起點，正逐步構筑面向工業4.0、智慧交通、具身機器人等領域的核心技術底座，重新定義“AI+機器人”協同發展新范式。

物理感知革命，機器人也懂“分寸感”！

隨著視覺語言模型（VLM）的快速發展，機器人已能精準理解場景語義，但 “看懂” 不等于 “能做”。傳統模型普遍缺乏對機器人自身物理約束的感知能力，導致其在工業、智慧城市等復雜場景中頻繁出現 “越界操作”，如機械臂試圖抓取超出其可達范圍的物體，或因未考慮關節限位而引發機械故障。這種 “感知與決策割裂” 的問題，已成為制約具身智能規模化落地的關鍵瓶頸。

針對這一挑戰，中科視語創新性地提出首個機器人物理空間具身大模型，通過創新的空間-物理約束表征的學習范式，有效整合了對環境的視覺理解和對具身智能體的物理空間約束感知，通過三大維度的突破，實現了從 “環境感知” 到 “可靠行動” 的質的飛躍。

構建“空間感知-物理約束”雙輪驅動決策體系

具身空間-物理約束建模，打破平臺壁壘

首創空間 - 物理約束映射（S-P Map）技術，將機械臂的幾何參數、關節運動范圍等物理約束轉化為可學習的視覺語義表征。通過這種 “物理約束視覺化” 的方法，模型無需依賴具體機器人參數即可實現跨平臺泛化，為構建通用型具身智能奠定了基礎。

視覺-物理空間協同推理，重塑決策邏輯

采用視覺 - 物理雙編碼器架構：主視覺分支保留開放域場景理解能力，物理約束分支專注于可達性分析。通過多模態融合模塊和對齊模塊，模型能夠實時權衡環境語義與物理可行性，生成 “既看得懂又做得到” 的動作規劃。例如，當識別到目標物體超出當前機械臂范圍時，系統會自動規劃 “移動底盤靠近目標” 的分步策略。

百萬級數據集，定義行業標準

中科視語研究團隊構建了包含6類工業機械臂、10萬組操作場景的基準數據集，涵蓋RGB圖像—可達物理空間圖（S-P Map）—具身物理問答三元組數據。配套開發的EQA-phys評估基準包含帶有4類工業機械臂的仿真環境和問答數據，為具身智能的物理認知提供了量化評估基準。

實驗結果表明，PhysVLM在EQA-phys上的性能比GPT-4o高出14%，在RoboVQA-val和OpenEQA等基準測試中也超過了RoboMamba和SpatialVLM等先進的具身VLM。此外，S-P Map與各種VLM高度兼容，集成到GPT-4o-mini后，提升了7.1%的可達性理解任務性能。

戰略布局：“三維框架”引領從感知到具身智能跨越

中科視語始終以前瞻性眼光，致力于將先進的通用視覺技術與機器人實際操作深度融合，此次發布的PhysVLM作為重要戰略成果，以“三維戰略框架”構筑堅實的產業壁壘：

視語坤川?通用視覺大模型：中科視語經過多次技術升級與迭代，構建了多模態大語言模型（MLLM），融合大語言模型的基礎能力，結合了視語多年面向行業的人工智能視覺解決方案經驗，具備超強的視覺感知能力，并進一步支持了原生的視覺理解與推理。

具身智能核心算法：中科視語宣布正式開源 PhysVLM（首個機器人物理空間具身大模型），實現 “環境感知 - 本體理解 - 決策執行” 全鏈條技術閉環，為工業、智慧交通等場景提供安全可靠的決策支撐，為具身智能領域開辟了新路徑。

行業場景深度融合：中科視語具備20余年行業專業知識儲備及成熟的行業落地經驗，聚焦工業、交通、具身機器人等高價值場景，推動技術落地。

行業融合加速推進，打造“AI+機器人”協同生態圈

目前，PhysVLM已在多個高價值領域形成實際應用并取得顯著成果，尤其在工業4.0、智慧交通、具身機器人等領域展現出突出商業價值。

在工業領域，中科視語智能焊接機器人，在工業焊接、噴涂等精密作業場景中，突破傳統機械臂常因路徑規劃粗放導致碰撞風險高、生產效率低。中科視語創新推出（S-P Map）模型，通過三維空間動態建模與智能視覺路徑規劃雙重引擎，實現機械臂作業效率與安全性的革命性提升。

在交通領域，中科視語智能勸導機器人，在城市交通治理智能化升級的浪潮中，以 “AI + 混合模態感知” 技術重構非機動車監管模式。該產品通過實時識別違規行為、動態路徑規劃及智能語音勸導，實現交通監管效率提升 40%、事故率下降 35%，為智慧城市交通治理提供 “零接觸、全時段、高精度” 的創新解決方案。基于此次發布的最新成果，PhysVLM已初步實現跨機器人、跨行業、跨場景的泛化應用能力，逐漸形成產業級的技術壁壘，為工業4.0、智慧城市與服務機器人市場帶來新的產業機遇。

責任編輯：Linda