久久综合色8888_91麻豆6部合集magnet_中文字幕日韩欧美在线_欧美激情高清视频

當前位置:首頁 > 休閑 > 正文

多家企業押注VLA背後:智駕路線要趨於融合?

2025-12-20 20:01:56 休閑

  每經記者 孫 磊 每經編輯 裴健如

  12月11日,小鵬汽車董事長何小鵬發文稱,押注于融小鵬汽車(以下或簡稱小鵬)的后智合VLA 2.0(VisionLanguage-Action,視覺語言動作模型)將在下個季度發布,駕路“因為是企業第一個版本,所以壓力很大”。押注于融

  此外,后智合何小鵬還與公司自動駕駛團隊立下特別“賭約”:若2026年8月30日前,駕路小鵬VLA係統在國內達到特斯拉FSD V14.2版本在矽穀的企業整體效果,他將在矽穀籌建特色中國風味食堂。押注于融反之,后智合自動駕駛負責人需在金門大橋完成相關挑戰。駕路

  就在前一天,企業理想汽車(以下或簡稱理想)自動駕駛研發高級副總裁郎鹹朋在社交平臺發布長文,押注于融回應宇樹科技(以下或簡稱宇樹)創始人王興興此前對VLA模型的后智合質疑。

  “我跟王興興觀點最不一樣的地方在於,他認為模型架構更重要,但我認為模型的關鍵是要與整個具身智能係統適配。在此基礎上,數據是起決定意義的。”郎鹹朋認為,“VLA就是自動駕駛最好的模型方案。”

  近幾年,輔助駕駛行業經曆了多次“技術底座”的範式遷移——從企業普遍把激光雷達+高精地圖奉為“黃金組合”,到引入BEV(鳥瞰圖)+Transformer擺脫高精度地圖,再到端到端將輔助駕駛帶入AI(人工智能)時代,企業普遍按照這個路徑來推進輔助駕駛功能。

  進入2025年,行業在輔助駕駛的發展方向上出現了VLA與世界模型的“分歧”,而理想與小鵬就是選擇VLA方案的代表。

  兩技術派別“各執一詞”

  據記者了解,VLA被業內視為端到端方案的“智能增強版”。其名稱中的V代表視覺感知(Vision),A代表動作執行(Action),而中間的L則是大語言模型(Language Model)。V負責實時感知環境,A負責輸出具體控製指令,L則像“中臺”一樣,把感知信息轉譯為可供A執行的規劃與決策。

  清華大學車輛與運載學院助理研究員顏宏偉表示:“VLA是多模態大模型驅動的智能體架構,其核心突破在於引入思維鏈,通過語言模型實現對環境理解與決策推理的可解釋性。”

  “VLA模型融合了語言模型,具備強大的思維鏈能力,能擺脫傳統端到端模型的黑盒難題,並將信息串聯、分析,從而推理出因果關係。此外,它天然集成海量知識庫,泛化能力更強,能夠更好地適應複雜多變的真實道路環境。”元戎啟行CEO(首席執行官)周光認為。

  不過,王興興在今年8月的一次演講中表示,“我個人對VLA模型還是保持比較懷疑的態度。”在他看來,VLA模型是一個相對比較傻瓜式的架構,在和真實世界交互時,它的數據質量、能采集的數據是不太夠用的。

  郎鹹朋認為,空談架構不如“看療效”。在自動駕駛領域,脫離了海量真實數據談模型架構都是空中樓閣,“我們之所以堅持VLA,是因為我們擁有數百萬輛車構建的數據閉環,這讓我們能在當前算力下,把駕駛水平做到接近人類”。

  郎鹹朋稱,要想做好自動駕駛,必須先把自動駕駛當作完整的具身智能係統對待,每一部分在研發過程中要相互配合才能將價值發揮出來。此外,他還認為,模型的關鍵是要與整個具身智能係統適配,在此基礎上,數據是起決定意義的。在機器人領域獲取數據相對困難,但在自動駕駛領域,特別是對建立起數據閉環能力的車企來說並不是大問題。

  盡管郎鹹朋表明了機器人領域與汽車領域有別,車企搭建數據閉環並非難事,仍有一些汽車背景的公司並未踏上VLA這條路徑。比如,華為智能汽車解決方案BU CEO靳玉誌就表示,“我們不會走向VLA的路徑。這樣的路徑看似取巧,其實並不是走向真正自動駕駛的路徑”。

  據記者了解,“世界模型”源自人類對環境的認知機製,指的是AI係統通過感知數據構建一個對物理世界的內部模擬,從而具備預測、推理和生成合理行為鏈的能力。在輔助駕駛中,它不再隻是“看見”世界,而是理解世界,預測未來可能發生的情況,並提前做出決策。例如,它不僅能識別前方有一輛自行車,還能預測它是否會突然變道,從而提前減速或避讓。

  除華為外,蔚來、商湯等企業也都在此技術路線上進行布局。

  VLA與世界模型將融合?

  值得注意的是,盡管不同企業對於VLA和世界模型兩種技術“各執一詞”,但兩者並不矛盾。

  國海證券在研報中表示:“VLA與世界模型在技術上並非同級或對立關係。我們將發展路徑分為兩派,實質上是產業玩家在實現端到端能力之後,在能力優化側重點上出現了分化。”

  “雙方技術融合趨勢明顯,雙方均在向對方領域滲透。例如,VLA引入強化學習與仿真優化動作生成。”國海證券在研報中表示。

  在去年底的一場直播中,理想汽車董事長李想也提到,VLA可以拆解為預訓練、後訓練和強化學習三個層麵。強化學習中最重要的一步就是在世界模型裏閉環學習,引入舒適度、碰撞、交通規則等規則來打磨、反饋,讓VLA比人類開得更好。

  “世界模型的高算力需求(訓練和推理都是)決定了它更適合在雲端做數據生成和極度逼真的仿真測試和強化訓練,這也是理想目前正在做的。”郎鹹朋說。

  小馬智行CTO(首席技術官)樓天城表示,“我了解到大部分公司兩種技術都用,比如Waymo也用了穀歌Gemini大語言模型。世界模型和VLA模型不是一個維度的東西,而是交錯的。這兩個東西不矛盾、不衝突,機器人領域非常多。我認為想要做百輛無人車以上,世界模型最關鍵。對其他公司(而言),可能做VLA模型賣車最關鍵。大家選擇不同的路線是因為目標不同”。

  值得一提的是,既向C端賣車,又計劃推出Robotaxi(自動駕駛出租車)的小鵬,有將兩種技術融合的趨勢。在11月5日舉行的2025 AI DAY小鵬科技日上,小鵬汽車正式發布了第二代VLA。第一代VLA的方案是V到L再到A,第二代VLA是V+L到A,也就是把L轉移到了輸入端。

  “第一代VLA模型中間涉及兩次語言轉換,這會帶來大量信息損耗,比如一段1200多字的文字描述也無法精準地‘翻譯’一個十幾秒的視頻,而以視覺為核心,則把模型看到的世界直接轉換成運動軌跡。”何小鵬說。

最近關注

友情鏈接

久久综合色8888_91麻豆6部合集magnet_中文字幕日韩欧美在线_欧美激情高清视频
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |