“企業(yè)做宣傳時,講得天花亂墜,說是端到端、數(shù)據(jù)驅動,有各種各樣的新詞,但對普通消費者來說,很簡單,上車以后 5 分鐘能不能感覺產(chǎn)品是完全與眾不同的,是可以信賴的,這樣的產(chǎn)品才能去賣。”今年年初,地平線蘇箐在媒體交流會中有感而發(fā)的這段話,仍舊警示車圈智駕生態(tài)。
去年一整年,車企都在做端到端。華為、理想、小鵬和海外的特斯拉已經(jīng)證明,端到端模型訓練出的自動駕駛軟件可以上路——至少在大部分時候如此。
端到端是一個黑盒系統(tǒng),其邏輯是通過神經(jīng)網(wǎng)絡模擬人類行為,通過概率模型總結出來的駕駛策略,存在出現(xiàn)問題的概率,且一旦出現(xiàn)問題可能造成嚴重的后果。(關于蔚小理華的上一代架構,虎嗅汽車團隊曾在《抄不了特斯拉的作業(yè),“蔚小理華”可咋整》一文中有過詳細解析)
端到端思路來源于人工智能領域的深度學習,本質(zhì)是把智駕算法簡單化,再通過大量的數(shù)據(jù)訓練來補足軟件能力。
但一些車企已經(jīng)發(fā)現(xiàn),端到端無法完全解決問題。當智能駕駛要往更安全、人類干預更少的 L3 方向進階,就要想辦法補上端到端的漏洞。
于是車企們甩出一堆新的名詞——世界模型、VLA、基座模型......這些詞匯意味著什么,真的能解決智能駕駛問題嗎?
智駕路線出現(xiàn)分野
進入端到端2.0階段,技術路線沒有了標準答案。
理想在 AI TALK 上公布下一代自動駕駛架構 VLA(視覺-語言-行為大模型);小鵬最新技術架構則是打造一個云端世界基座模型,通過蒸餾方法,生產(chǎn)出小尺寸的車端模型XVLA;華為乾崑ADS4 引入了 WEWA 架構——WE代表云端世界引擎(World Engine),WA代表了車端的世界行為模型(World Action Model)。
“各家廠商軟件架構不一樣,其實是各家的硬件研發(fā)進度和商業(yè)模式導向的結果。”一位業(yè)內(nèi)人士說道。
小鵬和理想都走了 VLA 的路徑,上述人士告訴筆者:“這是傳統(tǒng)車企轉向一個機器人企業(yè),或者說 AI 企業(yè)必須要去走的,早走晚走都得走。”
小鵬目前是汽車和機器人兩手抓,而理想的機器人業(yè)務還只是規(guī)劃階段,這種業(yè)務布局的差異性讓這兩家在同一技術路線上又衍生了另一條支線。
小鵬在云端訓練了一個 72B 參數(shù)量的世界基座模型,是主流車端模型的 35 倍以上。小鵬希望世界基座大模型能夠真正理解、認知,甚至改造物理世界,能夠用在自動駕駛領域,也能逐步延展到機器人和飛行汽車。
一位業(yè)內(nèi)人士告訴筆者,小鵬最新一代技術架構大概率布局在小鵬自研的圖靈芯片上,而不是基于雙OrinX 的硬件配置打造。
據(jù)悉,小鵬圖靈芯片已于去年8月流片成功,或將于今年二季度量產(chǎn)上市,計劃用于汽車、機器人和飛行汽車上。圖靈芯片對AI需求、端到端大模型進行特定設計,集成了2個小鵬自研的神經(jīng)網(wǎng)絡處理大腦,并面向神經(jīng)網(wǎng)絡做了特定架構處理,最高能處理 30B 參數(shù)的大模型,讓世界基座模型蒸餾后部署車端具備了可能性。
理想目前還無暇顧及八字還沒一撇的機器人業(yè)務,更注重于車端能力的提升,打造了一個司機 Agent 的角色。
理想全新架構的特別之處在于花大力氣前訓了一個 LLM 基座模型(Large Language Model,大語言模型,簡稱LLM),沒有采用業(yè)內(nèi)通用的第三方的大語言模型作為基座。
之所以這樣,是因為理想在端到端+VLM 階段發(fā)現(xiàn),VLM 基于千問,使用互聯(lián)網(wǎng) 2D 圖文數(shù)據(jù),但對于 3D 世界的理解和駕駛知識存在不足之處,會導致產(chǎn)生大量幻覺;而通過前訓專門針對自動駕駛的 LLM 基座模型能夠消除部分幻覺的同時,還能夠主干網(wǎng)絡的參數(shù)量壓低,減少車端算力的承載。
這背后包含的一個背景因素是,理想自研的芯片項目“舒馬赫”進展相對緩慢,現(xiàn)階段無法給予自研芯片去做定制化開發(fā),只能繼續(xù)選擇英偉達的 Thor 芯片。
華為同樣打造了一個原生多模態(tài)的基座模型,即“世界行為模型”。華為的做法是,通過獲取包括“視覺、聽覺、觸覺”的多傳感器全模態(tài)感知信息輸入,經(jīng)過token化后生成智駕原生基模型,采用MoE多專家能力架構,不同場景調(diào)用不同能力,最后輸出兩類信息——給車用的軌跡生成和給人看的場景意圖,從而實現(xiàn)人機共駕。
結合其引入世界引擎模型,華為當下要解決的是往L3方向面臨的難例場景問題,降低時延、提升預見能力,保障十秒預警能力。華為要達成的,是成為最早一批進入L3梯隊的玩家。
無論是小鵬“大力出奇跡”的世界基座模型,還是理想的VLA,或是華為ADS4,這些路線是否是一個效率最高的方式,是否有效率更高的架構出現(xiàn),目前還是打問號的階段。沒有人真正證明過這些路線可以提升自動駕駛技術的進步速度,所有廠商都還處在探索階段。
優(yōu)質(zhì)數(shù)據(jù)成關鍵
不管是VLA 還是蔚來采用NWM世界模型,車企做自動駕駛的邏輯都是用更多、更好的數(shù)據(jù)訓練模型,用Scaling law 繼續(xù)加速技術進步。
在端到端 2.0 階段,大模型需要更多的優(yōu)質(zhì)數(shù)據(jù),擴大的需求放大了廠商們的數(shù)據(jù)困境,主要是兩方面:對實車采集的數(shù)據(jù)進行人工標注,太貴了;找到剛好可以用的難例數(shù)據(jù),太難了。
“用于智駕訓練的數(shù)據(jù),不缺普通數(shù)據(jù),缺的是長尾的各種Corner case數(shù)據(jù)。”華為引望靳玉志在ADS4發(fā)布會上感嘆道。
盡管大部分廠商都聲稱擁有大量用戶數(shù)據(jù)/行車數(shù)據(jù),但如何從中找出優(yōu)質(zhì)數(shù)據(jù)則是一大門檻,依賴人工標注去真實場景中挖掘優(yōu)質(zhì)數(shù)據(jù),背后的成本支出非常大。
在數(shù)據(jù)難題面前,廠商們想到的辦法是,通過世界模型仿真模擬解決數(shù)據(jù)問題。簡言之,如果在現(xiàn)實世界中收集不到足夠的數(shù)據(jù),就在虛擬世界里生產(chǎn)數(shù)據(jù)。
據(jù)一位做強化學習的工程師透露,目前訓練中的真數(shù)據(jù)跟假數(shù)據(jù)(人工合成/生成數(shù)據(jù))達到 1:2 的程度。
世界模型在自動駕駛領域的作用是,通過大模型生成足夠精確甚至擬真的數(shù)據(jù),模擬更多更復雜的駕駛場景以訓練模型。這種做法的優(yōu)點是,數(shù)據(jù)獲取成本低,車企不再需要車一遍遍在路上開以采集數(shù)據(jù),只需要讓AI 按照要求生成即可;獲取的數(shù)據(jù)種類也會更多。
地平線余凱對仿真的態(tài)度更為激進,其認為“在人工智能時代,用戶行為數(shù)據(jù)不重要,99% 的司機行為不值得學習,剎車、拐彎、換道等體驗并不好。自動駕駛頂級玩家已不靠司機數(shù)據(jù)學習,未來仿真可能是最重要的。”
地平線對仿真的重視與其供應商身份離不開關系,相較于車企而言,地平線難以在車端獲取大量用戶數(shù)據(jù),仿真是解決數(shù)據(jù)瓶頸的一大優(yōu)解。
余凱把這一思路的終極形態(tài)描述為“ AI 教 AI ”,就像 Alpha Zero 在仿真平臺左右互搏,棋藝遠超人類,下棋方法也是人類歷史上沒有的。這意味著,這一終極形態(tài)這不僅把開車的人類解放了,也把做自動駕駛軟件的人類解放了。
不過,在現(xiàn)有技術條件下,仿真模擬和AI生成數(shù)據(jù)的質(zhì)量都遠不如實車行駛收集的數(shù)據(jù)。數(shù)據(jù)差別的關鍵 gap 是,人類還無法教機器充分認識世界,也無法在虛擬世界完整復刻現(xiàn)實。
目前各家廠商在世界模型都停留在探索階段。這也是技術差距最容易拉大的階段,其門檻之高,決定了不是所有廠商都有能力邁進。
端到端的“遮羞布”將被掀開
今年以來,多家車企動不動以“高階智駕”能力標榜自身,在“端到端”等技術名詞的包裝下,各家廠商似乎被拉到同一水平線,智駕能力的分化變得混沌。隨著新的技術架構產(chǎn)生,被統(tǒng)一技術路線拉近的技術差距將因為技術分歧再次拉開。
一位業(yè)內(nèi)人士向筆者表示,智駕已經(jīng)開始出現(xiàn)分化。“最高階的是往L3方向邁進,包括華為 ADS4、千里浩瀚 H9 等方案都已經(jīng)明確指向 L3,提供雙冗余的硬件配置;中階版本則是以單Thor、雙OrinX的方案為主,采用純視覺或單激光雷達,基本是往城區(qū)輔助駕駛的L2方向去做再往下就是高速加部分城市領航功能的方案。”
隨之而來的,智駕的商業(yè)模式也將發(fā)生改變。
L3 將是涉及“重技術+強運營”的一個體系。“L3的責任歸屬從用戶轉移到車企,這要求車企一定要做好更新和維護,那么這就不是一個純技術問題,而是一個重運營的形態(tài)。”一位業(yè)內(nèi)從業(yè)者說道。
L2 時期的車企和方案廠商可以在隨意切換技術路線后,不對原來的方案進行維護,但進入 L3,無論是技術方案的選擇還是雙倍硬件配置冗余,以及軟件后期維護等都應該具備確定性。
有能力自研的車企已經(jīng)朝著更難更重要的技術變化前進,能力一般的車企,只能寄希望于供應商解決問題。進入城區(qū)自動駕駛這種更難的技術領域后,供應商也需要升級自己的技術。供應商技術能力的好壞在更高門檻的領域,也會更容易被區(qū)分。
“從技術層面來看,做到高速NOA其實并不困難,但城區(qū)的場景比高速難至少10到100倍。想要把城區(qū)輔助駕駛產(chǎn)品做好,我認為是滾雪球一樣的過程。雪球不僅會越滾越大,而且越滾越快。”智駕大陸首席執(zhí)行官厲飚說道。
訂單會集中到更少數(shù)供應商手中。“量產(chǎn)是非常關鍵的維度,實際上這個門檻已經(jīng)非常明顯了,沒有經(jīng)過量產(chǎn)的廠商,主機廠基本不會去選。現(xiàn)在量這么大,對安全要求這么高,在這些點上我覺得幾乎沒有做過量產(chǎn)的,已經(jīng)基本上是進不去了。”于騫說道。
于騫還指出,量產(chǎn)之外,產(chǎn)品的交付周期、交付成本、交付后的體驗等方面都是主機廠在篩選供應商時的考量。層層篩選下來,能被選擇的廠商已經(jīng)不多。
智駕全行業(yè)都在往上層能力邁進,高階的路線仍在探索,但已被驗證過的場景和階段的發(fā)展路徑已經(jīng)十分明確,靠“PPT”刷無圖NOA、端到端等技術名詞的方式將不再奏效,智駕市場將進入強者更強,弱者淘汰的局面。
本文來源:虎嗅
精選推薦
熱門出行排行榜
原創(chuàng)IP推薦
換一換網(wǎng)友評論
聚超值•精選
最新內(nèi)容
地平線蘇箐在媒體交流會中指出,端到端自動駕駛技術存在隱患。華為、小鵬等車企提出新架構VLA、基座模型解決方案。數(shù)據(jù)成關鍵,仿真模擬或許是解決之道。智駕路線分野明顯,L3將引領行業(yè)發(fā)展。厲飚認為城區(qū)輔助駕駛是雪球效應過程。供應商競爭加劇,強者恒強局面即將形成。
智能駕駛 | 數(shù)據(jù)訓練比亞迪推出“限時一口價”促銷活動,引發(fā)中國汽車市場價格戰(zhàn)。王朝網(wǎng)和海洋網(wǎng)發(fā)布22款產(chǎn)品折扣,最高直降5.3萬元。背后原因是應對市場壓力,提升銷售成單速度。此舉或影響品牌形象與用戶口碑。全球車企加入競爭,“理解比亞迪,成為比亞迪”成趨勢。面對疲軟的汽車消費市場和激烈競爭,比亞迪選擇繼續(xù)戰(zhàn)斗。
比亞迪 | 價格戰(zhàn)凱迪拉克XT4推出限時一口價15.99~18.99萬,網(wǎng)友炸鍋。銷量攀升背后是合資車企降價焦慮。上汽通用“一口價”策略帶來銷售增長,但業(yè)績?nèi)圆粯酚^。品牌影響力提升,成交價保持穩(wěn)定。科技產(chǎn)品競爭激烈,真誠營銷或許是關鍵。未來將推出多款新能源車型,展望轉型加速發(fā)展。
凱迪拉克 | 一口價速騰聚創(chuàng)推出全新數(shù)字化激光雷達產(chǎn)品E1R,首款量產(chǎn)的1080線超高分辨率EM4即將問世。數(shù)字化架構大幅提升性能和可擴展性,成本持續(xù)下降,助力智能汽車感知系統(tǒng)邁向新高度。速騰聚創(chuàng)在激光雷達行業(yè)中處于領先地位,引領產(chǎn)業(yè)數(shù)字化浪潮。
數(shù)字化 | 激光雷達高合汽車復工倒計時,黎巴嫩CEO接管。江蘇高合汽車成立,注冊資本10.3億元,由EV Electra和華人運通共同持股。控制權易主至中東資本。EV Electra為黎巴嫩電動車初創(chuàng)企業(yè),擬提升高端電動汽車水平。新公司設在鹽城經(jīng)濟技術開發(fā)區(qū)69號。
高合汽車 | 復活