Activities
導(dǎo)讀:自動(dòng)駕駛技術(shù)的起源可以追溯到DARPA的Grand Challenge和Urban Challenge。2004年和2005年的Grand Challenge主要面向越野環(huán)境,而2007年的Urban Challenge則面向城市環(huán)境。此時(shí)自動(dòng)駕駛技術(shù)的開始發(fā)展起步,并取得了一些顯著成果,例如2010年帕爾瑪大學(xué)的自動(dòng)駕駛車隊(duì)在三個(gè)月內(nèi)完成了從意大利帕爾瑪?shù)街袊?guó)上海的13000公里行程。這一階段的自動(dòng)駕駛稱為1.0階段,它高度依賴于硬件設(shè)備,采用傳統(tǒng)的計(jì)算機(jī)視覺方法進(jìn)行自動(dòng)駕駛,主要是通過高精度地圖進(jìn)行循線行駛。此階段使用的設(shè)備通常體積龐大且價(jià)格昂貴,例如,高精度慣性衛(wèi)星組合導(dǎo)航系統(tǒng)的價(jià)格約為60萬元,可以實(shí)現(xiàn)厘米級(jí)的定位精度。
一、為什么一體化的端到端視覺語言動(dòng)作大模型如此重要?
在感知部分,傳統(tǒng)計(jì)算機(jī)視覺方法被廣泛應(yīng)用于環(huán)境感知和障礙物識(shí)別,主要依靠特征工程。在決策與規(guī)劃部分,主要包括簡(jiǎn)單的決策和路徑規(guī)劃,特別強(qiáng)調(diào)車輛的縱向速度控制和橫向偏差控制。這一階段的自動(dòng)駕駛系統(tǒng)依賴于人為設(shè)定的決策邏輯和基于規(guī)則的算法,因此被稱為自動(dòng)駕駛1.0階段,如圖1所示。
圖1 自動(dòng)駕駛1.0
自2016年起,隨著大量產(chǎn)業(yè)資本的介入,中國(guó)的初創(chuàng)企業(yè)、頭部企業(yè)、互聯(lián)網(wǎng)企業(yè)、ICT企業(yè)、主機(jī)廠和造車新勢(shì)力紛紛聚焦于自動(dòng)輔助駕駛技術(shù)的發(fā)展。當(dāng)前,國(guó)際汽車工程師學(xué)會(huì)(SAE)定義的自動(dòng)駕駛分級(jí)標(biāo)準(zhǔn)被廣泛采用,該標(biāo)準(zhǔn)將自動(dòng)駕駛劃分為L0到L5級(jí)別,進(jìn)一步細(xì)分了自動(dòng)駕駛技術(shù)的不同發(fā)展階段。
2021年,SAE和ISO進(jìn)一步發(fā)布了新版的自動(dòng)駕駛分級(jí)標(biāo)準(zhǔn),如圖2所示,其強(qiáng)調(diào)了自動(dòng)駕駛技術(shù)在不同功能、區(qū)域和環(huán)境條件下的應(yīng)用。這些標(biāo)準(zhǔn)幫助明確了各類自動(dòng)駕駛系統(tǒng)的實(shí)際能力,盡管一些企業(yè)可能出于宣傳目的將輔助駕駛系統(tǒng)稱為自動(dòng)駕駛系統(tǒng)。L0到L2級(jí)別被稱為輔助駕駛,而只有L3到L5級(jí)別才被定義為自動(dòng)駕駛。因此,當(dāng)我們談?wù)撟詣?dòng)駕駛時(shí),指的是L3及以上級(jí)別,L2及以下都屬于輔助駕駛。
圖2 新版自動(dòng)駕駛分級(jí)標(biāo)準(zhǔn) SAE J3016
目前在中國(guó)廣泛商業(yè)化應(yīng)用的是NOA(Navigation Output Autopilot),被稱為L2++的自動(dòng)輔助駕駛系統(tǒng)。NOA系統(tǒng)實(shí)現(xiàn)了低接管率,使得駕駛員從駕駛員變成了安全員,不再需要頻繁操作。這標(biāo)志著商業(yè)化落地進(jìn)程的開始。如今,包括比亞迪、蔚來、小鵬、理想、華為、極越、小米和大疆等在內(nèi)的企業(yè)都已涉足L2++智能電動(dòng)汽車領(lǐng)域,NOA成為新能源汽車的標(biāo)準(zhǔn)配置。
NOA系統(tǒng)從高速公路逐漸發(fā)展到城市道路,并正在研發(fā)綜合性的NOA系統(tǒng),融合高速和城市道路的導(dǎo)航功能。這一過程中,關(guān)鍵技術(shù)的突破和普遍應(yīng)用至關(guān)重要,包括鳥瞰圖、Transformer模型的廣泛使用、占用網(wǎng)絡(luò)的預(yù)測(cè)以及車道級(jí)地圖的應(yīng)用。這些技術(shù)的發(fā)展標(biāo)志著自動(dòng)駕駛從1.0階段邁入2.0階段。
在自動(dòng)駕駛2.0階段,基于深度學(xué)習(xí)的技術(shù)被廣泛應(yīng)用,其特點(diǎn)是分段完成自動(dòng)駕駛解決方案。系統(tǒng)被劃分為感知、預(yù)測(cè)、決策與控制等模塊,如圖3所示。感知部分包括環(huán)境感知和自主導(dǎo)航,不再依賴昂貴的高精度導(dǎo)航設(shè)備,而是采用視覺、激光雷達(dá)和SLAM技術(shù),從而降低成本并提高環(huán)境適應(yīng)性。感知部分也從高精度地圖轉(zhuǎn)向車道級(jí)地圖。
圖3 自動(dòng)駕駛2.0
盡管預(yù)測(cè)、決策與控制部分的技術(shù)變化不大,依然是基于人為設(shè)定的條件進(jìn)行,但這一分段方法也帶來了顯著的可解釋性。然而,這種人為設(shè)定的先驗(yàn)條件也引入了局限性,特別是在面對(duì)邊緣事件和小概率事件時(shí),系統(tǒng)難以應(yīng)對(duì)。這種方案需要窮舉各種可能性,導(dǎo)致代碼復(fù)雜性增加,并且無法全面覆蓋所有情況。因此,自動(dòng)駕駛2.0階段的方案面臨長(zhǎng)遠(yuǎn)發(fā)展問題和邊緣案例的挑戰(zhàn)。
自動(dòng)駕駛3.0階段采用端到端的視覺語言建模方法,通過模擬真實(shí)事件中物體之間的運(yùn)動(dòng)學(xué)、動(dòng)力學(xué)及其他物理學(xué)規(guī)律,在連續(xù)的隱含空間中實(shí)現(xiàn)統(tǒng)一的表達(dá)、理解、記憶、預(yù)測(cè)、交互與決策。這種方式類似于人類的“快思維”模式,實(shí)現(xiàn)了駕駛行為的自主閉環(huán)。特斯拉的FSD(Full Self-Driving)系統(tǒng)就是一個(gè)典型的例子,它通過徹底的端到端解決方案,大大減少了代碼量,從原來的30萬行減少到僅幾千行,依賴視覺神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)和決策。
這種方法的優(yōu)勢(shì)在于,通過視覺神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),可以顯著提升自動(dòng)駕駛系統(tǒng)的自主性和環(huán)境適應(yīng)性。例如,DQN(Deep Q-Network)在阿塔瑞游戲中的應(yīng)用展示了深度強(qiáng)化學(xué)習(xí)在像素級(jí)視覺輸入和動(dòng)作輸出之間建立聯(lián)系的能力。DQN不僅在多個(gè)游戲中超越了人類玩家,還創(chuàng)造了許多未曾設(shè)想的策略。
自動(dòng)駕駛3.0采用類似的端到端純視覺方法,輸入端是連續(xù)的視頻幀,輸出端是駕駛行為,如圖4所示。通過學(xué)習(xí)實(shí)現(xiàn)從視覺輸入到行為輸出的轉(zhuǎn)換,無需人為設(shè)定條件。這種徹底端到端的自動(dòng)駕駛解決方案,真正體現(xiàn)了人工智能的潛力,使得L3及以上級(jí)別的自動(dòng)駕駛成為可能。
圖4 自動(dòng)駕駛3.0
自動(dòng)駕駛從1.0到3.0的演變不僅提升了技術(shù)水平,更帶來了對(duì)人類交通和出行方式的顛覆性改變。特別是高速和城市的NoA(Navigation on Autopilot)以及L3、L4級(jí)別的自動(dòng)駕駛汽車的發(fā)展,為未來城市的安全性、便捷性和效率提升提供了新的機(jī)遇。從1.0的基礎(chǔ)輔助駕駛到3.0的完全端到端解決方案,自動(dòng)駕駛技術(shù)經(jīng)歷了深刻的變革。自動(dòng)駕駛3.0階段,通過端到端的視覺語言建模方法,實(shí)現(xiàn)了駕駛行為的自主閉環(huán),大大提升了系統(tǒng)的自主性和環(huán)境適應(yīng)性。
人類思維中的快思維,即本能與直覺,在自動(dòng)駕駛中具有重要意義。快思維的特點(diǎn)是依靠視覺輸入和直覺反應(yīng),約占我們?nèi)粘;顒?dòng)的95%。人類的視覺主要依靠可見光,而自動(dòng)駕駛系統(tǒng)可以通過傳感器(雷達(dá)、激光點(diǎn)云、毫米波雷達(dá))擴(kuò)展這種感知能力。視覺傳感器輸入一幀幀的圖像,輸出則是軌跡或路徑數(shù)據(jù)。
在端到端自動(dòng)駕駛系統(tǒng)中,輸入輸出之間隱含著大量信息,包括長(zhǎng)期記憶和推理過程。這些都需要借助語言大模型來實(shí)現(xiàn),因?yàn)檎Z言模型中包含了人類的常識(shí)和專業(yè)知識(shí)。自動(dòng)駕駛系統(tǒng)必須具備這種知識(shí),才能做出正確的決策。
語言不僅限于文本,還包括視覺和語音。這些都可以看作是不同的語言模態(tài),因?yàn)樗鼈兌寄鼙磉_(dá)明確的語義。交流的核心在于語義傳達(dá),即我們理解彼此的意思。無論是通過文本、圖像還是語音,只要能準(zhǔn)確傳達(dá)語義,都是有效的交流方式。這種多模態(tài)的語言表達(dá)在自動(dòng)駕駛中至關(guān)重要。例如,通過視覺傳感器獲取環(huán)境信息,通過語音指令進(jìn)行交互,這些都是自動(dòng)駕駛系統(tǒng)需要處理和理解的內(nèi)容。
自動(dòng)駕駛系統(tǒng)的核心在于理解和處理語義信息。這些語義信息包含物體的屬性及其關(guān)系,內(nèi)涵指的是同一物體的共性部分,而外延則是不同類別物體之間的差異性。視覺傳感器捕捉的圖像能夠傳遞豐富的語義信息,例如辨識(shí)行人、車輛、斑馬線、交通信號(hào)燈等,并理解它們之間的關(guān)系。這種語義理解是進(jìn)行正確決策和規(guī)劃的基礎(chǔ)。
多模態(tài)大語言模型的發(fā)展可以分為幾個(gè)階段,如圖5所示。早期的大語言模型主要是基于文本模態(tài)的,例如GPT,這類模型通過token化將文本數(shù)據(jù)轉(zhuǎn)換為連續(xù)的潛空間,并在此基礎(chǔ)上進(jìn)行處理和生成。目前的發(fā)展重點(diǎn)是多模態(tài)大語言模型,不僅包含文本,還擴(kuò)展到視覺和語音等模態(tài),能夠在同一個(gè)潛空間中表達(dá)和對(duì)齊不同模態(tài)的語義信息,實(shí)現(xiàn)跨模態(tài)的理解和轉(zhuǎn)換。下一步的發(fā)展是具身智能,即賦予AI一個(gè)身體,使其能夠在物理世界中進(jìn)行交互,具備移動(dòng)和操作能力,從而與周圍環(huán)境和其他智能體進(jìn)行動(dòng)態(tài)交互。
圖5 通用人工智能的迭代演化路徑
具身智能的引入使AI能夠通過實(shí)際的物理交互來學(xué)習(xí)和適應(yīng)。這樣的智能體不僅能夠進(jìn)行高級(jí)別的語義理解,還能在真實(shí)環(huán)境中進(jìn)行操作和決策。例如,AI在駕駛過程中能夠通過視覺和其他傳感器感知環(huán)境,并做出相應(yīng)的駕駛決策。多模態(tài)認(rèn)知不僅限于視覺和語音,還包括觸覺和動(dòng)作等感知數(shù)據(jù),這些數(shù)據(jù)通過嵌入和投影技術(shù)轉(zhuǎn)化為連續(xù)的潛空間,統(tǒng)一進(jìn)行處理和學(xué)習(xí),實(shí)現(xiàn)多模態(tài)的協(xié)同工作。
通用人工智能的未來發(fā)展方向在于實(shí)現(xiàn)多模態(tài)、多任務(wù)、多領(lǐng)域的統(tǒng)一智能系統(tǒng)。具身智能的引入將使AI能夠在物理世界中不斷學(xué)習(xí)和進(jìn)化,通過與環(huán)境和其他智能體的動(dòng)態(tài)交互來獲取知識(shí)和技能。這種智能系統(tǒng)不僅能夠在特定任務(wù)上超越人類,還能夠在多個(gè)領(lǐng)域和任務(wù)中展現(xiàn)出強(qiáng)大的適應(yīng)性和智能水平。例如,在復(fù)雜的駕駛環(huán)境中,具身智能可以通過不斷的實(shí)踐和學(xué)習(xí),逐步提高其駕駛技能和決策能力,最終實(shí)現(xiàn)安全、高效的自動(dòng)駕駛。
GPT (Generative Pre-trained Transformer) 是一種生成式語言模型,主要通過自回歸方法進(jìn)行生成和解碼。生成式模型的重點(diǎn)在于生成的次序,因此解碼過程需要依賴編碼階段。OpenAI 的 GPT 是一個(gè)典型的例子,其模型質(zhì)量較高,部分原因在于其信奉和追求規(guī)模規(guī)模定律。盡管這一點(diǎn)存在爭(zhēng)議,但許多高質(zhì)量模型確實(shí)體現(xiàn)了這一理念。
單模態(tài)文本語言模型,如 GPT-4,展示了顯著的改進(jìn)和變革。例如,以前的機(jī)器學(xué)習(xí)或人工智能在處理文本時(shí),僅僅能匹配和對(duì)齊,但不能真正理解文本內(nèi)容。而現(xiàn)在的 GPT-4 能夠很好地理解文本,例如復(fù)雜的小學(xué)數(shù)學(xué)應(yīng)用題,能夠分解問題和任務(wù)。其關(guān)鍵在于利用語言模型和世界知識(shí)的學(xué)習(xí),將許多 token 之間的關(guān)系和屬性進(jìn)行聚合和連接,從而具備了理解和生成文本的能力。
從單模態(tài)文本模型到多模態(tài)模型的轉(zhuǎn)變標(biāo)志著語言模型的一個(gè)重大進(jìn)步。早期的多模態(tài)處理通常將其他模態(tài)轉(zhuǎn)換為文本,然后進(jìn)行嵌入變換。而現(xiàn)在的多模態(tài)模型能夠直接處理輸入的數(shù)據(jù),無論是視頻還是語音,通過 token 化來實(shí)現(xiàn)。多模態(tài)模型通過語義對(duì)齊,實(shí)現(xiàn)了視聽覺語言思維,擴(kuò)展了視覺、聽覺和語音的交互能力,模擬了人類智能行為中的視聽覺語言思維。這種能力使模型能夠通過簡(jiǎn)單的文本提示生成復(fù)雜的視頻內(nèi)容,補(bǔ)充大量的背景信息和細(xì)節(jié),如圖6所示。
圖6 原生多模態(tài) 大型語言模型
在自動(dòng)駕駛領(lǐng)域,原生的多模態(tài)視覺和動(dòng)作模型尤為重要。端到端的視覺語言動(dòng)作大模型可以通過視覺輸入來生成相應(yīng)的動(dòng)作。例如,視覺輸入進(jìn)來描述環(huán)境,輸出的則是車輛的駕駛動(dòng)作。這種模型強(qiáng)調(diào)視覺語言思維,通過看到一個(gè)物體馬上產(chǎn)生相應(yīng)的動(dòng)作。
多模態(tài)模型還需要兼顧通用和專用模型,通用模型提供基本的多模態(tài)處理能力,而專用模型則提供特定領(lǐng)域的知識(shí),例如通過知識(shí)圖譜構(gòu)建的專業(yè)數(shù)據(jù)庫(kù)。原生的多模態(tài)理解能力對(duì)于自動(dòng)駕駛的意義在于能夠結(jié)合每幀圖像的文本描述和環(huán)境理解來進(jìn)行決策和控制,實(shí)現(xiàn)更好的感知和理解能力。即使在自動(dòng)駕駛 2.0 階段,通過對(duì)環(huán)境的深度理解,模型仍然可以做出更好的決策與控制。
多模態(tài)理解在自動(dòng)駕駛領(lǐng)域帶來了根本性的變化,使車輛能夠?qū)Νh(huán)境進(jìn)行更加全面和深入的感知和理解。這不僅包括對(duì)障礙物的識(shí)別和理解,還涉及對(duì)自身狀態(tài)、道路標(biāo)志和交通信號(hào)的認(rèn)知。通過整合圖像、點(diǎn)云、視頻、語音和文本數(shù)據(jù),實(shí)現(xiàn)跨模態(tài)的語義對(duì)齊,各模態(tài)可以互相解釋同一事物或事件,增強(qiáng)整體感知與認(rèn)知能力。
主動(dòng)感知與規(guī)劃在自動(dòng)駕駛中至關(guān)重要。不同于被動(dòng)感知,主動(dòng)感知是有選擇性的,根據(jù)需要感知特定的環(huán)境信息。規(guī)劃包括行為規(guī)劃和任務(wù)規(guī)劃,前者涉及車輛的路徑選擇和動(dòng)作決策,后者涉及任務(wù)執(zhí)行的具體步驟。這兩者相輔相成,規(guī)劃基于感知的信息,而感知也受到規(guī)劃的影響。
多模態(tài)大模型通過視覺輸入生成相應(yīng)的動(dòng)作,這對(duì)自動(dòng)駕駛有重要意義。結(jié)合多模態(tài)大模型和檢索增強(qiáng)生成(RAG)技術(shù),可以對(duì)場(chǎng)景進(jìn)行深度理解,從而實(shí)現(xiàn)更精確的感知和預(yù)測(cè)。多模態(tài)大模型的架構(gòu)包括基礎(chǔ)模型、專用模型(知識(shí)圖譜構(gòu)建的專業(yè)數(shù)據(jù)庫(kù))和嵌入層(用于模態(tài)轉(zhuǎn)換)。多模態(tài)大模型在自動(dòng)駕駛中的下游任務(wù)包括感知、導(dǎo)航、預(yù)測(cè)和決策等。這些任務(wù)可以通過全參數(shù)微調(diào)、部分參數(shù)微調(diào)和提示詞微調(diào)等方式進(jìn)行優(yōu)化。結(jié)合Bird's Eye View (BEV)和Transformer技術(shù),可以提升模型在環(huán)境感知、障礙物檢測(cè)和路徑規(guī)劃等方面的能力,如圖7所示。
圖7 AI 自動(dòng)駕駛大模型與下游微調(diào)任務(wù)
二、以路徑規(guī)劃為中心
在自動(dòng)駕駛系統(tǒng)中,感知空間和動(dòng)作空間是兩個(gè)關(guān)鍵的組成部分。感知空間涉及對(duì)環(huán)境的理解,包括障礙物識(shí)別、道路標(biāo)志等;而動(dòng)作空間則涉及實(shí)際的行為產(chǎn)生和決策執(zhí)行。這兩個(gè)空間相互作用,形成了自動(dòng)駕駛系統(tǒng)的核心功能。然而,我們需要思考的是:在這兩個(gè)空間中,哪個(gè)應(yīng)作為主要中心?
從傳統(tǒng)的角度來看,大多數(shù)研究關(guān)注的是從感知空間到動(dòng)作空間的邏輯,即先進(jìn)行環(huán)境感知,再進(jìn)行動(dòng)作規(guī)劃和執(zhí)行。這種順序是基于感知數(shù)據(jù)生成相應(yīng)的行為。然而,從另一個(gè)角度看,動(dòng)作空間也可以反向影響狀態(tài)空間,通過主動(dòng)感知來優(yōu)化感知策略和決策過程。因此,選擇哪個(gè)空間作為中心,實(shí)際上取決于系統(tǒng)的需求和具體應(yīng)用場(chǎng)景。
復(fù)雜的邏輯推理是實(shí)現(xiàn)有效感知和決策的關(guān)鍵。空間轉(zhuǎn)換可以視為一種復(fù)雜的邏輯推理過程。在這個(gè)過程中,大型語言模型可以發(fā)揮重要作用,通過視覺和語言智能實(shí)現(xiàn)多模態(tài)的交叉理解和推理。這樣,可以實(shí)現(xiàn)從感知到動(dòng)作的高效轉(zhuǎn)換,提升系統(tǒng)的智能水平,如圖8所示。
圖8 基于 LLM 的復(fù)雜的邏輯推理
為了增強(qiáng)復(fù)雜的邏輯推理能力,我們可以利用外部知識(shí)庫(kù)、搜索工具和領(lǐng)域知識(shí)。這些工具能夠提供額外的背景信息,支持更深入的理解和推理。例如,通過檢索增強(qiáng)生成技術(shù),結(jié)合通用多模態(tài)大模型,可以進(jìn)一步提升推理能力。此外,提示詞工程和思維鏈技術(shù)也能有效增強(qiáng)推理能力。
三、端到端純視覺交互式多模態(tài)智能體:自動(dòng)駕駛3.0 與人形機(jī)器人的實(shí)現(xiàn)路徑
在自動(dòng)駕駛3.0時(shí)代,我們不僅需要開發(fā)多模態(tài)的自動(dòng)駕駛大模型,還要進(jìn)一步發(fā)展成具有交互能力的智能體。這種智能體將融合視覺和語義的多模態(tài)理解,并具備在交互過程中展現(xiàn)更高智能水平的能力。
交叉理解是指將不同模態(tài)的信息在語義層面對(duì)齊。例如,通過先進(jìn)的模型,可以將不同類型的輸入歸納為相同的語義類別,使得系統(tǒng)能夠互相補(bǔ)全信息,增強(qiáng)讀圖能力。同時(shí),交互式智能體強(qiáng)調(diào)在真實(shí)物理空間中的智能體與其他智能體、環(huán)境以及人類的互動(dòng)。通過這種互動(dòng),智能體能夠利用深度強(qiáng)化學(xué)習(xí)提升行動(dòng)能力,甚至超越人類水平。這種交互不僅提升了智能體的決策和行為策略,還能使其在復(fù)雜環(huán)境中表現(xiàn)得更加出色,如圖9所示。
圖9 AI 領(lǐng)域中交叉與交互
智能車在自動(dòng)駕駛中扮演著核心角色,需要與周圍環(huán)境及其他智能體進(jìn)行有效的互動(dòng)。通過在車道級(jí)地圖中提取交通元素,智能車可以優(yōu)化其軌跡預(yù)測(cè)和補(bǔ)全。例如,當(dāng)智能車發(fā)出轉(zhuǎn)向信號(hào)時(shí),其他車輛的反應(yīng)(可以通過交互得到優(yōu)化,進(jìn)而實(shí)現(xiàn)更高效的道路使用和交通流動(dòng)。
智能體在時(shí)間維度上可以視為軌跡數(shù)據(jù),這些軌跡數(shù)據(jù)必須符合物理學(xué)規(guī)律的連續(xù)性。這種連續(xù)性使得我們能夠進(jìn)行軌跡的預(yù)測(cè)和補(bǔ)全。當(dāng)遇到部分或完全遮擋時(shí),可以利用軌跡數(shù)據(jù)進(jìn)行有效的預(yù)測(cè),從而超越人類感知的局限,實(shí)現(xiàn)對(duì)環(huán)境的更準(zhǔn)確預(yù)測(cè)。
交互不僅涉及環(huán)境適應(yīng),還包括智能體的主動(dòng)探索。通過在虛擬環(huán)境中進(jìn)行訓(xùn)練,可以顯著提高智能體的效率和安全性。這種方法避免了在真實(shí)世界中進(jìn)行高風(fēng)險(xiǎn)試驗(yàn),減少了實(shí)驗(yàn)成本,同時(shí)更高效地提升了智能體的性能。總的來說,未來的自動(dòng)駕駛系統(tǒng)將依賴于多模態(tài)的視覺理解、強(qiáng)大的交互能力以及智能體的主動(dòng)學(xué)習(xí),以實(shí)現(xiàn)更智能和更安全的自動(dòng)駕駛。在實(shí)現(xiàn)高級(jí)智能體時(shí),虛擬世界的模擬和深度強(qiáng)化學(xué)習(xí)的結(jié)合顯得尤為重要。傳統(tǒng)的學(xué)習(xí)方式往往受限于物理世界中的高成本和低效率,而虛擬環(huán)境的應(yīng)用可以極大地提升智能體的學(xué)習(xí)效率和能力。
人類在現(xiàn)實(shí)世界中的學(xué)習(xí)過程通常受到時(shí)間和資源的限制。例如,一個(gè)工人在一生中可能只能專注于一項(xiàng)技能,效率較低。然而,智能體在虛擬世界中進(jìn)行學(xué)習(xí)和探索,可以突破這些限制。虛擬世界的高效交互學(xué)習(xí)使得智能體能夠在短時(shí)間內(nèi)掌握多種技能,實(shí)現(xiàn)比人類更強(qiáng)的能力。這是因?yàn)樘摂M世界可以模擬各種邊緣事件,智能體可以在其中進(jìn)行大量的主動(dòng)探索,從而獲得更全面的學(xué)習(xí)體驗(yàn)。
構(gòu)建一個(gè)完整的數(shù)字孿生系統(tǒng),或者說一個(gè)虛實(shí)平行世界,雖然費(fèi)用高昂,但它對(duì)于提升智能體的能力至關(guān)重要。數(shù)字孿生系統(tǒng)需要模擬現(xiàn)實(shí)世界的復(fù)雜性,包括物體的CAD造型、它們的相互關(guān)系以及動(dòng)力學(xué)屬性,如圖10所示。這種系統(tǒng)不僅需要視覺上的逼真,還要求在運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)上的一致性。
圖10 世界模擬器與 深度強(qiáng)化學(xué)習(xí)的作用
近年來,像生成視頻技術(shù)的發(fā)展,為這一領(lǐng)域帶來了新的希望。通過簡(jiǎn)單的文本提示,可以生成符合物理學(xué)規(guī)律的合成視頻數(shù)據(jù)。這種技術(shù)可以增強(qiáng)訓(xùn)練數(shù)據(jù),提升深度學(xué)習(xí)模型在復(fù)雜環(huán)境中的表現(xiàn),最終實(shí)現(xiàn)最優(yōu)策略的交互式探索。
智能體在虛擬世界中的表現(xiàn),不僅能模仿人類行為,還能超越人類的能力。虛擬環(huán)境允許智能體同時(shí)處理多種任務(wù),例如它可以在虛擬世界中既是泥瓦工,又是鐵匠,甚至在某些領(lǐng)域超越人類。這種全面的模擬和訓(xùn)練,使得智能體能夠在真實(shí)環(huán)境中表現(xiàn)得更加優(yōu)秀。
深度強(qiáng)化學(xué)習(xí)在虛擬環(huán)境中能夠快速提升智能體的行動(dòng)能力。智能體在虛擬世界中進(jìn)行交互,進(jìn)行自主學(xué)習(xí),能夠快速調(diào)整策略和行為,實(shí)現(xiàn)比人類更高水平的智能行為。通過將虛擬世界的經(jīng)驗(yàn)轉(zhuǎn)化為現(xiàn)實(shí)世界的應(yīng)用,智能體能夠有效地完成復(fù)雜任務(wù),并在某些領(lǐng)域超越人類水平。
在開放域環(huán)境中實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的自主探索面臨諸多挑戰(zhàn),尤其是在如何在復(fù)雜且未定義的環(huán)境中進(jìn)行有效的學(xué)習(xí)和決策方面。一個(gè)核心問題是如何定義智能體的智商,并與人類智商進(jìn)行比較。這不僅有助于理解智能體是否能夠達(dá)到或超越人類的認(rèn)知水平,還關(guān)系到通過交互式學(xué)習(xí)是否能實(shí)現(xiàn)這一目標(biāo)。為了實(shí)現(xiàn)這種能力,智能體需要在大量的實(shí)驗(yàn)和模擬中不斷調(diào)整和驗(yàn)證。
另一個(gè)重要問題是如何在連續(xù)的潛空間中進(jìn)行事件軌跡的學(xué)習(xí)。這包括在這種空間內(nèi)生成最優(yōu)的交互信息,以實(shí)現(xiàn)有效的學(xué)習(xí)。這種學(xué)習(xí)不僅要求理解事件的感知,還需要生成軌跡并進(jìn)行動(dòng)態(tài)的、開放域的交互式學(xué)習(xí)。如何在面對(duì)邊緣事件和長(zhǎng)遠(yuǎn)問題時(shí)保持學(xué)習(xí)的連貫性和有效性,是這一過程中必須解決的關(guān)鍵問題。
關(guān)于視覺智能的涌現(xiàn),值得關(guān)注的是,是否存在一種情況,智能體在經(jīng)過大量訓(xùn)練后能夠自動(dòng)理解和處理新的視覺數(shù)據(jù),而無需進(jìn)一步的示例或監(jiān)督。這可能表明視覺智能的涌現(xiàn),意味著智能體能夠在無需人工標(biāo)注或額外訓(xùn)練數(shù)據(jù)的情況下,自行理解和處理類似的圖像。
四、高階NOA 與 L3/L4 自動(dòng)駕駛規(guī)模化產(chǎn)業(yè)落地分析
高級(jí)的NOA與L3、L4自動(dòng)駕駛的規(guī)模化產(chǎn)業(yè)落地正成為當(dāng)前的焦點(diǎn)。L2++的自動(dòng)駕駛技術(shù)已經(jīng)實(shí)現(xiàn)了商業(yè)化應(yīng)用,成為智能電動(dòng)汽車的標(biāo)配,用戶和市場(chǎng)對(duì)其認(rèn)可度不斷提高。無論是新能源汽車還是傳統(tǒng)燃油車,L2++的NOA已經(jīng)被廣泛應(yīng)用,提升了駕駛的便利性和安全性。
然而,L3和L4自動(dòng)駕駛技術(shù)的商業(yè)化進(jìn)程仍處于測(cè)試階段。例如,武漢的蘿卜快跑網(wǎng)約車和特斯拉的FSD V12等項(xiàng)目已經(jīng)開始進(jìn)行商業(yè)化運(yùn)營(yíng),引起了廣泛的社會(huì)關(guān)注。這些技術(shù)曾被認(rèn)為距離實(shí)際應(yīng)用還有很長(zhǎng)時(shí)間,但現(xiàn)在已經(jīng)開始影響到我們的生活和就業(yè)。
L3和L4自動(dòng)駕駛的主要挑戰(zhàn)包括進(jìn)一步降低接管率、規(guī)范化規(guī)模化操作以及提升用戶體驗(yàn)。與L2++的NOA不同,L3和L4的技術(shù)更加先進(jìn),L3級(jí)別的自動(dòng)駕駛需要駕駛員保持一定的監(jiān)督,但主要依賴自動(dòng)化系統(tǒng),而L4則進(jìn)一步推進(jìn)了無人駕駛,理論上不需要任何形式的安全員。
L2++和L3的區(qū)別在于法律責(zé)任的劃分。L2++階段,安全員仍需承擔(dān)主要的法律責(zé)任,而在L3階段,機(jī)器的責(zé)任逐漸增大,安全員的角色變?yōu)檩o助。L4階段則是一個(gè)顛覆性的技術(shù)進(jìn)步,不僅在技術(shù)層面上突破了傳統(tǒng)限制,也在產(chǎn)業(yè)戰(zhàn)略上具有重要意義。L4的實(shí)現(xiàn)標(biāo)志著無人駕駛技術(shù)的成熟,將對(duì)整個(gè)行業(yè)產(chǎn)生深遠(yuǎn)的影響。
技術(shù)路線的選擇在自動(dòng)駕駛領(lǐng)域尤為重要,尤其是面對(duì)邊緣事件的處理、環(huán)境適應(yīng)性提升以及自主性增強(qiáng)的需求。大模型技術(shù)提供了一個(gè)歷史性的機(jī)遇,使得端到端的解決方案成為可能。這種方法通過學(xué)習(xí)大規(guī)模的數(shù)據(jù),能夠應(yīng)對(duì)各種復(fù)雜情況,而不必窮舉所有可能的漏洞或情況。這意味著,盡管模型和代碼可能變得更簡(jiǎn)單,但對(duì)數(shù)據(jù)的需求卻顯著增加。
當(dāng)前,大模型在處理海量數(shù)據(jù)方面展現(xiàn)出強(qiáng)大的能力。例如,GPT在不到三年的時(shí)間內(nèi)就能學(xué)習(xí)并處理大量的文本數(shù)據(jù),遠(yuǎn)超人類的學(xué)習(xí)能力。這種能力的實(shí)現(xiàn)離不開高效的自建模型學(xué)習(xí)和強(qiáng)大的計(jì)算資源。雖然大模型的開發(fā)和應(yīng)用依賴于大量的數(shù)據(jù),但其高效的學(xué)習(xí)能力使得它能夠模擬和處理復(fù)雜的語料,逐步具備初步的邏輯推理能力。
然而,AI技術(shù)的產(chǎn)業(yè)化部署面臨著高預(yù)算要求,特別是在高階視覺和長(zhǎng)時(shí)空上下文訓(xùn)練方面。自動(dòng)駕駛的開放環(huán)境和長(zhǎng)時(shí)間序列要求高效的訓(xùn)練方式,同時(shí)需要綜合運(yùn)用大語言模型、多模態(tài)視覺模型和通用世界模擬器。通用世界模擬器能夠生成合成視頻數(shù)據(jù),從而補(bǔ)充訓(xùn)練數(shù)據(jù),但這也需要大量的計(jì)算資源。雖然大模型使得代碼和模型變得更加簡(jiǎn)潔,但對(duì)數(shù)據(jù)的需求和計(jì)算資源的消耗仍然很大。
端到端的視頻動(dòng)作解決方案對(duì)數(shù)據(jù)的需求極其高,需要大量的短視頻和動(dòng)作數(shù)據(jù)來進(jìn)行有效的訓(xùn)練。這種解決方案的實(shí)現(xiàn)依賴于極大的AI算力,特別是在聯(lián)合預(yù)訓(xùn)練階段。在這一階段,通常需要百萬量級(jí)的短視頻數(shù)據(jù)。短視頻因其信息量大且重復(fù)較少,適合用于大規(guī)模數(shù)據(jù)處理。預(yù)訓(xùn)練階段是最為算力密集的,因?yàn)樯婕暗教幚泶罅繑?shù)據(jù)并建立初步模型。
在進(jìn)行模型微調(diào)和測(cè)試端的規(guī)模化部署時(shí),依然需要大量的算力。例如,在整個(gè)北京市或全國(guó)范圍內(nèi)進(jìn)行產(chǎn)業(yè)化部署時(shí),需要的算力和能耗都是巨大的。經(jīng)濟(jì)區(qū)訓(xùn)練可能需要達(dá)到幾十萬的AI大算力規(guī)模,這對(duì)硬件資源的需求非常高,如圖11所示。
圖11 端到端視覺動(dòng)作大模型
除了算力,數(shù)據(jù)的采集和清洗也是關(guān)鍵。為了構(gòu)建有效的數(shù)據(jù)和數(shù)據(jù)閉環(huán),需要處理百萬量級(jí)的短視頻和相應(yīng)的動(dòng)作序列數(shù)據(jù)。這些數(shù)據(jù)包括真實(shí)的視頻數(shù)據(jù)和合成的視頻數(shù)據(jù)。合成數(shù)據(jù)的比例可能隨著技術(shù)的發(fā)展而增大,這要求在數(shù)據(jù)處理過程中進(jìn)行精確的分割和標(biāo)注。
特別是在視頻數(shù)據(jù)處理中,需要精確的掩模分割,以確保每個(gè)視頻幀中的物體被準(zhǔn)確標(biāo)注,如圖12所示。雖然自監(jiān)督學(xué)習(xí)可以減少對(duì)人工標(biāo)簽的依賴,但初期的人工標(biāo)注仍然是必要的。數(shù)據(jù)標(biāo)注經(jīng)歷了人工、半自動(dòng)和全自動(dòng)處理過程,以確保高質(zhì)量的分割和標(biāo)注結(jié)果。例如,車體和建筑風(fēng)格的掩模分割需要特別精確,而行人等非規(guī)則形體的掩模分割則更具挑戰(zhàn)性。
圖12 數(shù)據(jù)采集與清洗
特斯拉早期就專注于自動(dòng)駕駛數(shù)據(jù)的積累,并且在全球范圍內(nèi)獲取了大量的真實(shí)短視頻數(shù)據(jù)。截至2021年,他們的數(shù)據(jù)量已經(jīng)超過10億英里(約16億公里)。雖然這一數(shù)據(jù)量龐大,但數(shù)據(jù)的質(zhì)量和標(biāo)準(zhǔn)仍然是一個(gè)關(guān)鍵問題。許多車企盡管已經(jīng)開始積累數(shù)據(jù),但在高質(zhì)量數(shù)據(jù)的收集和處理上仍面臨挑戰(zhàn)。
企業(yè)的核心競(jìng)爭(zhēng)力越來越依賴于數(shù)據(jù),而不僅僅是算力。盡管算力可以通過采購(gòu)或自主研發(fā)獲得,例如特斯拉已經(jīng)在自建芯片和算力方面有所突破,但數(shù)據(jù)的獲取、處理和質(zhì)量控制顯然更加復(fù)雜且重要。高質(zhì)量的數(shù)據(jù)不僅是訓(xùn)練模型的基礎(chǔ),還直接影響到系統(tǒng)的準(zhǔn)確性和可靠性。
在視覺神經(jīng)網(wǎng)絡(luò)的應(yīng)用中,數(shù)據(jù)的質(zhì)量和多模態(tài)理解能力至關(guān)重要。自動(dòng)駕駛系統(tǒng)需要處理的圖像數(shù)據(jù)不僅僅是視覺信息,還涉及到聽覺、語音等多模態(tài)信息的交叉理解。這種多模態(tài)感知能力對(duì)于精確的動(dòng)作規(guī)劃和環(huán)境理解非常重要。系統(tǒng)需要在開放環(huán)境中進(jìn)行有效的時(shí)空觀測(cè)和理解,以支持可靠的動(dòng)作模擬和決策。
開放域問題是另一個(gè)關(guān)鍵挑戰(zhàn)。開放域視覺系統(tǒng)需要處理各種未見過的新類別和場(chǎng)景,具備強(qiáng)大的泛化能力。智能涌現(xiàn)和零樣本學(xué)習(xí)的研究方向在這方面展示了潛力,例如利用Transformer模型來實(shí)現(xiàn)更好的語義對(duì)齊和目標(biāo)檢測(cè)技術(shù),從而提升對(duì)開放域的處理能力。
在自動(dòng)駕駛領(lǐng)域,端到端視覺動(dòng)作模型是核心技術(shù)之一。這種模型集成了大量的數(shù)據(jù)和算力,能夠?qū)崿F(xiàn)自動(dòng)駕駛的核心功能,如環(huán)境感知、決策和控制。單車智能方案依賴于視覺系統(tǒng),包括攝像頭、激光雷達(dá)和毫米波雷達(dá)等設(shè)備,用于實(shí)時(shí)感知周圍環(huán)境,進(jìn)行動(dòng)作規(guī)劃和決策。通過虛擬平行世界和模擬器的結(jié)合,能夠進(jìn)行交互式學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí),從而提升自動(dòng)駕駛的能力和安全性。利用合成視頻數(shù)據(jù)進(jìn)行訓(xùn)練,有助于提高系統(tǒng)的安全性和準(zhǔn)確性,推動(dòng)L3、L4和L5的商業(yè)化進(jìn)程。
此外,將單車智能與智能路網(wǎng)結(jié)合的方案,包括車路云一體化,進(jìn)一步提升了自動(dòng)駕駛的安全性和效率,如圖13所示。在這一方案中,遠(yuǎn)程安全員系統(tǒng)能夠通過大模型進(jìn)行預(yù)測(cè)和監(jiān)控,從而處理多輛車的復(fù)雜場(chǎng)景。這種一對(duì)多的安全管理模式降低了人力成本,并推動(dòng)了商業(yè)模式的規(guī)模化。大模型在云計(jì)算和邊緣計(jì)算環(huán)境下的應(yīng)用,使得商業(yè)化推廣和規(guī)模化成為可能。
圖13 單車智能+智能路網(wǎng)
要實(shí)現(xiàn)這些技術(shù)突破,還需要技術(shù)和政策的支持。技術(shù)創(chuàng)新需要在地面、云端或邊緣進(jìn)行有效的支撐,以確保系統(tǒng)的穩(wěn)定性和可靠性。同時(shí),政策法規(guī)的支持,包括政府的激勵(lì)措施和創(chuàng)新支持,也是實(shí)現(xiàn)商業(yè)化落地的關(guān)鍵。建立車隊(duì)行駛的安全評(píng)估體系,提升對(duì)一對(duì)多云接管的安全預(yù)測(cè)能力,將幫助安全員實(shí)現(xiàn)對(duì)更多車輛的安全接管,從而推動(dòng)自動(dòng)駕駛技術(shù)的進(jìn)步和商業(yè)化推廣。