2月21日,清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)發(fā)布一項(xiàng)研究顯示,以自動(dòng)駕駛這一安全關(guān)鍵領(lǐng)域?yàn)檩d體,首次通過(guò)“人類(lèi)眼動(dòng)追蹤實(shí)驗(yàn)+算法對(duì)比驗(yàn)證”的雙軌設(shè)計(jì),系統(tǒng)性拆解了人類(lèi)與智駕算法視覺(jué)注意力的本質(zhì)差異。其核心價(jià)值在于提出人類(lèi)駕駛注意力的三階段量化劃分框架,并證實(shí)智駕算法視覺(jué)理解的核心缺陷是缺乏“語(yǔ)義顯著性提取能力”,而融入人類(lèi)檢查階段的語(yǔ)義注意力,能以經(jīng)濟(jì)高效的方式填補(bǔ)專(zhuān)業(yè)算法的“語(yǔ)義鴻溝”與大模型的“接地鴻溝”,無(wú)需依賴(lài)大規(guī)模預(yù)訓(xùn)練。
研究團(tuán)隊(duì)通過(guò)招募專(zhuān)家與新手司機(jī)完成危險(xiǎn)檢測(cè)、可用性識(shí)別、異常檢測(cè)三類(lèi)任務(wù),結(jié)合眼動(dòng)數(shù)據(jù)劃分注意力階段,再將不同階段注意力融入AxANet、UniAD等專(zhuān)業(yè)算法及DriveLM等視覺(jué)語(yǔ)言模型(VLM),最終揭示人類(lèi)與智駕算法注意力的核心差異并非“空間定位”,而是“語(yǔ)義理解”。人類(lèi)能通過(guò)自上而下的認(rèn)知賦予場(chǎng)景特征語(yǔ)義優(yōu)先級(jí),而智駕算法難以自主習(xí)得這一能力。該發(fā)現(xiàn)為自動(dòng)駕駛算法的性能提升提供了非規(guī)模化的新路徑,對(duì)資源受限的車(chē)載實(shí)時(shí)系統(tǒng)部署具有重要實(shí)踐意義。
編輯:李華山