
時(shí)間:9月23日下午15:00
地點(diǎn):主樓536會(huì)議室
報(bào)告摘要:近年來(lái),得益于計(jì)算機(jī)視覺(jué)技術(shù)和自然語(yǔ)言處理技術(shù)的蓬勃發(fā)展,使用視覺(jué)與語(yǔ)言等多模態(tài)數(shù)據(jù)進(jìn)行綜合推理成為了人工智能領(lǐng)域關(guān)注的焦點(diǎn)之一。在此基礎(chǔ)上,結(jié)合了機(jī)器人動(dòng)作預(yù)測(cè)的視覺(jué)語(yǔ)言導(dǎo)航任務(wù)被提出來(lái),將問(wèn)題拓展到了視覺(jué)-語(yǔ)言-動(dòng)作的方向上來(lái)。該任務(wù)要求機(jī)器人理解自然語(yǔ)言形式的導(dǎo)航指令,并通過(guò)執(zhí)行一系列導(dǎo)航動(dòng)作到達(dá)指定地點(diǎn)。該任務(wù)涵蓋了自然語(yǔ)言理解、導(dǎo)航策略設(shè)計(jì)和多模態(tài)數(shù)據(jù)融合等多個(gè)科學(xué)問(wèn)題,解決這些問(wèn)題是邁向視覺(jué)推理的必經(jīng)之路。本次學(xué)術(shù)報(bào)告將介紹融合知識(shí)表征學(xué)習(xí)的視覺(jué)語(yǔ)言導(dǎo)航研究,重點(diǎn)探討如何在視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中提升導(dǎo)航器的推理能力與可解釋性。研究的主要?jiǎng)?chuàng)新包括:提出物體信息融合方法,增強(qiáng)導(dǎo)航器對(duì)簡(jiǎn)潔指令的感知能力;通過(guò)設(shè)計(jì)高階場(chǎng)景信息編碼器,注入房型提示信息,提升導(dǎo)航器的場(chǎng)景感知能力;基于大規(guī)模語(yǔ)言模型,構(gòu)建可解釋的導(dǎo)航推理算法,提升導(dǎo)航器的泛化能力和推理效率。
主講嘉賓簡(jiǎn)介:詹昭煥,男,廣東汕尾人。本科就讀于東北大學(xué)自動(dòng)化專(zhuān)業(yè),碩士就讀于四川大學(xué)信息與通信工程專(zhuān)業(yè),博士就讀于中山大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)。主要從事多模態(tài)人工智能、具身智能和計(jì)算機(jī)視覺(jué)等研究,以第一作者身份在相關(guān)領(lǐng)域知名期刊上發(fā)表多篇論文,包括IEEE TCSVT、Neurocomputing等。另以主要參與人的身份在多個(gè)國(guó)內(nèi)外知名期刊或會(huì)議上發(fā)表論文逾10篇。擔(dān)任IEEE TCSVT,Information Fusion,ACM Mm等國(guó)際期刊或會(huì)議審稿人。曾作為主要參與人參與國(guó)家自然科學(xué)基金面上項(xiàng)目和深圳市基礎(chǔ)研發(fā)重點(diǎn)項(xiàng)目,曾榮獲四川大學(xué)優(yōu)秀碩士。