他讓計(jì)算機(jī)成為“看圖說(shuō)話”的高手

2022-10-09 15:18:00 來(lái)源: 科技日?qǐng)?bào) 作者: 劉紅平?吳長(zhǎng)鋒


繪圖:央美互動(dòng)

劉紅平 科技日?qǐng)?bào)記者 吳長(zhǎng)鋒

人們?cè)诮涣鲿r(shí),會(huì)借助手勢(shì)傳達(dá)一些信息。而對(duì)于聽(tīng)力障礙者來(lái)說(shuō),手勢(shì)不是輔助交流手段,而幾乎是他們最主要的溝通方式。

合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院教授汪萌在多媒體智能領(lǐng)域所取得的科研成果,可以讓計(jì)算機(jī)精確理解手語(yǔ)視覺(jué)意圖,并能夠自動(dòng)生成多語(yǔ)種語(yǔ)言。他的這些成果,為聽(tīng)障人士運(yùn)用現(xiàn)代信息化手段與外界互動(dòng)交流,開(kāi)辟了一個(gè)新通道。

“我們的目標(biāo),就是讓計(jì)算機(jī)對(duì)多媒體信息的理解日益接近人類水平。”汪萌對(duì)科技日?qǐng)?bào)記者說(shuō)。

從最簡(jiǎn)單的圖片內(nèi)容識(shí)別起步

早在讀研期間,汪萌就將多媒體智能中的多媒體內(nèi)容分析與理解作為自己的研究領(lǐng)域和主攻方向。后來(lái),汪萌24歲獲得博士學(xué)位、27歲受聘為特聘教授、33歲獲得國(guó)家自然科學(xué)基金杰出青年基金資助……外人看來(lái)順風(fēng)順?biāo)目蒲械缆?,他卻覺(jué)得自己走得異常艱辛。

“最初,我們從最簡(jiǎn)單的圖片內(nèi)容識(shí)別入手,給計(jì)算機(jī)1000張照片,讓計(jì)算機(jī)識(shí)別出哪些照片是在室內(nèi)拍攝的、哪些又是在室外拍攝的。隨后,再嘗試識(shí)別哪些照片是在城市拍攝的、哪些是在鄉(xiāng)村拍攝的。再后來(lái),才能讓計(jì)算機(jī)識(shí)別照片中的具體內(nèi)容,比如是人還是動(dòng)物、是車還是船等?!蓖裘然貞浀?。

在多媒體智能起步階段,這些簡(jiǎn)單的識(shí)別內(nèi)容,一度難倒了以處理數(shù)據(jù)見(jiàn)長(zhǎng)的計(jì)算機(jī)。帶著這些問(wèn)題,汪萌開(kāi)展了一系列研究,終于將初階的計(jì)算機(jī)識(shí)別難題給攻克了,但完成這些才只是開(kāi)始。

在此基礎(chǔ)上,汪萌開(kāi)始研究描述生成,即給計(jì)算機(jī)一張圖片,讓計(jì)算機(jī)用一句話描述其中包含的信息,這被汪萌形象地稱為“教計(jì)算機(jī)看圖說(shuō)話”。

經(jīng)過(guò)2年的集中攻關(guān),汪萌終于“教”會(huì)計(jì)算機(jī)用自主生成的、具有主謂賓結(jié)構(gòu)的語(yǔ)句對(duì)圖片進(jìn)行描述,但是這種描述能力也只是勉強(qiáng)達(dá)到5歲孩子的語(yǔ)言表達(dá)水平,遠(yuǎn)未達(dá)到可以被大規(guī)模推廣應(yīng)用的程度,需要攻克的問(wèn)題還有很多。

將研發(fā)技術(shù)在多領(lǐng)域進(jìn)行應(yīng)用并取得成果

“研究中的每一個(gè)進(jìn)步,都來(lái)之不易。想要在高水平的智能化道路上走得更遠(yuǎn),我和團(tuán)隊(duì)成員只能腳踏實(shí)地、逐個(gè)攻克難題。”汪萌告訴記者,隨著研究的深入,計(jì)算機(jī)內(nèi)容分析的智能化水平在不斷提升,它的理解能力也越來(lái)越強(qiáng),描述的語(yǔ)言更加豐富、生動(dòng)。

“我們逐步實(shí)現(xiàn)了人機(jī)問(wèn)答和對(duì)話,讓計(jì)算機(jī)在‘看’完一部電影后,向我們描述其中一段情節(jié),進(jìn)而讓計(jì)算機(jī)針對(duì)某個(gè)問(wèn)題或一系列關(guān)聯(lián)性問(wèn)題做出準(zhǔn)確的回答?!蓖裘然貞浀?。

十余年的持續(xù)攻關(guān),汪萌帶領(lǐng)團(tuán)隊(duì)成員圍繞可解釋的多媒體智能技術(shù)在視覺(jué)內(nèi)容情感分析、視覺(jué)非接觸式生理信號(hào)檢測(cè)、多模態(tài)抑郁癥診斷、情緒相關(guān)微動(dòng)作檢測(cè)與識(shí)別等領(lǐng)域的應(yīng)用進(jìn)行了先期探索,并取得的一系列突破性的成果。

“在這一系列成果的支撐下,如今架起一個(gè)廣角鏡頭,計(jì)算機(jī)通過(guò)鏡頭‘看到’自動(dòng)監(jiān)控畫(huà)面中的人與物,就能分析、推理其中相關(guān)物品、人物的關(guān)系,判斷其是否存在安全隱患,從而實(shí)現(xiàn)對(duì)某些特定場(chǎng)所的安全感知、預(yù)警和管控?!蓖裘日f(shuō)。

填補(bǔ)電力施工現(xiàn)場(chǎng)安全管控系統(tǒng)領(lǐng)域的技術(shù)空白

汪萌告訴記者,他和團(tuán)隊(duì)成員取得的原創(chuàng)性成果已經(jīng)“走”出了實(shí)驗(yàn)室,為國(guó)家建設(shè)和社會(huì)發(fā)展貢獻(xiàn)力量。

“我和團(tuán)隊(duì)成員為電力施工現(xiàn)場(chǎng)設(shè)計(jì)出了一整套智能感知、云邊協(xié)同、全過(guò)程可視化的電力工程現(xiàn)場(chǎng)安全解決方案和軟硬件系統(tǒng),有效地提升了電力施工現(xiàn)場(chǎng)的安全水平?!蓖裘缺硎?,他們的成果應(yīng)用在全國(guó)超過(guò)120個(gè)地市的工程現(xiàn)場(chǎng),實(shí)現(xiàn)了對(duì)電力工程現(xiàn)場(chǎng)的遠(yuǎn)程實(shí)時(shí)監(jiān)控和智能識(shí)別分析,還可以對(duì)其進(jìn)行綜合風(fēng)險(xiǎn)預(yù)判,進(jìn)而降低了電力施工現(xiàn)場(chǎng)的安全風(fēng)險(xiǎn)。

汪萌及其團(tuán)隊(duì)的這一研究成果,填補(bǔ)了我國(guó)電力施工現(xiàn)場(chǎng)安全管控系統(tǒng)領(lǐng)域的技術(shù)空白,建立了擁有自主知識(shí)產(chǎn)權(quán)的技術(shù)體系,為電力工程大規(guī)模建設(shè)提供了技術(shù)保障。

如今,汪萌和他的團(tuán)隊(duì)成員正在探索將研究成果應(yīng)用在無(wú)障礙引導(dǎo)、輔助教學(xué)、智能聊天機(jī)器人和無(wú)人駕駛等更多場(chǎng)景中,改善殘障人士的生活并推動(dòng)新興產(chǎn)業(yè)的發(fā)展。

責(zé)任編輯: 許茜