據(jù)谷田介紹,如何將新型視頻會(huì)議系統(tǒng)擬人化,以貼近人工智能需求,是雅馬哈PJP系列倡導(dǎo)的最新網(wǎng)絡(luò)會(huì)議技術(shù)理念。這些理念將通過瞬間呈現(xiàn)技術(shù)、聲音非增幅音響設(shè)計(jì)、內(nèi)置適應(yīng)型回聲消除器等一系列技術(shù)得以體現(xiàn)。
假如甲地和乙地一起舉行遠(yuǎn)程視頻會(huì)議,甲地人員如何清楚確定乙地哪位與會(huì)者正在發(fā)言(視頻追蹤)十分重要。在處理這一問題上,思科、北電—寶利通采取的措施霸氣十足:打造一個(gè)30萬美元以上的網(wǎng)真會(huì)議室,租用超寬帶寬傳輸聲音和圖像,用超大電視墻1∶1地還原場景和參會(huì)者;而蘇州科達(dá)等國內(nèi)企業(yè)的做法相對(duì)經(jīng)濟(jì)實(shí)惠:用甲地員工手中的遙控器去控制乙地會(huì)議室攝像頭的轉(zhuǎn)動(dòng)和焦距調(diào)節(jié),尋找小顯示屏幕一次裝不下的參會(huì)者或給出特寫鏡頭?傮w來說,這兩種做法都使用的是“尋聲辨人”的方式,但用的是人眼搜索。
雅馬哈給這一問題增加了一條技術(shù)解決路徑,那就是使攝像頭學(xué)會(huì)尋聲辨人。谷田向記者介紹道:“不要忽略人類都是‘尋聲望去’這一聽覺的天性,在視頻會(huì)議系統(tǒng)中,視頻顯示與聲音的處理技術(shù)其實(shí)是密不可分的。以PJP-300V這款攝像頭、麥克風(fēng)、揚(yáng)聲器一體機(jī)為例,它可以實(shí)現(xiàn)說話人瞬間顯示的功能。即使使用普通液晶屏幕,會(huì)議發(fā)言人的特寫和聲音也能瞬間呈現(xiàn)!边@項(xiàng)技術(shù)的實(shí)現(xiàn),依靠的是在PJP-300V上面配列16個(gè)麥克風(fēng)陣列,可以自動(dòng)判別說話人的位置;通過說話人的位置信息和3個(gè)攝像機(jī)的切換、聯(lián)動(dòng),使說話人可以瞬間在屏幕上顯示出來。這項(xiàng)技術(shù)不需要攝像頭的切換動(dòng)作,保證了會(huì)議順暢進(jìn)行。同時(shí)這項(xiàng)瞬間呈現(xiàn)技術(shù),在桌面型VoIP電話中也可以應(yīng)用,使音頻會(huì)議呈現(xiàn)立體感,實(shí)現(xiàn)與語話者座位的匹配。