3月初,三星電子在紐約發(fā)布了最新的GALAXY S4智能手機,其中一項名為Eye Scrolling(眼球控制)的技術頗為搶眼。這項技術可以通過手機的前置攝像頭來跟蹤用戶的視線,從而對手機進行簡單的操作。
動動眼球,手機屏幕就能自動翻頁;手指懸空,網(wǎng)頁瀏覽也能操作自如;動動嘴皮,眼鏡還能即時拍照……這不是什么科幻電影里面的場景,而是正在走進我們生活的技術創(chuàng)新。
語音技術全面走入生活
在近年來不斷涌現(xiàn)的人機交互技術創(chuàng)新中,除了多點觸控之外,最為人們熟知的應該要算語音技術了,這還得感謝iPhone的推廣。2012年,蘋果在iPhone上推出了一項名為Siri的語音技術,在原有的Voice Control(語音控制)功能上加入了在線云服務功能,將語音識別技術全面推向了云時代。其實Siri并非語音交互技術的首創(chuàng),早在iPhone面世之前,索尼愛立信就推出Track ID技術,可以通過錄制音樂片段自動在網(wǎng)絡上搜索并下載原曲。
今時今日的語音交互技術可不只限于音樂搜索那么簡單。蘋果iPhone上的Siri利用云端服務器的智能化“學習”功能,不斷搜集不同用戶的喜好并自動優(yōu)化,在人機互動方面的聰明勁兒曾經(jīng)讓不少用戶樂此不疲地“調(diào)戲”它!罢Z音最大的優(yōu)勢是,它是人類最自然的交互方式!睓C器學習技術專家、百度多媒體部副總監(jiān)余凱說,以語音搜索為例,基于自然語言的搜索請求將會成為移動互聯(lián)時代的主流搜索方式之一。“如今的語音搜索不同于傳統(tǒng)搜索模式,不是基于無關聯(lián)的幾個關鍵詞來反饋結(jié)果,而是能夠理解用戶指令,完成一項完整的任務。”
正是因為在語音交互技術上取得了這種智能化、云端化的突破,在經(jīng)過了20多年的醞釀準備之后,目前語音交互技術已經(jīng)開始通過智能手機、平板電腦等不同終端平臺大規(guī)模進入到普通人的生活。以智能手機為例,目前提供語音交互的應用已經(jīng)十分豐富,語音搜索、語音輸入法、語音導航軟件、語音社交軟件等大量相關應用不斷涌現(xiàn)。在這方面,中國的技術水平相當靠前。目前在中文語音交互技術領域,去年才被中國移動注資的科大訊飛已經(jīng)占據(jù)了70%以上的市場份額!皣鴥(nèi)正在形成持續(xù)的語音產(chǎn)業(yè)價值鏈,國內(nèi)語音技術的市場應用正在大踏步前進!笨拼笥嶏w董事長劉慶峰表示,目前中國在中英文語音產(chǎn)業(yè)方面的技術能力已完全和美國等世界一流國家同步。
“語音技術是一門交叉學科,它的突飛猛進還得仰仗著數(shù)字信號處理、人工智能、大數(shù)據(jù)合成等各種領域技術的突破!盪C優(yōu)視的CEO俞永福表示,機器要能夠準確識別語音并像人一樣通過理解判斷作出回應,需要基于大量的“學習”,才能與人一樣根據(jù)過去的經(jīng)驗進行判斷預測。這種“學習”有兩種方法:通過在數(shù)據(jù)中找尋類似事例來提供解決方案,或是通過歸納出許多數(shù)據(jù)樣本的共性來對這件事情作出判斷,這也是語音技術發(fā)展的難點。所幸的是,近年來大數(shù)據(jù)和云計算的高速發(fā)展大大提高了機器對數(shù)據(jù)的處理能力,為機器學習提供了大量“素材”,并且提高了它的學習速度。俞永福預測,在云計算和大數(shù)據(jù)的有力推動下,未來幾年語音交互技術將會取得爆炸性的發(fā)展。
體感交互逐步走向成熟
在語音交互走紅的同時,另一類創(chuàng)新的交互方式也在逐漸走向成熟,那就是體感式交互技術。3月初,三星電子在紐約發(fā)布了最新的GALAXY S4智能手機,作為蘋果的最強勁對手,這一次三星居然沒有在硬件配置等方面大做文章,反而將軟件應用和人機交互技術的創(chuàng)新作為主要賣點,而在三星羅列的眾多“足以自傲”的技術中,一項名為Eye Scrolling(眼球控制)的技術頗為搶眼,這項技術可以通過手機的前置攝像頭來跟蹤用戶的視線,從而對手機進行簡單的操作。這聽起來實在有些不可思議。
據(jù)現(xiàn)場體驗了該項技術的媒體報道,就實用效果而言,目前三星眼球控制技術的成熟度還不是太高,具體表現(xiàn)在對用戶眼球動作的辨識度不夠,導致操作的反應不夠流暢,另外也缺乏足夠的第三方應用支持,只能在三星自家的瀏覽器等專屬應用上實現(xiàn)操控效果,但這無疑為人機交互提供了一種全新的發(fā)展方向。
當然,對于眼球控制技術的實用性,目前業(yè)界還有不少爭議。不少專家認為眼球控制技術的難點在于機器如何對人類眼睛動作的真實意圖進行有效識別,“有時候人們眨眼或者轉(zhuǎn)動眼球都是無意識的,但機器不見得能夠分辨得出來,這樣就可能會造成比較多的誤操作!盧eational智能實驗室的技術員劉毅直言,就目前手機攝像頭的捕捉能力和手機的智能計算能力,眼球控制的精準性恐怕很難保證!暗@個技術的前景十分可觀,因為如果成熟了的話,就意味著那些四肢有殘障或者喪失語言能力的殘疾人也能方便地使用移動智能設備了!
相對于眼球控制技術的不成熟,同樣屬于體感交互技術之一的肢體動作捕捉技術卻已經(jīng)開始普及。這方面,家用娛樂設備廠商可謂急先鋒。最早在這方面有所建樹的是日本的任天堂公司,其2006年發(fā)布的Wii游戲機雖然沒有高清的畫面,但是卻在手柄上大做文章,支持感應人體動作來進行操控,從而讓對著電視屏幕打網(wǎng)球成為了一種可能;其后微軟推出的Xbox 360游戲機的體感設備套裝——Kinect更是大獲成功,因為它連傳統(tǒng)的游戲手柄也不需要了,玩家只需要對著Kinect套裝里配置的攝像頭動手動腳就能夠?qū)崿F(xiàn)對游戲的操控,這后面有著先進的動作捕捉技術的支持。
多模人機交互時代即將到來
語音交互、體感交互等眾多新興技術的涌現(xiàn)證明,一個全新的交互時代即將到來。
就創(chuàng)新方向而言,目前交互技術的革命主要集中在三個方面,除了前面提到的語音和體感之外,還有穿戴式設備,這里面最為著名的要數(shù)谷歌公司即將推出的Google Glass(谷歌眼鏡)。這款產(chǎn)品其實是多種交互方式的集合體,在已經(jīng)曝光的功能預告片中,我們看到它集手勢、語音、觸摸等多種觸控方式于一體。之所以會有這樣的設計,主要是因為無論是眼球捕捉還是語音識別,目前都還無法實現(xiàn)精確和快捷的輸入,為了彌補這一缺陷,谷歌甚至還專門申請了手套控制專利,希望通過各種不同操控方式的結(jié)合來滿足更廣泛的需求。
和谷歌有著類似想法的公司不在少數(shù)。目前加拿大、日本、美國的眾多創(chuàng)新公司都在聚焦可穿戴智能設備的研發(fā),而要讓這些設備能夠?qū)崿F(xiàn)和現(xiàn)有智能終端同樣的使用效率,操控方式就必須有所突破!按騻比方吧,智能手表的概念現(xiàn)在很熱,但是手表類產(chǎn)品不管是出于攜帶方便還是美觀的原因,屏幕都沒辦法設計得很大,這種情況下,多點觸控就顯得沒那么實用了,反而語音、手勢捕捉之類的才能更好地搭配這類設備!眲⒁惚硎。
微軟亞洲研究院語音專家宋謌平認為,未來最理想的人機交互方式應該是多模態(tài)的,是許多不同交互方式的無縫結(jié)合,用戶在不同的環(huán)境下,選擇他最喜歡、最習慣并且效果最好的方式,更自然地與機器交互。據(jù)了解,目前微軟已經(jīng)啟動了一項名為NUI(自然用戶界面)的研究項目,希望借助新型的傳感器、更強大的計算能力以及大數(shù)據(jù)和機器學習,讓人類能夠通過語音、手勢和觸摸等更加多元化的方式與計算系統(tǒng)進行互動。
在追求交互方式多元化的同時,人性化、精準化也是交互技術下一輪創(chuàng)新的重要方向。2012年,一家名為Leap Motion的公司格外火爆,該公司宣稱推出的自有體感操控技術要比微軟的Kinect精確100倍以上,而且零延遲。用戶無需使用鍵盤和鼠標,甚至不需要使用觸摸屏,只要隔空動動手指,PC或者平板電腦屏幕上就會發(fā)生相應的反應。“我在網(wǎng)上看過這個公司的視頻,真的很牛,看起來就像那些科幻電影里的一樣!痹诿襟w工作的錢珊珊表示,她個人對于這款號稱將在今年5月13日開售的產(chǎn)品十分感興趣,“如果有條件的話,一定要買一套回來試試!