1多媒體及視訊技術(shù)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,消費類電子、通信、影視及廣播、計算機技術(shù)日益緊密地結(jié)合起來,使得基于互聯(lián)網(wǎng)的多媒體產(chǎn)業(yè)成為本世紀初發(fā)展最快、規(guī)模最大的產(chǎn)業(yè)之一。
多媒體是建立在計算機圖形學(xué)、人機接口技術(shù)、傳感技術(shù)和人工智能等學(xué)科基礎(chǔ)上的綜合性極強的高新信息技術(shù),由其帶來的虛擬現(xiàn)實技術(shù)能創(chuàng)造身臨其境的神奇效果,從而廣泛應(yīng)用于影視、廣告、游戲、教育、會展等領(lǐng)域。2002年全球多媒體產(chǎn)業(yè)產(chǎn)值達300億美元,今年將突破400億美元。前不久,北京經(jīng)濟廣播多媒體財經(jīng)頻道正式運行,實現(xiàn)了廣播節(jié)目既可以聽又可以看的多項全新的廣播服務(wù)功能。北京經(jīng)濟廣播的多媒體財經(jīng)頻道可以全天24小時不間斷地提供全球的外匯市場的行情、報價、市場信息以及與外匯市場相關(guān)的國內(nèi)國際重要財經(jīng)新聞等信息,同時還可以使用節(jié)目中提供的“匯眼”市場分析軟件,自己對市場進行分析,研判外匯市場的走勢。從這個實際例子中也可以看到多媒體業(yè)務(wù)的大部分應(yīng)用都與視訊技術(shù)相關(guān)。在中國市場,視訊技術(shù)主要應(yīng)用于政府會議。
由于政府的工作性質(zhì)和政府對提高辦公效率的需求,這部分應(yīng)用還會繼續(xù)增加。另一方面,隨著以聯(lián)通、網(wǎng)通為代表的新電信運營商的崛起和企業(yè)內(nèi)部基于IP的寬帶基礎(chǔ)網(wǎng)絡(luò)的建設(shè),把需要占用較多帶寬的視頻通訊應(yīng)用到寬帶網(wǎng)絡(luò)上,將成為視訊技術(shù)加速發(fā)展的新動力。
2.1視頻壓縮標準的發(fā)展
傳統(tǒng)的壓縮編碼是建立在香農(nóng)(Shannon)信息論基礎(chǔ)上的,它以經(jīng)典的集合論為基礎(chǔ),用統(tǒng)計概率模型來描述信源,但它未考慮信息接受者的主觀特性及事件本身的具體含義、重要程度和引起的后果。因此,壓縮編碼的發(fā)展歷程實際上是以香農(nóng)信息論為出發(fā)點,一個不斷完善的過程。
從不同角度考慮,數(shù)據(jù)壓縮縮碼具有不同的分類方式。
按信源的統(tǒng)計特性可分為預(yù)測編碼、變換編碼、矢量量化編碼、子帶-小波編碼、神經(jīng)網(wǎng)絡(luò)編碼方法等。
數(shù)眼的視覺特性可能基于方向濾波的圖像編碼、基于圖像輪廓-紋理的編碼方法等。
按圖像傳遞的景物特性可分為分形編碼、基于內(nèi)容的編碼方法等。
隨著產(chǎn)業(yè)化活動的進一步開展,國際標準化組織于1986年、1998年先后成立了聯(lián)合圖片專家組JPEG和運動圖像壓縮編碼組織MPEG。GPEG專家組主要致力于靜態(tài)圖像的幀內(nèi)壓縮編碼標準ISO/IEC10918的制定;MPEG專家組主要致力于運動圖像壓縮編碼標準的制定。經(jīng)過專家組不懈的努力,基于第一代壓縮編碼方法(如預(yù)測編碼、變換編碼、熵編碼及運動補償?shù)龋┑娜N壓縮編碼國際標
視頻技術(shù)
眾所周知,人類通過視覺獲取的信息量約占總信息量的70%,而且視頻信息具有直觀性、可信性等一系列優(yōu)點。所以,視訊技術(shù)中的關(guān)鍵技術(shù)就是視頻技術(shù)。
目前,視頻技術(shù)的應(yīng)用范圍很廣,如網(wǎng)上可視會議、網(wǎng)上可視電子商務(wù)、網(wǎng)上政務(wù)、網(wǎng)上購物、網(wǎng)上學(xué)校、遠程醫(yī)療、網(wǎng)上研討會、網(wǎng)上展示廳、個人網(wǎng)上聊天、可視咨詢等業(yè)務(wù)。
但是,以上所有的應(yīng)用都必須壓縮。傳輸?shù)臄?shù)據(jù)量之大,單純用擴大存儲器容量、增加通信干線的傳輸速率的辦法是不現(xiàn)實的,數(shù)據(jù)壓縮技術(shù)是個行之有效的解決辦法,通過數(shù)據(jù)壓縮,可以把信息數(shù)據(jù)量壓下來,以壓縮形式存儲、傳輸,既節(jié)約了存儲空間,又提高了通信干線的傳輸效率,同時也可使計算機實時處理音頻、視頻信息,以保證播放出高質(zhì)量的視頻、音頻節(jié)目?梢,多媒體數(shù)據(jù)壓縮是非常必要的。由于多媒體聲音、數(shù)據(jù)、視像等信源數(shù)據(jù)有極強的相關(guān)性,也就是說有大量的冗余信息。數(shù)據(jù)壓縮可以將龐大數(shù)據(jù)中的冗余信息去掉(去除數(shù)據(jù)之間的相關(guān)性),保留相互獨立的信息分量,因此,多媒體數(shù)據(jù)壓縮是完全可以實現(xiàn)的。
圖像編碼方法可分為兩代:第一代是基于數(shù)據(jù)統(tǒng)計,去掉的是數(shù)據(jù)冗余,稱為低層壓縮編碼方法;第二代是基于內(nèi)容,去掉的是內(nèi)容冗余,其中基于對象(Object-Based)方法稱為中層壓縮編碼方法,其中基于語義(Syntax-Based)方法稱為高層壓縮編碼方法。
基于內(nèi)容壓縮編碼方法代表新一代的壓縮方法,也是目前最活躍的領(lǐng)域,最早是由瑞典的Forchheimer提出的,隨后日本的Harashima等人也展示了不少研究成果。
2.2運動估計和補償
MPEG-4中提供了基于塊的運動估計和補償技術(shù)來有效地利用各個VOP中視頻內(nèi)容上的時間冗余。一般,運動估計和補償可以看作針對任意形狀圖像序列的塊匹配技術(shù)的延伸。塊匹配過程對于標準宏塊使用;預(yù)測誤差和用于預(yù)測的宏塊運動向量一起被編碼;高級運動補償模式支持重疊塊運動補償,可對8×8塊運動向量進行編碼。為了使運動估計得到高編碼效率,預(yù)測圖像和被預(yù)測圖像越相似越好,所以在運動估計之前要先進行補償。在目標邊界上的MB先用水平填補而后用垂直填補,其余完全在VOP之外的MB用擴張?zhí)钛a。
2.3紋理編碼
紋理指的是I-VOP圖像和P/B-VOP經(jīng)運動補償后殘留的圖像信息。紋理一般在變換域進行壓縮編碼和熵編碼。
準正式編輯已經(jīng)出版:靜態(tài)圖像壓縮編碼標準(JPEG);數(shù)字聲像儲存壓縮編碼標準(MPEG-1);通用視頻圖像壓縮編碼標準(MPEG-2)。
隨后,MPEG專家組于1999年2月正式公布了MPEG-4(ISO/IEC14496)V1.0版本。同年底MPEG-4V2.0版本亦告完成,且于2000年年初正式成為國際標準。MPEG-4標準將眾多的多媒體應(yīng)用集成于一個完整的框架內(nèi),旨在為多媒體通信及應(yīng)用環(huán)境提供標準的算法及工具,從而建立起一種能被多媒體傳輸、存儲、檢索等應(yīng)用普遍采用的統(tǒng)一數(shù)據(jù)格式,并根據(jù)不同的應(yīng)用需求,現(xiàn)場配置解碼器,開放的編碼系統(tǒng)也可隨時加入新的有效的算法模塊。為支持對視頻內(nèi)容的訪問,MPEG-4提出了“視頻對象”的概念。
目前,MPEG專家組又推出了專門支持多媒體信息且基于內(nèi)容檢索的編碼方案MPEG-7及多媒體框架標準MPEG-21。另外,由ITU-T和MPEG聯(lián)合開發(fā)的新標準H.264是最新的視頻編碼算法。為了降低碼率,獲得盡可能更好圖像質(zhì)量,H.264標準吸取了MPEG-4的長處,具有更高的壓縮比、更好的信道適應(yīng)性,必將在數(shù)字視頻的通信和存儲領(lǐng)域得到廣泛的應(yīng)用,其發(fā)展?jié)摿Σ豢上蘖俊?BR>
3MPEG-4的主要技術(shù)
MPEG-4具有很多優(yōu)點。它的壓縮率可以超過100倍,而仍保有極佳的音質(zhì)和畫質(zhì);它可利用最少的數(shù)據(jù),獲取最佳的圖像質(zhì)量,滿足低碼率應(yīng)用的需求;它更適合于交互式AV服務(wù)及遠程監(jiān)控。為了滿足各種應(yīng)用的需求,MPEG-4標準的使用范圍相當龐大,具有廣泛的適應(yīng)性和可擴展性。
3.1形狀編碼
形狀信息的獲得首先要對圖形進行分析和分割,把各個代表不同內(nèi)容的目標分割后再用形狀表示。形狀信息通常用二值A(chǔ)lpha平面和灰度Alpha平面來表示。二值A(chǔ)lpha平面可用臨近信息進行算術(shù)編碼(CAE);灰度Alpha平面可用運動補償加DCT變換方式類似紋理編碼一樣進行編碼。
其中用于圖像壓縮的變換有離散Forier變換(DFT)、離散小波變換(DWT)、奇異值分解(SVD)、K-L變換、Walsh變換、Hadamard變換、Harr變換、Slant變換、離散余弦變換(DCT)。其中K-L變換的去相關(guān)性最好,而DCT是接近K-L變換效果的最便于實現(xiàn)的變換。和MPEG-1/2一樣,MPEG-4也選擇了DCT。通常,用于數(shù)據(jù)壓縮的熵編碼方法有霍夫曼(Huffman)編碼、矢量量化、算術(shù)編碼、游程編碼、LZW編碼等。對于紋理編碼,MPEG-4選擇了把游程編碼、矢量量化和Huffman編碼進行混合編程編碼(VLC)。紋理編碼要經(jīng)過DCT變換、量化、DC/AC預(yù)測、掃描、基于Hufman的VLC編碼。
3.2伸屈性
視頻的伸屈性,包括空間伸屈性和時間伸屈性?臻g伸屈性可以得到不同的空間分辨率,時間伸屈性可得到不同的時間分辨率。每種伸屈都有多層,在只有高低2層的情況下,底層指的是基本層,而高層指的是增強層。
3.3差錯回避
VLC碼中的一個比特錯誤會引起同步丟失,而運動補償則會引起錯誤傳遞。
MPEG-4的差錯回避有三個方面:重同步、數(shù)據(jù)恢復(fù)和錯誤隱藏。
重同步,是指差錯被檢測后,解碼器和碼流之間重新同步的技術(shù)。一般來說,這種方法會將錯誤之前的同步點到重建的同步點之間的數(shù)據(jù)丟棄。不過這些丟棄的數(shù)據(jù)可以用其他的技術(shù)進行恢復(fù)和實施錯誤隱藏。
數(shù)據(jù)恢復(fù)工具在解碼器和碼流重新建立起同步后用來恢復(fù)丟棄的數(shù)據(jù)。這些工具不是簡單的用容錯碼恢復(fù),而是用一種差錯回避手段,即用可逆VLC碼字進行VLC編碼。
錯誤隱藏,在重同步有效地將錯誤定位后可以很容易處理。為了進一步提高錯誤隱匿的能力,有必要增加錯誤定位能力,特別是數(shù)據(jù)分割可以用來提高錯誤定位能力。
4 結(jié)束語
隨著經(jīng)濟的發(fā)展、通信技術(shù)的日益提高,客戶已不僅僅滿足于語音、電報、電子郵件等的通信方式,對視訊業(yè)務(wù)的需求呈迅猛發(fā)展的趨勢。特別是美國“9·11"事件后,全球的視訊業(yè)務(wù)需求猛增,F(xiàn)有的視訊業(yè)務(wù)應(yīng)用主要以政府部門會議為主,在遠程教育、遠程醫(yī)療以及商用方面的應(yīng)用很少,而國外90%的企業(yè)都在使用視訊業(yè)務(wù),已是“信息高速公路”的主體通信業(yè)務(wù),因此市場潛力巨大。在視訊業(yè)務(wù)中使用的視頻壓縮技術(shù),其發(fā)展和應(yīng)用前景也是非常廣闊的。