數(shù)字技術的出現(xiàn)與應用為人類帶來了深遠的影響,人們?nèi)缃褚焉钤谝粋幾乎數(shù)字化的世界之中,而數(shù)字音頻技術則稱得上是應用最為廣泛的數(shù)字技術之一,CD、 VCD等早已走進千家萬戶,數(shù)字化廣播正在全球范圍內(nèi)逐步得到開展,正是這些與廣大消費者密切相關的產(chǎn)品及應用成為了本文將要介紹的主題:數(shù)字音頻壓縮技術得以產(chǎn)生和發(fā)展的動力。
1、音頻壓縮技術的出現(xiàn)及早期應用
音頻壓縮技術指的是對原始數(shù)字音頻信號流(PCM編碼)運用適當?shù)臄?shù)字信號處理技術,在不損失有用信息量,或所引入損失可忽略的條件下,降低(壓縮)其碼率,也稱為壓縮編碼。它必須具有相應的逆變換,稱為解壓縮或解碼。音頻信號在通過一個編解碼系統(tǒng)后可能引入大量的噪聲和一定的失真。
數(shù)字信號的優(yōu)勢是顯而易見的,而它也有自身相應的缺點,即存儲容量需求的增加及傳輸時信道容量要求的增加。以CD為例,其采樣率為44.1KHz,量化精度為16比特,則1分鐘的立體聲音頻信號需占約10M字節(jié)的存儲容量,也就是說,一張CD唱盤的容量只有1小時左右。當然,在帶寬高得多的數(shù)字視頻領域這一問題就顯得更加突出。是不是所有這些比特都是必需的呢?研究發(fā)現(xiàn),直接采用PCM碼流進行存儲和傳輸存在非常大的冗余度。事實上,在無損的條件下對聲音至少可進行4:1壓縮,即只用25%的數(shù)字量保留所有的信息,而在視頻領域壓縮比甚至可以達到幾百倍。因而,為利用有限的資源,壓縮技術從一出現(xiàn)便受到廣泛的重視。
對音頻壓縮技術的研究和應用由來已久,如A律、u律編碼就是簡單的準瞬時壓擴技術,并在ISDN話音傳輸中得到應用。對語音信號的研究發(fā)展較早,也較為成熟,并已得到廣泛應用,如自適應差分PCM(ADPCM)、線性預測編碼(LPC)等技術。在廣播領域,NICAM(Near Instantaneous Companded Audio Multiplex - 準瞬時壓擴音頻復用)等系統(tǒng)中都使用了音頻壓縮技術。
2、音頻壓縮算法的主要分類及典型代表
一般來講,可以將音頻壓縮技術分為無損(lossless)壓縮及有損(lossy)壓縮兩大類,而按照壓縮方案的不同,又可將其劃分為時域壓縮、變換壓縮、子帶壓縮,以及多種技術相互融合的混合壓縮等等。各種不同的壓縮技術,其算法的復雜程度(包括時間復雜度和空間復雜度)、音頻質(zhì)量、算法效率(即壓縮比例),以及編解碼延時等都有很大的不同。各種壓縮技術的應用場合也因之而各不相同。
。1)時域壓縮(或稱為波形編碼)技術是指直接針對音頻PCM碼流的樣值進行處理,通過靜音檢測、非線性量化、差分等手段對碼流進行壓縮。此類壓縮技術的共同特點是算法復雜度低,聲音質(zhì)量一般,壓縮比。–D音質(zhì)> 400kbps),編解碼延時最短(相對其它技術)。此類壓縮技術一般多用于語音壓縮,低碼率應用(源信號帶寬。┑膱龊稀r域壓縮技術主要包括 G.711、ADPCM、LPC、CELP,以及在這些技術上發(fā)展起來的塊壓擴技術如NICAM、子帶ADPCM(SB-ADPCM)技術如G.721、 G.722、Apt-X等。
。2)子帶壓縮技術是以子帶編碼理論為基礎的一種編碼方法。子帶編碼理論最早是由Crochiere等于1976年提出的。其基本思想是將信號分解為若干子頻帶內(nèi)的分量之和,然后對各子帶分量根據(jù)其不同的分布特性采取不同的壓縮策略以降低碼率。通常的子帶壓縮技術和下面介紹的變換壓縮技術都是根據(jù)人對聲音信號的感知模型(心理聲學模型),通過對信號頻譜的分析來決定子帶樣值或頻域樣值的量化階數(shù)和其它參數(shù)選擇的,因此又可稱為感知型(Perceptual)壓縮編碼。這兩種壓縮方式相對時域壓縮技術而言要復雜得多,同時編碼效率、聲音質(zhì)量也大幅提高,編碼延時相應增加。一般來講,子帶編碼的復雜度要略低于變換編碼,編碼延時也相對較短。
由于在子帶壓縮技術中主要應用了心理聲學中的聲音掩蔽模型,因而在對信號進行壓縮時引入了大量的量化噪聲。然而,根據(jù)人類的聽覺掩蔽曲線,在解碼后,這些噪聲被有用的聲音信號掩蔽掉了,人耳無法察覺;同時由于子帶分析的運用,各頻帶內(nèi)的噪聲將被限制在頻帶內(nèi),不會對其它頻帶的信號產(chǎn)生影響。因而在編碼時各子帶的量化階數(shù)不同,采用了動態(tài)比特分配技術,這也正是此類技術壓縮效率高的主要原因。在一定的碼率條件下,此類技術可以達到“完全透明”的聲音質(zhì)量(EBU音質(zhì)標準)。
子帶壓縮技術目前廣泛應用于數(shù)字聲音節(jié)目的存儲與制作和數(shù)字化廣播中。典型的代表有著名的MPEG-1層Ⅰ、層Ⅱ(MUSICAM),以及用于Philips DCC中的PASC(Precision Adaptive Subband Coding,精確自適應子帶編碼)等。
(3)變換壓縮技術與子帶壓縮技術的不同之處在于該技術對一段音頻數(shù)據(jù)進行“線性”的變換,對所獲得的變換域參數(shù)進行量化、傳輸,而不是把信號分解為幾個子頻段。通常使用的變換有DFT、DCT(離散余弦變換)、MDCT等。根據(jù)信號的短時功率譜對變換域參數(shù)進行合理的動態(tài)比特分配可以使音頻質(zhì)量獲得顯著改善,而相應付出的代價則是計算復雜度的提高。
變換域壓縮具有一些不完善之處,如塊邊界影響、預回響、低碼率時聲音質(zhì)量嚴重下降等。然而隨著技術的不斷進步,這些缺陷正逐步被消除,同時在許多新的壓縮編碼技術中也大量采用了傳統(tǒng)變換編碼的某些技術。
有代表性的變換壓縮編碼技術有DolbyAC-2、AT&T的ASPEC(Audio Spectral Perceptual Entropy Coding)、PAC(PerceptualAudioCoder)等。
3、音頻壓縮技術的標準化和MPEG-1
由于數(shù)字音頻壓縮技術具有廣闊的應用范圍和良好的市場前景,因而一些著名的研究機構(gòu)和大公司都不遺余力地開發(fā)自己的專利技術和產(chǎn)品。這些音頻壓縮技術的標準化工作就顯得十分重要。CCITT(現(xiàn)ITU-T)在語音信號壓縮的標準化方面做了大量的工作,制訂了如G.711、G.721、G.728等標準,并逐漸受到業(yè)界的認同。
在音頻壓縮標準化方面取得巨大成功的是MPEG-1音頻(ISO/IEC11172-3)。在MPEG-1中,對音頻壓縮規(guī)定了三種模式,即層Ⅰ、層Ⅱ(即MUSICAM,又稱MP2),層Ⅲ(又稱MP3)。由于在制訂標準時對許多壓縮技術進行了認真的考察,并充分考慮了實際應用條件和算法的可實現(xiàn)性(復雜度),因而三種模式都得到了廣泛的應用。VCD中使用的音頻壓縮方案就是MPEG-1層Ⅰ;而MUSICAM由于其適當?shù)膹碗s程度和優(yōu)秀的聲音質(zhì)量,在數(shù)字演播室、DAB、DVB等數(shù)字節(jié)目的制作、交換、存儲、傳送中得到廣泛應用;MP3是在綜合MUSICAM和ASPEC的優(yōu)點的基礎上提出的混合壓縮技術,在當時的技術條件下,MP3的復雜度顯得相對較高,編碼不利于實時,但由于MP3在低碼率條件下高水準的聲音質(zhì)量,使得它成為軟解壓及網(wǎng)絡廣播的寵兒?梢哉f,MPEG-1音頻標準的制訂方式?jīng)Q定了它的成功,這一思路甚至也影響到后面將要談到的MPEG-2和MPEG-4音頻標準的制訂。
最新進展
1、多聲道音頻信號壓縮與DolbyAC-3
隨著技術的不斷進步和生活水準的不斷提高,原有的立體聲形式已不能滿足受眾對聲音節(jié)目的欣賞要求,具有更強定位能力和空間效果的三維聲音技術得到蓬勃發(fā)展。而在三維聲音技術中最具代表性的就是多聲道環(huán)繞聲技術。
更準確地說,環(huán)繞聲應該是一種聲音恢復形式,其新技術的含量實際表現(xiàn)在隨著這種形式發(fā)展起來的一些數(shù)字壓縮標準上。環(huán)繞聲技術發(fā)展至今已相當成熟,已日漸成為未來聲音形式的主流。有鑒于此,1992年CCIR(ITU-R)以建議的形式約定了多聲道聲音系統(tǒng)的結(jié)構(gòu)及向下兼容變換的標準,即CCIR Recommendation 775。其中主要約定了大家熟知的5.1聲道形式及7.1聲道形式,而在對環(huán)繞聲壓縮的研究上也產(chǎn)生了許多專利技術,如DolbySurroundPro -Logic、THX、DolbyAC-3、DTS及MPEG-2等。這些技術在不同的場合,尤其是在影劇院、家庭影院系統(tǒng),及將來的高清晰度電視(HDTV)等系統(tǒng)中得到廣泛的應用。
。1)Dolby AC-3技術是由美國杜比實驗室主要針對環(huán)繞聲開發(fā)的一種音頻壓縮技術。在5.1聲道的條件下,可將碼率壓縮至384kbps,壓縮比約為10:1。Dolby AC-3最初是針對影院系統(tǒng)開發(fā)的,但目前已成為應用最為廣泛的環(huán)繞聲壓縮技術之一。
Dolby AC-3是一種感知型壓縮編碼技術。
在Dolby AC-3中,音頻輸入以音頻塊為單位,塊長度為512個樣值,在48KHz采樣率時即為10.66毫秒,各聲道單獨處理;音頻輸入在經(jīng)過3Hz高通濾波器去除直流成分后,通過另一高頻帶通濾波器以檢測信號的瞬變情況,并用它來控制TDAC變換的長度,以期在頻域分辨率和時域分辨率之間得到最好的折中效果; TDAC變換的長度一般為512點,而數(shù)據(jù)塊之間的重疊長度為256點,即TDAC每5.33毫秒進行一次;在瞬變條件下,TDAC長度被等分為256 點,這樣DolbyAC-3的頻域分辨率為93.75Hz,時域最小分辨率為2.67毫秒;在圖1中的定點/浮點轉(zhuǎn)換類似于MPEG-1中比例因子計算的作用,主要是為了獲得寬的動態(tài)范圍,而在分離后的指數(shù)部分經(jīng)編碼后則構(gòu)成了整個信號大致的頻譜,又被稱為頻譜包絡;比特分配主要是通過計算解碼后的頻譜包絡(視為功率譜密度)和掩蔽曲線的相關性來進行的;由于比特分配中采用了前/后向混合自適應比特分配以及公共比特池等技術,因而可使有限的碼率在各聲道之間、不同的頻率分量之間獲得合理的分配;在對尾數(shù)的量化過程中,可對尾數(shù)進行抖晃處理,抖晃所使用的偽隨機數(shù)發(fā)生器可在不同的平臺上獲得相同的結(jié)果;AC -3的幀結(jié)構(gòu)由同步字、CRC、同步信息(SI)、碼流信息(BSI)、音頻塊和附加數(shù)據(jù)等組成,幀長度與TDAC變換的長度有關,在長度為512點時,幀長為32毫秒,即每秒31.25幀。
通過以上敘述可見,在Dolby AC-3中,使用了許多先進的、行之有效的壓縮技術。如前/后向混合自適應比特分配、公共比特池、TDAC濾波、頻譜包絡編碼、及低碼率條件下使用的多聲道高頻耦合等。而其中許多技術對其它的多聲道環(huán)繞聲壓縮技術的發(fā)展都產(chǎn)生了一定的影響。
可以說,AC-3的出現(xiàn)是杜比公司幾十年來在聲音降噪及編碼技術方面的結(jié)晶(從一定的角度來看,編碼技術實際上就是降低編碼噪聲影響的技術),在技術上它具有很強的優(yōu)勢。因而即使作為一項專利技術,DolbyAC-3仍然在影院系統(tǒng)、HDTV、消費類電子產(chǎn)品(如LD、DVD)及直播衛(wèi)星等方面獲得了廣泛的應用,得到了眾多廠商的支持,成為業(yè)界事實上的標準。
。2)MPEG-2BC(后向兼容方式),即ISO/IEC13818- 3,是另一種多聲道環(huán)繞聲音頻壓縮技術。早在1992年初,該方面的討論工作便已初步開展,并于94年11月正式獲得通過。
MPEG-2BC主要是在 MPEG-1和CCIRRec.775的基礎上發(fā)展起來的。與MPEG-1相比較,MPEG-2BC主要在兩方面做了重大改進。一是支持多聲道聲音形式,二是為某些低碼率應用場合,如多語聲節(jié)目、體育比賽解說等而進行的低采樣率擴展。同時,標準規(guī)定的碼流形式還可與MPEG-1的第1和第2層做到前、后向兼容,并可依據(jù)CCIR Rec.775做到與雙聲道、單聲道形式的向下兼容,還能夠與Dolby Surround形式兼容。
在MPEG-2BC中,由于考慮到其前、后向兼容性以及環(huán)繞聲音形式的新特點,在壓縮算法中除承襲了MPEG-1的絕大部分技術外,為在低碼率條件下進一步提高聲音質(zhì)量,還采用了多種新技術。如動態(tài)傳輸通道切換、動態(tài)串音、自適應多聲道預測、中央聲道部分編碼(Phantom Coding of Center)、預編碼(Predistortion)等。
然而,MPEG-2BC的發(fā)展和應用并不如MPEG-1那樣一帆風順。通過對一些相關論文的比較可以發(fā)現(xiàn),MPEG-2BC的編碼框圖在標準化過程中發(fā)生了重大的變化,上述的許多新技術都是在后期引入的。事實上,正是與 MPEG-1的前、后向兼容性成為MPEG-2BC最大的弱點,使得MPEG-2BC不得不以犧牲碼率的代價來換取較好的聲音質(zhì)量。一般情況下,MPEG -2BC需640kbps以上的碼率才能基本達到EBU“無法區(qū)分”聲音質(zhì)量要求。由于MPEG-2BC標準化的進程過快,其算法自身仍存在一些缺陷。這一切都成為MPEG-2BC在世界范圍內(nèi)得到廣泛應用的障礙。
(3)DVD(DigitalVersatileDisk)是新一代的多媒體數(shù)據(jù)存儲和交換的標準。在視頻DVD的伴音方式及音頻DVD的聲音格式選擇上,AC-3和MPEG-2BC之間的爭奪十分激烈?梢,多聲道環(huán)繞聲音頻壓縮技術標準亟待統(tǒng)一。