即時通訊音視訊開發（六）：如何開始音訊編解碼技術的學習

阿新 • • 發佈：2018-11-14

前言

即時通訊應用中的實時音視訊技術，幾乎是IM開發中的最後一道高牆。原因在於：實時音視訊技術 = 音視訊處理技術 + 網路傳輸技術的橫向技術應用集合體，而公共網際網路不是為了實時通訊設計的。

系列文章

說說音訊編解碼技術學習方法

總是有人問我研究音訊編解碼要看什麼書，其實這是一個很難回答的問題，原因有很多：

做工程首先一個問題就是和課本學習不同，不是看書能解決的。
音訊編解碼技術在國內研究的人很少，包括總體的音訊技術國外也研究不多。（從中國的潛艇噪聲技術一直解決不好就能看出一二）。

音訊編解碼技術是一種應用，而一般的書籍都是講理論基礎。

只看理論書籍會和應用脫離太多，沒有實踐會忘記。我當初看書也是從工程入手，就是在實際工作中和個人興趣中看了大量的標準，然後對不懂的地方找論文，再找書籍補知識，這是典型的逆向學習。通常研究生是“課本->看論文->做工程”這樣一個學習方法和流程。

我們可以按照什麼樣的思路去找書籍或論文呢？

音訊編解碼技術是一種比較複雜的應用，而普通的書籍是一種理論書籍，尤其是在中國。音訊編解碼技術和一般的音訊技術不同，比如AEC，HRTF，後者分別是語音和音訊的應用技術，應該說是一種具體的應用技術，相對來說查資料還是容易有的放矢。

具體來說，其實音訊編解碼技術也是一種具體的應用技術，但是可能系統相對複雜，目的相對基礎。它是信源編解碼技術的一個分支，目的就是壓縮資料。

那麼音訊編解碼技術包括哪些方面呢？既然他是一種信源編解碼器技術（Source Coding Technology）那麼信源編解碼技術的書籍都可以看，當做是理論基礎學習。

另外其實我把音訊編解碼技術分為5大技術，簡稱為：EQTPM。E-熵編碼、Q-量化編碼、T-變換編碼、P-預測編碼、M-音訊建模（感知建模，BCC建模，正弦建模等）。相對的，學習時我們可以按照這些技術進行相關書籍的查閱和學習。

具體的書籍可以分成以下4類

1語音編解碼書籍

因為國內講寬頻音訊編解碼的書籍很少，所以可以看些語音編解碼的書籍，裡面也有講EQTP技術。例如：《語音處理技術》，《語音編碼》，《低位元速率音訊編碼》，《數字語音編碼原理》，《變速率語音編碼》《低速率語音編碼》《數字語音編碼》《資料壓縮》。

112140k9k3jnuzy99n4ln2.jpg (512Ã384)

《JPEG2000 影象壓縮基礎》：我認為這本書講的還是不錯的,翻譯的也不錯，很多基本原理講的比較透徹。

2理論基礎書籍

《資訊理論與編碼》，《訊號與系統》，高數這類我就不但列出來了，但是也要常番。

3國外的寬音訊編碼書籍

例如我認為很經典的ANDREAS SPANIAS的《Audio Signal Processing and Coding 》。以及他的63頁的論文，《Perceptual Coding of Digital Audio》。

其他可看的書籍包括：

MP3之父——K. Brandenburg的：
《Applications of Digital Signal Processing to Audio and Acoustics》
《A Digital Signal Processing Primer, with Applications to Digital Audio and Computer Music》
《Auditory Perception and the MPEG Audio Standard》
《Foundation and Evolution of Standardized Coders (Wiley,2003)(ISBN 0471373125)(578s)》
漢堡聯邦國防軍大學Udo Zolzer教授的：
《Digital Audio Signal Processing》
《High-Fidelity Multichannel Audio Coding》
《Speech Coding Algorithms》

我強烈推薦把SPANIAS的書讀一下。至少把SPANIAS的那個論文仔細看一下。這樣會對你理解音訊編碼有很大的幫助。但是裡面會將很多關於耳朵的生理詞語，要拿著字典慢慢翻。這個論文我是煩爛了的，使我受益匪淺。

後面的書籍我還沒有系統看過，但都有PDF版本，我也是偶爾翻一下。因為這些經典書籍你不花大時間理解，會造成假象是乍看起來都講得類似，但實際理解起來發現是對不同細節的闡述。

4其他類書籍

專項技術書籍：

如《自適應訊號處理》，因為音訊編碼也好其他音訊技術也好，自適應技術是經常使用的。
例如：無損編碼的Wavpack，MPEG4 ALS，都使用了自適應技術。
濾波器設計的相關書籍。
《多抽樣率數字訊號處理理論及其應用》：講解Transform技術。
HE-AAC和ATRAC3，使用的QMF，
MP3 使用的PQF
AAC，MP3使用的MDCT
AC3使用的TDAC（MDCT）
WMA和G722.1的(MLT)

都是為什麼，選擇這些變換工具。有什麼區別。如果你能看看Vaidyananthan PP的書，會更有幫助。

一些開創性的研究論文也可以讀一讀

除了這些書籍，建議大家多看看論文，很多國外的大學都有專門的論文和PPT教學。

1會議論文

有的講的很有點概況，有的有些對原理公式還是講的比較清楚，還有一些強調系統性和介紹的。例如：倫敦學院的《A Survey of Packet Loss Recovery Techniques for Streaming Audio》對PLC技術做了系統歸納L Daudet的《A review on techniques for the extraction of transients in musical signals》對瞬態訊號提取技術做了歸納。

2畢業論文

這裡我舉2個例子，文章太多我就截圖解釋吧。 122718vprepyurdzwyyiee.png (760Ã508)

122721iofsyw8oibfywfsy.png (994Ã234)

經典PPT

很多大學和機構開放課程會有一些經典PPT。例如：德國Fraunhofer的主頁就有很多獎MPEG系列音訊編碼技術的PPT。非常好，非常推薦。

結語

當然除了書籍、論文以外，我們還可以看一些常用的網址，我就給一個好了，超經典的斯坦福大學 Julius Orion Smith III 教授的主頁：https://ccrma.stanford.edu/~jos/，見下圖哦。

123126av07mzchghzi1cyp.png (546Ã712)

不說了，自己看吧，引用裡面的介紹–(1GB of on-line publications, sound examples, and software )。總之，饅頭要一口一口吃，耐心些，開始吧！

網易雲信，你身邊的即時通訊和音視訊技術專家，瞭解我們，請戳網易雲信官網

想要閱讀更多行業洞察和技術乾貨，請關注網易雲信部落格

本文轉載自52im,作者：JackJiang

即時通訊音視訊開發（六）：如何開始音訊編解碼技術的學習

前言

系列文章

說說音訊編解碼技術學習方法

我們可以按照什麼樣的思路去找書籍或論文呢？