1. 程式人生 > >人工智能我見及特征提取mfcc算法理解

人工智能我見及特征提取mfcc算法理解

lex net 無人駕駛汽車 否則 駕駛 大腦 網絡 span lan

一、人工智能

  從LeNex手寫數字識別,AlexNet圖像識別,到無人駕駛汽車,再到Alpha Go、Alpha Go Zero的橫空出世,人工智能無疑已經成為了當下科技的大熱。那麽什麽是人工智能呢?直白點,人工智能就是讓機器擁有人的智能。科學家們為了讓機器擁有智能,從人是如何識別、思考、解決問題的角度出發,為機器量身訂做了一套方案。

  神經網絡就是一個最好的例子:早期,科學家們從鳥兒的翅膀發明了飛機,現在,科學家們從人是如何思考的,大腦是如何運作的出發,進而發明了神經網絡。下面我們要引出本篇博客的重點mfcc特征提取算法,這也是基於人類的行為而發明出來的。

二、mfcc算法

  mfcc是為了完成聲音識別而開發出來的一套算法,基於人是如何識別聲音的。首先明確四點:

  1.語音信號的大部分信息包含在低頻分量中;

  2.語音信號的大部分信息包含在低幅部分中;

  3.人耳聽到的聲音高低與聲音頻率不成線性關系,但是與該聲音頻率的對數近似成線性正比關系;

  4.人並不能區分所有頻率分量,只有兩個頻率分量相差一定帶寬時(1000hz以下,帶寬恒定100hz;1000hz以上,帶寬與中心頻率成指數關系),人類才能區分,否則人就會把兩個音調聽成一個,這稱為屏蔽效應,帶寬稱為臨界帶寬;(中心頻率:聲音高低主要與頻率有關,由於可聽聲的聲頻太寬(從20Hz到20000Hz),為便於進行頻率分析,將其分為若幹段,稱為頻程。每頻程的上限與下限頻率的幾何平均值稱為該頻程的中心頻率)

  MFCC在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的研究成果,采用這種技術語音識別系統的性能有一定提高。

  mfcc是一種特征,這個特征在自動語音和說話人識別中廣泛的使用。

  如果現在給我們一段語音,我們首先得到它的頻譜包絡(連接所有共振峰值點的平滑曲線,共振峰值攜帶了聲音的辨識屬性,如同人的身份證),但是對於人類來說,人類聽覺的感知至聚焦在某些特定的區域而不是整個頻譜包絡,而MEL頻率分析就是基於人類聽覺感知實驗的。實驗觀測發現人耳就像一個濾波器組一樣,它只關註某些特定的頻率分量。它在低頻區域有很多的濾波器,在高頻區域則較少。

  人耳聽覺的特性與Mel頻率的增長一致,Mel濾波器能向人一樣的去提取特征。(而gfcc是基於GT濾波器的)

人工智能我見及特征提取mfcc算法理解