1. 程式人生 > 其它 >【進展報告02】2020-11-6

【進展報告02】2020-11-6

2020-11-6 特定詞識別實驗報告

特定詞識別實驗報告

實驗目的

1.設計命令詞識別任務

  • 語音識別垃圾分類詞彙的垃圾桶
  • 確定詞表:1.可回收物;2.有害垃圾;3.廚餘垃圾;4.其他垃圾
  • 錄製語料:後來採用的是QQ語音紅包的形式收集
  • 檢查語料:用Cool Edit Pro擷取與播放
  • 去除靜音:端點檢測演算法實現

2.特徵提取

  • Matlab程式碼實現

3.識別模式

  • 呼叫DTW程式碼

4.計算測試結果

  • 計算正確率=識別結果正確的語料數/總測試語料數

5.擴充套件嘗試

  • 特徵提取的LPC演算法
  • 特徵提取MFCC與LPC引數的融合
  • 做一個UI介面

6.反思

  • MFCC的一些數學公式本來沒看懂,在使用過程中逐漸體會到了各個引數的用處和意義,接下來還需加強理解。
  • 各個引數的數量級和度量方式可能不同,如何融合還不清楚。

資料夾介紹

兩個存放語音的資料夾

  1. 語音資料採集:分為可回收物(28則)、有害垃圾(25則)、廚餘垃圾(21則)、其他垃圾(26則)、次品(11則噪音較多、2則方言)五個子資料夾。
  2. 端點檢測後的語音:對錄好的113則語音進行端點檢測,處理的程式碼是endpointDetection.ipynb

有關MFCC特徵的檔案

  1. 一個存放MFCC的資料夾:MFCC-EndPointedVoice:對應也分為可回收物mfcc、有害垃圾、廚餘垃圾、其他垃圾、次品五個子資料夾。
  2. Matlab裡Voicebox中提取MFCC的程式碼:mfcc.m

語音識別

•呼叫DTW演算法


樣本模板只有4個,就是每種垃圾各一個。然後用另一個可回收物音訊當作測試模板,識別結果為2對應的就是可回收物,識別成功。
接下來的應改寫測試模板的程式碼使它可以批量測試並計算正確率。

老師的建議

  • 不要著急著進行後續的語音識別率的判斷。畢竟目前所用的知識等都是現成的,目前屬於拿來主義。應從原理的理解或資料的處理等方面去深刻理解,這樣才能在SRDP後續研究中找到研究切入點。
  • 如可以比較一下同一種語音(如廚餘垃圾)的21個數據的頻譜差異和統計分析結果,也可以比較一下這21個數據對應的MFCC等引數存在哪些差異(雖然後續可能識別率可達到100%)。這樣就能夠對語音識別引數的設定有深入理解了,也能夠知道其適用範圍和侷限性了。
  • 如果想要將SRDP升為國創,就要在研究內涵上深入些,從今年開始,國創和省創都是省裡請專家評審了,難度加大了,研究過於簡單或應用不廣的專案很難升為國創和省創的。
  • 此外注意,對原始語音資料的預處理技術關係到識別成功程度的高低。