【進展報告02】2020-11-6
阿新 • • 發佈:2021-08-05
2020-11-6 特定詞識別實驗報告
特定詞識別實驗報告
實驗目的
1.設計命令詞識別任務
- 語音識別垃圾分類詞彙的垃圾桶
- 確定詞表:1.可回收物;2.有害垃圾;3.廚餘垃圾;4.其他垃圾
- 錄製語料:後來採用的是QQ語音紅包的形式收集
- 檢查語料:用Cool Edit Pro擷取與播放
- 去除靜音:端點檢測演算法實現
2.特徵提取
- Matlab程式碼實現
3.識別模式
- 呼叫DTW程式碼
4.計算測試結果
- 計算正確率=識別結果正確的語料數/總測試語料數
5.擴充套件嘗試
- 特徵提取的LPC演算法
- 特徵提取MFCC與LPC引數的融合
- 做一個UI介面
6.反思
- MFCC的一些數學公式本來沒看懂,在使用過程中逐漸體會到了各個引數的用處和意義,接下來還需加強理解。
- 各個引數的數量級和度量方式可能不同,如何融合還不清楚。
資料夾介紹
兩個存放語音的資料夾
- 語音資料採集:分為可回收物(28則)、有害垃圾(25則)、廚餘垃圾(21則)、其他垃圾(26則)、次品(11則噪音較多、2則方言)五個子資料夾。
- 端點檢測後的語音:對錄好的113則語音進行端點檢測,處理的程式碼是endpointDetection.ipynb
有關MFCC特徵的檔案
- 一個存放MFCC的資料夾:MFCC-EndPointedVoice:對應也分為可回收物mfcc、有害垃圾、廚餘垃圾、其他垃圾、次品五個子資料夾。
- Matlab裡Voicebox中提取MFCC的程式碼:mfcc.m
語音識別
•呼叫DTW演算法
樣本模板只有4個,就是每種垃圾各一個。然後用另一個可回收物音訊當作測試模板,識別結果為2對應的就是可回收物,識別成功。
接下來的應改寫測試模板的程式碼使它可以批量測試並計算正確率。
老師的建議
- 不要著急著進行後續的語音識別率的判斷。畢竟目前所用的知識等都是現成的,目前屬於拿來主義。應從原理的理解或資料的處理等方面去深刻理解,這樣才能在SRDP後續研究中找到研究切入點。
- 如可以比較一下同一種語音(如廚餘垃圾)的21個數據的頻譜差異和統計分析結果,也可以比較一下這21個數據對應的MFCC等引數存在哪些差異(雖然後續可能識別率可達到100%)。這樣就能夠對語音識別引數的設定有深入理解了,也能夠知道其適用範圍和侷限性了。
- 如果想要將SRDP升為國創,就要在研究內涵上深入些,從今年開始,國創和省創都是省裡請專家評審了,難度加大了,研究過於簡單或應用不廣的專案很難升為國創和省創的。
- 此外注意,對原始語音資料的預處理技術關係到識別成功程度的高低。