處理音頻--pyaudio

阿新 • • 發佈：2019-01-26

header return tex 語音識別 tps res active script .post

- 前言
- 安裝
- 讀寫音頻文件
  - play
  - record
  - wired
  - playcallback
  - Wirecallback
- 外部應用
- 總結

前言

很久之前寫過一個將文本轉成語音的，借助了一個名為pyttsx的庫。具體使用可以參考下面的鏈接。

http://blog.csdn.net/marksinoberg/article/details/52137547

今天再來分享一個處理音頻的博文。接住百度的語音接口，差不多可以方便的將音頻轉成文字了。

安裝

安裝的過程比較麻煩一點，不是說安裝的步驟，而是找到能用的庫不是很容易。

目標庫： pyaudio。

但是奈何我的Python版本是36，而pip是安裝不了的。找了很多資料，最後還是在pypi上找到了兼容的版本。

Python36版本： https://pypi.python.org/pypi/PyAudio/0.2.11
Python35 Python2：http://people.csail.mit.edu/hubert/pyaudio/packages/

讀寫音頻文件

官網上給了幾個小例子，個人覺得不錯。拿來分享一下。

play

"""PyAudio Example: Play a WAVE file."""

import pyaudio
import wave
import sys

CHUNK = 1024

if len(sys.argv) < 2:
    print("Plays a wave file.\n\nUsage: %s filename.wav" 
 % sys.argv[0])
    sys.exit(-1)

wf = wave.open(sys.argv[1], ‘rb‘)

p = pyaudio.PyAudio()

stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),
                channels=wf.getnchannels(),
                rate=wf.getframerate(),
                output=True)

data = wf.readframes(CHUNK)

while 
 data != ‘‘:
    stream.write(data)
    data = wf.readframes(CHUNK)

stream.stop_stream()
stream.close()

p.terminate()

保存為play.py
然後可以再terminal中來嘗試一下。當然了，前提是先準備一個 .wav音頻文件。

Python play.py 3.12.wav

然後不出意外的話，就可以聽到電腦播放的音頻了。

record

有了讀的，那麽再來個記錄的吧。

"""PyAudio example: Record a few seconds of audio and save to a WAVE file."""

import pyaudio
import wave

CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 44100
RECORD_SECONDS = 5
WAVE_OUTPUT_FILENAME = "output.wav"

p = pyaudio.PyAudio()

stream = p.open(format=FORMAT,
                channels=CHANNELS,
                rate=RATE,
                input=True,
                frames_per_buffer=CHUNK)

print("* recording")

frames = []

for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
    data = stream.read(CHUNK)
    frames.append(data)

print("* done recording")

stream.stop_stream()
stream.close()
p.terminate()

wf = wave.open(WAVE_OUTPUT_FILENAME, ‘wb‘)
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b‘‘.join(frames))
wf.close()

保存為record.py
然後運行下面的命令。

Python record.py

代碼中聲明的是5秒的記錄時長，這一點可以根據自己的需要來進行動態的修改。然後程序運行結束之後，就會在同一級目錄下得到一個output.wav 的音頻文件。

wired

剛才那倆小例子要麽一個讀，要麽一個記錄。那麽要是既想讀，然後再看下結果的需求呢？可以這麽來實現。

"""
PyAudio Example: Make a wire between input and output (i.e., record a
few samples and play them back immediately).
"""

import pyaudio

CHUNK = 1024
WIDTH = 2
CHANNELS = 2
RATE = 44100
RECORD_SECONDS = 5

p = pyaudio.PyAudio()

stream = p.open(format=p.get_format_from_width(WIDTH),
                channels=CHANNELS,
                rate=RATE,
                input=True,
                output=True,
                frames_per_buffer=CHUNK)

print("* recording")

for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
    data = stream.read(CHUNK)
    stream.write(data, CHUNK)

print("* done")

stream.stop_stream()
stream.close()

p.terminate()

保存為wire.py
然後運行下面的命令

Python wire.py

就可以記錄一個5秒的實現了。

play(callback)

搞定了上面三個小例子，做出自己的東西也不是什麽難事了。基本上可以滿足自己的需求。但是官網上還給了更加優雅的方式，那就是使用回調函數。除此之外很重要的一點就是callback方式是noblocking的。
官網的api解釋如下：

Note that in “blocking mode”, each pyaudio.Stream.write() or pyaudio.Stream.read() blocks until all the given/requested frames have been played/recorded. Alternatively, to generate audio data on the fly or immediately process recorded audio data, use the “callback mode” outlined below.

"""
PyAudio Example: Make a wire between input and output (i.e., record a
few samples and play them back immediately).
"""

import pyaudio

CHUNK = 1024
WIDTH = 2
CHANNELS = 2
RATE = 44100
RECORD_SECONDS = 5

p = pyaudio.PyAudio()

stream = p.open(format=p.get_format_from_width(WIDTH),
                channels=CHANNELS,
                rate=RATE,
                input=True,
                output=True,
                frames_per_buffer=CHUNK)

print("* recording")

for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
    data = stream.read(CHUNK)
    stream.write(data, CHUNK)

print("* done")

stream.stop_stream()
stream.close()

p.terminate()

其實也沒啥特殊的地方了，就是代碼看起來更加精簡了。

Wire(callback)

"""
PyAudio Example: Make a wire between input and output (i.e., record a
few samples and play them back immediately).

This is the callback (non-blocking) version.
"""

import pyaudio
import time

WIDTH = 2
CHANNELS = 2
RATE = 44100

p = pyaudio.PyAudio()

def callback(in_data, frame_count, time_info, status):
    return (in_data, pyaudio.paContinue)

stream = p.open(format=p.get_format_from_width(WIDTH),
                channels=CHANNELS,
                rate=RATE,
                input=True,
                output=True,
                stream_callback=callback)

stream.start_stream()

while stream.is_active():
    time.sleep(0.1)

stream.stop_stream()
stream.close()

p.terminate()
License

外部應用

下面拿一個小例子入手，實時的測試一下音頻轉文字。因為本人沒有百度語音服務的權限，所以在網上搜索了一個key。在這裏感謝下面的這個鏈接。

https://github.com/luyishisi/python_yuyinduihua

話不多說，上例子吧。

# coding: utf8

# @Author: 郭 璞
# @File: baiduyuyinshibie.py                                                                 
# @Time: 2017/5/10                                   
# @Contact: [email protected]
# @blog: http://blog.csdn.net/marksinoberg
# @Description: 百度語音識別接口調用
import wave
import requests
import json

def get_token():
    apiKey = "。。。GBOtpg22ZSGAU"
    secretKey = "44。。。e34936227d4a19dc2"

    auth_url = "https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=" + apiKey + "&client_secret=" + secretKey
    response = requests.get(url=auth_url)
    jsondata = response.text
    return json.loads(jsondata)[‘access_token‘]

def use_cloud(token, wavefile):
    fp = wave.open(wavefile, ‘rb‘)
    # 已經錄好音的音頻片段內容
    nframes = fp.getnframes()
    filelength = nframes*2
    audiodata = fp.readframes(nframes)

    # 百度語音接口的產品ID
    cuid = ‘71XXXX663‘
    server_url = ‘http://vop.baidu.com/server_api‘ + ‘?cuid={}&token={}‘.format(cuid, token)
    headers = {
        ‘Content-Type‘: ‘audio/pcm; rete=8000‘,
        ‘Content-Length‘: ‘{}‘.format(filelength),
    }

    response = requests.post(url=server_url, headers=headers, data=audiodata)
    return response.text if response.status_code==200 else ‘Something Wrong!‘



if __name__ == ‘__main__‘:
    access_token = get_token()
    print(access_token)
    result = use_cloud(token=access_token, wavefile=‘./output.wav‘)
    print(result)

音頻文件借助了上面第二個例子中錄制的音頻。

我說的話是： 345
# 由於在圖書館，所以不敢太大聲，要是用標準的普通話，相信準確度可能會更高一點。

然後運行的結果就是下面這樣的了。
技術分享圖片

可以看出請求成功，返回的結果裏面包含了相應的文本內容。雖然不是很準確，但是也還算可以吧。

總結

最後來總結一下，今天貌似凈拿人家的東西了，雖然自己整合了一下。但是還遠遠不夠啊。其實結合這個語音接口可以做出很多更加好玩的功能的。

參考鏈接：

聊天機器人

GitHub機器人聊天參考源碼

pyaudio官方文檔

pyaudio官網

PyPI寶庫

再分享一下我老師大神的人工智能教程吧。零基礎！通俗易懂！風趣幽默！還帶黃段子！希望你也加入到我們人工智能的隊伍中來！https://blog.csdn.net/jiangjunshow

處理音頻--pyaudio

header return tex 語音識別 tps res active script .post 前言安裝讀寫音頻文件 play record wired playcallback Wirecallback 外部應用總結前言很

python音頻處理用到的操作

single mes 語句 install whl fig show true htm 作者：桂。時間：2017-05-03 12:18:46 鏈接：http://www.cnblogs.com/xingshansi/p/6799994.html 前言

介紹幾個python的音頻處理庫

sys.argv 先來方式 type begin format ani tags sts 　　一、eyeD3 　　直接在google上搜索python mp3 process ，推薦比較多的就是這個第三方庫了。先來看看官方介紹吧。 About eyeD3 is a Pyt

HTML5音頻-視頻處理demo

isp mobile android -c else 一次視頻播放 hone tel HTML5視頻-音頻處理(最後有demo) 　* 基本內容　　* 使用Flash技術處理HTML頁面中的視頻內容　　* 包含音頻、動畫、網頁遊戲等

音頻處理 (一) 音頻文件

rsa formate pad ack -s amp channels p s 可能音頻文件音頻文件是對聲音進行數字轉換之後存放的數據文件，了解音頻數據必須先知道幾個重要概念。 1. 采樣：對聲音信息錄入時，行進的最小操作單位，一般一次采樣具有左右2個聲道，每個聲

H5音頻處理的一些小知識

amp pac uid http album 知識 com .com .cn http://pic.cnhubei.com/space.php?uid=4614&do=album&id=1347093http://pic.cnhubei.com/space.

webpack處理媒體文件(圖片/視頻和音頻)

編碼打包成 clas html body gpo 樣式 option 音頻 webpack最終會將各個模塊打包成一個文件，因此我們樣式中的url路徑是相對入口html頁面的, 這個問題是用file-loader解決的，file-loader可以解析項目中的url引入（不僅

Python學習筆記--音頻處理

org frequency -- 個數學習筆記 pre 技術分享 edi enumerate Python 打開wav文件的操作 wav文件利用python打開一個wav音頻文件，然後分析wav文件的數據存儲格式，有了格式之後就能很方便的進行一些信號處理的操作。Wiki

視音頻數據處理入門：FLV封裝格式解析

tail rip 主頁 typedef gda ack print 地址視頻 ===================================================== 視音頻數據處理入門系列文章：視音頻數據處理入門：RGB、YUV像素數據處理視音頻數

音頻處理

close 位數 inpu ces mes dir tput 令行 jar 1.將不同音頻文件格式進行轉換的代碼import subprocess[subprocess是python中新增的一個模塊，它允許你生成新的進程，連接到它們的input/output/error管道

[UWP] 用 AudioGraph 來增強 UWP 的音頻處理能力——AudioFrameInputNode

ram 微軟 ftw 自己 int graph 工具 facetype arch 原文:[UWP] 用 AudioGraph 來增強 UWP 的音頻處理能力——AudioFrameInputNode上一篇心得記錄中提到了 AudioGraph, 描述了一下什麽是 Audi

音頻處理EQ的基本概念

lec 因此研究所表現亮度例子它的 blank 多個　　我們通常所說的人聲，歌聲以及樂聲都是一個復合音，也就是由聲音的基音和一系列的泛音所構成的。這些泛音都是基音頻率的倍數，物理學中叫分音，電聲學中叫諧波，音樂中則把它們稱做泛音。可以說，泛音對音色的特性有著非

HTML5音頻與視頻

界面 control 開始 ont 識別時間屬性實現 -c HTML5的兩個重要元素audio和video，對於這兩個元素，HTML5規範提供了通用、完整、可腳本化控制的API。 audio元素來播放聲音文件或音頻流，controls屬性用於提供播放、暫停和音量控件

ffmpeg處理視頻與聲音

foo mpeg gb2 nim rac pop 視頻放大開始時間 1.ffmpeg將mp4分解成多張jpg圖片要在遊戲中播放視頻，引擎竟然不支持。琢磨了一下，幹脆將視頻圖片提取出來，然後用Animation動畫類來播放這些圖片，這樣也能實現播放視頻的效果。還是ff

FreeSWITCH第三方庫（音頻）的簡單介紹（一）

優勢帶寬 blog 網絡 ndt 目標領域合成通道 FreeSWITCH使用了大量的第三方庫，本文檔主要介紹音頻相關庫的信息：視頻相關庫的信息介紹參考：http://www.cnblogs.com/yoyotl/p/5488890.html 其他相關庫的信

3D 聲音實驗室開始提供3D音頻制作

div 現場 isp 商業實的作者 edi 歐洲通過　　音頻是制作沈浸式虛擬現實（VR）或360度體驗的重要組成部分。 3D 聲音實驗室專註於3D / VR音頻，並已宣布音頻技術隨時可供MainBerlin工作室的創作者和藝術家使用。　　3D 聲音實驗室使用

最簡單的視音頻播放演示樣例7：SDL2播放RGB/YUV

pro big 更新沒有 opaque support 解決控制 mem =====================================================最簡單的視音頻播放演示樣例系列文章列表：最簡單的視音頻播放演示樣例1：總述最簡單的視音

音頻中采樣位數，采樣率，比特率的名詞解釋（轉）

工程性能 dvd 工作室轉化術語意思普通時間間隔采樣位數：采樣位數可以理解為采集卡處理聲音的解析度。這個數值越大，解析度就越高，錄制和回放的聲音就越真實。我們首先要知道：電腦中的聲音文件是用數字0和1來表示的。所以在電腦上錄音的本質就是把模擬聲音信號轉換成

兩個樹莓派(或香蕉派)之間的音頻直播測試

部分 record 得到 toad attr 應該進行 class 用法原文鏈接：http://www.jianshu.com/p/04558693a731 一、場景介紹及準備工作 1. 場景一共兩個設備（樹莓派或香蕉派）。一個設備做錄音端，一個設備做播放端，

HTML5音頻播放，歌詞同步，及視頻播放功能（JPlayer、JWPlayer、VideoJS）

cover swf ddl iis enter [0 fast absolute idt 近期項目中用到音頻視頻播放。所以就寫了一個demo：這個是JPlayer插件的視頻播放：這個是音頻播放，歌詞同步： <!DOCTYPE htm

處理音頻--pyaudio

前言

安裝

讀寫音頻文件

play

record

wired

play(callback)

Wire(callback)

外部應用

總結

相關推薦