python已經(jīng)支持WAV格式的書寫,而實時的聲音輸入輸出需要安裝pyAudio。最后我們還將使用pyMedia進行Mp3的解碼和播放。
音頻信號是模擬信號,我們需要將其保存為數(shù)字信號,才能對語音進行算法操作,WAV是Microsoft開發(fā)的一種聲音文件格式,通常被用來保存未壓縮的聲音數(shù)據(jù)。
語音信號有四個重要的參數(shù):聲道數(shù)、采樣頻率、量化位數(shù)(位深)和比特率。
聲道數(shù):可以是單聲道、雙聲道...
采樣頻率(Samplerate):每秒內(nèi)對聲音信號采樣樣本的總數(shù)目,44100Hz采樣頻率意味著每秒鐘信號被分解成44100份。換句話說,每隔144100秒就會存儲一次,如果采樣率高,那么媒體播放音頻時會感覺信號是連續(xù)的。
量化位數(shù)(Bitdepth):也稱為“位深”,每個采樣點中信息的比特(bit)數(shù)。1byte等于8bit。通常有8bit、16bit、24bit、32bit...
比特率(Bitrate):每秒處理多少個Bit。比如一個單聲道,用44.1KHz/16Bit的配置來說,它的比特率就為44100*16*1=705600,單位是bit/s(或者bps),因為通常計算出來的數(shù)字都比較大,大家就用kbit/s了,也就是705.6kbit/s。在對音頻進行壓縮時,比特率就成為了我們的一個要選的選項了,越高的比特率,其音質(zhì)也就越好。一些常用的比特率有:
32kbit/s:一般只適用于語音
96kbit/s:一般用于語音或低質(zhì)量流媒體
128或160kbit/s:中等比特率質(zhì)量
192kbit/s:中等質(zhì)量比特率
256kbit/s:常用的高質(zhì)量比特率
320kbit/s:MP3標準支持的最高水平
如果你需要自己錄制和編輯聲音文件,推薦使用Audacity,它是一款開源的、跨平臺、多聲道的錄音編輯軟件。在我的工作中經(jīng)常使用Audacity進行聲音信號的錄制,然后再輸出成WAV文件供Python程序處理。
如果想要快速看語音波形和語譜圖,推薦使用AdobeAudition,他是Adobe公司開發(fā)專門處理音頻的專業(yè)軟件,微博關(guān)注vposy,下載地址見置頂。他破解了很多adobe公司的軟件,包括PS、PR...
以上內(nèi)容為大家介紹了python音頻信號,希望對大家有所幫助,如果想要了解更多Python相關(guān)知識,請關(guān)注IT培訓機構(gòu):千鋒教育。