- AU3109 10W、8V/3.5V 至 18V、無電感、立體
- AU6830M 集成音頻 DSP 的 2 × 41W 數(shù)字
- AU6815E 集成音頻 DSP 的 2 × 32W 數(shù)字
- HTA6863 3W超低噪聲超低功耗單聲道D類音頻功率
- NS4830A 單聲道 AB/D 類 Charge Pump 升
- PT8P2107 觸控 IO 型 8-Bit MCU
- PT8P2309 觸控 A/D 型 8-Bit MCU
- PT8P2308 觸控 A/D 型 8-Bit MCU
- ET7428 1Ω Dual SPDT Negative Signal Handing Analog Switch
- ET7222 High-Speed USB 2.0(480Mbps) Switch
- ET5228H 0.6Ω Dual SPDT Negative Signal Handing Analog Switch
- ET5223 0.5Ω Dual SPDT Analog Switch
- HTR6916 共陰極16x9陣列LED 驅(qū)動器
- HTR7198(S), HTR7144(S) 帶自動呼吸功能的18x
為什么數(shù)字音頻幾乎都繞不開 PCM?看懂它,你就看懂了聲音數(shù)字化的底層邏輯
1. PCM 的本質(zhì),就是把連續(xù)變化的模擬聲音波形變成一串可存儲、可傳輸、可計算的離散數(shù)字樣本。
2. 采樣率解決“多久測一次”的問題,量化位深解決“每次測得多精細(xì)”的問題。
3. 奈奎斯特原理解釋了為什么采樣頻率必須至少高于信號最高頻率的兩倍,否則會發(fā)生混疊。
4. PCM 之所以長期存在,是因為它簡單、直接、標(biāo)準(zhǔn)化程度高,是幾乎所有數(shù)字音頻系統(tǒng)的共同基礎(chǔ)。
“PCM 的真正意義,不是某個文件后綴,而是把連續(xù)聲音翻譯成數(shù)字系統(tǒng)可處理的共同語言。”
開頭:為什么數(shù)字音頻世界幾乎繞不開 PCM?
如果你接觸過音頻系統(tǒng),無論是播放器、手機錄音、聲卡、藍牙鏈路、語音算法,還是音頻編解碼器,幾乎都繞不開一個名字:PCM。
很多人第一次聽到 PCM,會把它理解成一種“音頻格式”。這個理解不能說錯,但還不夠深入。PCM 更重要的意義在于,它定義了聲音怎樣從連續(xù)的物理世界,變成數(shù)字系統(tǒng)能夠處理的一串?dāng)?shù)據(jù)。
理解 PCM,本質(zhì)上是在理解數(shù)字音頻的入口。因為后面無論是 WAV、CD 音頻、I2S、音頻 ADC、DSP 處理,還是 MP3、AAC、Opus 這類有損壓縮格式,很多時候都是在 PCM 這個基礎(chǔ)之上繼續(xù)演化。
一、聲音到底是怎么來的
聲音首先不是電,也不是數(shù)字,而是機械振動。人說話時,聲帶在振動;吉他發(fā)聲時,琴弦在振動;揚聲器工作時,振膜在振動。
這些振動推動周圍空氣,讓空氣壓力隨時間發(fā)生連續(xù)變化,于是形成了聲波。耳朵之所以能聽到聲音,就是因為鼓膜被這種空氣壓力變化不斷推動。
所以從物理本質(zhì)上說,聲音是一條連續(xù)隨時間變化的波形,而不是一串離散的點。數(shù)字音頻系統(tǒng)要做的第一件事,就是想辦法把這條連續(xù)波形“翻譯”成數(shù)字世界能理解的形式。
二、聲音是怎么被采集進系統(tǒng)里的

圖 1:聲音從物理世界進入數(shù)字系統(tǒng)的基本鏈路
采集鏈路通常從麥克風(fēng)開始。麥克風(fēng)把空氣中的連續(xù)聲壓變化,轉(zhuǎn)換成連續(xù)變化的模擬電信號。也就是說,這時信號雖然已經(jīng)不是空氣壓力了,但它仍然是模擬的、連續(xù)的。
接下來,模數(shù)轉(zhuǎn)換器,也就是 ADC,會對這個連續(xù)電信號進行采樣和量化,最后把它編碼成一串離散數(shù)字。這個數(shù)字序列,就是 PCM。
從工程角度看,PCM 并不是“創(chuàng)造聲音”,而是把真實世界里的連續(xù)聲音波形,以規(guī)則、標(biāo)準(zhǔn)化的方式記錄下來。
三、PCM 的本質(zhì)到底是什么
PCM 的英文是 Pulse Code Modulation,中文通常叫脈沖編碼調(diào)制。這個名字聽起來有點歷史味道,但本質(zhì)非常直接:在離散的時間點上,對模擬信號的振幅進行測量,再把測量結(jié)果編碼成數(shù)字。
所以如果只保留一句話,PCM 的本質(zhì)就是:用一串“某時刻的振幅值”,去描述一條連續(xù)波形。
這件事聽起來很樸素,卻非常關(guān)鍵。因為一旦波形被表示成一串?dāng)?shù)字,數(shù)字系統(tǒng)就能對它進行存儲、傳輸、復(fù)制、濾波、增強、混音和壓縮。PCM 解決的核心問題,就是讓聲音第一次真正進入數(shù)字計算系統(tǒng)。
四、采樣率和振幅到底分別在描述什么

圖 2:PCM 的本質(zhì)是按時間取點并記錄振幅
采樣率描述的是“多久測一次”。比如 44.1 kHz,意思就是每秒對模擬波形測量 44100 次。采樣率越高,時間軸上的信息保留得越密。
振幅描述的是“這一時刻波形有多高”。如果把聲音波形想成上下起伏的曲線,那么振幅就是曲線在某個時刻對應(yīng)的高度。音頻 ADC 每做一次采樣,本質(zhì)上就是在時間軸上取一個點,并記錄這個點的振幅值。
而位深,比如 16-bit、24-bit,決定的是振幅被離散成多少個等級。位深越高,振幅刻畫越細(xì),動態(tài)范圍通常也越大。
五、奈奎斯特原理為什么是數(shù)字音頻的基礎(chǔ)

圖 3:奈奎斯特原理與混疊示意圖
奈奎斯特采樣定理告訴我們:如果一個信號的最高頻率是 f,那么采樣頻率至少要大于 2f,才能避免歧義地恢復(fù)這個信號。
直觀理解就是,如果你測得太慢,就會把原本變化很快的波形“看錯”。這個現(xiàn)象在音頻里就叫混疊。原本的高頻成分會偽裝成錯誤的低頻成分,進入你的數(shù)字信號中。
人耳聽覺上限大約在 20 kHz 左右,所以 CD 音頻采用 44.1 kHz 采樣率,本質(zhì)上就是圍繞奈奎斯特原理做出的工程選擇:既覆蓋可聽頻段,又給模擬濾波器留出一定過渡空間。
六、PCM 到底解決了什么問題
PCM 解決的第一個問題,是可計算。模擬聲音可以存在,但模擬聲音很難被數(shù)字系統(tǒng)直接處理;一旦變成 PCM,DSP、CPU、音頻算法和軟件系統(tǒng)就都能參與進來。
PCM 解決的第二個問題,是可復(fù)制和可傳輸。模擬系統(tǒng)每經(jīng)過一次鏈路都可能疊加失真,而 PCM 一旦進入數(shù)字域,就能以非常穩(wěn)定的方式復(fù)制和傳送。
PCM 解決的第三個問題,是標(biāo)準(zhǔn)化。不同設(shè)備、不同接口、不同音頻鏈路,只要約定采樣率、位深、通道數(shù)和數(shù)據(jù)排列方式,就能互相交換和理解音頻數(shù)據(jù)。
也正因為這樣,PCM 成為了數(shù)字音頻系統(tǒng)中最基礎(chǔ)、最通用的一層表示。
七、既然有 MP3、AAC、Opus,為什么還要用 PCM?
因為 PCM 和 MP3 / AAC / Opus 解決的問題根本不一樣。PCM 的目標(biāo)是忠實、直接、低門檻地表達原始數(shù)字音頻;而 MP3、AAC、Opus 的目標(biāo)是進一步壓縮碼率,降低存儲和傳輸成本。
很多壓縮格式在編碼前,本來就需要從 PCM 出發(fā);很多硬件接口、錄音鏈路、DSP 算法輸入輸出,也依然直接使用 PCM。
所以 PCM 不是“落后格式”,而是數(shù)字音頻系統(tǒng)里的基線表示。它就像圖像世界里的 RAW 或像素緩沖區(qū)一樣,不一定最省空間,但足夠直接、通用、可靠。
八、今天再看 PCM,它為什么仍然重要
今天的音頻世界已經(jīng)非常復(fù)雜,有空間音頻、有神經(jīng)網(wǎng)絡(luò)降噪、有藍牙編解碼器、有流媒體音頻分發(fā)。但無論系統(tǒng)多復(fù)雜,最底層仍然常常要回到 PCM。
只要你還需要采集聲音、處理聲音、播放聲音,就幾乎不可能繞開采樣、振幅、量化和 PCM 表示。
從這個意義上說,PCM 之于數(shù)字音頻,就像坐標(biāo)系之于幾何學(xué)。它未必總在臺前,但它幾乎始終是基礎(chǔ)。
結(jié)尾
如果說聲音屬于連續(xù)的物理世界,那么 PCM 就是這條連續(xù)波形進入數(shù)字世界的第一座橋。
它用采樣率描述時間,用位深描述振幅精度,用一串離散樣本把聲音交給計算系統(tǒng)。理解 PCM,不只是理解一種音頻表示方式,而是在理解數(shù)字音頻為什么能成立。
也正因為如此,哪怕今天有再多更高級的音頻技術(shù),PCM 依然是那塊最樸素、最底層、卻最難被替代的基石。
上一篇:數(shù)模轉(zhuǎn)換(DAC)里最標(biāo)準(zhǔn)、最常用的參數(shù)
下一篇:佰泰盛世PL94056同步雙向升降壓快充芯片,為大功率儲能與快充產(chǎn)品打造高集成可靠方案