音の信号処理


Study

CDの音源

 人間の可聴周波数帯域として,20KHzがあげられる.(20kHz以下の聞こえない音を超低周波音という)

 それを,サンプリング定理に基づき,サンプリングして復元してもちゃんと元通りになる2倍の周波数帯(40KHz)で,サンプリングを行う.

 そして,音に対するビットレートは16bit.この量子化ビット数16,すなわち2進数16桁で表現できる数は10進数で0から65535までであり,音圧を表現する精度が65536段階ということになる.

 さらに左右のステレオを採用しモノラルの2倍として計算すると・・・

44.1kHz 16bit Stereo

 これを計算すると,約1.5Mbps(1411kbps)となる.

  • 符号化の手順
    • 元の波形(アナログの波)
       時間的に連続した信号
    • サンプリング
       一定周期ごとに離散値を取り込む
    • 量子化
       値を四捨五入して,段階上の離散値にそろえる
    • 2進数に変換
       0と1とから成る数字に置き換える

mp3の音源

 MPEG-1 Audio Layer-3.CDクオリティのデータで(44.1kHz,ステレオ),データを1/10〜1/20まで圧縮する.ちなみに,Layer1からあがっていくほど,高圧縮でありながら高音質を実現する技術となる.

 この際の圧縮は,圧縮の過程で情報の一部を削除してしまう圧縮方式で,完全な元のデータに復元することはできない非可逆圧縮方式(lossy data compression).

  • 具体的な圧縮の技術
    • MDCTを使って周波数領域を32分割し,人間の最小可聴以下の信号を削除してしまう.
    • さらに,マスキング効果で聴こえない音を削除する.
    • データの多いバンドに多量のビットを割り当てる.
    • 聴覚特性に合わせた効率のよい圧縮を行なう(ステレオで,LとRを和と差だけを保存するMSステレオなど)

用語

  • MDCT(modified discrete cosine transformation):変形離散コサイン変換(高速フーリエ変換のひとつ)
  • MS(Middle/Sides)ステレオ:ステレオのL(Left)とR(Right)をL+R,L-Rに分けて符号化.