音声処理

この記事での学習内容 ITパスポート 基本情報 応用情報

音声データのディジタル化の原理,音声ファイルの仕組み,代表的な音声ファイル形式の特徴を理解する。

用語例:PCM(Pulse Code Modulation:パルス符号変調),MIDI,WAV(Waveform Audio Format),AU(Audio or mu-law),AIFF(Audio Interchange File Format),MP3,標本化周波数,量子化ビット数,MIDI 音源,サンプリング

音声のデジタル化

アナログ信号である音声データをデジタル化する方法に、パルス符号化方式(PCM:Pulse Code Modulation)があります。

標本化・量子化・符号化の3段階の手順で行います。

1.標本化(サンプリング)
音声を一定周期(一定時間ごと)で測定して標本化する。
2.量子化
測定値をある程度の粗さの目盛りに当てはめて数値化する。
3.符号化(エンコーディング)
数値を2進数に置き換えて符号化する。

一例として、音楽CDの場合、下記の手順でデジタル化が行われています。

  1.  44kHzの周期でサンプリング
  2.  16ビットで量子化(216=65536段階で数値化)
  3.  量子化した値を2進数で符号化

標本化の間隔が短いほど、また量子化の段階数が多いほど、元のアナログ音声に近いものになります。

音声のファイル形式

主な音声データ形式には次のようなものがあります。

型式名特徴
MP3形式MPEG規格の一つで、音声の圧縮形式。
音声データをCD並の高音質のまま、従来の10分の1以下のサイズに圧縮できるため、
音声ファイルの転送に広く用いられる。
MIDI形式電子楽器とパソコンを接続して楽曲データを交換するための規格。
音色や音程などのデータをやり取りする手順が定められている。
WAVE/AIFF形式前者がwindowsの標準音声形式で、後者がMacOS向けのもの。
基本的に非圧縮で、1分で約10MB。音質は音楽CDとほぼ同等。
AAC形式
(Advanced Audio Coding)
Apple社のiPodなどでよく利用されている方式で、MPEG2、MPEG4のオーディオ圧縮技術を利用したもの。
技術的にはMP3にあたる。Apple社のiPodシリーズの他、携帯電話の着うたやWeb上での音楽配信などで利用されている。
WMA形式
(Windows Media Audio)
音楽CD並の音質を保ちながら、容量を22分の1まで圧縮可能な形式。
こちらも音楽配信などで利用されている。