情報理論

この記事での学習内容 ITパスポート 基本情報 応用情報

情報量の概念、事象の生起確率と情報量との関係を理解する。

情報理論

情報理論とは、ある事象における確率や統計を元に、情報の量を数学的に定義する理論です。

  • 生起確率: ある事象 E が起こる確率。 P(E)
  • 情報量:  事象が起こる確率を P(E) とする時、事象が起こったことを知らされた時に得られる(選択できる)情報の量。

情報量は以下の式で求める。

例)英数字8文字からなるパスワードを1パターン知らされた時に得られる情報量

まずは、生起確率から考える。
英数字は英小文字26文字+英大文字26文字+英数字10文字からなるので、62文字。
パスワード1文字の場合、とある1パターンの確率は 1 / 62 なので、今回の8文字の場合、P= 1 / 628 となる。

よって、公式に当てはめて情報量を求める。

データの単位

コンピュータで扱えるデータ量の最小単位は、2進数の1桁分に当たる、1ビットです。また、8ビットをまとめて1バイトと換算します。通常、データ量はバイトを単位として表します。

更に大きい単位や小さい単位をわかりやすく表記するために、「メガ」や「ミリ」などの補助単位を組み合わせることがあります。

アナログとデジタル

アナログとは、時間の変化に伴って連続的に変化するデータのことです。「連続的」というのは、ある時点の値と別の時点の値の間に異なる値が無限に連続しているような状態です。

対して、デジタルとは、連続して変化する値を離散数(飛び飛びの値)として扱うデータです。離散数として扱うというのは、特定の時点の値を一定の有効桁数の値に当てはめて扱うということです。結果、値は飛び飛びになり、「ある時点とある時点の間」と言うのは存在しなくなります。また、有効桁数で表現できる範囲外の値も存在しません。例えば、有効桁数を小数第一位とした場合、1.5 や -9.9 という値は存在しますが、0.05 と言った値は存在しません。

アナログデータの特徴として、図(グラフ)で表すと波状となります。気温の変化や音の波、光の波などもアナログデータです。
対して、デジタルデータを図(グラフ)で表すと棒グラフ状になります。

A/D変換

コンピュータ内部ではデータは0か1の2進数で表すため、アナログデータをそのまま扱うことは出来ません。そのため、アナログデータは2進数で表すことの出来るデジタルデータに変換して扱います。

このアナログ→デジタルの変換のことを「A/D変換」と言います。A/D変換は以下のような流れで進められます。

  1.  標本化(サンプリング)
    アナログデータから、ある一定間隔ごとに区切って値を抜き出します。このプロセスを「標本化」といいます。
    この段階で、できるだけ細かく区切ることで元のアナログデータに近くなります。
  2.  量子化
    標本化で抜き出した値は、元がアナログデータなので、小数点以下の細かい数値があるため、これをもっとも近い整数値にします。このプロセスを「量子化」といいます。
  3.  符号化(数値を抜き出す)
    区切って量子化した数値を抜き出して、2進数の値とします。このプロセスを「符号化」といいます。

D/A変換

デジタル化したデータは必要に応じて、再度アナログデータに戻す必要があります。(音声データをスピーカーなどで流すなど)

その際の手順をD/A変換といいます。

デジタル→アナログへの変換手順は、A/D変換のサイト逆の手順で行います。