データ分析

この記事での学習内容 ITパスポート 基本情報 応用情報

対象業務にとって必要なデータは何か,各データがどのような意味と関連をもっているかなどの分析と整理,異音同義語,同音異義語の発生を抑えるデータ項目の標準化など,データ分析を行う際の考え方を理解する。また,データモデルの作成手法であるトップダウンアプローチとボトムアップアプローチを理解する。

用語例:データ重複の排除,メタデータ,データディクショナリ

データ分析

データ分析とは、対象業務にとって必要なデータは何か、各データがどのような意味と関連を持っているかなどの分析と整理、異音同義語、同音異義語などの発生を抑えるデータ項目の標準化など、データの名称や意味を標準化することをいいます。

データ分析は以下のような手順で行われます。

  1. 対象業務で用いている伝票を収集し、伝票の利用目的、伝票名、伝票に記入している項目などを洗い出す。
  2. 各データがどのような意味と関連を持っているかを調べる。
  3. 異音同義語、同音異義語の発生を抑えるようにデータ項目を標準化する。
  4. データの重複を排除する。
  5. メタデータ(データに関するデータ)をまとめ、データ・ディクショナリ(メタデータの辞書)に格納する。

データの標準化

データの標準化とは、データの名称や意味を標準化することです。多くのデータを扱う場合の基本として大切です。

例えば、名称が同じで意味が異なる同音異義語や名称が異なって意味が同じ異音同義語の発生を抑えます。

異音同義語の例:部門、部署
同音異義語の例:保証、保障

データの標準化をしないと、例えば同じ種類の伝票データが「部門」と「部署」という表に分かれてしまい、合計値を求めることができません。また、同音異義語があると、口頭での指示で誤解が生じたり、PC上での漢字変換ミスによるトラブルを誘発したりします。

データ重複の排除

データ重複の排除とは、一つであるべきデータが複数存在したり、内容が似た表が複数存在したりすることを排除することです。それによって、ミスの防止、処理効率の向上、記憶スペースの削減などをはかります。

例えば、顧客名簿のデータが重複すると、顧客数のカウントミスや、宣伝メールを複数送信するミスが起きます。

メタデータ

メタデータとは、データのためのデータという意味です。特にデータベースにおいては、データの属性や定義情報を表すデータのことをさして、メタデータと呼んでいます。

例えば、顧客の方には「顧客名簿」という名称が付与されます。表の中には、会社、部門、肩書、姓名、住所などの列があります。これらの名称は顧客の名刺には記載されていないメタデータです。

*表のメタデータ:別名、主キーの列名など
*列のメタデータ:データ型、長さ、制約条件など

データディクショナリ

データディクショナリ(データ辞書)は、データの名称や意味などのメタデータを登録した表のことです。データベース全体に存在する名称をデータディクショナリとして集中管理し、名称や意味を標準化すると、データベース全体の整合性や簡潔性を保つのに役立ちます。データディクショナリは、データベース管理システムの機能によって、作成・更新します。