文字の表現

2017.09.14

この記事での学習内容 ITパスポート基本情報応用情報

代表的な文字コードを理解する。

用語例： ASCIIコード、EUC（Extended UNIX Code）、JISコード、シフトJISコード、Unicode、UCS

アルファベットやかな、漢字といった文字データを扱うために、コンピュータ内部ではそれぞれの文字に、0と1からなるコード番号を割り当てています。これを文字コードといいます。

文字コードには多くの体系があり、体系によって扱える文字種やコードの長さ（ビット数）が異なります。

ASCII	ANSI（アメリカ規格協会）が定めた7ビットコード。英字と数字、記号のみに対応し漢字やかなの規定はない。
Unicode	全世界の文字に統一的に対応するための国際規格の標準コード。2～4バイトコード。文字コードセットとしてUCSが、エンコード方式としてUTFがそれぞれ定められている。
EUC	Extended Unix Code（拡張UNIXコード）の略。UNIX上で2バイト文字の漢字・かなを表現できる。
JISコード	JIS（日本工業規格）が定めたコード。英数字と半角カナに対応する7又は8ビットのコード体系と、漢字などに対応する2バイト体系がある。
シフトJIS	JISコードをシフトさせて、ASCIIコードと混在できるようにしたもの。さらに機種ごとの特殊記号などの拡張コードが加えられている。
EBCDIC	IBMなどの汎用機で用いられているコード。英数字用の文字コード。

ASCIIなどの文字コードでは、基本的に1バイトで1文字を表しますが、1バイトでは最大でも256文字までしか規定することが出来ません。日本語の場合、ひらがな、カタカナ、漢字と種類が多く、特に漢字は「常用漢字」だけでも2,000字近くあり、1バイトで規定することが出来ません。

そこで、1文字2バイトとすることで、表現できる文字数を増やして対応しているのが日本語用の文字コードです。

日本語用の文字コードとしてはUnicode、JISコード、シフトJIS、EUCの4種類が広く用いられています。

データを表示した時に、本来の文字列とは異なるでたらめな文字や記号が表示されてしまう現象を「文字化け」といいます。

これは、間違った文字コードが使用された時に起こる現象で、他のシステムからデータを移行・転送した場合にしばしば起こります。また、本来の文字コード体系に含まれていない、ユーザー登録した外字や機種依存文字を含む場合にも発生することがあります。

文字化けを防ぐには、事前に双方で使用している文字コードを確認する必要があります。