SSブログ

UNIX,APL(月刊ASCII 1985年5月号8) [月刊アスキー廃棄(スクラップ)]

第5回「UNIXにおける日本語処理」~高度な計算機環境への誘い~
見出しを引用する。
 先月までで、UNIXの「これまで」についての解説を終わった。今月と来月で、UNIXは今後どのように発展していくかを考えてみたい。
 UNIXが日本で広く普及するか否かの鍵をにぎるのは、いかにうまく日本語処理機能を取り入れるかにかかっている、と言っても過言ではない。そこで、今月は実例を紹介しながら、どういう機能が取り入れられるべきかを考えることにする。

35年後のUbuntu使いからすると日本語処理問題は昔々の歴史になってしまっている。
当時の雰囲気を感じるためスクラップする。

ASCII1985(05)e06UNIX_W520.jpg

「8-1.漢字コード」部分を引用する。
8-1.漢字コード
 もともとUNIXは,ASCIIコード用に設計されているため,1文字は1byteで表現される.しかも,ASCIIコードは7bitであるので残りの1bitを制御用などの別の用途に利用しているソフトウェアもある.しかし、カタカナを含む半角の文字は8bitで,漢字は16bitで表現されるため,UNIXを日本語化するためには,こうした差を吸収しなければならない。
 さらに日本語化するに当たって,JISの漢字コード体系が問題となっている.このコードでは、半角の文字は1byte,全角の文字は2byteで表されるが,それらが混在する場合に半角と全角の文字を区別するために全角文字の前後に各3byteのエスケープ・シーケンス(KIとKO)を入れる必要がある.このエスケープ・シーケンスが問題となっているのである.例えば,「これまでの日本語処理」という文章の「の」と「日」の間に半角文字「UNIX」を挿入する場合を考えてみる.
 JISコードでは「これまでの日本語処理」は図1の(a)に示されるように表現される.ここに半角の文字を挿入するためには単に「UNIX」の4byteを挿入するだけでなく,その前後に半角と全角の文字を区別するためのエスケープ・シーケンスを挿入しなければならない.こうしたエスケープ・シーケンスを必要とすることによる操作の繁雑さは,このほかにファイル中から文字列を検索する場合など,さまざまな問題点を生み出す.また,エスケープ・シーケンスのため記憶領域は多少大きなものとなる.
 そのため、このJISコードの持つ問題点を改善したコード体系がいくつか開発されている.その中でもっとも有名なものが,MS-DOSに採用されたシフトJISコード(MS・漢字コード)である.このシフトJISコードでは,全角文字コードの第1バイトと半角文字の英数字やカタカナのコードが重複しないように設計されている.こうすることにより,JISコードのようなエスケープ・シーケンスは必要なくなり,前述のような問題点は解消される.ただし,現在市販されている漢字端末のほとんどがJISコードを採用しているため,シフトJISコードを採用した場合,この変換のためのオーバヘッドが問題となる場合がある.
 このように,どのような漢字コードを採用するかによって,ソフトウェアの構成方法やカーネルの改良点が大きく違ってくる.JISコードやシフトJISコードのほかに,三菱電機や日本DECでは,それぞれ独自のコード体系が開発されているが,現在日本語UNIXと呼ばれるシステムのほとんどでは,JISコードかシフトJISコードが採用されている。
ASCII1985(05)e06UNIX_図1_W384.jpg
懐かしい漢字JISコード問題。35年も経つと、記憶から歴史になっている。

ASCII1985(05)e07UNIX_W520.jpg
ASCII1985(05)e07UNIX_出力例1_W709.jpg

ASCII1985(05)e08UNIX_W520.jpg
ASCII1985(05)e09UNIX_W520.jpg
この10年後1995年にはWindows95が発売され、インターネットで個人がWebPage(当時はホームページと言っていた)を作るのが流行り始めたときにプロバイダーのサーバーはUnixであるが、CGIをシフトJISで日本語処理していた。

APLの連載第2回目は「APLソフトウェア紹介」だった。各処理系を紹介されていた。
ASCII1985(05)e01APL_W520.jpg
ASCII1985(05)e02APL_W520.jpg
ASCII1985(05)e03APL_W520.jpg
ASCII1985(05)e04APL_W520.jpg
ASCII1985(05)e05APL_W520.jpg
総論の部分が面白いのでスクラップする。
ASCII1985(05)e05APL_総論_W350.jpg
APLは勉強用の言語どまりの面白いだけの言語だった。

nice!(0)  コメント(0) 
共通テーマ:パソコン・インターネット

nice! 0

コメント 0

コメントを書く

お名前:[必須]
URL:[必須]
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。