文字と言語の実験室

序文

情報化が進むことにより、国際化のサポートや、インタオペラリティー, アクセサビリティーの向上が計算機の世界でも重要になって来てます。ここでは国際化について簡単に取り上げようと思っています。国際化についても色々な段階がありますが、近年において重要なのは、多言語化(mulitilingulization = m17n)に基づいた国際化(internationalization = i18n)であり、国際化に基づいた地域化(localization = l10n)です。地域化の先に国際化があり、その先に多言語化があるという認識をする人もいますが、このような定義は一般的ではありません。

用語について、少し整理してみます。多言語化とは、複数の言語を自然な表記で任意に混在可能な環境の実現です。国際化とは、表示するメッセージや通貨単位など国や地域によってに異なる部分をソフトウェア本体から分離する事によって、ソフトウェア本体を特定の地域専用の物にしない事を言います。一般的には、分離された情報はロケールと呼ばれるモジュールに格納され、これを切替える事によって、ソフトウェア本体を修正する事なく、さまざまな国や地域に対応できます。(多種の言語を混在処理可能かどうかは直接関係しないので注意せよ) 地域化は、その国や地域専用にソフトウェアを変更する事を言い、一般的には英語以外の特定の言語のサポートだけを追加することで実現される。

開発者にとって、ソフトウェアを地域化する事は国際化する事に比べてずっとたやすい。(特に技術的には) しかし、国際化の伴わない地域化はトータルな労力ではしばしば高くつく。理由は簡単である。あるソフトウェアがあったとして、これを日本語化, 中国語化, エチオピア語化したとしよう。この時点で、既にオリジナルを含めて4つのバージョンが出来てしまった。バージョンアップもバグフィックスも4倍の労力が必要である。国際化されたソフトウェアならば、このような無駄な手間は必要ないのだ。また、別のメリットもある。国際化された枠組を使って書かれたソフトウェアならば、適切なロケールを用意するだけで地域化が完了する。すなわち、原作者がその文化圏の知識を持っていなくても、その文化圏の人間がロケールを用意するだけでソフトウェアが利用可能になるのだ。国際化には無駄な手間を省き、諸々のリソースの共有を促進する効果がある。誰だって、「車輪の再発明」は出来ればしなくないはずなので、これは歓迎すべき事である。

しかし、国際化が行われていても、その枠組自体が多言語化されていなければ、多種の文字を同時に混在させる事が可能とは限らない。実際、現在存在する多くのシステムでは、「英語で使われるラテンアルファベット + その地域の言語で使われる文字」のみのサポートしかされていない。これが如何に不便であるかは、想像いただけると思う。例をあげるならば、私はドイツ語やフランス語を学ぼうとした時にこの不便さをはじめて感じた。ドイツ語やフランス語の表記には、英語では使われないアクセント記号付きアルファベットを必要とする事は良く知られていると思うが、このアクセント記号付きアルファベットを漢字や仮名と同時に使う事が出来ないのである。グローバリゼーションの進む中、このようなシステムが存在することは極めて驚くべき事である。多言語化の伴った国際化が今必要とされている。

ニュースとか

コンテンツ / Contents

はぁ〜、「実験室」と称しながらコンテンツが貧弱ってのはいかんね。

関連項目

資料 / References

幾つかのRFC/InternetDraftの日本語訳がrfc-jp ML/RFC日本語版翻訳公開班よっち@ほ〜むというところにある(or から辿れる)ようなので、英語が苦手な方はそちらを参照して下さい。

その他

必読の書として、「国際化プログラミング - I18N ハンドブック -」と、太田昌孝氏の 「いま日本語が危ない」(円山文芸図書 ISBN 4-89542-5)を挙げておく。

リンク集 / URL Collection

いくつかのページは勝手にリンクしちゃっているので、何か問題があったら教えて下さい。説明がついていないページは、タイトルから内容が自明であるか、もしくはまだよく読んでいないページです。

国際化 / Internationalization (i18n)

Introduction to i18n
This document describes basic concepts for i18n (internationalization), how to write an internationalized software, and how to modify and internationalize a software. Handling of characters is discussed in detail. There are a few case-studies in which the author internationalized softwares such as TWM and so on.
A Document on i18n
Debian GNU/Linux を対象に、国際化/多言語化/地域化について詳しく述べられている。
Arena i18n
-
国際化WWWブラウザの設計と実装 --i18n Arena
Arena i18n についての解説です。
Linux国際化企画 / Linux Internatiolarization Initiative
Linuxの国際化を目指しています。
Linux研究会NLS分科会
glibc-2.x(x>1) で日本語 locale を実装し、それを本家のソースコードに反映してもらうことを目的に活動しているそうです。glibc-2.2のリリースで、ほぼ目的は達成されたのかな?
BSD I18N flamework implementation project (Citrus Project)
現行 BSD 系 PC-UNIX (FreeBSD,NetBSD,OpenBSD,BSD/OS) 上において、以下のようなことを行うことを目的としているそうです。:
  1. ISO C/SUSV2 に適合する locale/iconv 実装
  2. non-GPL gettext および POSIX NLS catalog 実装
  3. ファイル名などの国際化を目的とした、 システム標準マルチスクリプトエンコーディングの策定
  4. マルチスクリプトフレームワークの設計/実装
Java i18n に関するめも
-
ISO 639 Codes (Languages)
-
ISO 3166 Codes (Countries)
-
M17N/I18N for Ruby
-
Perl, Unicode and I18N FAQ
-
Perl 5 Module List 13)Internatinalization and Locale
-
Python i18n-sig
Pythonの国際化について話し合うフォーラム
Strawman Proposal for Python Unicode Integration
-
Python Unicode Tutorial
-
Visual Basic Web Site
他言語対応化キットIPDK。どの言語版の Visual Basic を使用しても、ローカライズ版のアプリケーションを作成および配布することを可能にするらしい。
Microsoft Developer Network
The Professional Developer's Site for Software Globalization.

多言語化 / Multilingualization (m17n)

The organization for multilingualization
UTF-2000をはじめとする興味深いプロジェクトを行なっています。「JIS X 0213の特徴と、Emacs上での実装」も貴重。
書籍「マルチリンガル環境の実現」のページ
書籍「マルチリンガル環境の実現」の著者の一人の吉田智子氏による、サポートページです。
Pango(Παν語)

The goal of the Pango project is to provide an open-source framework for the layout and rendering of internationalized text. Pango is an offshoot of the GTK+ and GNOME projects, and the initial focus is operation in those environments, however there is nothing fundamentally GTK+ or GNOME specific about Pango. Pango uses Unicode for all of its encoding, and will eventually support output in all the worlds major languages.

CEDILLA
Cedilla is a simple text printer that uses Unicode internally.
Yudit
The Unicode Text Editor
M17N related links
マルチリンガル・文字コード・自然言語関係のリンク だそうです。
Viewing Foreign Pages on Your Web Browser - Multilingual-HTML Browser Project
We have experimentally implemented a server to browse multilingual HTML documents. The server helps users who have no foreign fonts, e.g., CJK fonts, view documents written in a foreign language.
WWW文書のための多言語ブラウザとそのゲートウェイサービス
ブラウザ側にフォントを必要としない多言語HTML文書の提供システム
WWW文書のための多言語ブラウザとそのサーバシステム
ユーザの端末側にフォントを必要としないWWW文書のための多言語ブラウザの方式の提案
w3m-m17n
坂本浩則氏による、国際化/マルチリンガル化 w3m
w3m-mee
須藤清一氏による、w3mへの多符号化方式対応パッチ。同氏作のライブラリlibmoeを使用します。
libmoe
a collection of functions to handle sequences of characters consisting of multiple octets.
mlterm
mltermは、multi lingual対応、その他の機能を実装したX端末です。
Global IME 5.01 enhances East Asian text input
MicrosoftのGlobal IME
超漢字
パーソナルメディア社のBTRON準拠OS
Aprotool ComWin Official Page
多言語対応のエディタ Aprotool TM Editor

System1: Waseda I18N & ML System

国際化・多言語化テキスト処理プロジェクト
-
X-Windowを用いたモンゴル語のアプリケーションの開発
-
全世界の文字と言語の完全混在処理環境: Internationalized Multilingual System - The Waseda I18N & ML System
-
多言語処理システムの研究
多言語処理システムの研究
-
多言語処理実現の問題点
-

地域化 / Localization (l10n)

電脳瓦崗寨
千田大介氏による中国語情報処理等についての情報
コンピュータによる中国語処理
MacOSで中国語を扱う方法等
ヘブライ語とインターネット
ヘブライ語版Emacsが取り上げられている等、古いです。
Indian Institute of Technology, Madras, India
-
Languages and Scripts of India
-
網上閲読中文
-
東アジア語でインターネット
Windows95で実現する多言語環境について、朝鮮語を中心にした解説。
倚天資訊系統公司 Eten Information System Co,Ltd.
倚天中文系統

文字コード

ほらがい
文芸批評家の加藤弘一氏のページです。文字コードに関する情報が多く存在します。
文字講堂
南堂久史氏のページです。文字コードについて、 特に、JISの新規格 ・ 略字 ・ 異体字 ・ 機種依存文字 ・ ルビについて述べられています。
伊藤隆幸のホームページ
文字コードの話や、従来の文字コードとUnicodeの対応に関する諸問題等、文字コードと国際化についての情報があります。
文字コードに関する最近の議論について
文字コードの議論(特に、文字セットに含まれる漢字の数と字体の包摂に関する「批判」)に対する山本太郎氏のコメント
文字コードの国際規格について
新出尚之氏の文字コードについての文章です。
the Unicode Consortium Home Page
ユニコードの総本山
文字コード標準体系検討専門委員会
色々検討しているようです。
IKEDA Shoju's Home Page
池田証寿氏のページです。
文芸協は独自フォントと文字コード体系を創るべし
畑仲哲雄氏の文章です。「せっかくギョーカイ団体があるのだから、日本文芸家協<会のフォントを創って、著作権フリーにして公開してみてはどうだろう。」
いまでぃのホームページ
「漢字コードとコーディング方法」という文章があります。また、imdkcvという文字コード変換ソフトがあります。
BTRON3仕様書 Ver 3.20.00
この仕様書の第1編第2章にTRONコード体系についての仕様があります。
日本語と文字コード
日本語の文字コードに関する基本が整理されています
Unicode Evolves
BYTE, March 1997
漢字コードの話
一般的な話だけで、特に面白い内容は無い。
Unicode とユーザ定義文字・ベンダ定義文字に関する問題点と解決策
-
各社の文字コード調査結果
EUC系のコードと、SHIFT_JIS系のコードのベンダによる実装状況が表になってる。
OSF 日本ベンダ協議会 (OSF/JVC) 推奨
日本語 EUC ・シフト JIS 間コード変換仕様とコード系実態調査
-
益山健のページ
益山健さんという方のページです。「文字コードに関する覚え書き」という文章があり、中国や韓国やベトナムで使われているコードについての記述など、大変参考になります。また、euro記号の話などは他にはあまりない文章があります。
既存の日本語文字コードと Unicode の間のマッピングルール
Junji Takagiさんの文章です。
ISO/IEC 10646 - UCS
Danish UNIX-system User Groupのページ。
Unicode-HOWTO (日本語訳)
Unicodeを扱えるプログラムを書くためのHOWTOです。
XML 日本語プロファイル
-
iTec
世界中の言語で記述されたコンピュータ文書のエンコード方式を変換するための強力なコンバータiTec
JIS漢字最新動向
「新JIS漢字」」JIS X0213:2000の策定過程での参考情報を公開しています。ただし、符号化文字集合調査研究委員会(JCS)は、 2000年3月末日を以て解散したそうです。
IBM developerWorks: Unicode
-

フォント / Fonts

The comp.fonts Home Page
総本山 :-P
ふぉんとみゅぅじあむ
「世界のTrueTypeフォントであそぼぉ〜〜for Win」とのことです。 もっとも、Windows以外でもTrueTypeフォントを扱えるOSならOKでしょう。
文字鏡ネット
今昔文字鏡です。
Moro-siki Products
文字鏡フォントwordマクロ・諸橋大漢和データベース等
JISX0213 16x16 public fonts
-
New JIS (JISx0213) draft font
JIS X 0213 のフォントを試作されたらしいです。
フォントマニア
インターネットからダウンロードできるフリーのTrueTypeフォントが集められています
Unicode fonts and tools for X11
The classic "-misc-fixed-*" X Windows System terminal fonts are now available in an ISO 10646-1/Unicode extension.
Multilingual Unicode TrueType Fonts in the Internet
-
GNU Unicode Font
フリーで、かつ完成度の高いフォント
/efont/
電子書体に関する情報交換を行なうためのオープンラボです。電子書体および関連プログラムの共同開発や配布もします。
Apple Font Tool
-
Yamada Language Center: Language Guides
Font Archiveが凄いです。115の言語についての情報と、40の言語のための112個のフォントがあります。
Dynalabo Japan
-
Bitstream Inc.
-

その他 / misc

Koichi Yasuoka (Japanese Version)
安岡氏のページ。漢字データベース「漢字袋」や、jisx0212 のbdfフォントなど。
Ken Lunde's Home Page
-
Jim Breen's Japanese Page
-
Mozilla Languages Enabling Projects

We gather open source developers to enhance Mozilla internationalization features by:

  • Enabling Mozilla to support additional scripts/writing systems.
  • Add additional feature to the already supported scripts/writing system.
  • Tune the performance of the internationalization library code.
  • Develope new code to overcome the limitation of the underline OS internationalization support.
  • Fix I18N bugs
UTF-8 対応 xterm
2bytes 文字と結合文字を考慮した patch」は既に統合されています。(情報ありがとうございます。> 坂本様)
International register of coded character sets to be used with escape sequences
-
日本電子出版協会
出版データ用のフォーマットJepaX等
漢楽街
漢字の検索と作成を自動化するソフトウェアです
和製漢字の辞典
-
東京大学総合研究博物館デジタルミュージアム展
-
Unitype
UniTypeフォント/入力システム。
Unitype Supports right-to-left scripts like Arabic and Hebrew, CJK languages like Chinese and Korean with many standard input systems including Pinyin and Cantonese, Indian languages like Hindi and Sanskrit, Ancient and Biblical languages like Coptic and Phoenician. Unitype Global Writer supports Unicode with import/export filters and other other functions such as View Unicode Value and Insert Unicode Value.
オムロンソフトウェア株式会社
中国語・日本語・韓国語朝鮮語入力システムWnn
クリエイト大阪株式会社
NiHao WinVer3.0、孫悟空Ver1.1、三蔵Ver1.0、清華OCR863
凱希メディアサービス
-
Taming the masses
A practical approach to the encoding of variant and rare characters in premodern Chinese texts.