CATP/1.1サーバ(多言語対応サーバ)実装仕様解説
Last Update: 1999.11.16
- はじめに
- UCS対応
- CATPエンコーディングの追加
- 漢字統合インデクスの実装
- フィールドの新設
- CATP/1.1対応
- CHINA-MARC対応
この資料は,平成12年1月から稼動する,CATP/1.1対応の新CAT/ILLシステム多言語対応サーバの実装仕様について解説するものである。
(CATP/1.1仕様書)
多言語対応サーバ内部で使用する文字コードを,EUCからUCSに変更する。
このサーバで使用するUCSは,以下の仕様とする。
- 従来のEXC文字を含む
- UCSの実装水準は3とする。これは,EXCの全てを表現するのに,合成文字を使用するためである。
- JIS X0208の漢字包摂基準を採用する。
クライアントが使用する文字コードとサーバ内部の文字コード(UCS)との変換は,CATPエンコーディングの指定により多言語対応サーバで行う。
このUCS変換は双方向の変換であり,CATPリクエスト時とCATPレスポンス時に実行される。
クライアント文字コードに変換できない文字を,UCS外字という。これは,◆でUCSコード値をはさんだ形に変換する。
従来のサーバでは,JIS7エンコーディングだけに対応していたが,新たにGB,GBK,UTF8,ISO2022JPの4種類のエンコーディングに対応可能となった。
(CATP/1.1対応エンコーディング一覧)
- GBとは,簡体字中心の中国語用文字セットであり,日本語の表示はできない。
- GBKはその拡張版で,UCSと同等のCJK(中日韓)統合漢字を含んでいるものでる。
- UTF8とは,UCSの文字セットを扱うエンコーディングである。
- ISO2022JPとは,EXC文字を含まないJIS7文字セットを扱うものであり,EXC文字は,UCSの番号で表示されることになる。
UCSの漢字統合部分には,約2万字の漢字が含まれており,似た形や同じ意味の漢字が数多くある。このことによる検索漏れを防ぐため,似た形や同じ意味の漢字を含めて統合検索を可能とするのが,漢字統合インデクスである。
新設したフィールドは,2種類ある。(データベースフィールド定義)
- その他のヨミフィールド
多言語対応にともない,その他のヨミフィールドを新設した。
各データベースのタイトル関係の各フィールドグループに,その他のヨミフィールドを追加し,中国語のピンイン等を入力できるようにした。
また,中位の書誌のその他のヨミは,PTBNOに格納することとした。
- IDENTフィールド
電子ジャーナルのURLなど,アクセス方法を記録するために,IDENTフィールド(Identifier:資源識別子)を新設した。
IDENTフィールドの使用方法については,「総合目録データベースにおける電子ジャーナルの取扱い」が決まり次第,広報する(平成11年12月予定)。
新設フィールドに対応していないクライアントにより,レコードが更新されてしまうと,新設フィールドのデータが欠落するという問題が生じる。それに対処するために,スキーマバージョンという仕掛けを導入した。
(CATP/1.1対応スキーマバージョン)
平成12年1月に新設されたフィールドのスキーマバージョンは,「2」となる。
CATP/1.0およびCATP/1.1スキーマバージョン「1」対応のクライアントでは,検索以外のすべての操作がエラーとなる。
CATP/1.0およびCATP/1.1スキーマバージョン「1」対応のクライアントで,スキーマバージョン「2」のフィールドを含むレコードを検索した場合,「2」のフィールドも返戻される。
参照ファイルとしてCHINA-MARCを追加した。
データベース名は,「CHMARC」である(データベース名定義)。