目録システム利用マニュアル


[目次]
[前ページ] 付.C インデクス作成仕様

付録.D 特殊文字・記号・ストップワード

 ここでは、目録システムにおいて特別な扱いをされる、以下の文字・記号について説明する。

 1.アラビア数字、及びローマ字(2バイトコード)

 2.踊り文字(1バイトコード/2バイトコード)

 3.デリミタ(1バイトコード/2バイトコード)

 4.ストップワード

 1は、JIS X 0201-1997の2バイトコード文字であるが、 JIS X 0201-1997の1バイトコード文字にも対応する文字が存在する。

 目録システムにおいては、1バイト/2バイトの違いにかかわらず両者は同一視され、目録情報の表示形としては1バイトコードのほうが採用される。このため、これらの2バイトコード文字は、検索されたデータのデータ要素中に現れることはない。

ヒント

 また、2~4は、検索用インデクス作成の際、および入力された検索キーの変換の際に特別な扱いをされる文字種である。

 検索業務においては、これらの特殊文字・記号を含め、データ中の文字列、または入力される検索キーの文字列が、「語」を構成するか否かが問題となる。

 アラビア数字、ローマ字、カタカナ、ひらがな、ロシア文字、ギリシャ文字、漢字、特殊アルファベット(を除く)、音標符号付ローマ字、二重音標符号付ローマ字および音標符号付特殊アルファベットは、単独(1文字)でも語を構成することができる。

 踊り文字は、単独で語を構成することはできないが、語の構成要素にはなり得る (ただし、「◆」を除き、語の先頭に位置することはない)。

 デリミタは、語の構成要素になることはなく、語と語の区切りとして機能する。

 ストップワードは、検索インデクスから除外される語で、具体的には、欧米諸言語における前置詞、冠詞、接続詞のことである。

■踊り文字

 データセット検索において、語を構成する踊り文字はそのまま入力することによって、当該踊り文字を含む語を持つデータが検索される(ただし、長音記号、ダッシュ、ハイフン、負記号は正規化処理により除去されるので、それらの文字を含むとは限らない)。

 しかし、踊り文字はAKEY作成の際には除去される。つまり、AKEY作成の際、データ中の踊り文字は「トルツメ」処理される。このため、AKEYで検索する場合は、踊り文字を文字数の計算に含めないよう注意する必要がある(ただし、濁点、および半濁点は除去の対象外)。

 以下の表に、踊り文字一覧を示す。

UCSコード表示形名称
0027'アポストロフィー
002D-ハイフンマイナス
2010ハイフン
2014ダッシュ
25C6黒菱形
3005繰返し記号
309B濁点
309C半濁点
309D平仮名繰返し記号
309E平仮名繰返し記号濁点
30FC長音記号
30FD片仮名繰返し記号
30FE片仮名繰返し記号濁点

■デリミタ

 データセット検索においては、デリミタは検索の対象とならない。

 デリミタ(空白は除きます)をデータ中に含むデータを検索するためには、文字列検索において検索キーの特定化を行う必要がある。

UCSコード表示形名称
0020 間隔、空白、スペース
0021!感嘆符
0022"引用符、ウムラウト
0023#番号記号、井げた、シャープ
0024$ドル記号
0025%パーセント
0026&アンパサンド
0028(始め小括弧、始め丸括弧
0029)終わり小括弧、終わり丸括弧
002A*星印、アスタリスク
002B+正記号、加算記号、プラス
002C,コンマ
002E.ピリオド
002F/斜線、スラント、スラッシュ
003A:コロン
003B;セミコロン
003C<不等号(より小さい)
003D=等号、イコール
003E>不等号(より大きい)
003F?疑問符
0040@単価記号、アットマーク
005B[始め大括弧、始め角括弧
005C\円記号
005D]終わり大括弧、終わり角括弧
005E^論理否定、アクサンシルコンフレックス
005F_アンダーライン
0060`アクセント、アクサングラーブ???
007B{始め中括弧
007C|縦線、ストローク
007D}終わり中括弧
00A1¡逆感嘆符
00A2セント記号
00A3ポンド記号
00A4¤不特定通貨記号
00A5\円記号
00A6¦破断線
00A7§節記号
00A8¨ウムラウト、ダイエレシス
00AB非常に小さい
00AC否定
00B0°
00B1±加減算記号、プラスマイナス
00B4´アクサンテギュ
00B5μマイクロ
00B6段落記号
00BB非常に大きい
00BF¿逆疑問符
00D7×乗算記号、かける
00F7÷除算記号、わる
060C، ARABIC COMMA
061B؛ARABIC SEMICOLON
061F؟ARABIC QUESTION MARK
066A٪ARABIC PERCENT SIGN
066D٭ARABIC FIVE POINTED STAR
06D4۔ARABIC FULL STOP
0964DEVANIGARI DANDA
0965DEVANIGARI DOUBLE DANDA
09E4 (reserved)
09E5 (reserved)
0A64 (reserved)
0A65 (reserved)
0AE4 (reserved)
0AE5 (reserved)
0B64 (reserved)
0B65 (reserved)
0BE4 (reserved)
0BE5 (reserved)
0C64 (reserved)
0C65 (reserved)
0CE4 (reserved)
0CE5 (reserved)
0D64 (reserved)
0D65 (reserved)
0F0DTIBETAN MARK SHAD
0F0ETIBETAN MARK NYIS SHAD
0F0FTIBETAN MARK TSHEG SHAD
0F10TIBETAN MARK NYIS TSHEG SHAD
0F11TIBETAN MARK RIN CHEN SPUNGS SHAD
0F12TIBETAN MARK RGYA GRAM SHAD
104AMYANMAR SIGN LITTLE SECTION
1B5EBALINESE CARIK SIKI
1B5FBALINESE CARIK PAREREN
2016双柱
2018左シングル引用符
201C左ダブル引用符
2020ダガー
2021ダブルダガー
2025二点リーダ
2026三点リーダ
2030パーミル
203B米印
203E~オーバーライン
2103セ氏度記号
212Bオングストローム
2190左向矢印
2191上向矢印
2192右向矢印
2193下向矢印
21D2ならば(含意)
21D4同値
2200全ての(普通限定子)
2202デル、ラウンドディー
2203存在する(存在限定子)
2207ナブラ
2208属する
220B元として含む
221A根号、ルート
221D比例
221E無限大
2220
2227及び(合接)
2228又は(隣接)
2229共通集合
222A合併集合
222B積分記号
222C二重積分記号
2234ゆえに
2235なぜならば
223D相似
2252ほとんど等しい
2260等号否定
2261常に等しい、合同
2266より小さいか又は等しい
2267より大きいか又は等しい
226A始め二重山括弧
226B終わり二重山括弧
2282真部分集合
2283真部分集合を元として含む
2286部分集合
2287部分集合を元として含む
22A5垂直
2312
2500横細線素片
2501横太線素片
2502縦細線素片
2503縦太線素片
250C細線素片左上
250F太線素片左上
2510細線素片右上
2513太線素片右上
2514細線素片左下
2517太線素片左下
2518細線素片右下
251B太線素片右下
251C細線素片左
251D縦細線横太線素片左
2520縦太線横細線素片左
2523太線素片左
2524細線素片右
2525縦細線横太線素片右
2528縦太線横細線素片右
252B太線素片右
252C細線素片上
252F横太線縦細線素片上
2530横細線縦太線素片上
2533太線素片上
2534細線素片下
2537横太線縦細線素片下
2538横細線縦太線素片下
253B太線素片下
253C細線素片中央
253F縦太線横細線素片中央
2542横細線縦太線素片中央
254B太線素片中央
25A0黒四角
25A1四角
25B2黒三角
25B3三角
25BC逆黒三角
25BD逆三角
25C7菱形
25CB白丸
25CE二重丸
25CF黒丸
25EF合成用丸
2605黒星
2606白星
2640雌記号
2642雄記号
266A音符
266Dフラット
266Fシャープ
3001読点
3002句点
3003同じく記号
3006しめ
3008始め山括弧
3009終わり山括弧
300A始め二重山括弧
300B終わり二重山括弧
300C始めかぎ括弧
300D終わりかぎ括弧
300E始め二重かぎ括弧
300F終わり二重かぎ括弧
3010始めすみ付き括弧
3011終わりすみ付き括弧
3012郵便記号
3013げた記号
3014始め亀甲括弧
3015終わり亀甲括弧
301C波ダッシュ
30FB中点
4EDD同上記号
A876PHAGS-PA MARK SHAD
A877PHAGS-PA MARK DOUBLE SHAD
A8CESAURASHTRA DANDA
A8CFSAURASHTRA DOUBLE DANDA
AA5DCHAM PUNCTUATION DANDA
AA5ECHAM PUNCTUATION DOUBLE DANDA
AA5FCHAM PUNCTUATION TRIPLE DANDA
ABEBMEETEI MAYEK CHEIKHEI
10A56KHAROSHTHI PUNCTUATION DANDA
10A57KHAROSHTHI PUNCTUATION DOUBLE DANDA
11047BRAHMI DANDA
11048BRAHMI DOUBLE DANDA
110C0KAITHI DANDA
110C1KAITHI DOUBLE DANDA

■ストップワード

 ストップワードとは、検索用インデクスから除外される語のことで、欧米諸言語の前置詞、冠詞、接続詞等を指す。

 これらの語は、次の理由により、ストップワードに指定されている。

 以下の表に、ストップワード一覧を示す。

 本表は、目録システムにおいて、すべての言語に対して、大文字/小文字の別に関わらず適用される。

 これらの語に音標符号が付いている場合は、ストップワードではない。また、「FUR」及び「UBER」は、ストップワードではない。

ADELIPOUR
ACDELLAILPRI
AFDELLEIMSI
ALDELLOINSUR
ALEDEMINSTE
ALSDENINTOTHE
AMDERIZTO
AMONGDESJAU
ANDETLAÜBER
ANDDILASUN
ANSDIELEUND
ASDINLESUNE
ATDOLOUPON
AUDULOSV
AUFDURCHMITVAN
AUFSDURCHSNAVE
AUSENACHVED
AUXEINOVON
AVEINEOCHVOOR
AVECEINEMODERWITH
BEFOREEINEROFY
BEIELOGZ
BEIMEMOMZA
BETWEENENONZU
BYENTREOPZUM
CONESOR ZUR
DAETOU
DANSETCOVER
DASFORPARA
DEFRAPER
DEGLIFÜRPO
DEIHETPOR

[ページの先頭]