ここでは、目録システムにおいて特別な扱いをされる、以下の文字・記号について説明する。
1.アラビア数字、及びローマ字(2バイトコード)
2.踊り文字(1バイトコード/2バイトコード)
3.デリミタ(1バイトコード/2バイトコード)
4.ストップワード
1は、JIS X 0201-1997の2バイトコード文字であるが、 JIS X 0201-1997の1バイトコード文字にも対応する文字が存在する。
目録システムにおいては、1バイト/2バイトの違いにかかわらず両者は同一視され、目録情報の表示形としては1バイトコードのほうが採用される。このため、これらの2バイトコード文字は、検索されたデータのデータ要素中に現れることはない。
また、2~4は、検索用インデクス作成の際、および入力された検索キーの変換の際に特別な扱いをされる文字種である。
検索業務においては、これらの特殊文字・記号を含め、データ中の文字列、または入力される検索キーの文字列が、「語」を構成するか否かが問題となる。
アラビア数字、ローマ字、カタカナ、ひらがな、ロシア文字、ギリシャ文字、漢字、特殊アルファベット(を除く)、音標符号付ローマ字、二重音標符号付ローマ字および音標符号付特殊アルファベットは、単独(1文字)でも語を構成することができる。
踊り文字は、単独で語を構成することはできないが、語の構成要素にはなり得る (ただし、「◆」を除き、語の先頭に位置することはない)。
デリミタは、語の構成要素になることはなく、語と語の区切りとして機能する。
ストップワードは、検索インデクスから除外される語で、具体的には、欧米諸言語における前置詞、冠詞、接続詞のことである。
データセット検索において、語を構成する踊り文字はそのまま入力することによって、当該踊り文字を含む語を持つデータが検索される(ただし、長音記号、ダッシュ、ハイフン、負記号は正規化処理により除去されるので、それらの文字を含むとは限らない)。
しかし、踊り文字はAKEY作成の際には除去される。つまり、AKEY作成の際、データ中の踊り文字は「トルツメ」処理される。このため、AKEYで検索する場合は、踊り文字を文字数の計算に含めないよう注意する必要がある(ただし、濁点、および半濁点は除去の対象外)。
以下の表に、踊り文字一覧を示す。
UCSコード | 表示形 | 名称 |
0027 | ' | アポストロフィー |
002D | - | ハイフンマイナス |
2010 | ‐ | ハイフン |
2014 | — | ダッシュ |
25C6 | ◆ | 黒菱形 |
3005 | 々 | 繰返し記号 |
309B | ゛ | 濁点 |
309C | ゜ | 半濁点 |
309D | ゝ | 平仮名繰返し記号 |
309E | ゞ | 平仮名繰返し記号濁点 |
30FC | ー | 長音記号 |
30FD | ヽ | 片仮名繰返し記号 |
30FE | ヾ | 片仮名繰返し記号濁点 |
データセット検索においては、デリミタは検索の対象とならない。
デリミタ(空白は除きます)をデータ中に含むデータを検索するためには、文字列検索において検索キーの特定化を行う必要がある。
UCSコード | 表示形 | 名称 |
0020 | 間隔、空白、スペース | |
0021 | ! | 感嘆符 |
0022 | " | 引用符、ウムラウト |
0023 | # | 番号記号、井げた、シャープ |
0024 | $ | ドル記号 |
0025 | % | パーセント |
0026 | & | アンパサンド |
0028 | ( | 始め小括弧、始め丸括弧 |
0029 | ) | 終わり小括弧、終わり丸括弧 |
002A | * | 星印、アスタリスク |
002B | + | 正記号、加算記号、プラス |
002C | , | コンマ |
002E | . | ピリオド |
002F | / | 斜線、スラント、スラッシュ |
003A | : | コロン |
003B | ; | セミコロン |
003C | < | 不等号(より小さい) |
003D | = | 等号、イコール |
003E | > | 不等号(より大きい) |
003F | ? | 疑問符 |
0040 | @ | 単価記号、アットマーク |
005B | [ | 始め大括弧、始め角括弧 |
005C | \ | 円記号 |
005D | ] | 終わり大括弧、終わり角括弧 |
005E | ^ | 論理否定、アクサンシルコンフレックス |
005F | _ | アンダーライン |
0060 | ` | アクセント、アクサングラーブ??? |
007B | { | 始め中括弧 |
007C | | | 縦線、ストローク |
007D | } | 終わり中括弧 |
00A1 | ¡ | 逆感嘆符 |
00A2 | ¢ | セント記号 |
00A3 | £ | ポンド記号 |
00A4 | ¤ | 不特定通貨記号 |
00A5 | \ | 円記号 |
00A6 | ¦ | 破断線 |
00A7 | § | 節記号 |
00A8 | ¨ | ウムラウト、ダイエレシス |
00AB | ≪ | 非常に小さい |
00AC | ¬ | 否定 |
00B0 | ° | 度 |
00B1 | ± | 加減算記号、プラスマイナス |
00B4 | ´ | アクサンテギュ |
00B5 | μ | マイクロ |
00B6 | ¶ | 段落記号 |
00BB | ≫ | 非常に大きい |
00BF | ¿ | 逆疑問符 |
00D7 | × | 乗算記号、かける |
00F7 | ÷ | 除算記号、わる |
060C | ، | ARABIC COMMA |
061B | ؛ | ARABIC SEMICOLON |
061F | ؟ | ARABIC QUESTION MARK |
066A | ٪ | ARABIC PERCENT SIGN |
066D | ٭ | ARABIC FIVE POINTED STAR |
06D4 | ۔ | ARABIC FULL STOP |
0964 | । | DEVANIGARI DANDA |
0965 | ॥ | DEVANIGARI DOUBLE DANDA |
09E4 | (reserved) | |
09E5 | (reserved) | |
0A64 | (reserved) | |
0A65 | (reserved) | |
0AE4 | (reserved) | |
0AE5 | (reserved) | |
0B64 | (reserved) | |
0B65 | (reserved) | |
0BE4 | (reserved) | |
0BE5 | (reserved) | |
0C64 | (reserved) | |
0C65 | (reserved) | |
0CE4 | (reserved) | |
0CE5 | (reserved) | |
0D64 | (reserved) | |
0D65 | (reserved) | |
0F0D | ། | TIBETAN MARK SHAD |
0F0E | ༎ | TIBETAN MARK NYIS SHAD |
0F0F | ༏ | TIBETAN MARK TSHEG SHAD |
0F10 | ༐ | TIBETAN MARK NYIS TSHEG SHAD |
0F11 | ༑ | TIBETAN MARK RIN CHEN SPUNGS SHAD |
0F12 | ༒ | TIBETAN MARK RGYA GRAM SHAD |
104A | MYANMAR SIGN LITTLE SECTION | |
1B5E | BALINESE CARIK SIKI | |
1B5F | BALINESE CARIK PAREREN | |
2016 | ‖ | 双柱 |
2018 | ‘ | 左シングル引用符 |
201C | “ | 左ダブル引用符 |
2020 | † | ダガー |
2021 | ‡ | ダブルダガー |
2025 | ‥ | 二点リーダ |
2026 | … | 三点リーダ |
2030 | ‰ | パーミル |
203B | ※ | 米印 |
203E | ~ | オーバーライン |
2103 | ℃ | セ氏度記号 |
212B | Å | オングストローム |
2190 | ← | 左向矢印 |
2191 | ↑ | 上向矢印 |
2192 | → | 右向矢印 |
2193 | ↓ | 下向矢印 |
21D2 | ⇒ | ならば(含意) |
21D4 | ⇔ | 同値 |
2200 | ∀ | 全ての(普通限定子) |
2202 | ∂ | デル、ラウンドディー |
2203 | ∃ | 存在する(存在限定子) |
2207 | ∇ | ナブラ |
2208 | ∈ | 属する |
220B | ∋ | 元として含む |
221A | √ | 根号、ルート |
221D | ∝ | 比例 |
221E | ∞ | 無限大 |
2220 | ∠ | 角 |
2227 | ∧ | 及び(合接) |
2228 | ∨ | 又は(隣接) |
2229 | ∩ | 共通集合 |
222A | ∪ | 合併集合 |
222B | ∫ | 積分記号 |
222C | ∬ | 二重積分記号 |
2234 | ∴ | ゆえに |
2235 | ∵ | なぜならば |
223D | ∽ | 相似 |
2252 | ≒ | ほとんど等しい |
2260 | ≠ | 等号否定 |
2261 | ≡ | 常に等しい、合同 |
2266 | ≦ | より小さいか又は等しい |
2267 | ≧ | より大きいか又は等しい |
226A | ≪ | 始め二重山括弧 |
226B | ≫ | 終わり二重山括弧 |
2282 | ⊂ | 真部分集合 |
2283 | ⊃ | 真部分集合を元として含む |
2286 | ⊆ | 部分集合 |
2287 | ⊇ | 部分集合を元として含む |
22A5 | ⊥ | 垂直 |
2312 | ⌒ | 弧 |
2500 | ─ | 横細線素片 |
2501 | ━ | 横太線素片 |
2502 | │ | 縦細線素片 |
2503 | ┃ | 縦太線素片 |
250C | ┌ | 細線素片左上 |
250F | ┏ | 太線素片左上 |
2510 | ┐ | 細線素片右上 |
2513 | ┓ | 太線素片右上 |
2514 | └ | 細線素片左下 |
2517 | ┗ | 太線素片左下 |
2518 | ┘ | 細線素片右下 |
251B | ┛ | 太線素片右下 |
251C | ├ | 細線素片左 |
251D | ┝ | 縦細線横太線素片左 |
2520 | ┠ | 縦太線横細線素片左 |
2523 | ┣ | 太線素片左 |
2524 | ┤ | 細線素片右 |
2525 | ┥ | 縦細線横太線素片右 |
2528 | ┨ | 縦太線横細線素片右 |
252B | ┫ | 太線素片右 |
252C | ┬ | 細線素片上 |
252F | ┯ | 横太線縦細線素片上 |
2530 | ┰ | 横細線縦太線素片上 |
2533 | ┳ | 太線素片上 |
2534 | ┴ | 細線素片下 |
2537 | ┷ | 横太線縦細線素片下 |
2538 | ┸ | 横細線縦太線素片下 |
253B | ┻ | 太線素片下 |
253C | ┼ | 細線素片中央 |
253F | ┿ | 縦太線横細線素片中央 |
2542 | ╂ | 横細線縦太線素片中央 |
254B | ╋ | 太線素片中央 |
25A0 | ■ | 黒四角 |
25A1 | □ | 四角 |
25B2 | ▲ | 黒三角 |
25B3 | △ | 三角 |
25BC | ▼ | 逆黒三角 |
25BD | ▽ | 逆三角 |
25C7 | ◇ | 菱形 |
25CB | ○ | 白丸 |
25CE | ◎ | 二重丸 |
25CF | ● | 黒丸 |
25EF | ◯ | 合成用丸 |
2605 | ★ | 黒星 |
2606 | ☆ | 白星 |
2640 | ♀ | 雌記号 |
2642 | ♂ | 雄記号 |
266A | ♪ | 音符 |
266D | ♭ | フラット |
266F | ♯ | シャープ |
3001 | 、 | 読点 |
3002 | 。 | 句点 |
3003 | 〃 | 同じく記号 |
3006 | 〆 | しめ |
3008 | 〈 | 始め山括弧 |
3009 | 〉 | 終わり山括弧 |
300A | 《 | 始め二重山括弧 |
300B | 》 | 終わり二重山括弧 |
300C | 「 | 始めかぎ括弧 |
300D | 」 | 終わりかぎ括弧 |
300E | 『 | 始め二重かぎ括弧 |
300F | 』 | 終わり二重かぎ括弧 |
3010 | 【 | 始めすみ付き括弧 |
3011 | 】 | 終わりすみ付き括弧 |
3012 | 〒 | 郵便記号 |
3013 | 〓 | げた記号 |
3014 | 〔 | 始め亀甲括弧 |
3015 | 〕 | 終わり亀甲括弧 |
301C | 〜 | 波ダッシュ |
30FB | ・ | 中点 |
4EDD | 仝 | 同上記号 |
A876 | PHAGS-PA MARK SHAD | |
A877 | PHAGS-PA MARK DOUBLE SHAD | |
A8CE | SAURASHTRA DANDA | |
A8CF | SAURASHTRA DOUBLE DANDA | |
AA5D | CHAM PUNCTUATION DANDA | |
AA5E | CHAM PUNCTUATION DOUBLE DANDA | |
AA5F | CHAM PUNCTUATION TRIPLE DANDA | |
ABEB | MEETEI MAYEK CHEIKHEI | |
10A56 | KHAROSHTHI PUNCTUATION DANDA | |
10A57 | KHAROSHTHI PUNCTUATION DOUBLE DANDA | |
11047 | BRAHMI DANDA | |
11048 | BRAHMI DOUBLE DANDA | |
110C0 | KAITHI DANDA | |
110C1 | KAITHI DOUBLE DANDA |
ストップワードとは、検索用インデクスから除外される語のことで、欧米諸言語の前置詞、冠詞、接続詞等を指す。
これらの語は、次の理由により、ストップワードに指定されている。
以下の表に、ストップワード一覧を示す。
本表は、目録システムにおいて、すべての言語に対して、大文字/小文字の別に関わらず適用される。
これらの語に音標符号が付いている場合は、ストップワードではない。また、「FUR」及び「UBER」は、ストップワードではない。
A | DEL | I | POUR |
AC | DELLA | IL | PRI |
AF | DELLE | IM | SI |
AL | DELLO | IN | SUR |
ALE | DEM | INS | TE |
ALS | DEN | INTO | THE |
AM | DER | IZ | TO |
AMONG | DES | JA | U |
AN | DET | LA | ÜBER |
AND | DI | LAS | UN |
ANS | DIE | LE | UND |
AS | DIN | LES | UNE |
AT | DO | LO | UPON |
AU | DU | LOS | V |
AUF | DURCH | MIT | VAN |
AUFS | DURCHS | NA | VE |
AUS | E | NACH | VED |
AUX | EIN | O | VON |
AV | EINE | OCH | VOOR |
AVEC | EINEM | ODER | WITH |
BEFORE | EINER | OF | Y |
BEI | EL | OG | Z |
BEIM | EM | OM | ZA |
BETWEEN | EN | ON | ZU |
BY | ENTRE | OP | ZUM |
CON | ES | OR | ZUR |
DA | ET | OU | |
DANS | ETC | OVER | |
DAS | FOR | PARA | |
DE | FRA | PER | |
DEGLI | FÜR | PO | |
DEI | HET | POR |