ここでは、目録システムにおいて特別な扱いをされる、以下の文字・記号について説明する。
1.アラビア数字、及びローマ字(2バイトコード)
2.踊り文字(1バイトコード/2バイトコード)
3.デリミタ(1バイトコード/2バイトコード)
4.ストップワード
1は、JIS X 0201-1997の2バイトコード文字であるが、 JIS X 0201-1997の1バイトコード文字にも対応する文字が存在する。
目録システムにおいては、1バイト/2バイトの違いにかかわらず両者は同一視され、目録情報の表示形としては1バイトコードのほうが採用される。このため、これらの2バイトコード文字は、検索されたデータのデータ要素中に現れることはない。
また、2~4は、検索用インデクス作成の際、および入力された検索キーの変換の際に特別な扱いをされる文字種である。
検索業務においては、これらの特殊文字・記号を含め、データ中の文字列、または入力される検索キーの文字列が、「語」を構成するか否かが問題となる。
アラビア数字、ローマ字、カタカナ、ひらがな、ロシア文字、ギリシャ文字、漢字、特殊アルファベット(を除く)、音標符号付ローマ字、二重音標符号付ローマ字および音標符号付特殊アルファベットは、単独(1文字)でも語を構成することができる。
踊り文字は、単独で語を構成することはできないが、語の構成要素にはなり得る (ただし、「◆」を除き、語の先頭に位置することはない)。
デリミタは、語の構成要素になることはなく、語と語の区切りとして機能する。
ストップワードは、検索インデクスから除外される語で、具体的には、欧米諸言語における前置詞、冠詞、接続詞のことである。
データセット検索において、語を構成する踊り文字はそのまま入力することによって、当該踊り文字を含む語を持つデータが検索される(ただし、長音記号、ダッシュ、ハイフン、負記号は正規化処理により除去されるので、それらの文字を含むとは限らない)。
しかし、踊り文字はAKEY作成の際には除去される。つまり、AKEY作成の際、データ中の踊り文字は「トルツメ」処理される。このため、AKEYで検索する場合は、踊り文字を文字数の計算に含めないよう注意する必要がある(ただし、濁点、および半濁点は除去の対象外)。
以下の表に、踊り文字一覧を示す。
| UCSコード | 表示形 | 名称 |
| 0027 | ' | アポストロフィー |
| 002D | - | ハイフンマイナス |
| 2010 | ‐ | ハイフン |
| 2014 | — | ダッシュ |
| 25C6 | ◆ | 黒菱形 |
| 3005 | 々 | 繰返し記号 |
| 309B | ゛ | 濁点 |
| 309C | ゜ | 半濁点 |
| 309D | ゝ | 平仮名繰返し記号 |
| 309E | ゞ | 平仮名繰返し記号濁点 |
| 30FC | ー | 長音記号 |
| 30FD | ヽ | 片仮名繰返し記号 |
| 30FE | ヾ | 片仮名繰返し記号濁点 |
データセット検索においては、デリミタは検索の対象とならない。
デリミタ(空白は除きます)をデータ中に含むデータを検索するためには、文字列検索において検索キーの特定化を行う必要がある。
| UCSコード | 表示形 | 名称 |
| 0020 | 間隔、空白、スペース | |
| 0021 | ! | 感嘆符 |
| 0022 | " | 引用符、ウムラウト |
| 0023 | # | 番号記号、井げた、シャープ |
| 0024 | $ | ドル記号 |
| 0025 | % | パーセント |
| 0026 | & | アンパサンド |
| 0028 | ( | 始め小括弧、始め丸括弧 |
| 0029 | ) | 終わり小括弧、終わり丸括弧 |
| 002A | * | 星印、アスタリスク |
| 002B | + | 正記号、加算記号、プラス |
| 002C | , | コンマ |
| 002E | . | ピリオド |
| 002F | / | 斜線、スラント、スラッシュ |
| 003A | : | コロン |
| 003B | ; | セミコロン |
| 003C | < | 不等号(より小さい) |
| 003D | = | 等号、イコール |
| 003E | > | 不等号(より大きい) |
| 003F | ? | 疑問符 |
| 0040 | @ | 単価記号、アットマーク |
| 005B | [ | 始め大括弧、始め角括弧 |
| 005C | \ | 円記号 |
| 005D | ] | 終わり大括弧、終わり角括弧 |
| 005E | ^ | 論理否定、アクサンシルコンフレックス |
| 005F | _ | アンダーライン |
| 0060 | ` | アクセント、アクサングラーブ??? |
| 007B | { | 始め中括弧 |
| 007C | | | 縦線、ストローク |
| 007D | } | 終わり中括弧 |
| 00A1 | ¡ | 逆感嘆符 |
| 00A2 | ¢ | セント記号 |
| 00A3 | £ | ポンド記号 |
| 00A4 | ¤ | 不特定通貨記号 |
| 00A5 | \ | 円記号 |
| 00A6 | ¦ | 破断線 |
| 00A7 | § | 節記号 |
| 00A8 | ¨ | ウムラウト、ダイエレシス |
| 00AB | ≪ | 非常に小さい |
| 00AC | ¬ | 否定 |
| 00B0 | ° | 度 |
| 00B1 | ± | 加減算記号、プラスマイナス |
| 00B4 | ´ | アクサンテギュ |
| 00B5 | μ | マイクロ |
| 00B6 | ¶ | 段落記号 |
| 00BB | ≫ | 非常に大きい |
| 00BF | ¿ | 逆疑問符 |
| 00D7 | × | 乗算記号、かける |
| 00F7 | ÷ | 除算記号、わる |
| 060C | ، | ARABIC COMMA |
| 061B | ؛ | ARABIC SEMICOLON |
| 061F | ؟ | ARABIC QUESTION MARK |
| 066A | ٪ | ARABIC PERCENT SIGN |
| 066D | ٭ | ARABIC FIVE POINTED STAR |
| 06D4 | ۔ | ARABIC FULL STOP |
| 0964 | । | DEVANIGARI DANDA |
| 0965 | ॥ | DEVANIGARI DOUBLE DANDA |
| 09E4 | (reserved) | |
| 09E5 | (reserved) | |
| 0A64 | (reserved) | |
| 0A65 | (reserved) | |
| 0AE4 | (reserved) | |
| 0AE5 | (reserved) | |
| 0B64 | (reserved) | |
| 0B65 | (reserved) | |
| 0BE4 | (reserved) | |
| 0BE5 | (reserved) | |
| 0C64 | (reserved) | |
| 0C65 | (reserved) | |
| 0CE4 | (reserved) | |
| 0CE5 | (reserved) | |
| 0D64 | (reserved) | |
| 0D65 | (reserved) | |
| 0F0D | ། | TIBETAN MARK SHAD |
| 0F0E | ༎ | TIBETAN MARK NYIS SHAD |
| 0F0F | ༏ | TIBETAN MARK TSHEG SHAD |
| 0F10 | ༐ | TIBETAN MARK NYIS TSHEG SHAD |
| 0F11 | ༑ | TIBETAN MARK RIN CHEN SPUNGS SHAD |
| 0F12 | ༒ | TIBETAN MARK RGYA GRAM SHAD |
| 104A | MYANMAR SIGN LITTLE SECTION | |
| 1B5E | BALINESE CARIK SIKI | |
| 1B5F | BALINESE CARIK PAREREN | |
| 2016 | ‖ | 双柱 |
| 2018 | ‘ | 左シングル引用符 |
| 201C | “ | 左ダブル引用符 |
| 2020 | † | ダガー |
| 2021 | ‡ | ダブルダガー |
| 2025 | ‥ | 二点リーダ |
| 2026 | … | 三点リーダ |
| 2030 | ‰ | パーミル |
| 203B | ※ | 米印 |
| 203E | ~ | オーバーライン |
| 2103 | ℃ | セ氏度記号 |
| 212B | Å | オングストローム |
| 2190 | ← | 左向矢印 |
| 2191 | ↑ | 上向矢印 |
| 2192 | → | 右向矢印 |
| 2193 | ↓ | 下向矢印 |
| 21D2 | ⇒ | ならば(含意) |
| 21D4 | ⇔ | 同値 |
| 2200 | ∀ | 全ての(普通限定子) |
| 2202 | ∂ | デル、ラウンドディー |
| 2203 | ∃ | 存在する(存在限定子) |
| 2207 | ∇ | ナブラ |
| 2208 | ∈ | 属する |
| 220B | ∋ | 元として含む |
| 221A | √ | 根号、ルート |
| 221D | ∝ | 比例 |
| 221E | ∞ | 無限大 |
| 2220 | ∠ | 角 |
| 2227 | ∧ | 及び(合接) |
| 2228 | ∨ | 又は(隣接) |
| 2229 | ∩ | 共通集合 |
| 222A | ∪ | 合併集合 |
| 222B | ∫ | 積分記号 |
| 222C | ∬ | 二重積分記号 |
| 2234 | ∴ | ゆえに |
| 2235 | ∵ | なぜならば |
| 223D | ∽ | 相似 |
| 2252 | ≒ | ほとんど等しい |
| 2260 | ≠ | 等号否定 |
| 2261 | ≡ | 常に等しい、合同 |
| 2266 | ≦ | より小さいか又は等しい |
| 2267 | ≧ | より大きいか又は等しい |
| 226A | ≪ | 始め二重山括弧 |
| 226B | ≫ | 終わり二重山括弧 |
| 2282 | ⊂ | 真部分集合 |
| 2283 | ⊃ | 真部分集合を元として含む |
| 2286 | ⊆ | 部分集合 |
| 2287 | ⊇ | 部分集合を元として含む |
| 22A5 | ⊥ | 垂直 |
| 2312 | ⌒ | 弧 |
| 2500 | ─ | 横細線素片 |
| 2501 | ━ | 横太線素片 |
| 2502 | │ | 縦細線素片 |
| 2503 | ┃ | 縦太線素片 |
| 250C | ┌ | 細線素片左上 |
| 250F | ┏ | 太線素片左上 |
| 2510 | ┐ | 細線素片右上 |
| 2513 | ┓ | 太線素片右上 |
| 2514 | └ | 細線素片左下 |
| 2517 | ┗ | 太線素片左下 |
| 2518 | ┘ | 細線素片右下 |
| 251B | ┛ | 太線素片右下 |
| 251C | ├ | 細線素片左 |
| 251D | ┝ | 縦細線横太線素片左 |
| 2520 | ┠ | 縦太線横細線素片左 |
| 2523 | ┣ | 太線素片左 |
| 2524 | ┤ | 細線素片右 |
| 2525 | ┥ | 縦細線横太線素片右 |
| 2528 | ┨ | 縦太線横細線素片右 |
| 252B | ┫ | 太線素片右 |
| 252C | ┬ | 細線素片上 |
| 252F | ┯ | 横太線縦細線素片上 |
| 2530 | ┰ | 横細線縦太線素片上 |
| 2533 | ┳ | 太線素片上 |
| 2534 | ┴ | 細線素片下 |
| 2537 | ┷ | 横太線縦細線素片下 |
| 2538 | ┸ | 横細線縦太線素片下 |
| 253B | ┻ | 太線素片下 |
| 253C | ┼ | 細線素片中央 |
| 253F | ┿ | 縦太線横細線素片中央 |
| 2542 | ╂ | 横細線縦太線素片中央 |
| 254B | ╋ | 太線素片中央 |
| 25A0 | ■ | 黒四角 |
| 25A1 | □ | 四角 |
| 25B2 | ▲ | 黒三角 |
| 25B3 | △ | 三角 |
| 25BC | ▼ | 逆黒三角 |
| 25BD | ▽ | 逆三角 |
| 25C7 | ◇ | 菱形 |
| 25CB | ○ | 白丸 |
| 25CE | ◎ | 二重丸 |
| 25CF | ● | 黒丸 |
| 25EF | ◯ | 合成用丸 |
| 2605 | ★ | 黒星 |
| 2606 | ☆ | 白星 |
| 2640 | ♀ | 雌記号 |
| 2642 | ♂ | 雄記号 |
| 266A | ♪ | 音符 |
| 266D | ♭ | フラット |
| 266F | ♯ | シャープ |
| 3001 | 、 | 読点 |
| 3002 | 。 | 句点 |
| 3003 | 〃 | 同じく記号 |
| 3006 | 〆 | しめ |
| 3008 | 〈 | 始め山括弧 |
| 3009 | 〉 | 終わり山括弧 |
| 300A | 《 | 始め二重山括弧 |
| 300B | 》 | 終わり二重山括弧 |
| 300C | 「 | 始めかぎ括弧 |
| 300D | 」 | 終わりかぎ括弧 |
| 300E | 『 | 始め二重かぎ括弧 |
| 300F | 』 | 終わり二重かぎ括弧 |
| 3010 | 【 | 始めすみ付き括弧 |
| 3011 | 】 | 終わりすみ付き括弧 |
| 3012 | 〒 | 郵便記号 |
| 3013 | 〓 | げた記号 |
| 3014 | 〔 | 始め亀甲括弧 |
| 3015 | 〕 | 終わり亀甲括弧 |
| 301C | 〜 | 波ダッシュ |
| 30FB | ・ | 中点 |
| 4EDD | 仝 | 同上記号 |
| A876 | PHAGS-PA MARK SHAD | |
| A877 | PHAGS-PA MARK DOUBLE SHAD | |
| A8CE | SAURASHTRA DANDA | |
| A8CF | SAURASHTRA DOUBLE DANDA | |
| AA5D | CHAM PUNCTUATION DANDA | |
| AA5E | CHAM PUNCTUATION DOUBLE DANDA | |
| AA5F | CHAM PUNCTUATION TRIPLE DANDA | |
| ABEB | MEETEI MAYEK CHEIKHEI | |
| 10A56 | KHAROSHTHI PUNCTUATION DANDA | |
| 10A57 | KHAROSHTHI PUNCTUATION DOUBLE DANDA | |
| 11047 | BRAHMI DANDA | |
| 11048 | BRAHMI DOUBLE DANDA | |
| 110C0 | KAITHI DANDA | |
| 110C1 | KAITHI DOUBLE DANDA |
ストップワードとは、検索用インデクスから除外される語のことで、欧米諸言語の前置詞、冠詞、接続詞等を指す。
これらの語は、次の理由により、ストップワードに指定されている。
以下の表に、ストップワード一覧を示す。
本表は、目録システムにおいて、すべての言語に対して、大文字/小文字の別に関わらず適用される。
これらの語に音標符号が付いている場合は、ストップワードではない。また、「FUR」及び「UBER」は、ストップワードではない。
| A | DEL | I | POUR |
| AC | DELLA | IL | PRI |
| AF | DELLE | IM | SI |
| AL | DELLO | IN | SUR |
| ALE | DEM | INS | TE |
| ALS | DEN | INTO | THE |
| AM | DER | IZ | TO |
| AMONG | DES | JA | U |
| AN | DET | LA | ÜBER |
| AND | DI | LAS | UN |
| ANS | DIE | LE | UND |
| AS | DIN | LES | UNE |
| AT | DO | LO | UPON |
| AU | DU | LOS | V |
| AUF | DURCH | MIT | VAN |
| AUFS | DURCHS | NA | VE |
| AUS | E | NACH | VED |
| AUX | EIN | O | VON |
| AV | EINE | OCH | VOOR |
| AVEC | EINEM | ODER | WITH |
| BEFORE | EINER | OF | Y |
| BEI | EL | OG | Z |
| BEIM | EM | OM | ZA |
| BETWEEN | EN | ON | ZU |
| BY | ENTRE | OP | ZUM |
| CON | ES | OR | ZUR |
| DA | ET | OU | |
| DANS | ETC | OVER | |
| DAS | FOR | PARA | |
| DE | FRA | PER | |
| DEGLI | FÜR | PO | |
| DEI | HET | POR |