|
調べたい単語を 1 つ指定するだけのもっとも基本的な検索手法です。
例:
namazu
ある単語とある単語の両方を含む文書を検索します。検索結果を絞り込むのに有効です。3 つ以上の単語を指定することも可能です。単語と単語の間に and または & を挿みます。例:
Linux and Netscape
and または & は省略できます。単語を空白で区切って羅列するとそれらの語すべてを含む文書をAND検索します。
ある単語とある単語のどちらかを含む文書を検索します。3 つ以上の単語を指定することも可能です。単語と単語の間に
or または | を挿みます。例:
Linux or FreeBSD
ある単語を含み、ある単語を含まない文書を検索します。3 つ以上の単語を指定することも可能です。単語と単語の間に
not または ! を挿みます。例:
Linux not UNIX
AND 検索、OR 検索、NOT 検索を括弧でグループ化できます。括弧の両隣には空白を入れる必要があります。例:
( Linux or FreeBSD ) and Netscape not Windows
部分一致検索には前方一致、中間一致、後方一致の 3 種類があります。
- 前方一致検索
inter*
(inter から始まる単語を含む文書を検索)
- 中間一致検索
*text*
(text を内包する単語を含む文書を検索)
- 後方一致検索
*net
(net で終わる単語を含む文書を検索)
Subject:、From:、Message-Id: といったフィールドを指定して検索する手法です。特に Mail/News のファイルを扱う際に効果を発揮します。例:
+subject:Linux
(Subject: に Linuxが含まれる文書)
+subject:"GNU Emacs"
(Subject: に GNU Emacsが含まれる文書)
+from:foo@bar.jp
(From: に foo@bar.jp が含まれる文書)
+message-id:<199801240555.OAA18737@foo.bar.jp>
(Message-Id を指定)
- いずれの検索方法でもアルファベットの大文字・小文字の区別はしません。
- 日本語の複合語は内部的に形態素単位に分割されてから検索されます。分割は不適切に行なわれることがあります。
- JIS X 0208 (いわゆる全角文字) の英数字と記号の一部
(ASCIIと重複しているもの) は ASCII (いわゆる半角文字) として処理されます。
- 記号を含む語の検索ができます。例:
TCP/IP。
ただし、記号の処理は完全ではないので TCP and IP
のように分割して AND 検索をかけた方が取りこぼしがありません (その代わり余計なファイルまでヒットしてしまう可能性があります。
- 中間一致・後方一致、フィールド指定の検索には少し時間がかかります。
and、or、not を単語として検索したいときはそれぞれ、"..." と二重引用符で、あるいは {...} と中括弧で囲みます。
標準の Kabayaki パッケージでは、検索結果を、スコア、商品名、URI の順で並べ替えることができます。既定値はスコア順でのソートです。
- 基本的には、指定された検索文字列の登場回数が多い文書ほどスコアの数値は高くなります。
- 検索文字列が文書のどの場所に含まれるかで、スコアに加算される数値が変わることがあります。登場回数が同じ 1 回でも、たとえば検索文字列がタイトルに使用されている文書は、そうでない文書よりもスコアが高くなります。
- 複数の検索文字列が指定された場合は、ヒットした文書数の少ない文字列をより多く含む文書の方がスコアが高くなる傾向があります。
|