全文検索開始後1年を経て
追記 2002.11.18
2000.12.02
AN HTTPDゲストブック/コメント集の全文検索システムをスタートしてから丸1年が経過しました。振り返って多少感想をまとめてみます。
- 1999年11月 Namazuを使ったコメント集の全文検索を開始。開始の動機は自分が使いたいからというのもあるが、それだけなら自分のパソコンで十分なわけで、ホームページの領域がほとんど遊んでいたからというのが最大の理由。:-)
当初は単にコメント集を10日毎に細切れにしたファイルを探すだけだったので、見つけた後にまたブラウザのページ内検索でファイル内をサーチする面倒な操作が必要であった。まあ今でも1999年9月までのコメントについてはそうであるが。
新しい試みとして楽々検索のページを作成したが、余計なお節介だったかも。ダウンロードには中田さんのページではもう参照できなくなってしまった古いコメント集のログ(gbook.1.htm〜gbook.16.htm)も載せた。ソフトは変化するので余りに古いログはノイズになると思い検索対象にはしていないが、有益な内容も多く含まれている。
- 2000年 1月 過去ログ再編集版を開始。1999年10月1日以降のコメントは質問とそれへの回答を一ファイルに編集するようにした。さらにコメントを日付順に一覧できる再編集版を作成した。それぞれのコメントにタイトルを付けているが、最初は分かり易くと思い長さを気にせずにいたが、後にタイトルとして検索結果一覧に表示させるようにしてからなるべく短くということを心がけるようにした。苦労するところである。ぴゅあさんのマルチコメントを分解するのが結構大変であったというのも今となっては懐かしい思い出。
- 2000年 2月 過去ログ分類版を開始。コメントをカテゴライズし、同じ話題をグループ化して表示させた。一種のFAQであるがどこに入れるのがいいのか悩むこともしばしば。自分でも分類をよく覚えてなくてベストのところに入っていないことも。
- 2000年 3月 オプション設定の標準例、(不完全な)エラーメッセージ集などをまとめた。前者の方は中田さんにもときどき引用してもらって、まずまず役立っているかと。
- 2000年 5月 オプション設定のデフォルトを作成。
- 2000年 7月 プレ検索作成。Namazuが抽出したキーワード自体を検索できるようにした。徹底的に調べるツールとして便利だと思って作成したのだが、実態は悲しくなるくらい利用されていない。;_;
Nifty上のホームページのファイル容量が10MBでは不足気味になってきたので、5MB拡張した。
- 2000年 8月 Namazuを1.3.0から2.0.4にバージョンアップ。インデックス作成が早くなったこと、データ量が減ったことなど、管理上の効果絶大。利用者からみると特に変化はない。
- 2000年10月 FAQ2を作成。10月頭にコメント集で立て続けに同じ質問が出たので、ひとつFAQ作りをやってみようかと思い立ったのがきっかけ。ぴゅあさんもできないまま引退されてしまったことだしということも少しあり。:-)
- 2000年11月 エラーメッセージ検索を開始。分からないまま不完全なメッセージ集を作るよりこちらの方が役立つかと。本当はFAQにできるといいのだが、大変そうなので躊躇中。
- 2000年11月 検索精度を上げるため、原文を手修正。ユーザー、サーバー、カウンターなどの長音の削除、ダイアルアップとダイヤルアップ、ファイアウォールとファイヤウォールなど人によってまちまちな用語の使い方の統一、PerlをPeal, Parlといった書き間違いなどを見つけては修正。
EmEditorの「ファイルから検索」を使うので何を探すかを決めれば作業自体はそう大変ではない。何を探すかはNamazuのインデックスとにらめっこ。原文を変更することにためらいはあるが、実用重視ということで。ただ、プロクシ/プロキシだけは、中田さんはプロクシをブラウザ内ではプロキシが使われているのでそのまま放置。
Namazuで同義語の定義ができるといいのだが。他にキーワード抽出に関連しては、コメントを書く時にはできれば単語の途中で改行しないで欲しいなというお願いがあります。単語の途中に<BR>が入ってしまい、一つのキーワードとして抽出されないからです。
- 2000年11月 AN HTTPD を確実に動かす方法を作成。他の人がまとめたものが既に沢山あるので、いまさらと思いつつ。
月別の検索頻度は右のグラフの通り。徐々に増えて2000年10月で40数回/日程度。1年前の約4倍。11/21に中田さんのトップページからのリンクが増えて、それ以降 120回/日程度に急増。* 一つが100を示す。
よく検索されるキーワードとしては以下のようなものがある。単独で検索しても数が多過ぎるものばかりではあるが。
cgi、error、エラー、500、php、perl、ファイル、認証、proxy、sendmail、プロクシ、プロキシ、パス、content-type、ユーザ検索のためのインデックス作成は自宅のパソコンで原則週1回実行し、プロバイダのサーバにftpしている。インデックス作成後、新規の質問が10件以上増えると早めることもある。現在、検索対象のコメント集ファイルは約3.5 MBであり、インデックス作成に要する時間は約4分、作成されるインデックスファイルのサイズは3 MB弱、ftpには8分程度かかっている。
月別検索頻度 ---------------------------------------------------------------------------------------- 1999.11 * 12 * --------0---------2 2000.01 ** 02 ** 03 *** 04 *** 05 **** 06 ***** 07 **** 08 ***** 09 ****** 10 ******* 11 *********** 12 ****************** --------0---------2---------4---------6---------8 2001.01 ******************* 02 ******************* 03 ******************** 04 ******************* 05 ************************ 06 ************************* 07 *********************** 08 ************************???? 09 ****************************** 10 ************************************* 11 ************************************* 12 ******************************??? --------0---------2---------4---------6---------8---------0---------2 2002.01 ******************************************* 02 *************************************** 03 ***************************************** 04 ************************************************* 05 *********************************************************** 06 ***************************************************** 07 ********************************************* 08 ******************************************************** 09 ********************************************? 10 **************************************************** 11 ********************************************* 12 ********************************************** --------0---------2---------4---------6---------8---------0---------2 2003.01 ******************************************************** 02 ****************************************************** 03 ************************************************************** 04 ********************************************************** 05 *********************************************** 06 ************************************************* 07 ************************************************************* 08 ********************************************************** 09 **************************************************** 10 ************************************************************** 11 ****************************************************************** 12 ********************************************************* --------0---------2---------4---------6---------8---------0---------2 2004.01 *********************************************************************** 02 ***************************************************************** 03 **************************************************** 04 ********************************************* 05 ***************************************** 06 *********************************************** 07 ***************************************** 08 ********************************************* 09 ******************************************** 10 *********************************************** 11 ******************************************? 12 *********************************** --------0---------2---------4---------6---------8---------0---------2 2005.01 ************************************** 02 **************************************** 03 ********************************* 04 ********************************* 05 ************************************ 06 ************************************* 07 *********************************** 08 **************************** 09 ************************** --------+---------+---------+---------+---------+---------+---------+---------+---- 0 2K 4K 6K 8K 10K 12K 14K 回−その後の追記−
- 2000年12月 ある種の(特定できていないが)キーワードに対して検索結果が文字化けすることがあるようだ。例えば「exe ダウンロード」の場合。おまじないに、<!-- 龠 --> を入れてみたが効果なし。
- 2000年12月 @niftyの全文検索システムを使ったもう一つの全文検索を使えるようにした。こちらはどうも前方一致方式らしい。Namazuと違って、「ダイヤルアップ」で「ダイヤルアップルータ」も検索されるなど、検索結果は異なる。私自身のオリジナルページも検索対象に含めている。
- 2000年12月 Namazuのカスタマイズ機能を使い、検索結果の表示形式を変更。デフォルトを「詳細」にし、日付、投稿者名、コメント内容などを正しく表示するようにした。「簡潔」表示では概要を全文で、さらに投稿者名も表示するようにした。
- 2001年 1月 12月のNamazuによるアクセス数は約3500件で、ほぼ120件/日のペースが続いている。今後はそう大きく増えることはないだろう。同じ人がキーワードを変えて何度も検索するようになったことが11/21以前と変わったように思われる。全文検索の利用者数としては30-40人/日程度ではないかと予想している。試しに全文検索のページにアクセスカウンタを設置してみた。サーバ側の問題かカウンタプログラムの問題か、表示するまで少し間が空くのが気になるが。
- 2001年 2月 ユーザ認証に関する解説をまとめ、FAQ に追加した。
- 2001年 2月 1月の検索回数は約3800件で12月より若干の増であった。全文検索がいつ使われているかをみるために、1/11〜1/31の間の検索実行頻度を曜日/時間帯別に集計してみた。下表で●は50回、*は10回を表す。平日の日中の利用が多く、土日は少ないという傾向がわかる。参考までにこの期間の曜日毎の全文検索ページのアクセスカウンタ数もみてみたが、やはり平日の方がアクセスが多いという結果であったる。
曜日/時間帯別検索実行頻度
総数 00:00〜 03:00〜 06:00〜 09:00〜 12:00〜 15:00〜 18:00〜 21:00〜 カウンタ 月 416 **** **** ** **** ●* ●*** ●* ●** 631 火 524 * ** * ●*** ●● ●●● ●●* ● 645 水 534 **** ● *** ●● ●● ●**** ●** ●* 693 木 599 ●** * ** ●● ●*** ●●●** ●**** ●** 658 金 462 ● * * ●** ●**** ●●* ●* ●** 588 土 268 ● * *** **** **** **** *** *** 446 日 268 ●*** * * *** **** *** *** **** 460
- 2001年 3月 1996/10〜1998/9の間のコメントも検索対象に含めた。これでゲストブック開始以降の全コメントが検索できるようになった。あまり古いものはバージョンアップなどで役に立たなくなってしまうこともあり、今更どうかとは思ったが今なお有益なコメントも沢山あるので追加した。ただ、私のホームページ上のディスクスペースを節約するために圧縮ファイルとした。ちょっと使い辛いが、ブラウザのアプリケーション設定で、拡張子 lzh のMIMEタイプを application/x-lzh に設定すればダウンロード/解凍/表示をかなり簡単に操作できるようになる。ちなみに私は LHUT32 を使っているが、クリックが1回多くなるだけで、それほど不便とは感じていない。
- 2001年 3月 上記のlzh圧縮ファイルへのリンクについては、やり繰りしてディスク容量を削減し、htmlファイルへのリンクに変更した。
- 2001年 3月 楽々検索 の一部を オプション設定検索 として分離した。もう少し工夫しないと今一つではあるが。
- 2001年 4月 ダウンロード で過去ログのアーカイブファイルを提供してきたが、ディスクスペースを削減するために中止した(約1.2MBのことだが)。FAQ2にキャッシュの解説を追加。
- 2001年 5月 PHPとRubyをインストールし、使ってみた。ごく簡単なスクリプトを動かしただけであるが、「AN HTTPDでPHPを動かす」と「AN HTTPDでRubyを動かす」に使い方をまとめ、FAQからリンクした。本格的に使うには抜けがあるかもしれない。
- 2001年 5月 わざわざ作るほどのこともないのだが、サイトマップを作成。
- 2001年 5月 プロクシ、ゲートウェイ、SOCKS の解説をまとめ、FAQ に追加した。じっくりと読み返してはいないがと予防線はしっかりと張っておく。:-)
- 2001年 5月 覚えとして、Googleを使って「AN HTTPD全文検索のページ」を検索。同様に、Googleを使って「Microsoftサポート技術情報」を検索。キーワードを追加すれば便利に使えます。
- 2001年 6月 セキュリティに関する解説をまとめ、FAQ に追加した。奥の深い問題なので役立つ内容になっているという自信はなく、ないよりはまし程度かと。
- 2001年 7月 AN HTTPDの使用環境について。AN HTTPDでeRubyを動かす。
- 2001年 8月 検索キーワードトップ500(2001.1.1〜2001.8.10)を掲載。「default.ida」は7/19初出だが、8/2以降急増。
- 2001年 8月 Nifty上のホームページのファイル容量を5MB拡張し、20MBにした。まだ 600KB 残っていると安心していたら、数KBのファイルも書けなくなっていた。早過ぎだよ。> Nifty
- 2001年 8月 ローミングアクセス の解説をまとめてみたが、Netscape でしか使えない機能なのでどれだけ意味があるやら。
- 2001年10月 perldiag も検索範囲に含めた。探し易いかどうかは疑問ではあるが。
- 2001年11月 10月31日に自宅にフレッツADSL 1.5Mbps を導入。Namazuのインデックスのftpが桁違いの速さになり、もう毎日インデックスを更新してもいいくらいですが、まあこれまで通り週一ペースでいきます。現在のネット環境は下図の通り。ADSLルータを買えばいいのだが、いろいろ試すには面白いので、古いHUBとこれまたもう使い道のない DX4のノートPC でプロクシ/ゲートウェイ/SOCKS を動かし、何不自由なく使えている。今のところ、HTTPサーバ機能はオフにしている。
┏━━━┓ ┏━━━┓ ┃スプリッタ┃ ┃ADSL ┃クロスケーブル┏━━━┓ Internet ─┫ ┣─┫ Modem┣────┫ HUB ┃ ┗━━━┛ ┗━━━┛ ┗┳┳┳┛ ┌──────┘│└──────┐ ┏━━┻━━┓ ┏━━┻━━┓ ┏━━┻━━┓ ┃プロクシ専用 ┃ ┃常用マシン┃ ┃ ノート PC ┃ ┃PPPoE接続 ┃ ┃ ┃ ┃ ┃ ┃ AnHttpd ┃ ┃P3 450MHz ┃ ┃ ┃ ┗━━━━━┛ ┗━━━━━┛ ┗━━━━━┛ i486/DX4-100MHz- 2001年12月 「全文検索開始後1年を経て」を始めてさらに1年が経過した。この1年の大きな変化は全文検索のページへのアクセス数が急増したことである。今現在も増加中であり、それだけ多くの人がAN HTTPDを使うようになったことを証明している。これまではバリアが高かった自宅サーバも、ADSLが急速に普及し、Dynamic DNSなどの環境も充実するなどかなり容易に自宅サーバが構築できるようになった。AN HTTPDも非常に大きな貢献をしていると思う。
NetcraftでAN HTTPDがインターネットでどのくらい使われているのかを調べ、以下のページにまとめた。
・インターネット上で AN HTTPD を利用したWebサーバ数の推移
・JP ドメインで動いているWebサーバの種類(2001.9時点)
- 2002年 1月 セキュリティ面も考慮して、ルータを使わない場合に一般的な NIC 2枚刺しに変更した。Win98だが、特にトラブルこともなく簡単に動いた。筆者の現在のネットワーク構成を以下に示す。
┏━━━┓ ┏━━━┓ ┃スプリッタ┃ ┃ADSL ┃ ┏━━━┓ Internet ─┫ ┣─┫ Modem┃ ┃ HUB ┃ ┗━━━┛ ┗━┳━┛ ┗┳┳┳┛ │ ┌─────┘│└──────┐ ┏━┻━┻━┓ ┏━━┻━━┓ ┏━━┻━━┓ ┃プロクシ専用 ┃ ┃常用マシン┃ ┃ ノート PC ┃ ┃PPPoE接続 ┃ ┃ ┃ ┃ ┃ ┃ AnHttpd ┃ ┃P3 450MHz ┃ ┃ ┃ ┗━━━━━┛ ┗━━━━━┛ ┗━━━━━┛ i486/DX4-100MHz別の表現では以下の通り。これだけでは、平凡過ぎて何の情報もないので、多少役に立ちそうなことを。
Internet │ グローバルIPアドレス ┏━┻━┓(自動取得) ┃ADSL ┃ ┃ Modem┃ ┗━┳━┛ │ ┏━━┻━━┓ ┃プロクシ専用 ┃ ┃PPPoE接続 ┃ ┃ AnHttpd ┃ ┗━━┳━━┛ │192.168.0.2 ────┬────┴────┬──── │192.168.0.3 │192.168.0.4 ┏━━┻━━┓ ┏━━┻━━┓ ┃常用マシン┃ ┃ ノート PC ┃ ┃ キャッシュ ┃ ┃ ┃ ┃P3 450MHz ┃ ┃ ┃ ┗━━━━━┛ ┗━━━━━┛
プロクシ専用PCはCPU 486DX4、メモリ40MB、HD 1.2GB という貧弱なマシンなので、キャッシュに使うには無理があると思われる。そこで 192.168.0.3 の常用PCとの2段のプロクシ構成とし、常用マシンにキャッシュするようにしている。ただし、ftpプロクシはプロクシ専用PCのみの1段構成にしてキャッシュからは外している。
- 2002年 3月 検索キーワードトップ500(2001.8.11〜2002.2.28 集計分)を掲載。
- 2002年 4月 全文検索のページにフォーム間でのテキストのコピー機能を付けた。Namazuで望む結果が得られないときに使えば役立つはず。テクニックとしての面白さはあると思うが、さてどのくらい使われるだろうか。
- 2002年 4月 お返しリンク を作成。
- 2002年 4月 アクセスカウンタが100,000を越えた(4/8)。2001/1/7から通算で456日目。平均すると219アクセス/日である。ちなみに50,000になったのは2001/9/23であり、259日目、そこまでの平均は193アクセス/日。50,001から100,000までは197日であり、この間の平均は254アクセス/日。31%のアクセス増ということになる。
- 2002年 5月 AN HTTPDを使い始めたのはちょうど4年前の今頃であった。ひょんなことからその頃ダウンロードしたプログラムファイルが出て来た。バージョンは0.9beta7fである。オプションはまだ英語表示だけであり、4ヶ月後の1998年9月にバージョン1.00 になってから日本語表示も可能となった。懐かしの readme.html と オプションの詳細 の復刻版を掲載する。
- 2002年 9月 検索キーワードトップ500(2002.3.1〜2002.8.31 集計分)を掲載。PHP人口が増えているのか、ISAPIの強制終了故か "php","PHP" の検索が断然多くなっている。
- 2002年 9月 ゲートウェイ(2)を掲載。我ながら何と下手くそな説明かと思うが、不用意に使われないためにも分かり難い説明の方が返っていいかとも思ってみたり。:-)
- 2002年11月 アクセス制御設定方法を掲載。書くまでもないと思って今まで書いてなかったが、いざ書いてみると意外といろいろと書くことがあったのに驚き。
- 2002年11月 DeleGateを使ってLAN内部のサーバを公開する方法を掲載。書こうと思ってリンクだけ張ったまま 2ヶ月も経ってしまった。最近質問が相次いであったので書いておくかということでとりあえず書いてみた。
- 2002年11月 アクセスログの設定に関する解説を執筆。
- 2003年 1月 ActivePerl 5.8.0 を試してみた。Mysql の DBD-Mysql については コメント集」 に書いた通りだが、Namazu のインストールができない。File-Mmagic, NKF などで Perl のバージョンをチェックしているのかどうか? ActivePerl のバージョンアップは Namazu が対応してからということでまだ先になりそうである。まあ、急ぐ理由は何もないが。
(追記) とりあえず、以下で配布されているものが使えそうだ。http://search.namazu.org/ml/namazu-win32-users-ja/msg01528.html
- 2003年 1月 AN HTTPD で phpMyAdmin, XOOPS を動かす方法を MySQLのインストール/動作確認手順 に追加掲載した。
- 2003年 1月 AN HTTPDで XOOPS を動かす を分離。
- 2003年 1月 AN HTTPDで PHPLIBを動かすためのメモ を掲載。
- 2003年 2月 DeleGateを使って AN HTTPDで SSL通信するを掲載。AN HTTPDで SSLができるようになるまでのつなぎ。
- 月別コメントスレッド数
月別コメントスレッド数 ---------------------------------------------------------------- 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 ---------------------------------------------------------------- 1999 51 46 36 ---------------------------------------------------------------- 2000 39 47 53 47 39 45 64 51 44 54 52 34 ---------------------------------------------------------------- 2001 25 34 48 50 38 32 39 45 44 42 42 46 ---------------------------------------------------------------- 2002 71 49 50 43 58 40 31 36 36 49 42 37 ---------------------------------------------------------------- 2003 48 42 37 24 34 35 28 34 35 31 17 23 ---------------------------------------------------------------- 2004 31 32 24 24 28 22 17 24 21 35 33 19 ---------------------------------------------------------------- 2005 15 13 16 19 10 12 13 8 15 14 10 7 ---------------------------------------------------------------- 2006 9 15 4 11 10 14 9 3 2 3 7 ---------------------------------------------------------------- 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 ----------------------------------------------------------------
いと,mailto:gfh05223@nifty.com