AN HTTPD ゲストブック/コメント集(2006年3月29日21:26)


つめこう admin at dobashi.jp 2006/06/16 18:24

そうそう、書き忘れていました。

>Googlebotは同じIPアドレスのサーバに対してはホスト名が変わっても
>コネクションを切らずにアクセスするので実際に問題が起こります。

私のサーバには、相当頻繁にgooglebotがやって来たことになりますよね。
気になっていたのは、GoogleSitemapです。Sitemapを利用するようになってから
GoogleBotのアクセスが相当増えたような気がします。
ところが、Sitemapには、誤ったURLが大量にエラーの記録として残っていたことから
googleBotが、誤った情報をクロールしていることに気が付き、
件の、検索結果不具合を見つけることができました。

関係あるかどうか分かりませんが、http1.0に切り替えたところ、
GoogleSitemap内のエラー記録がとても少なくなりました。


つめこう admin at dobashi.jp 2006/06/16 18:17

>健作 harada@ingrid.org 2006/05/31 13:42 様へ

大変レスが遅れましてすみませんでした。
とても貴重なお話をありがとうございます。
Google固有の問題と、AnHttpd固有の問題が絡み合っていたことを考えると
問題の切り分けが最後までできなかったことに納得するしかありませんでした。

>これはいわゆるkeep-aliveとnamed virtual hostの実装に関係があります。

そこで、私としては、keep-aliveの問題を解決するために、
anhttpdの設定を、http1.1から、http1.0に切り替えました。
その後、一週間経過しましたが、Googleの検索結果から、誤ったインデックスが
かなり減りました。

>Googlebotは同じIPアドレスのサーバに対してはホスト名が変わっても
>コネクションを切らずにアクセスするので実際に問題が起こります。

おそらくGoogleは、
今年の春あたりにロボットの仕様を大幅に変更するなどしたのではないでしょうか。
Googleからは、「この問題が起きないよう努力している」旨のメールが来ていましたので
おそらくGoogleとしても既知の問題であることを窺わせます。

いろいろな意味で、すぐに全面解決とまではならないようですが、
もう少し様子を見てみます。
ただ気になるのは、この掲示板に集っている方のほとんどは、anhttpdを使用していて、
バーチャルホストを使って複数のドメインを動かしている方もいると思うのですが、
どうして私のところだけ、このような不具合が大発生してしまったのか。
それだけが謎です。


健作 harada@ingrid.org 2006/05/31 13:42

Googleの検索結果の問題は AN HTTP Server に限ったものではありませんが、AN HTTP Serverではとりわけ起きやすいと思われます。これはいわゆるkeep-aliveとnamed virtual hostの実装に関係があります。

AN HTTP Server はコネクションを維持したまま、異なるホスト名の内容をGETした場合、常に最初のホストの内容を返してしまいます。これはバグというべきものだと思います。
Googlebotは同じIPアドレスのサーバに対してはホスト名が変わってもコネクションを切らずにアクセスするので実際に問題が起こります。
http://www.mattcutts.com/blog/mego/

http://dobashi.jp/doc/060520/
の dobashi.jp (AnWeb/1.42p)でそのように動作するのを確認しました。


つめこう admin at dobashi.jp 2006/05/20 04:20

>いとさん
 レス有り難うございます。ご指摘通り、同じipの中で起きている現象は当方の事情にも通じます。
この不具合は、yahooやMSNには出ず、google固有のものであることも同意。
そして、anhttpdに限ったことではない‥‥‥そうなんですよねえ。
すると、どうしてもgoogleにゴルアーしなければならないわけで‥‥‥

ただ、この検索結果に気になる点を発見しました。
http://www.google.co.jp/search?q=google+cache+%22wrong+site%22&lr=

↓これです
http://www.extensionsmirror.nl/lofiversion/index.php/t3018.html
これによると、FireFoxユーザが、クリックすると予想外のページへジャンプしてしまう
ことを書いている(ように思う)のですが、やはりFireFoxを愛用している方から
「A店のサイトで掲示板をクリックすると、なぜかB店の掲示板に飛んでしまう
とにかくおかしい」との連絡がありました。


‥‥‥と、ここまで暴れさせていただいてなんですが、
どうも、Anhttpdの話題とは一線を画さなければならないようですね。
スレ汚し、大変恐縮でした。

いとさん、私の投稿をアーカイブしてくださってありがとうございました。


いと gfh05223@nifty.com 2006/05/17 23:47

つめこう さん

2ch「リムネットユーザの本音スレ」で話題になっている
キャッシュが(謎)秘密結社のページ(http://secret-society.jp/)に
すり変わる件をちょっと調べてみました。

IPアドレスは 210.158.32.59、その謎ページはキャッシュなし。

http://airbuggy.com/、http://kurodatouen.com/、http://i-theque.com/、
http://under80.com/ 等のサイト(いずれも IPアドレスは 210.158.32.59)
のキャッシュが http://secret-society.jp/ のものになっている。

http://www.airbuggy.com/、http://www.kurodatouen.com/、
http://www.under80.com/ 等も同じ IPアドレスであるがキャッシュは正常。
IPアドレスが 210.158.32.59なら必ず起きるというわけではない。

同じサイトでも次回のクロールで解消することがある。

上記サーバ(バーチャルホスト?)は Linux上の Apacheであり、
AN HTTPDに限った現象ではない。
MSNや Yahooのキャッシュでは起きない。

適当なキーワードで検索しただけですが、以下の中から同様な事例を
いくつか見つけることができるのではと思います。
http://www.google.co.jp/search?q=google+cache+%22wrong+site%22&lr=


つめこう admin at dobashi.jp 2006/05/11 18:32

4月28日に最後の書き込みをしたつめこうです。
「Googleにキャッシュされたバーチャルホストの実体が違う」
http://homepage1.nifty.com/yito/namazu/gbook/20060329.2126.html
  について、新たな情報が判りました。

同じ症状が2ちゃんねるでも報告されており、同様の症状に苦しんでいる方がいました。
http://pc8.2ch.net/test/read.cgi/isp/1106554814/642-687

ただし、2ちゃんねるのスレで述べられているのは、リムネットのマイサーバXの
ホスティングサービス内で起きた不具合のようで、
スレの流れを読んでいると限りなくgoogleが黒に近いニュアンスです。

しかしながら、スレの中に気になる記述がありました。
http://pc8.2ch.net/test/read.cgi/isp/1106554814/678 より引用します

【引用ここから】
Googlebot はクロール時に http リクエストヘッダ中で
きちんとホスト名を設定しているよ。

GET /index.html HTTP/1.1
Host: www.foo.com

みたいな感じで。
だから www.foo.com なのに www.bar.com の内容が
キャッシュされるといった現象の原因は Google ではなく
サーバ側にあると思うけどね。
Useg-Agent や他の HTTP リクエストヘッダ中の変数に
特定の文字列が含まれていると処理を間違ってしまうような
コンフィギュレーションミスがあるんじゃないのか?
【引用ここまで】

Useg-Agent や他の HTTP リクエストヘッダ‥‥‥というのは、AnHttpdの場合、
どうすれば良いのでしょう。
点検できる箇所があれば、教えてください。


つめこう admin at dobashi.jp 2006/04/28 00:23

>MTSYSの中の人さん ご回答どうもです

> >>つめこうさん
>コンフィギュレーションて要するに設定ですネ。

まったく、仰るとおり。我ながら間抜けな質問をしてしまいました。

>設定時、一時的にでもその他のアドレスで
>www.nyanwan.netで表示するべきファイルにアクセスできたタイミングがあり、
>そのタイミングにグーグルがクロールしてそのデータを保持、
>そのデータを元に検索がかかりますから、
>white.dobashi.jp等のほかのアドレスも検索に引っかかったのではないでしょうか?
>グーグルのキャッシュに関するヘルプへどうぞ。

仰っている内容は分かるのですが、どうも、そんなに単純な問題とは思えないのですよ。
たまたま、他の掲示板に、私が訴えんとしていることと同じ事が書いてありましたので
引用します。

−−−−−−−−−−−−−−−−<引用ここから>−−−−−−−−−
http://www.su-jine.com/bbs/index.php?mode=past&pno=46 から引用

--------------------------------------------------
[488 のレス15] Name:どきゅ Date:2005/01/14(Fri) 17:51
>コンフィギュレーションエラーでyahooに飛ぶのは、偶然とはおもえないのです。
そうなんですよね。そこが故意にできるなら凄腕だと思います。
------------------------------------------------------
[488 のレス13] Name:どきゅ Date:2005/01/14(Fri) 13:32
上記の点から考えると、
Googleでは不具合があり、YSTでは問題がなかったということが解りました。
これがサーバとの相性問題(技術者の腕)といことに繋がるのではないのでしょうか。
SEOはサーバ選びも重要ということですね。
--------------------------------------------------------
[488 のレス12] Name:どきゅ Date:2005/01/14(Fri) 10:36
>同じバーチャルホストに属している、どれかのサイトのドメインがランダムで表示 ★
ということは、Yahoo懸賞が・・・。
まぁ、一つ解ったことは、コンフィギュレーションエラーを故意に発生させ、
ページランクが操作できるということですかね。あまり意味がありませんがね。
--------------------------------------------------------
●[488 のレス11] Name:FHJ Date:2005/01/14(Fri) 09:57
>Webホストが不本意に間違ったページを表示している間にGoogleのロボットが
該当サイトをクロールしたために起こる現象で、ロボットが2つのサイトを混同したことを意味します。

▲これはこれで、共有のバーチャルホストサーバで、設定を失敗しているまたは
▲正しく設定していないレンタルサーバにて発生します。
あるサイトのドメインのDNS設定が未浸透のとき、同じバーチャルホストに
属している、どれかのサイトのドメインがランダムで表示される。
この時、Googleのロボットが来ると、他人の違うコンテンツが自サイトの内容として、
Googleのデータベースに登録されてしまいます。

これも、自サイトで過去経験しました。

Googleからの回答は、今回の現象は、これには当てはまらず、真相を述べていないか、
お茶を濁しているか、あるいは回答者がわかってないかのどれかでしょう。
-------------------------------------------------------
[488 のレス9] Name:どきゅ Date:2005/01/14(Fri) 09:20
Googleからの回答
ご指摘になった問題は、お客様のWebホストにて発生したコンフィギュレーションエラーであると
思われます。これは、Webホストが不本意に間違ったページを表示している間にGoogleの
ロボットが該当サイトをクロールしたために起こる現象で、ロボットが2つのサイトを混同したことを意味します。

まぁ、こんなこともあるのですねw
------------------------------------------------------
[488 のレス4] Name:FHJ Date:2005/01/12(Wed) 17:48
バグではなく、googleロボットがアクセスしたときだけ、
Yahoo懸賞サイトに飛ばす(リダイレクトさせる)とこのようになります。
-------------------------------------------------------
[488 のレス2] Name:ユミ Date:2005/01/12(Wed) 12:04
成る訳有りませんね、
次の更新で元に戻るでしょう。
------------------------------------------------------

[491] Google検索結果の表示について Name:江戸紫 Date:2005/01/13(Thu) 18:25

Googleの検索結果での表示についてなんですが、順位が時々入れ替わるたびに
サイト名の表示が変わってしまいます。

−−−−−−−−−−−−−−−−<引用ここまで>−−−−−−−−−

つまるところ、●印のところが分かりやすいと思うのですが、
確かに、googleの問題と私も思うのですが、googleからは「コンフィグエラー」とばかりで
その後も「調査します」と返事はもらったものの、改善の兆しがありません。
もっとも、はじめは、バーチャルホストに関する部分でWindowsのレジストリが二重三重に
設定が残っていたこともあり、こちらに質問させていただいたのですが、
仮にgoogleの返答が正しいとすると、下記の不具合の説明ができないのです。

http://sakuma.bz/images/ForGoogle060425.gif
この画像は、googleで seite:www.katoyuka.com "katoyuka.com" を調べた結果です。

http://www.google.com/search?q=+site:www.katoyuka.com+%22katoyuka.com%22&hl=ja&lr=lang_ja&start=0&sa=N

たまたま設定ミスなら、
間違えた内容は 間違え元・間違え先 の2種類のドメインかと思いますが
上記の結果を見ると、上記引用記事の★の部分です。
あるドメインの情報をクロールされるとき、
サーバは、サーバ内のバーチャルドメインをランダムにデータを返してしまうんです。

このような状況なので、今は問題の切り分けが不可能なんです。

ただし、他の検索エンジンでは絶対にこのような検索結果を出さないので
私はどうしてもgoogleがあやしいと思うんですが、

上記引用掲示板でも
▲これはこれで、共有のバーチャルホストサーバで、設定を失敗しているまたは
▲正しく設定していないレンタルサーバにて発生します。
‥‥‥と書かれているのですが、私も5年間、AnHttpdを使用してきました。
基本的な設定については充分心得ているつもりです。

なぜか、googleに誤ったクロールさせてしまう原因が、
他にないのだろうかと探している訳なのです。

*相変わらず、長々とスマソ


MTSYSの中の人 inside@mtsys.or.tp 2006/04/24 17:52

>>つめこうさん
コンフィギュレーションて要するに設定ですネ。
設定時、一時的にでもその他のアドレスでwww.nyanwan.netで表示するべきファイルにアクセスできたタイミングがあり、そのタイミングにグーグルがクロールしてそのデータを保持、そのデータを元に検索がかかりますから、white.dobashi.jp等のほかのアドレスも検索に引っかかったのではないでしょうか?
グーグルのキャッシュに関するヘルプへどうぞ。


つめこう admin at dobashi.jp 2006/04/20 10:15

中田さん、皆さん、こんにちは。
先日投稿させていただいた、google検索結果の不具合についてですが
http://homepage1.nifty.com/yito/namazu/gbook/20060329.2126.html

googleより回答がありました。
「Google へご連絡いただきありがとうございました。ご指摘になった問題は、
お客様のWebホストにて発生したコンフィギュレーションエラーが原因であると思われます。
これは、Webホストが不本意に間違ったページを表示している間にGoogleのロボットが
該当サイトをクロールしたために起こる現象で、ロボットが2つのサイトを混同したことを意味します」
‥‥‥とのことでしたが、「コンフィギュレーション」という言葉はgoogleの検索結果にも少なく、
こちらの全文検索からも探せませんでした。

googleはメールの中で具体的な対処法を教えてはくれませんでしたが、
中田さんの経験で、何かヒントになりそうなことがありましたら教えてください。
よろしくお願いします。


つめこう admin at dobashi.jp 2006/04/05 11:55

中田さん、ご返信ありがとうございました。

私も基本的には中田さんと同じように考えていましたが、
ちょっとこちらをご覧いただきたいのです。
http://dobashi.jp/doc/060405/060405hc.png

これは、今朝(2006/04/05 のgoogle検索結果のハードコピーです。
「ニャンワンネット」という言葉を検索すると、正しく導かれるべき www.nyanwan.net が一番上に来て、
他、関係ないサイトとして、
white.dobashi.jp
machikado.dobashi.jp
auction.dobashi.jp
などが検索結果として表示されてしまい、それぞれ ニャンワンネット(www.nyanwan.net)の内容をgoogleがクロールしていることが分かります。 
検索結果のサイトタイトルをクリックすると、各サイトを正常に表示しますが、
相変わらず、googleのキャッシュには、間違った内容(ニャンワンネット)の内容が
表示されてしまいます。

ところで、
ご指摘いただいた、VirtualHostの設定削除は、特に問題なく行えましたので結果報告します。
他にも、ユーザ認証やパスワード関連の登録がかなり重複していましたので
手動で削除しました。
(AnHttpd自体には表示されず、AnHttpdでは削除も不可)

>ドメインの登録と削除を繰り返す時にバーチャルホスト名と
>ドキュメントルートなどを間違えたことぐらいしか思いつきません

ドキュメントルートの指定を間違うと、
実際の表示(検索結果をクリックした時)も、間違って別サイトを表示してしまうと思うんです。

それと、不思議なことに、この検索結果の不具合は、
googleだけに現れるものであり、ヤフー、MSNサーチなどでは問題ありませんでした。

white.dobashi.jp のMSN検索結果
http://search.msn.co.jp/results.aspx?q=%E3%83%9B%E3%83%AF%E3%82%A4%E3%83%88%E6%80%A5%E4%BE%BF%E3%80%80%E5%9C%9F%E6%A9%8B%E9%80%9A%E3%82%8A&FORM=QBRE

machikado.dobashi.jp のMSN検索結果
http://search.msn.co.jp/results.aspx?q=%E8%A1%97%E8%A7%92%E7%94%BB%E5%83%8F%E6%8E%B2%E7%A4%BA%E6%9D%BF&FORM=QBRE

auction.dobashi.jp のMSN検索結果
http://search.msn.co.jp/results.aspx?q=%E5%9C%9F%E6%A9%8B%E9%80%9A%E3%82%8A%E3%80%80%E3%82%AA%E3%83%BC%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3&FORM=QBRE

*上記3つの検索結果は、いずれも4月1日以降にクロール・キャッシュされたもの。

で、例の「いっぽ亭」なんですが、
以前は、ippotei.dobashi.jp で、 www.nyanwan.net の内容がgoogleにキャッシュされていましたが、
昨日、今日、ippotei.dobashi.jp の内容は、 dobashi.jp の内容が検索結果として出てしまってます。

http://www.google.com/search?hl=ja&lr=lang_ja&q=+site:dobashi.jp+%E3%81%84%E3%81%A3%E3%81%BD%E4%BA%AD

(URL垂れ流しばかりですみません)
 どうも、このような不具合は、私だけのようで、orz なのですが、
 説明するのにやむを得ず、URLを書いております。

 これに関連して、AnHttpdの設定で、気になることがあります。
バーチャルホストの設定で、

ホスト名 ipアドレス ポート  ドキュメントルート 
*    *.*.*.*   80   W:\www      というのを有効にしていました。
(現在は一時停止中)

レジストリには、この登録が2重、3重になっておりましたので
一旦全部削除したのですが、すると今度は、
http://127.0.0.1/ で、 VirtualHost 0番に登録している www.nyanwan.net の内容が表示されてしまったので、
もう一度

ホスト名 ipアドレス ポート  ドキュメントルート 
*    *.*.*.*   80   W:\www     を登録し直し、
このバーチャルホストのみ、チェックをはずしてみました。
レジストリ上の重複登録はありません。

 しかし、googleの検索結果だけ、なんだかおかしい、ということもあり、
現在、googleには問い合わせているところです。

追ってまた報告いたします。


中田昭雄 nakata@st.rim.or.jp 2006/04/03 20:59

つめこうさん、
返答が遅くなってすみません。

「いっぽ亭」で google を検索すると、今日の時点ではそのニャンワンネットは表示されません。
そうなった理由はちょっと考えにくいのですが、ドメインの登録と削除を繰り返す時にバーチャルホスト名とドキュメントルートなどを間違えたことぐらいしか思いつきません。

現在稼動しているバーチャルホストが 32 なら、VirtualHost の下のキー32から56まで削除しても大丈夫なはずです。ただし、googleの検索結果の混乱とは無関係と思いますので、削除する必要はないと思います。
どうしても削除したい場合は一応レジストリのバックアップをとっておくことをお勧めします。


つめこう admin at dobashi.jp 2006/03/29 22:02

下記の捕捉です。
現在、実際に稼働しているバーチャルホストは32ありますが、
レジストリを見ると、VirtualHostの中に57の設定があり、
中を覗いてみると削除したはずのホスト(ドメイン)が見受けられました。
レジストリエディタで、VirtualHostの枝番号(削除したはずのホスト)を
個別に削除しても良いのでしょうか。


つめこう admin at dobashi.jp 2006/03/29 21:26

お助けください。困っています。
AnHttpdを使い初めて5年近くが経ち、今では複数のドメインを機能させていますが、
あるドメインで表示させるべき内容とは、違うドメインの内容がgoogleによってクロールされてしまいます。

ちょっと判りにくいかも知れませんので、実際の様子を見ていただきたいのですが
本日現在、「いっぽ亭」というラーメン店を検索すると、googleの検索結果に、次のように
表示されます。

ニャンワンネット★日本全国ペット捜査網
...日本全国、地域ごとにペットの里親・里子探しができます。また、迷子ペットの捜索願い や迷いペットの保護情報などを一元的に情報発信、閲覧、返信が可狽ナす。 最初の記事 には画像アップロードもできます。【対象地域】北海道 北海道札幌市 青森県 岩手県 ...
ippotei.dobashi.jp/ - 19k - キャッシュ - 関連ページ

でも、クリックすると、ちゃんと「いっぽ亭」のサイトを表示します。
このニャンワンネットというのは、本来は、www.nyanwan.net で表示されるべきで、
本来はまったく関連性のないwebです。しかしながら、共通点があります。それは、
ippotei.dobashi.jp も、 www.nyanwan.net も、私のサーバマシンに格納されている
ドメインであり、同じPCの中のホームページデータなのです。

他にも、いろいろなドメインの検索結果に、
同じhttpd内の別のドメインのまったくあべこべなURLが登録されていて、
googleにキャッシュされているの内容と、実際に検索結果をクリックしたときの
正規の内容がまったく異なっています。

これを解決するには、どうすればよいでしょうか。
いろいろ試行錯誤してみましたが、googleのクロールがいつ検索に反映されるか
判らないので、どうしたものかと困っています。

素人考えですみませんが、
例えば、多くのドメインの登録と削除を繰り返した場合、
httpdのレジストリか何かの記録がズレてしまい、このような結果をもたらすことは
考えられるでしょうか。 何か救済策をご提示いただけると助かります。