WEB版立つ鳥跡を濁さず-Googleのキャッシュを消す方法-
Thursday, August 10th, 2006 at 23:13:04ネット上では日々新しいサイトが生まれています。特にブログというツールが誕生してから、その手軽さは格段にあがり、新たなブログが1日に17万5,000件のペースで増加しているとも言われます(参考:INTERNET Watch:ブログ記事の31%は日本語、日本では夜の投稿が多い~米Technorati)しかし、逆に、閉鎖・更新中止・放置が多いのもまた事実です。
WEBサイトマスターは、閉鎖するその時、何を行えばいいのでしょう?どうしたら、ネット上から美しく身を引くことができるのでしょうか?
ネット上での『立つ鳥跡を濁さず』の意味
『立つ鳥跡を濁さず』の本来の意味は以下の通りです。
立つ鳥跡を濁さず
立ち去る者は、自分が居た跡を見苦しくないように、良く始末しなければならない。また、退き際が潔(いさぎよ)く綺麗であること。
金田一春彦先生に捧ぐ…ことわざ辞典:285.【た】 『立(た)つ鳥(とり)跡(あと)を濁(にご)さず』
ここで、ネット上における“自分が居た跡”を考えてみます。順当に考えれば、「サーバーに放置したままのデータ」ということになるのでしょうが、これは“自分が居た跡”ではないのでしょう。管理人主観で見れば確かに放置のWEBは自分の跡かもしれません。しかし、客観的に見た場合は、それが放置なのか継続中なのか即座には判断できません。鳥が立ったのか判断できないのです。
では“立つ鳥”⇒“データをなくす”という場合、何が“跡”として残るのか…残るものなんてあるのか?
それは、「Googleを含めた、ロボット検索に引っかかってる検索結果、キャッシュ」と考えられます。
検索して、その検索結果と概要から「やった!求めたページが見つかった!!!」と思いリンク先をクリックしたら、【404 Not Found】の表示。ガックリ来ます。たとえキャッシュとして残っていたとしても、最近のHTMLファイルはCSSで実装されてることが多いので、ページはひどい崩れっぷりだし、リンク切れも多数。管理人に連絡したくても、管理人としては、そんな情報見られてる意識がないわけだから、ノーセンキュー。
そう、“跡を濁さず”というのは“この使い物にならない自らのWEBの残りカスを処理しておく”ということなのではないでしょうか?
では“立つ鳥跡を濁さず”をするためにはどうしたらいいのでしょう?
robots.txt、メタタグによる検索ロボットクロール制御
robots.txt編
まだ、サーバーと契約を続行しており、サーバーのファイル管理ができる場合はrobots.txtで一斉に消しましょう。
User-agent: * Disallow: /
と書いたテキストファイルを[robots.txt]で保存し、そのファイルをサーバーのトップレベルにUPします。
トップレベルとは
[http://あなたのWEBアドレス/robots.txt]
という形で置くということなんですが、具体的にはこの場合ファイルが対象になるかというと
[http://あなたのWEBアドレス/以下のディレクトリ&ファイルすべて]
です。よってこれを設置することで、次にクロールされたときに、http://——-.com/以下のファイルはすべて検索結果対象外になります。
サーバー所持の更新期間にまだ余裕があるなら、このrobots.txtで後始末をつけてから、契約を切ると良いでしょう。
メタタグ編
この方法もまた、サーバーとの契約期間が残っており、サーバーのファイル管理ができる場合に限られるのですが、今回、想定してるのは、閉鎖の場合であるため、メタタグを使うよりも、上記のrobots.txtによる制御の方が断然効率がいいので、ここでは割合します。
基本的には、メタタグは運営中におけるページ別管理って感じなのですよね。ロボットクロールの可能なところと拒否するところを振り分ける…といったように。
メタタグの書記については以下を参考にしてください。
無料SEOツール:METAタグ生成
ここで注意点ですが、これらの制御はロボットがクロールしないと、反映されません。
「クロール回るのっていつよ!?早急に消したい!」という人は、Googleに対してのみ早急な対処ができます。
Google検索に削除クロール依頼を出す方法
- Googleのトップページに行きフッターを見るとGoogleについてがあるのでそれをクリック

- Googleについてのページに行くと右列の真ん中あたりにサイトの登録/削除があると思うのでそれをクリック

- サイトの登録/削除のページの一番下に『Google のインデックスからのサイトの削除』という見出しがあり、その下に文が続いてると思いますが、その文中のページの削除をクリック

- ここには上に説明したような、[robots.txt]やメタタグによる制御、サイト削除の方法が載っていますが、文中、茶色い線で入れ子になっている注意についての文中に自動 URL 削除システムという言葉があるので、それをクリック

- 無事、次のURLの削除ページに行ったら、そこで削除管理用のアカウントを生成してください。これは他のGoogle関連ツール(たとえばGoogle Adsenseなど)のアカウントとはまったく別物です。まさにURL削除のためだけに生成しなくてはいけない、アカウントです(それだけ意図的にURL削除をするのは大変なことなのでしょうか?)。
- アカウントを所持したら、やっと管理ページに入室です。アカウントを登録したページ(右側)に情報を入力して、ログインしてください。
わざわざこんな風に図で示したのは、ズバリ!経由リンクがそれぞれ非常にわかりずらい位置ににあるからです。私は経路を把握するまで、何回も忘れてしまって、どこにあるんじゃーーっと探しまくった覚えがあります。
そして、最後にもう一仕事。
[robots.txt ファイルを使用して個々のページ、サブディレクトリ、画像を削除する]
[メタ タグを使って 1 ページだけを削除する]
で、先ほどUPした[ robots.txt ]の所在するアドレス、もしくはメタタグを加えたページのURLを登録し、優先してクロールしてもらうように申請することです。これについては、Googleの説明で十分だと思うので割合します。
サーバーとの契約を切ってしまった人は
さて、ここまではサーバーとの契約を続行している人のみの方法の話でした。
じゃぁ、サーバーとの契約切っちゃった人はもう消すことができないのか!?安心してください。同じページの最後の選択肢「無効なリンクを削除する」を選べば処理ができます。
[無効なリンクを削除する]
これはこれまでの手法とは逆で、サーバーにデータが存在していない場合のみ実行できます。
はっきりいってしまえば、WEBデータを消して、サーバーとの契約も早々に切ってしまった人はこの手段でしか検索上のサイトを削除することはできません。しかも削除対象はディレクトリではなく1ページです。地道に“跡”を探して消しましょう。
上のような処理しばらくすると、Googleから、削除完了メールがアカウント登録時のアドレスに届くと思います。
これで無事に、検索結果からは除外されることになりました。
ただ、レンタル無料ブログの場合とか、たまに変にデータが残って、「申請されたページは現在 Web に存在しています。」なんて出る時があります。すでにないはずなのに…。
なんだろう?これは登録情報が保存されてるためなのでしょうか?
そのへんのシステムは良くわからないのですが、とにかくその場合は、こちらではどうしようもないので、あきらめるしかありません。(とは言っても最近の無料レンタルブログはそんなシステムじゃない…ことを願いますが。)
不本意な足跡は残しておきくない管理人の心情
ここからは長い余談です。こんなことにこだわってるのはおそらく私だけかもしれませんが、私は、WEB上に自分の認知していない履歴が残っているのが非常に嫌です。暇な折に、自分の過去のサイト名とかアドレスで検索して、こまめに消しています。(日によって検索ヒット数や内容が違うのよね。)だって、自分が過去運営しててたけど、閉鎖に伴ってサーバー上から消した。なのに、消したはずのものが残ってしまうんですよ??なにか気持ち悪くないですか??
サーバーからなくなれば、検索からも外れるから別に放置しておけばいいんじゃないの?って思うかもしれませんが、それは嘘。何故か知らないけど、かなり持続的に残ります。特にキャッシュは。
若干意味合いに違いがあるかもしれないけど、過去の履歴は、私にとっては検索結果だけにとどまらないです。運営中、どこかにトラックバックしたり、登録サイトに登録したりすると、当然それは閉鎖後も残ります。送信しているトラックバック先は他者が管理するページの一部なので、仕方ないとしても、何故か、この登録サイト系が何故か消せないことが多い。前もって登録情報は削除してあっても。
削除URLを直接入力しても、「そのページは存在しています」とかでちゃうの。
こういうことになると、下手気にいろんなところに登録できないなぁ…くわばらくわばら…と思いました。
まぁ、気にしない人は気にしないのかも知れないんですけど…ネ。
(2007/01/16 :誤認部分を削除–詳しくはDAYSを)
