继续来说404文件
之前写过的那篇404错误页面de文章总结了一下就是告诉大家:
如果网站有很多死链接,一个界面友好的自定义404页面将会挽回访客的流失
但是对于搜索引擎就不是一个概念了,大猫前些天关闭了论坛,转换了博客程序,基本上废了以前所有的链接,今天在打开google网站管理员工具的时候就遇见一个血红血红的WARNINGS:
URLs not accessible
When we tested a sample of the URLs from your Sitemap, we found that some URLs were not accessible to Googlebot due to an HTTP status error. All accessible URLs will still be submitted.
HTTP Error: 404 (Not found)
URL: http://bigc.at/blog/
URL: http://bigc.at/bbs/
Date found: Sep 8, 2007
就是说原来所有的页面都会转向404页面,这样就会制造大量的重复页面,google的爬虫啃了几万个重复页面后难免要狂怒… …十有八九会惩罚我的网站,比如当作作弊而数据清零(虽然大猫是中国人…但是我可是为数不多的好人哇~)
解决方法就是在404页面里告诉爬虫这是个404,不要咬我
第一步提交sitemap 告诉google你目前网站的布局结构http://www.google.com/webmasters/sitemaps
第二步在404页面顶部添加header(‘HTTP/1.1 404 Not Found’);
具体语句可能是:
<?php
header(‘HTTP/1.1 404 Not Found’);
?>
第三步还不放心的话在<head>和</head>里添加
<meta name=”ROBOTS” content=”NOINDEX,NOFOLLOW” />
这句话告诉google的爬虫,不要吃我(NOINDEX),不要吃我的老婆(NOFOLLOW)
第四步用Check Server Headers工具来检查是否生效
OK~哪首梁静茹的搬家快乐怎么唱来着~
搬家快乐,祝你快乐~你会更鹤鞋de~
本文参考资料:
谈谈自定义404页面 –Concorde
HTTP全部状态码 –lxholding的专栏
PHP中header()函数使用说明 –卧云弄月
回复 偶爱偶妻 取消回复