<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>winZeng*北京SEO &#187; Robots文件标准</title>
	<atom:link href="http://www.winzeng.org.cn/seo/tag/robots%e6%96%87%e4%bb%b6%e6%a0%87%e5%87%86/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.winzeng.org.cn</link>
	<description>北京SEO&#38;SEM&#124;网站优化&#124;Google优化&#124;网络营销</description>
	<lastBuildDate>Sun, 15 Aug 2010 10:14:17 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>搜索引擎统一Robots文件标准</title>
		<link>http://www.winzeng.org.cn/seo/robots-txt/</link>
		<comments>http://www.winzeng.org.cn/seo/robots-txt/#comments</comments>
		<pubDate>Thu, 28 Aug 2008 16:17:35 +0000</pubDate>
		<dc:creator>winzeng</dc:creator>
				<category><![CDATA[SEO（搜索引擎优化）]]></category>
		<category><![CDATA[Robots文件标准]]></category>

		<guid isPermaLink="false">http://www.winzeng.org.cn/seo/%e6%90%9c%e7%b4%a2%e5%bc%95%e6%93%8e%e7%bb%9f%e4%b8%80robots%e6%96%87%e4%bb%b6%e6%a0%87%e5%87%86/</guid>
		<description><![CDATA[
  搜索引擎统一Robots文件标准-转载于ZAC 搜索引擎优化SEO每天一贴  
   搜索引擎三巨头打的不亦乐乎，但偶尔也合作一下。去年Google，雅虎，微软就合作，共同遵守统一的Sitemaps标准。前两天三巨头又同时宣布，共同遵守的robots.txt文件标准。Google，雅虎，微软各自在自己的官方博客上发了一篇帖子，公布三家都支持的robots.txt文件及Meta标签的标准，以及一些各自特有的标准。下面做一个总结。
三家都支持的robots文件记录包括：
Disallow &#8211; 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件：
User-agent: *
Disallow: /
Allow &#8211; 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用，可以告诉蜘蛛某个目录下，大部分都不抓取，只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件，而只抓取其中cd下的文件：
User-agent: *
Disallow: /ab/
Allow: /ab/cd
$通配符 &#8211; 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL：
User-agent: *
Allow: .htm$
*通配符 &#8211; 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件：
User-agent: *
Disallow: /*.htm
Sitemaps位置 &#8211; 告诉蜘蛛你的网站地图在哪里，格式为：
Sitemap: &#60;sitemap_location&#62;
三家都支持的Meta标签包括：
NOINDEX &#8211; 告诉蜘蛛不要索引某个网页。
NOFOLLOW &#8211; 告诉蜘蛛不要跟踪网页上的链接。
NOSNIPPET &#8211; 告诉蜘蛛不要在搜索结果中显示说明文字。
NOARCHIVE &#8211; 告诉蜘蛛不要显示快照。
NOODP &#8211; 告诉蜘蛛不要使用开放目录中的标题和说明。
上面这些记录或标签，现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow，Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。
只有Google支持的Meta标签有：
UNAVAILABLE_AFTER &#8211; 告诉蜘蛛网页什么时候过期。在这个日期之后，不应该再出现在搜索结果中。
NOIMAGEINDEX &#8211; 告诉蜘蛛不要索引页面上的图片。
NOTRANSLATE &#8211; 告诉蜘蛛不要翻译页面内容。
雅虎还支持Meta标签：
Crawl-Delay &#8211; 允许蜘蛛延时抓取的频率。
NOYDIR &#8211; 和NOODP标签相似，但是指雅虎目录，而不是开放目录。
Robots-nocontent &#8211; 告诉蜘蛛被标注的部分html不是网页内容的一部分，或者换个角度，告诉蜘蛛哪些部分是页面的主要内容（想被检索的内容）。
MSN还支持Meta标签：
Crawl-Delay
另外提醒大家注意的是，robots.txt文件可以不存在，返回404错误，意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时之类的错误，可能导致搜索引擎不收录网站，因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容，这与确认文件不存在是不一样的。
 

作者: Zac@SEO每天一贴
原载: 中新虚拟主机
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。
Robots文件在实际应用中是非常重要的，这里有ZAC前辈详细的介绍，我这里也不多说了，想了解更多，请问搜索引擎&#8230;
]]></description>
		<wfw:commentRss>http://www.winzeng.org.cn/seo/robots-txt/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
