存档

文章标签 ‘URL标准化’

动态网址与静态网址-Google官方建议

2008年11月29日

在跟网络管理员沟通时经常会出现这种情形,一些广为传播的理念可能在过去是正确的,但是可能已不再切合目前的情况了。当我们最近在跟几个朋友谈及关于网址的结构时就碰到这种情况。其中一个朋友很担心动态网址的使用,甚至认为”搜索引擎无法处理动态网址”。另外一个朋友觉得动态网址对搜索引擎来说完全不是问题,那些都是过去的事了。还有一个甚至说他从来都搞不懂动态网址和静态网址相比有什么区别。对于我们来说,这一刻使我们决定要好好研究一下动态网址和静态网址这个话题。首先,让我们来界定一下我们要谈论的主题:

什么是静态网址?
一个静态网址,顾名思义,就是一个不会发生变化的网址,它通常不包含任何网址参数。例如:http://www.example.com/archive/january.htm。您可以在搜索框里输入 filetype:html 在谷歌上搜索静态网址。更新此种类型网址的页面会比较耗费时间,尤其是当信息量增长很快时,因为每一个单独的页面都必须更改编译代码。这也是为什么网站管理员们在处理大型的、经常更新的网站,像在线购物网站、论坛社区、博客或者是内容管理系统时,会使用动态网址的原因。

什么是动态网址?
如果一个网站的内容存储于一个数据库,并且根据要求来显示页面,这时就可以使用动态网址。在这种情况下,网站提供的内容基本上是基于模板形式的。通常情况下,一个动态网址看起来像这样:http://code.google.com/p/google-checkout-php-sample-code/issues/detail?id=31。您可以通过寻找像? = & 这样的符号识别出动态网址。动态网址有一个缺陷是不同的网址可以拥有相同的内容。这样导致不同的用户可能链向含有不同参数的网址,但是这些网址却都含有相同的内容。这也是为什么网络管理员有时候想要将这些动态网址重写成静态网址的原因之一。

我是不是应该让我的动态网址看起来是静态的呢?
在处理动态网址时,希望您能了解以下几点事实:

  1. 要正确地生成和维护从动态网址到静态化网址的重写转变实际上是一件很难的事情。
  2. 将原始的动态网址提供给我们会比较安全,请让我们来处理诸如探测和避开那些有问题的参数的事情。
  3. 如果您想重写网址,请去掉那些不必要的参数,同时请保持它动态网址的样子。
  4. 如果您想提供一个静态网址代替动态网址,那么您应该切实地生成相应的静态内容。

静态和动态网址,Googlebot 对于哪一个识别得更好呢?
我们碰到过很多网站管理员,像我们的朋友那样,认为静态或者看起来是静态的网址对于网站的索引和排名是有优势的。这种看法是基于这样一个假设,即认为搜索引擎在抓取和分析含有会话标识 (session ID) 和来源追踪器 (source tracker) 的网址时是有问题的。然而,事实是,谷歌在这两个方面都有了相当的进展。就点击率来说,静态网址可能略微有些优势,因为用户可以很容易地读懂这个网址。但是,就索引和排名来说,使用数据库驱动网站并不意味着明显的劣势。相比较将参数隐藏以使他们看起来是静态的网址来说,我们更希望网站将动态的网址直接提供给搜索引擎。

现在,让我们来看一些有关动态网址的广为传播的看法,并且来纠正一些蒙蔽网站管理员的假说。:)

传说:”动态网址不能被抓取。”
事实:我们可以抓取动态网址并且解释不同的参数。如果您为了让网址看起来像是静态的,而隐藏那些可以给谷歌提供有价值信息的参数,这样做反而会给该网址的抓取和排名带来麻烦。我们的建议是:请不要将一个动态网址改换格式以使其看起来是静态的。尽可能地使用静态网址来显示静态内容是可取的,但在您决定展示动态内容的情况下,请不要将参数隐藏起来从而使他们看起来像是静态的,因为这样做会删除掉那些有助于我们分析网址的有用信息。

传说:”动态网址的参数要少于3个。”
事实:对于参数的数量是没有限制的。但是,一个好的经验是不要让您的网址太长(这个适用于所有的网址,不论是静态的还是动态的)。您可以去掉一些对于 Googlebot 来说不重要的参数,给用户一个好看一点的动态网址。如果您不能确定可以去掉哪些参数,我们建议您将动态网址中所有的参数都提供给我们,我们的系统会弄明白哪一些是不重要的。将参数隐藏起来会影响我们正确地分析您的网址,我们也就不能识别这些参数,一些重要信息可能也因此丢失了。

下面一些是我们认为您可能会存在疑问的一些问题。

这是否意味着我应该完全避免重写动态网址?
这是我们的建议,除非您能确保您只是去掉多余的参数,或能够把所有有可能有不良影响的参数完整地删除。如果您把自己的动态网址任意修改使其看起来像是静态的,您要清楚这样做是有风险的,有可能会导致有些信息不能被正常地编译和识别。如果您想给您的网站再增加一个静态的版本,请您一定要提供一个真正意义上的静态的内容,比如生成那些可以通过网站相应路径而获取的文件。如果您仅仅是修改了动态网址的表现形式,而没有真正提供静态的内容,那么您有可能适得其反。请直接把标准的动态URL提供给我们,我们会自动找出那些冗余的参数。

你能给我举一个例子么?
如果您有一个像下面这样标准格式的动态网址:foo?key1=value&key2=value2,我们建议您不用改动它,谷歌会决定哪些参数可以去掉;或者您可以为用户去掉那些不必要的参数。不过要慎重,仅仅去掉那些不重要的参数。这里有一个含有多个参数的动态网址的例子:

www.example.com/article/bin/answer.foo?language=en&answer=3&sid=98971298178906&query=URL

  • language=en – 标明这篇文章的语言
  • answer=3 – 这篇文章含有数字3
  • sid=8971298178906 – 会话标识代码是8971298178906
  • query=URL – 使这篇文章被找到的查询是[URL]

并不是所有的参数都提供额外的信息。所以将这个网址重写为www.example.com/article/bin/answer.foo?language=en&answer=3 可能不会引起任何问题,因为所有不相关的参数都去掉了。

下面是一些经过认为修改而看起来像是静态网址的例子。相比较没有重写、直接提供动态网址来说,这些网址可能会引起更多抓取方面的问题。

  • www.example.com/article/bin/answer.foo/en/3/98971298178906/URL
  • www.example.com/article/bin/answer.foo/language=en/answer=3/ sid=98971298178906/query=URL
  • www.example.com/article/bin/answer.foo/language/en/answer/3/sid/ 98971298178906/query/URL
  • www.example.com/article/bin/answer.foo/en,3,98971298178906,URL

如果您将动态网址重写成如上所述的示例的话,可能会导致我们很多不必要的抓取,因为这些网址中都含有会话标识 (sid) 和查询 (query) 参数的可变值,这无形中生成了很多看起来不同的 URL ,而他们包含的内容却是相同的。这些格式让我们很难理解通过这个网址返回的实际内容和参数URL以及98971298178906是无关的。不过,下面这个重写的例子却将所有无关的参数都去掉了:

  • www.example.com/article/bin/answer.foo/en/3

尽管我们可以正确地处理这个网址,我们还是不鼓励您使用这样的重写。因为它很难维护,而且一旦一个新的参数被加到原始的动态网址,那么这个网址就需要马上更新。不这样做的话就会再次导致生成一个隐藏了参数的貌似静态网址的 URL 。所以最好的解决方法是通常将动态网址保持他们原来的样子。或者,如果您去掉不相关的参数,请记住一定要保持这个网址是动态的:

  • www.example.com/article/bin/answer.foo?language=en&answer=3

我们希望这篇文章能够对您和我们的朋友有帮助,使围绕动态网址的各种推测清晰化。如果您有更多的问题的话,欢迎加入我们的网站管理员支持论坛进行讨论。

winzeng@北京seo转自 Google黑板报 原文:动态网址与静态网址

SEO(搜索引擎优化) ,

URL优化建议

2008年11月18日

1.URL中包含关键词

在目录名和文件名的路径设计中最好考虑到URL优化,文件路径和文件名包含关键词相对于不包含关键词具有一定的优势。在目录名和文件名中出现关键词组时,目前使用较多的几种形式有:连字符 下划线 空格码 “%20 ” 这里以关键词“seo工具”为例,其常见的形式可以是   “seo-tool”  “seo_tool ”  “seotool ”“seo%20tool” 等等      那么哪一种比较规范呢  ?目前大家认可的是第一种连字符 “—”从Google的url标准化可以得知。至于“seotool”这种形式连在一起之后,关键词就失去了应有的意义了, 那么 seo%20tool ,个人认为用户体验不很好,看着别扭,即使对于Google而言这个等价于“seo tool”,但我们还是倾向于简洁明了的形式,而其Google也认可了连字符这种形式,这种有技术含量的就舍弃了吧。

2.URL优势比较

域名级 例如:http://www.winzeng.org.cn
目录级 例如:http://www.winzeng.org.cn/seo/
页面级 例如:http://www.winzeng.org.cn/seo-tool.html

URL优势比较 :域名级>目录级>页面级  

3.动态URL和静态URL的问题

动态URL与静态存在差别
1、Spider爬行效率:如上所说,多重环境变量的URL;Cookie数据导致访问页面的变化;给予不同的访问者Session ID等。这些因素会导致Sipider爬行效率较低,将制约着动态URL在搜索引擎中的表现。

2、页面信任问题:这个问题目前还没有一家搜索引擎公开表示,对网页有信任值。但通过本人的实验及参考相关资料,静态页面在搜索引擎中,同等条件下一般优于动态URL。 具体可参考老乐的:动态URL的问题与优化-点石互动

4.URL建议(有重复)

1)URL尽量简短明了,url长度过长在一定程度上会影响蜘蛛的索引,url 路径层次最好不要超过三层 ,层次过深也不利于搜索引擎的抓取。

2)URL中带有有含义的单词,这些在一定程度上在排名上会有一些好处。如果关键词过多过长的话,取最能表现页面的关键字眼,这些一方面能获取比较好的用户体验,容易记忆或者通过url就能初步了解页面的主要内容。

3)使用连字符号-来连接单词,尽量避免使用下划线。

4)至于WordPress的URL优化,在永久性链接一项中可以设置,形式也很多,建议如下形式:

http://域名/分类/文章标题.html

设置如下:
settings > Permalinks > Common settings >
选择Custom Structure:填入/%category%/%postname%.html     至于日期形式也可以考虑,具体看网站类型和个人偏好。

原载:winzeng@北京SEO优化博客

原文地址: http://www.winzeng.org.cn/seo/url-youhua/
版权所有,转载时必须以链接形式注明作者和原始出处、并保留本声明

SEO(搜索引擎优化), 用户体验(UE )和行为方式

『转』SEO的建议:URL标准化

2008年11月7日

来自Google管理员博客  译自: Matt Cutts博客

(译者按: Matt Cutts, 谷歌反网络作弊组的带头人, 于2006年1月4日在他的个人博客上发表了”SEO advice: url canonicalization“一文。尽管已快两年了,Google也为网站管理员提供了站长工具,我们发现对很多站长来说该文仍是一篇很好的SEO文章。)

在我开始收集关于Bigdaddy数据中心的反馈之前,我想简略地谈一谈有关标准化、“www相对于非www”、重新定向、重复URLs、302“劫持”等问题的看法,这样我们的讨论才有共同的基础。
问:什么是一个标准化URL?为什么要用这么一个奇怪的字眼?
答:很抱歉,这是一个奇怪的词汇;这是谷歌内部对它的称呼。标准化是一个在若干选项中选取最佳URL的过程,这里通常是指主页。例如,多数人会将下列URL看作相同性质的:

* www.example.com
* example.com/
* www.example.com/index.html
* example.com/home.asp

但是从技术角度看,这些URL都是互不相同的。对于上述URLs,Web服务器会返回完全不同的内容。当谷歌“标准化”特定的URL时,我们试图从一整套同类URL中选出看起来最具代表性的一个。

问:那么我如何能确保谷歌能挑选出我所想要的URL?
答:挑选出你想要的URL,并且在此后一直使用这个URL访问特定网站,这是很有帮助的。例如,不要让同一个输入的链接一半指向http://example.com/而另一半则指向http://www.example.com/ 。相反,挑选一个你喜欢的URL,并且在你的内部链接中总是使用这个格式。
(译者注:现在你可以使用站长工具来通过“控制台 > 工具 > 设置首选域名”)。

问:除此之外,我还能做什么?
答:比如,如果你希望你的默认URL为http://www.example.com/。那么,你可以设置你的web服务器,这样如果有人请求http://example.com/,它就会产生一个301的(永久性)重新定向,链接到http://www.example.com/。这样可以帮助谷歌了解到你希望将哪个URL作为自己的标准。如果您的网站常有变更(例如动态内容和博客等),那么加入一个301重新定向可能更便于搜索引擎的定位和捕获。

问:如果我希望去掉domain.com,但希望保留www.domain.com,我是否应该使用URL清除工具来删除这个域名?
答:不要,绝对不要这样做。对于任何一个www域名,或非www 域名,一旦删除其结果可能导致该域名在未来六个月内无法恢复。绝对不要这样做。如果你本想使用URL清除工具删除www域名或者非www域名,但实际上却删除了你所有的域名,请发送一个重新收录请求,并声明你用URL清除工具不小心删除了整个域名,现在要求重新收录。

问:我注意到,你自己并没有使用301重新定向将你的站点从非www版本转向www版本,为何没有这样做?
答:实际上我是故意这样做的。我几个月之前就注意到了这一点,但决定不自行调整,或者请求谷歌员工帮我搞定它。我或许最终会加入一个301,但至少到目前为止,它还是一个有帮助的实验案例。

问: 那么在讨论“www与非www”时,你也认为这是一种标准化的类型吗?还有没有别的方法能实现URL的标准化?
答:确实还有很多方法,但是多数人不会也无需注意到这些。搜索引擎能够自动完成诸如保留或者删除末尾的斜杠、将URL从大写格式转换为小写格式,或者将session ID从BBS或其他软件上删除等任务(即使你省略了session ID,许多BBS依然能够正常运行)。

问:让我们谈谈”inurl:”操作符。为何每个人都认为如果inurl:mydomain.com显示出某些并非来自mydomain.com的结果,那么他一定是被人劫持了?
答:早先,如果你看到someresult.com/search2.php?url=mydomain.com,有时候其中会包含来自mydomain的内容。如果someresult.com url是一个指向mydomain.com的302重新定向,而我们决定显示一个来自someresult.com的结果,就会产生这种情况。从那以后,我们已经改变了我们的启发方式,大大降低了302重新定向源URL的显示几率。我们逐渐采纳了一个用于处理重新定向的框架,它几乎总是显示目的地URL。雅虎通常采用显示目的地URL的方式来处理302重新定向,而我们正处于逐步过渡到一套类似启发方式的过程中。请注意,雅虎保留了在重新定向的过程中处理所出现的例外的权力,而谷歌也会这样做。根据我们的分析,我们将在302重新定向过程中显示URL源的总概率不到0.5%(基本上,当我们有足够的理由相信URL源正确无误时才会显示)。

问:那么,补充材料又如何呢?补充材料是否会招致谷歌的惩罚?
答:不会。
(译者注:补充材料已成为历史。请阅读补充材料转为主流一文)。

问:在补充性结果中有我的一些网页,但这些网页已经很老旧了。我该怎么办?
答:如果换了我,就不会在这方面花太多的精力。如果网页已经删除,我会确保有一个301重新定向,指向新网页的位置。如果的确彻底消失了,我会确保服务器返回一个关于这些网页的404错误信息。此后,我不会再花费任何精力。当谷歌最终重新抓取那些网页时,就会发现其中的变化。但是由于我们自己爬取补充性结果的时间间隔要长一些,所以你可能在一段时间内看不到更新。

目前我能想到的只有这些。很快,我会更详细地谈论一些关于302和inurl:的范例,帮助大家更具体地理解这个问题。

winzeng@北京seo服务博客

SEO(搜索引擎优化) ,