香港虚拟主机
本站公告
新闻资讯
虚拟主机帮助
域名帮助
服务器帮助
邮箱帮助
建站帮助
网站推广帮助
VPS帮助
特色主机帮助
网站备案专题
会员帮助信息
代理帮助信息
成功案例
我司获香港虚拟主机排行榜十…
香港虚拟主机金秋促销活动正…
百度整治给SEO带来了新的希望
百度同时收录网站带WWW和不带…
百度对原创内容的判断标准 如…
如何建设网站 网站建设三步曲
如何挑选老域名 老域名有那些…
域名常见故障与分析
虚拟主机基本参数介绍
交换链接的技巧 谈一下选择交…
您现在的位置: 江南数联 >> 帮助中心 >> 网站优化 >> 正文

robots.txt常见的错误写法总结

  作者:admin    来源:本站原创    点击次数:29     更新时间:2013-11-1 8:12:25  
     
 
关注石头有礼
 
 

robots.txt常见的错误写法总结

不管小站大站都在所难免因为改版或者因为网页升级以及各种因素造成网站上存在或多或少不需要的内容,而且这些不需要的内容很容易被百度收录造成对网站的影响,常见的内容有比如网站更换了目录路径而原来收录的路径没有变,网站原来是动态的采用了伪静态而原来收录的动态内容还在造成伪静态和动态内容重复,网站原来用的是二级目录现在对这个二级目录增加了二级域名即子域名而搜索引擎同时收录二级目录和二级域名的页面同样造成网页重复,这些都会对网站的排名权限带来很严重的后果写好用好robots协议就非常重要下面我们就讲一下robots协议。
什么是Robots协议?
 
    要写好robots.txt,并让搜索引擎蜘蛛按照我们要求的来爬行网站的内容,那么首先我们要了解的是robots的定义,什么是robots协议呢?首先单从robots来说是机器人的意思。在SEO搜索引擎优化这行来说,就是指的各个搜索引擎机器人类别。Robots.txt协议就是我们给搜索引擎蜘蛛定义的一个规则。制定好一个robots协议对于网站的收录、网站权重的提升都有很大的帮助。
 
    Robots.txt协议的写法
 
    Robots需要定义搜索引擎蜘蛛、是否允许其检索、特殊文件(网站程序文件、js文件、404.html等)和链接(站内页面链接、目录链接、友情链接等)的处理。合理利用”$”和“*”搭配使用,避免错误,而导致网站收录。详细的我就不说了,大家可以参考百度帮助:http://www.baidu.com/search/robots.html
 
     Robots.txt常见错误及使用技巧等相关问题
 
1.robots是否应该屏蔽404页面
 
首先单独说说404页面有什么作用,404页面是在用户或者是搜索引擎蜘蛛进入到某个页面出现不能正常访问的时候,用404页面提示用户该页面已不存在,而这个404页面并不产生排名。那么如果让搜索引擎蜘蛛爬行404页面的话,必然会浪费爬行时间,因为我们知道蜘蛛在网站的爬行时间是有限的。从而得出结果,屏蔽404页面是必须的。
 
2.robots.txt是否有必要存在
 
A5论坛上有一个朋友曾问:“有的网站访问:域名/robots.txt提示404页面,难道robots可以不要吗?robots是否有存在的价值?”一个良好的网站,肯定需要一个站得高一点的人来掌控全局,这网站的robots文件就能够起到这个作用。可能有时候,我们的网站出现了问题,不想让搜索引擎来访问这个出现问题的页面;也可能有些页面会让让搜索引擎蜘蛛重复爬行好几次,但是却起不到任何作用。像这样的情况还有很多,在这个时候如果没有利用好robots,就会造成网站权重下降,网站排名更不用说也会下降了。
 
3.robots.txt错误写法举例
 
  A. 顺序倒置
 错误写成:
User-agent: *
 Disallow: GoogleBot
正确的应该是:
User-agent: GoogleBot
 Disallow: *
 B. 把多个禁止命令放在一行中
 错误写成:
Disallow: /css/ /cgi-bin/ /images/
正确的应该是:
Disallow: /css/
 Disallow: /cgi-bin/
 Disallow: /images/
 C. 行前有大量空格
 错误写成:
    Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。
D. 404 重定向到另外一个页面
 当Robot 访问很多没有设置robots.txt 文件的站点时,会被自动404 重定向到另外
 一个Html 页面。这时Robot 常常会以处理robots.txt 文件的方式处理这个Html 页
 面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt 文件在
 站点根目录下。
E. 采用大写。
 错误写成:
USER-AGENT: EXCITE
 DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写。
 正确的应该是:
user-agent:GoogleBot
 disallow:
 F. 语法中只有Disallow,没有Allow
错误写成:
User-agent: Baiduspider
 Disallow: /john/
 allow: /jane/
 G. 忘记了斜杠/
错误写成:
User-agent: Baiduspider
 Disallow: css
正确的应该是:
User-agent: Baiduspider
 Disallow: /css/
 
4. allow与disallow顺序
 
Allow与disallow如果顺序出现错误,会导致本来想让其被收录而不能被成功收录。比如我想让seo目录下的post被收录,被不想seo下其他文件被收录,正确的写法应该是:
 
Allow:/seo/post*
 Disallow:/seo/  (如果写出Disallow:/seo 也是不正确的,这SEO后面的/表示目录)
 
5.友情链接robots防骗
 
有人做友情链接的时候,不会把nofollow直接写在<a>标签里,而是写在meta标签里。所以在做友情链接的时候应该注意的就是页面meta标签。常见的meta标签欺骗写法是:<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">。这段代码的意思大概是不让搜索引擎索引和跟踪页面上的链接。所以做SEO交换链接的朋友,要注意这个问题,要不然被骗了还不知道。
 
6.网站url的限制抓取
 
一般来说,网站的robots.txt文件里是应该放置一个sitemap.xml文件,这样的话有利于搜索引擎蜘蛛爬行。但是如果加入了过多的disallow限制,反而不利于爬行了,收录也不会增加。
 
7.robots.txt生效时间
 
当我们修改了robots协议以后,百度谷歌会在什么时间内生效呢?这个具体的时间也说不清楚,就我这次修改了robots的时间来看,谷歌在两天之内就生效了,而百度在5天左右的时间才反应出来效果。
 
总结
 
robots.txt是网站不可缺少的一部分,或者说网站生死权多少就掌握在robots了。利用好网站robots,不仅可以有效控制网站收录,还能增加网站权重。关于robots的常见问题,胡国荣就先说这么多吧。欢迎大家补充添加。

本章关健词:江南数联 域名注册 海外虚拟主机 G享虚拟主机 国内虚拟主机 企业邮箱 网站建设 自助建站 400电话申请 微聚商

 
  版权申请:robots.txt常见的错误写法总结出自江南数联dns06.com未经授权请勿转载!  
 
  • 上一篇帮助:

  • 下一篇帮助:
  •  
         

    扫一扫关注公众号有礼
    Copyright@2004-2015 江南数联 版权所有未经授权请勿复制!
    《中华人民共和国增值电信业务经营许可证》ISP证编号:皖B2-20080036 湘B2-20160056
    公司全称:永州石头网络技术有限公司(运营部)
    地址: 中国·湖南省永州市育才路158号 服务热线:400 616 9260
    安徽公司:安徽仁科信息技术有限公司 地址:合肥万和新城广场A-608 
    关注词:网站空间虚拟空间空间域名域名空间域名主机网站空间哪家好网站空间多少钱