今天,漳州网站优化用站长工具查询黄艺强博客时,发现360、谷歌等收录良好,而百度搜狗却很不理想,笔者查了乐云博客站,却发现360搜狗收录很少,百度360收录很多,为什么会有这么大的差异呢,带着这个问题笔者查询了robots.txt,恍然大悟,大悟不是因为知道收录为什么会这样,而是笔者进一步了解了robots.txt的设置,修改了robots.txt,有利于博客的发展,更好的被搜索引擎收录抓取,所以人要多思考这是没错的。

wordpress如何设置最佳robots.txt

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是国际互联网界通行的道德规范,尊重信息提供者的意愿维护其隐身,正如08年淘宝网屏蔽蜘蛛,11年京东的一淘网屏蔽了爬虫,都是体现robots.txt的规范互联网的原则,遵从民主自由。话题有点偏了,回到wordpress如何设置最佳robots.txt。

Robots.txt是搜索引擎蜘蛛进站的第一个胃口,首要检查的文件,网站有很多内容例如js,style,插件,图片是无需爬虫去抓取的,对博客网站来说文章才是重中之重,把所有力气放在文章,一点击破,而不是浪费资源做无用功,而wordpress默认的robots.txt是:

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

这只是其中的一小部分,对不懂优化的人来说,屏蔽这些应该已经足够,但对SEO来说,就是追求完美,没有最好只有更好,那么要屏蔽那些,如何屏蔽呢

1.动态页面对搜索引擎不友好,搜索引擎的口味是静态页面,所以可以屏蔽动态页面,前提是网站要伪静态,

Disallow: /*?* 限制动态页面 /%post_id%.html 伪静态设置

2.管理员登录界面,既然是管理员就没必要给爬虫抓取,登录界面对用户也没用

Disallow: /wp-admin/ 限制管理员登陆页面

3.插件、模板、js文件这些是网站的后台程序代码,也可以屏蔽

Disallow: /wp-content/plugins/ 限制插件文件

Disallow: /wp-content/themes/ 限制模板文件

Disallow: /wp-includes/ 限制js文件

4.feed,不知道站长们对这个熟悉吗,这个是网站的订阅文件,原本漳州网站建设也不知道,只知道有RSS订阅,在网站域名后加个feed你就清楚了,这个也可以屏蔽。

Disallow: /feed

5.网站的评论,评论被抓取会导致文章的重复,不利于观察分析,用户体验,但这个视具体情况,个人爱好不一

Disallow: /comments         限制评论

Disallow: /*?replytocom* 限制每一个评论页面

设置完Robots.txt后,为保险起见,最好用百度站长工具检查一下,漳州网站建设就被robots.txt解禁困扰过,花了很长时间才把它搞定。插个小曲,robots.txt不仅可以禁止爬虫爬取网站结构,也可以禁止 404页面,搜索蜘蛛非常喜欢网站地图,sitemap可以为搜索引擎蜘蛛指路,增加网站重要内容页面的收录,也有利于用户体验,所以最后一点就是加入网站地图

【上一篇】 【下一篇】
  • 文章标签:
  • 本文链接: wordpress如何设置最佳robots.txt | 黄艺强SEO博客
  • 版权所有: 除非注明,文章均为黄艺强SEO博客首创-转载请标明出处,谢谢