觉得今天很有必要跟大家分享一下Robots与死链的关系,这几天已经遇到了好几个SEOer在混淆这两个概念了,老是把Robot的应用与死链的处理,搭配到一起去使用,Seven足足码字好几百,聊天记录都说了两页了,回头还是问了句,“怎么在robots.txt中写死链提交”,我在想一定是我表达的方式不对,下面给大家捋捋思路:
Robot的应用
主要用于定义允许/禁止哪些搜索引擎蜘蛛的爬取,允许/禁止蜘蛛可以爬取的网站路径,允许/禁止蜘蛛爬取URL的规则,告诉某些搜索引擎网站地图的URL,例如我的Robot就简单简单定义了几个规则,
(注:以前用过用过的老域名,2014年后已更换为feiwenseo)
死链的处理,这里针对百度搜索引擎讨论,主要还是到站长工具里面,把死链提交给百度,告诉百度这个链接不存在,请求删除之前的收录,这里是以txt或xml形式批量提交死链给百度;
现在谈谈死链与Robot的关系,很多人就把死链提交到Robots定义里面,认为用Disallow来禁止百度蜘蛛的抓取,这个想法是好的,出发点无非是不想让百度收录自己网站的死链,但是有没有考虑到快照问题,就是这个链接是个死链,但是在网站收录里面还有快照存在,你就会想,是不是百度还能抓取到我的死链,所以你就在Robot里面加了N多行的Disallow,来禁止百度收录你的死链,seven一直不太认可这么一个做法,其实这完全是一个本末倒置的做法。
需要搞清楚死链是如何产生的?死链是由于文件删除或者路径修改产生的不可访问的链接,那么你需要做的第一步是完全清除死链,第二步是提交死链,而Robots的禁止收录,是因为路径存在,但是你不希望被搜索引擎收录,比如网站后台或者用户中心一类,所以才加的Disallow去禁止收录,死链是访问不到的链接,如果你第一步清除完了,存在这个Disallow的必要吗?因为你不完全清除死链,势必影响用户体验。
总结
死链是必须清除的,对于搜索引擎而言,网站收录之前的死链一般不会被收录,因为没有价值;收录之后的死链,可能用户会在搜索结果或者站内浏览时点击到,影响用户体验,所以必须提交死链和投诉快照加快死链处理。robots与死链的关系很微妙,差别就在于这个死链地址是否还存在于网站内链当中。
————–更新于2018.10.18—————–
处理死链可以借助站长工具+服务器上的网站日志收集404,统一收集到一个txt文档放置在根目录,一次性在站长工具提交,算是比较基础的,能比较快速处理批量死链。
介绍很仔细,新手很容易懂,青松博客留过脚印