蜘蛛抓取但是收录不放出来为什么
从6月7日到6月17日 每天爬虫都来,而且很多。 但是百度收录却很少。
之前是3天就有收录。 网站备案了。
看日志蜘蛛的爬取量增加了,爬取次数也增加了,但还是不收录内容,真的内容质量太差了吗?
有时候是这样的 都需要时间的沉淀才会出效果 即使蜘蛛爬取了也不一定那么快收录
1、爬取和收录的关系:
爬取和收录并不是包含关系,他们两个是搜索引擎工作的环节,蜘蛛爬取页面后放入临时数据库,等内容通过审查后才 放出就形成了收录。所以这两个环节是前后关系,但是没有必然的联系。
2.蜘蛛抓取页面的过程:
第一阶段:大小通吃
搜索引擎蜘蛛过来抓取时,就需要对网站的URL进行一个统一的抓取,也就是站长常说的大小通吃的情况。搜索引擎蜘蛛对网页中出现地链接,都会逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来。这对于很多的站点来说,是比较好的情况。搜索引擎蜘蛛过来抓取时,站长可以通过网站日志有一个清楚的记录。站长可以通过网站日志分析网站优化的基本情况,这仅仅是第一阶段。
第二阶段:网页评级
搜索引擎蜘蛛对网站的页面进行抓取以后,就需要对网站的页面进行评级。PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序。搜索引擎蜘蛛抓取页面后,会对网站的页面进行下载。但PageRank是个全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。
3、蜘蛛爬取成功却不放出来的原因:
蜘蛛爬取后会将页面放入到临时数据库,搜索引擎再对临时数据库中的内容进行审查,将优质的内容放出并建立索引。所以并不是说爬取就会被收录,还需要内容质量过关才能被放出来并建立索引。不同的蜘蛛抓取的页面评测也不一样,有的是低权重的蜘蛛,有的是高权重的蜘蛛和抓取待定的蜘蛛,这个可以百度搜下各种蜘蛛的情况,来做出各种应对情况
正常情况下网站提交后次日,spider会放出一个网站主页的快照。再接下来的时间内,会不断的收录索引内容页,并持续的放出。这个过程维护一月、二月、或者是三月,时间不等。如果网站已经有首页放出,说明百度蜘蛛已经有来抓取过,只是内容还没有放出来,多等待些时间即可。如果在等待收录放出的时间阶段不要做任何大的发动。比如说 修改title标题、修改url 等。否则会延长放出的时间,周期也会变长。
其次,如果内容和首页都没有放出来,就需要重新向百度提交,通知百度蜘蛛来抓取网站的内容,最好是提交个sitemap地图,手动提交一下。
还有就是网站权重不高的情况下,抓取后,收录也需要一段时间才可以放出来。如果是新站,新站的收录很多情况下都是比较慢的,做好内容、有规律的更新、多提交,重在坚持!!!所以要给自己定任务,每天一篇原创800-1000字,定时发。坚持一周左右见效。另外百度有个底层库的概念。无效收录和底层库两个名词是百度在最近年来推出的两个新词,这两个词对最近的SEO情况比较有代表性,先简单解释一下他们的意思:
无效收录
无效收录是指百度已经收录了该页面,但该页面的标题(关键词)并没有人搜索,比如一个文章的标题是:asdwqsdferfsdaffw 内容全部是一些英文字母,但百度收录了该页面,由于没有人会做出这样的搜索,所以属于无效收录。
底层库
底层库和无效收录有一定的关系,但它自身有着不同的解释。举个例子百度上关于“老人跌倒该不该扶”的问题已经索引了几百万个页面,而这几百个页面中百度认为已经能够很好解决用户所需要问的问题,所以会对以后新增的收录页面进入到底层库。简单点来说就是你以后做“老人跌倒该不该扶”这个关键词,就等于排队在几百万个页面后面。
蜘蛛爬行,不抓取收录的一个原因可能是稿件的内容价值较低,可考虑后期提高文章质量,从用户体验入手。如果你是转载的文章,建议对文章增加附加价值,也就是内容增益,因为搜索引擎没必要收录那么多重复的文章。如果你是原创的文章,可观察分析文章是否符合用户需要,是否具有高价值,如果你没有满足用户的需求,文字质量很低,即使是原创文章,也可能出现不被收录的情况。一般情况爬去都会收录,除非网站原创度低,还有一种情况是收录了没有放出来,等百度更新会一次性放出来的,到时候你看一下快照时间就知道了。我这个网站 3w点huamaodashu 点com 刚上线的的时候也是,只收录了首页,内页到一个月以后才放出来,而且排名很好。
网站收录与权重,结构,和文章有很大关联,尤其是文章,如果你文章是采集的注意了,如果是原创的话,提升网站权重或者看下网站结构是否有缺陷。