抓取异常信息: | socket 读写错误 |
开始:
刚开始我使用的是腾讯云CDN,然后又切换到又拍云CDN;依旧是不行,所以,就有了下面的文章,算得上是我自己的一个经验吧!
上面的这句话就是使用腾讯云cdn,然后在百度站长的后台进行模拟抓取出现的一个抓捕异常信息。
在之前使用腾讯CDN的时候并没有出现这个问题,可能是前几天腾讯云系列更新了之后才出现的。
前几天我并没有过多的关注搜索引擎,今天在百度里面搜索我自己的网站,发现并没有任何一个连接。所以我到百度站长平台后台去模拟抓取一下,看看是不是我网站的问题。我总共抓取了30多条,无一例外全部都是失败的。
但是找了很久没有找到任何的原因,最后没办法了,我把腾讯云CDN下掉,直接解析到我的服务器IP上面,等了十几分钟,等待DNS生效之后再去后台抓取,这时候也就显示抓取成功了。
这个时候我就可以肯定就是腾讯云CDN的问题,由于我还有备用的cdn服务商,所以我就直接解析到了另一个服务商上面,等待解析生效之后,我再次回到百度站长后台去进行模拟百度抓取,这个时候提交的链接都显示正常,能够正常的抓取到网页的内容。
所以,写这篇文章主要就是针对于腾讯云cdn抓取失败的问题,我是腾讯云CDN的免费用户,我可以直接切走,如果是付费用户,建议还是用工单询问一下腾讯云的工程师是什么情况。
后续情况:
切换了好几家的CDN,但是依旧不行,所以我感觉应该是百度蜘蛛自己出了问题。
我的临时解决办法就是在域名解析中添加一条线路,只用于蜘蛛爬行。
这样子我后面测试已经能够正常的抓取网页了,由于没有特别好的办法,目前就只有这样。