今天与大家交流一个话题,也是最近比较有影响力、非常受欢迎的话题,如何分析百度怎么抓取网站内容。一个好的网站就像一个明星如果没有粉丝的追捧,他的人气排名肯定也上不来。下面我以问答的方式与大家沟通:
一、问:百度自己也有一个CDN加速(百度云加速),对抓录排名有没有影响?
答:在使用CDN加速这个问题上,我们对所有站点一视同仁。但我建议你使用技术能力强的CDN服务商,保证站点的稳定和速度,百度会更喜欢。
二、问:多个域名,他有相同的一些内容,怎么建库?
答:如果是多域名在同一个主域下面有相同内容的话,不可能所有都建库,而且被建库的那个可能不是你希望的那个,所以尽量不要有相同的内容。
三、问:如果说页面里url特别多的话,蜘蛛会不会有选择性的进行抓取?
答:不会,他都会一个不漏给你提出来,但会把JS、CSS这样的链接给过滤掉。但请注意,全部抓取过来之后会进行筛选,并不是所有都会建库。
四、问:多个域名,他有相同的一些内容,怎么建库?
答:如果是多域名在同一个主域下面有相同内容的话,不可能所有都建库,而且被建库的那个可能不是你希望的那个,所以尽量不要有相同的内容。
五、问:现在我的网站被很多蜘蛛爬,我想只让百度蜘蛛爬,百度蜘蛛IP多少?能设白名单么?
答:百度蜘蛛IP是不断变的,现在网上的确有一些白名单的说法,暂时是有较的,但不保证今后不会变,所以建议站点还是通过ua进行判断。
六、问:如果我写robots只想禁掉动态链接的话,会不会影响动态参数前面正常链接的抓取?
答:不会的,你原来的页面还在,肯定会抓。
七、问:比如我们一个域名www.yuhou.cn,我们想把带?号的url全部禁掉,首页我们不要禁掉,怎么弄?
答:?前面有个*,后面再有个*就可以了。
八、问:我想了解,如果我现在收录有5万,大概多长时间才能把我原来收录5万重新抓取一遍?
答:不同站点不好说,一个是你站点做的很好,知名度很响更新很快质量很好就会快;如果你的站点默默无闻,贡献很少,可能就会很慢。
九、问:如果说页面里url特别多的话,蜘蛛会不会有选择性的进行抓取?
答:不会,他都会一个不漏给你提出来,但会把JS、CSS这样的链接给过滤掉。但请注意,全部抓取过来之后会进行筛选,并不是所有都会建库。
十、问:现在很多网站都有自己的站内搜索,都会产生站内搜索结果页,百度不喜欢搜索结果页的话,我们用这个会不会对我们有影响?只是不喜欢还是对我们网站会有惩罚?
答:蜘蛛会去抓,抓完之后重要是提取里面的链接。如果只有一两条这样的页面质量不好问题不大,如果整体质量较差,有可能受到惩罚。
|