网站优化必看 蜘蛛陷阱 不利于蜘蛛爬取的网页
(福利推荐:你还在原价购买阿里云服务器?现在阿里云0.8折限时抢购活动来啦!4核8G企业云服务器仅2998元/3年,立即抢购>>>:9i0i.cn/aliyun)
1、搜索引擎能不能找到网页。
1)要让搜搜引擎发现网站首页,网站推广就必须有良好的外部链接链接到首页,就找到了首页,然后蜘蛛会沿着链接爬的更深。
让蜘蛛通过简单的html页面的链接到达,javascript链接,flash链接都是蜘蛛的陷阱。这点要注意。
2)找到网页后能不能抓去内容。
被发现的蜘蛛是可以被爬取的,数据库动态生成,带过很多的参数url、sessionID、整个页面都是flash、框架结构、大量的转向,和大量的复制内容都可能把蜘蛛拦截在门外。这也也是要注意的
2、flash
1)在网页某一个部分使用flash来增强视觉效果很正常网络推广,比如现在很多的flash广告、图标等。但是这是一个html页面的一部分。不会有太大的影响
2)但是有的网站就是一个很大的flash文件,这就构成了蜘蛛的陷阱,这时候蜘蛛爬取的只有一个flash链接,没有其他的内容,所以这点尽量要避免。
3、sessionID
1)有些网站使用sessionID(会话ID)跟踪用户的访问,用户的没一次访问都会生成一个独立的ID,然后加在url里,这是蜘蛛每一次抓取网站都会把蜘蛛当作一个新的用户网络营销,造成蜘蛛不能正常爬取,这也是蜘蛛的一大陷阱。
2)通常建议跟踪用户访问应该使用cookies而不要生存sessionID 。
4、各种的跳转
1)除了大家熟悉的301转向之外,其他的转向对搜索蜘蛛都比较敏感的,比如302暂时转向,javascript转向,flash转向,meta refresh跳转,所以建议大家不要做其他不利于网页的转向,301也包括,不到万不得已的时候也不要用301转向。这是个建议。谢谢阅读,希望能帮到大家,请继续关注程序员之家,我们会努力分享更多优秀的文章。
相关文章
- 在我的既有观念中,搜索引擎的网页爬虫/蜘蛛/机器人(Crawler/Spider/Robot)只抓取页面的 HTML 代码,对于内部或外部的 JS 与 CSS 代码是一律无视的。2010-01-01
- 百度蜘蛛日志抓取解读 教你如何提高百度收录:百度的收录是关心的重中之重,了解百度蜘蛛的爬行规律从而更好的改善收录情况也是必须要掌握的。2010-06-29
- 如何让搜索引擎蜘蛛喜欢上你的网站,以下几点大家都注意下2012-03-23
- 做网站的都希望被搜索引擎所收录.就是希望网络蜘蛛能爬到自己的网站里收录信息2012-07-05
- 网站被百度的蜘蛛抓取时返回304状态码是什么意思呢2012-08-29
- 搜索引擎蜘蛛每天是怎么样去爬取我们的网的呢?针对这些你有多少的了解?那搜索引擎蜘蛛的爬取过程又是怎么样的呢?2013-04-01
- 想要提高网站的排名首先要了解蜘蛛的爬行规则,下面我们来看看解蜘蛛最喜欢的是什么?当蜘蛛爬行一个网站的时候,它需要爬行的信息首先就是站内的结构,查看站内结构是否是2014-10-14
- 作为一名编辑乃至站长,在关注网站在搜索引擎排名的时候,最重要的就是蜘蛛(spider)。搜索引擎蜘蛛是一个自动抓取互联网上网页内容的程序,每个搜索引擎都有自己的蜘蛛,那2016-05-27
最新评论