3450399331
网站设计

网站优化技术剖析网站的URL该怎么样设计和规划

发表日期:2024-12-23   作者来源:www.tlffgw.com   浏览:0   标签:网站制作    

虽然页面不同,但他们公用的部分,URL地址是一样的。看着假如不一样的爬虫抓取到这类页面的时候,会重复抓取,从而浪费不少非必须的时间。?这确实是一个问题,不过这个问题搜索引擎倒是基本解决好了。伊犁网站优化记者为大伙分析爬虫的抓取模式不是像大家理解的那样看到一个网页就开始抓取一个网页的。

爬虫顺着一个个的URL在网络上抓取网页,它一边下载这个网页,一边在提取这个网页中的链接。假设从搜索引擎某一个节点出来的爬虫有爬虫A、爬虫B、爬虫C,当它们到达百度竞价推广yj这个网站的时候,每一个爬虫都会抓取到不少URL,然后他们都会把那个页面上所有些链接都放在一个公用的待抓取列表里。

待抓取列表

如此一来,在待抓取列表里,那些重复的URL就能被去重了。这是一个节点在一种理想状况下的状况,不过事实上由于搜索引擎将来还要更新这个网页等等一些缘由,一个网站天天还是有不少重复抓取。所以在以前的文章中,我告诉大伙用一些办法降低重复抓取的几率。

这里有一个问题,不少人一定想问是否一个网页上所有些链接搜索引擎都会提取的,答案是一定的。但在《谷歌网站水平指南》中,有如此一句网站优化技术剖析网站的URL该怎么样设计和规划爬虫只能抓取前100个链接,这是错误的。

由于在待抓取列表里的URL,爬虫并不会每个链接都会抓取的。 链接放在这个列表里是没问题的,但爬虫没那样多时间也不必每一个链接都要去抓取,需要有肯定的优先级。在待访问列表里,爬虫一边根据优先级抓取一部分的URL,一边把还未被抓取的URL记录下来等待下次抓取,只不过这类还未被抓取的URL,下次爬虫来访问的频率就每一个网站都不同了, 每一类URL被访问的频率也不同。

按优先级抓取

那样在待抓取列表里的URL,什么是能被优先抓取,什么是被次要抓取的呢?

大家稍微考虑一下都能了解这个抓取的优先级方案如何定。第一,那些目录层级比较深的URL是次要抓取的;那些在模板部分的或重复率特别高的URL是被次要抓取的;那些动态参数多的URL是次要抓取的..

这么做是什么原因,就是由于搜索引擎的资源是有限的,一个网站实质拥有些内容也是有限的,但URL数目是无限的。爬虫需要一些蛛丝马迹来确定什么值得优先抓取,什么不值得。

在《Google搜索引擎基础知识指南》中,谷歌建议要优化好网站的URL结构,如建议不要用/dir1/dir2/dir3/dir4/dir5/dir6/page.html如此的多层嵌套。就是由于在待抓取列表里,在其他条件相同的状况下,爬虫会优先抓取目录层级浅的URL。如用Lynx在线版查询本网站的页面网站优化技术剖析网站的URL该怎么样设计和规划

http://www.百度竞价推广yj.com/archives/1097和 http://www.百度竞价推广yj.com?p=1097??

这两个URL中,这个静态化的是否就比动态的好呢? 事实上这两个URL的差别非常小。第一这两种URL搜索引擎都能网站收录,假如说动态URL?p=1097可能产生很多重复的内容让爬虫抓取,那这个静态的URLarchives/1097也不可以保证不会产生很多重复的内容。尤其是爬虫在抓取时碰到很多有ID的静态的URL时,爬虫没办法判断这个网站是否把session ID等参数静态化了才导致的,还是这个网站本来就有这么多内容。 所以更好的静态化是如此的网站优化技术剖析网站的URL该怎么样设计和规划如不少博客上都会有一个日历,顺着这个日历的日期一直往下点,永远都有链接供你点击的,由于时间是无限的。

其实还有更多的无限空间的例子,只不过无限空间这个名词没如何翻译好,翻译做无限循环就容易理解多了。 举一个例子网站优化技术剖析网站的URL该怎么样设计和规划 http://www.360buy.com/products/670-671-672-0-0-0-0-0-0-0-1-1-1.html

当点击惠普+11英寸这2个条件后能出来一个页面,点击联想+14英寸+独立显卡也能出来一个页面。那总共能出来的页面有多少呢?

这个页面中,品牌有18个分类、价格9个分类、尺寸7个分类、平台3个分类、显卡2个分类。 那样可以组合成的URL个数为网站优化技术剖析网站的URL该怎么样设计和规划 18+9+7+3+2 = 39 。

按2个条件筛选网站优化技术剖析网站的URL该怎么样设计和规划1897+1893+1892+1873+1872+1832+973+972+932+732=3093。

按4个条件筛选网站优化技术剖析网站的URL该怎么样设计和规划189732=6804。

总共可以组合出的URL数目为网站优化技术剖析网站的URL该怎么样设计和规划

无结果

如此的结果,就是导致很多重复的内容与消耗爬虫不少非必须的时间,这也可以觉得是无限空间。 这种状况很容易见到。

推荐题目网站优化技术剖析网站的URL该怎么样设计和规划

如没特殊注明,文章均为博益网 原创,转载请注明来自http://www.ziyubo.com/news/sheji/17474.html