Semalt:什么是 Googlebot?



  1. 介绍
  2. 什么是 Googlebot?
  3. 为什么要关注 Googlebot?
  4. 为什么 Googlebot 不会抓取某些网站上的所有网页?
  5. 如何优化您的网站以最大限度地利用 Googlebot 的预算
  6. 结论

介绍

您知道 Google 如何为您的搜索找到资源吗?正如人们普遍认为的那样,谷歌并不是一个无所不知的精神,它知道网上的每一个内容都是关于什么的。不是某种通灵者知道您问题的确切答案在哪里。

与其他所有搜索引擎一样,它的软件可以每秒抓取数十亿个页面(和站点)以收集信息;提取内容及其主题的价值。因此,当进行搜索时,答案是从这些页面中得出的——有点像图书馆。


这听起来很像 SEO,那是因为它与它有很多关系。当一个网站被有效优化时,谷歌会快速看到该网站,浏览它的页面,并在搜索引擎上进行相关搜索时弹出它。

但这不会发生在站点中的所有页面上,使某些页面 无形的 致全世界。为什么会发生这种情况?可以针对它做些什么(特别是对于非常重要的页面)?这是一份指南,详细介绍了 Google 的网站抓取工具 (Googlebot)、为什么它不能抓取足够多的页面,以及网站所有者如何使用网站优化和 SEO 来最大化 Googlebot 的抓取预算。

什么是 Googlebot?



蜘蛛!履带! 这些是 Googlebot 的流行名称。这是因为它有点像那样工作。该软件旨在抓取和浏览已向公众发布的数十亿个网站页面。

没错 - 如果网站保持私密,Googlebot 根本无法扫描其页面,回想一下蜘蛛不是通灵的。它只是跟随页面链接(从一个页面到另一个页面),然后继续进行数据处理。完成此操作后,将信息编译为索引(作为 Goggle 库或商店易于记忆)。

由于这个软件的存在,谷歌可以在不到一秒的时间内编译和积累超过一百万千兆字节 (GB) 的信息(好吧 - 现在这很神奇)。然后从这个定期更新的索引中,谷歌为桌面和移动设备上的每次在线搜索提取资源。

为什么要与 Googlebot 一起使用?

Googlebot 抓取与网站的 SEO(搜索引擎优化)有很大关系。蜘蛛的整个本质是从站点的页面中收集信息,以便在对相关主题进行搜索时,可以将页面显示为在线搜索结果之一。因此,当 Googlebot 不断抓取网站的大部分页面时,可见性会增加,从而导致此类页面上的网站流量增加(这是目标之一,对吗?)。

使用此插图:

X 有一个网站,上面有一个关于这个主题的页面: 专业的网站搜索引擎优化. Y 搜索网站 SEO。如果 Googlebot 在 SEO 上爬过 X 的页面并将其编入索引,它将成为 Google 搜索结果中弹出的结果之一。即使在全世界一天内发生一百次,其他相关搜索也会发生同样的情况。

请注意,还有其他突出的因素,例如良好的网站结构、相关的、快速的网站加载时间。但只有一个 搜索引擎优化专家 可以帮助确保这些操作正确完成,并且网站页面显示在 Google 搜索结果的第一页上。


为什么 Googlebot 不会抓取某些站点上的所有页面?

在 Google 的一次 SEO 办公时间环聊中,有人提出了一个问题,即为什么 Googlebot 没有在某些网站上抓取足够多的页面。有超过数千亿个页面公开发布到网络服务器。人们每天都会向服务器发布一个新页面,这意味着 Googlebot 可以索引更多页面。然而,有时,机器人不会按预期工作;那是;在不到一秒的时间内累积超过一百万 GB 的信息。发生这种情况的原因有多种。

首先,可能是在线的内容、页面和网站太多,无法编制索引。有些质量低,有些网站加载速度慢,其余的可能包含与复杂网站结构无关的内容(或任何其他不利于良好用户体验的内容)。这就是为什么谷歌制定了一个策略,只索引高质量的网页,排除低质量的网页。这样,可以过滤和减少页面(而不是在线索引所有页面 - 有价值的页面和无价值的页面)。

但以上并没有完全回答这个问题: 为什么 Googlebot 不抓取所有网站? 相反,感兴趣的问题是为什么 Googlebot 不抓取网站上的所有页面(或足够多的页面)。对此有两个答案。长答案和短答案:

简短的回答

谷歌每天对每个网站的抓取都附加了一定的资源和时间。这称为网站的抓取预算。因此,机器人会在此预算范围内进行爬网和索引工作。因此,对于超过一万页的网站,并非所有页面都会被编入索引。

然而,除此之外还有更多,这给我们带来了长长的答案:

长答案


抓取预算决定了 Googlebot 每天可以抓取每个网站并为其编制索引的页面数量。但正如前面提到的,这还有很多。一些因素决定了蜘蛛在爬行预算内爬行每个站点时的速度。有道理?这意味着尽管预算已经创建了限制,但某些因素可以加快或减慢机器人的速度。它们包括:
  1. 服务器慢: 如果服务器的响应时间非常慢,它可以改变爬虫程序在爬行预算内爬行每个页面的速度。网站所有者可以在他们的抓取统计报告中检查这些。建议任何超过 300 毫秒的响应时间都不是好的。
  2. 网站服务器主机: 如果网站托管在共享服务器上,这可能会降低抓取过程中向 Google 提供每个页面的速度。这是因为同一服务器上的其他站点可能会因使用大量资源而减慢速度。当同一台服务器托管多个站点时,情况更糟。
  3. 胭脂机器人: 这些是其他机器人,它们可以阻碍、阻止或减慢 Googlebot 的操作。它们可以有不同的形式,有时,网站需要专业帮助来管理和控制这些机器人的行为。
  4. 网站的可抓取性: 这是爬虫对网站所有页面的访问量。当该软件可以轻松访问站点的内容时,许多页面将在爬网预算内被爬网和索引。

如何优化您的网站以最大化 Googlebot 的预算


在上一节中,我们讨论了决定 Googlebot 抓取网页的速度(或速度)的因素。但是,要在预算范围内最大限度地提高机器人抓取的页面数量,人们可以做的远远不止这些。简而言之,网站所有者可以采取以下措施来最大限度地提高 Googlebot 每天在抓取预算内抓取和索引的页面数量。
  1. 开发站点地图: 这是可以帮助 Googlebot 更快地抓取网站的方法之一。站点地图可以安装、从站点地图生成器生成或从头开始创建。
  2. 投资网站组织: 这与网站的结构方式和网站内页面的分类有关。当网站的结构使访问者可以轻松理解和浏览时,Googlebot 很可能会发现它很容易爬行。
  3. 网站优化: 这总结了上面提到的所有要点。当网站不断优化(以正确的方式)时,网站的界面将正确构建,并会创建站点地图。其他事情包括控制阻止抓取的因素(例如 robots.txt)、标题优化、内容可读性、内容的价值等等。正确优化网站将有助于 Googlebot 更快地浏览此类网站的页面。

结论

Googlebot 可以看作是为 Google 工作的小型互联网机器人。它通过网站链接从网络服务器接收页面。然后它查看每个页面并将其添加到索引信息集合中。但是,由于多种因素和变数,机器人无法抓取每个站点的所有页面(实际上,有时这还不够)。在所有提到的因素和解决方案中,最简单的解决方案是聘请专业公司,例如 赛马特 这可以在正确的时间以正确的方式完成所有需要的工作,以确保您网站中的重要页面被抓取和索引 - 如果不是所有页面。

mass gmail