GG谷歌福建seo海外推广官方一级代理 - 全网方式

SEO 新手入门系列 2022（三）：搜索引擎是如何工作的？

本文将深入介绍搜索引擎的工作原理，以及搜索引擎优化（SEO）的相关知识。通过本文，你将了解到搜索引擎如何抓取网页、建立索引和进行排名显示，从而更好地理解 SEO 的基本概念和工作流程。

搜索引擎的工作原理

搜索引擎的工作顺序大致可分为以下三个步骤：

抓取网页（Crawing）：搜索引擎通过蜘蛛程序，顺着 URL 一个网站一个网站地爬取网站内容。

建立索引（Indexing）：对蜘蛛爬取的内容进行分类，创建相关索引，并储存在数据库中。

排名显示（Ranking）：为可能的问题建立相关性排名，相关性最高的内容排在靠前的位置。

搜索引擎就像一个问答机器，它挖掘、理解并组织网上能发现的任何信息，然后以相关的方式组织起来，再返回给使用者。为了能把你的网站展现给用户，你的网站首先必须能够被搜索引擎发现。

搜索引擎是如何工作的？

SEO 小也认为，搜索引擎要想把网站信息提供给用户，需要完成以下三个主要任务：

爬取网站（Crawing）：搜索引擎会派出蜘蛛程序，顺着 URL 一个网站一个网站地爬取网站内容。

创建索引（Indexing）：对蜘蛛爬取的内容进行分类，创建相关索引，并储存在数据库中。

建立排名（Ranking）：为可能的问题建立相关性排名，相关性最高的内容排在靠前的位置。

当然，其中的技术实现非常复杂，作为一名 SEO 新人，可能暂时不需要深究这些问题。SEO 小也在大学毕业时，毕业设计的课题就是搜索引擎，当时使用的是第三方的索引分词库，大部分时间只需要配置规则。更深入的内容，SEO 小也将在另一篇文章中分享。

搜索引擎抓取（Crawing）

搜索引擎要想把相关内容展示给用户，第一步是派出它的小弟——搜索引擎爬虫（蜘蛛），它们会不停地抓取互联网上新的内容，或者更新数据库中旧的内容。内容的形式多种多样，包括网页、PDF 文件、MP3 音频文件等，但它们都是通过 URL 找到这些内容的。

搜索引擎一开始会有一些种子 URL，这些 URL 都是质量比较高的链接地址，蜘蛛们会顺着这些地址不断地往下抓取。在这个过程中，新发现的链接又会被作为新一轮爬取任务的种子 URL，直到没有新的链接可以爬取。

搜索引擎索引（Indexing）

建立索引是一个非常复杂的过程，涉及算法、地理环境、社会学研究等多个方面的因素。搜索引擎会根据很多参数去控制这些内容的分类，但最重要的一点是这些内容的相关性。相关性越高，被分在同一个分类的可能性就越高。建立索引是为了后期能快速展现给用户作准备，也是为排名提供数据基础。

搜索引擎排名（Ranking）

用户在搜索引擎输入框输入关键词后，搜索引擎会用惊人的效率在其庞大的索引数据库中找到相关的内容，并按内容的相关性和其他一些参数对内容进行排序。靠前的内容，在搜索引擎看来就是和用户的问题相关性越高的回答。

如果我们不想让搜索引擎把某些内容展示给用户，这也是可以做到的。但是，大多数情况下我们不会这样做，因为搜索引擎优化（SEO）的目的是让用户看到我们，并让搜索引擎优先展示我们想给用户看的内容。

搜索引擎能找到你吗？

要让自己的网站出现在 SERPs 中，前提是让网站被搜索引擎蜘蛛爬取和索引。如果你已经有了网站，可以使用“site”命令来查看自己网站被收录的情况。SEO 小也以自己的网站为例，在谷歌搜索框输入“site:www.seozen.top”，可以看到如下类似的结果：

可以看到 SEO 小也已经有 135 个网页被谷歌收录，这个结果经常会变动，不是特别精准。还有很多没有显示的网页，但用一些关键词也是能搜索到的。如果想看更精准的结果，可以使用“Google Search Console”在收录功能中查看，这相当于我们的“百度站长平台”。SEO 小也个人觉得“Google Search Console”比“百度站长平台”的作用更大，所以 SEO 小也一般只会看“Google Search Console”的数据，很少去看“百度站长平台”的数据，以后也会专门写几篇文章来介绍。

如果使用“site”命令找不到网站的收录，可能是以下原因：

网站是新站，搜索引擎还没有收录。

网站没有外部导入链接，可以到一些平台发一些外链。

网站目录结构太深，太复杂，让搜索引擎爬虫抓取的效率太低。

网站可能包含一些阻止搜索引擎爬虫的代码，如“noindex”、“nofollow”。

网站可能被搜索引擎处罚，因为一些作弊或垃圾广告等。

我们有时候把太多精力放在如何让搜索引擎抓取内容上，却忽略了如何不让搜索引擎抓取一些内容，比如一些重复的页面、一些搜索参数，还有公司的联系方式、留言等。这些内容被收录意义不大，而且还会让搜索引擎不知道具体哪个界面是你最想展示给用户的。所以这时候我们就要告诉搜索引擎，哪些资源它不要花时间去爬取，这就要用到“robots.txt”文件。关于“robots.txt”文件的更多信息，我们将在后续的 SEO 教程中详细介绍。

SEO 新手入门系列 2022（三）：搜索引擎是如何工作的？

相关推荐

友情链接