SEO 新手入门系列 2022(三):搜索引擎是如何工作的?
本文将深入介绍搜索引擎的工作原理,以及搜索引擎优化(SEO)的相关知识。通过本文,你将了解到搜索引擎如何抓取网页、建立索引和进行排名显示,从而更好地理解 SEO 的基本概念和工作流程。
搜索引擎的工作原理
搜索引擎的工作顺序大致可分为以下三个步骤:
- 抓取网页(Crawing):搜索引擎通过蜘蛛程序,顺着 URL 一个网站一个网站地爬取网站内容。
- 建立索引(Indexing):对蜘蛛爬取的内容进行分类,创建相关索引,并储存在数据库中。
- 排名显示(Ranking):为可能的问题建立相关性排名,相关性最高的内容排在靠前的位置。
搜索引擎就像一个问答机器,它挖掘、理解并组织网上能发现的任何信息,然后以相关的方式组织起来,再返回给使用者。为了能把你的网站展现给用户,你的网站首先必须能够被搜索引擎发现。
搜索引擎是如何工作的?
SEO 小也认为,搜索引擎要想把网站信息提供给用户,需要完成以下三个主要任务:
- 爬取网站(Crawing):搜索引擎会派出蜘蛛程序,顺着 URL 一个网站一个网站地爬取网站内容。
- 创建索引(Indexing):对蜘蛛爬取的内容进行分类,创建相关索引,并储存在数据库中。
- 建立排名(Ranking):为可能的问题建立相关性排名,相关性最高的内容排在靠前的位置。
当然,其中的技术实现非常复杂,作为一名 SEO 新人,可能暂时不需要深究这些问题。SEO 小也在大学毕业时,毕业设计的课题就是搜索引擎,当时使用的是第三方的索引分词库,大部分时间只需要配置规则。更深入的内容,SEO 小也将在另一篇文章中分享。
搜索引擎抓取(Crawing)
搜索引擎要想把相关内容展示给用户,第一步是派出它的小弟——搜索引擎爬虫(蜘蛛),它们会不停地抓取互联网上新的内容,或者更新数据库中旧的内容。内容的形式多种多样,包括网页、PDF 文件、MP3 音频文件等,但它们都是通过 URL 找到这些内容的。
搜索引擎一开始会有一些种子 URL,这些 URL 都是质量比较高的链接地址,蜘蛛们会顺着这些地址不断地往下抓取。在这个过程中,新发现的链接又会被作为新一轮爬取任务的种子 URL,直到没有新的链接可以爬取。
搜索引擎索引(Indexing)
建立索引是一个非常复杂的过程,涉及算法、地理环境、社会学研究等多个方面的因素。搜索引擎会根据很多参数去控制这些内容的分类,但最重要的一点是这些内容的相关性。相关性越高,被分在同一个分类的可能性就越高。建立索引是为了后期能快速展现给用户作准备,也是为排名提供数据基础。
搜索引擎排名(Ranking)
用户在搜索引擎输入框输入关键词后,搜索引擎会用惊人的效率在其庞大的索引数据库中找到相关的内容,并按内容的相关性和其他一些参数对内容进行排序。靠前的内容,在搜索引擎看来就是和用户的问题相关性越高的回答。
如果我们不想让搜索引擎把某些内容展示给用户,这也是可以做到的。但是,大多数情况下我们不会这样做,因为搜索引擎优化(SEO)的目的是让用户看到我们,并让搜索引擎优先展示我们想给用户看的内容。
搜索引擎能找到你吗?
要让自己的网站出现在 SERPs 中,前提是让网站被搜索引擎蜘蛛爬取和索引。如果你已经有了网站,可以使用“site”命令来查看自己网站被收录的情况。SEO 小也以自己的网站为例,在谷歌搜索框输入“site:www.seozen.top”,可以看到如下类似的结果:
可以看到 SEO 小也已经有 135 个网页被谷歌收录,这个结果经常会变动,不是特别精准。还有很多没有显示的网页,但用一些关键词也是能搜索到的。如果想看更精准的结果,可以使用“Google Search Console”在收录功能中查看,这相当于我们的“百度站长平台”。SEO 小也个人觉得“Google Search Console”比“百度站长平台”的作用更大,所以 SEO 小也一般只会看“Google Search Console”的数据,很少去看“百度站长平台”的数据,以后也会专门写几篇文章来介绍。
如果使用“site”命令找不到网站的收录,可能是以下原因:
- 网站是新站,搜索引擎还没有收录。
- 网站没有外部导入链接,可以到一些平台发一些外链。
- 网站目录结构太深,太复杂,让搜索引擎爬虫抓取的效率太低。
- 网站可能包含一些阻止搜索引擎爬虫的代码,如“noindex”、“nofollow”。
- 网站可能被搜索引擎处罚,因为一些作弊或垃圾广告等。
我们有时候把太多精力放在如何让搜索引擎抓取内容上,却忽略了如何不让搜索引擎抓取一些内容,比如一些重复的页面、一些搜索参数,还有公司的联系方式、留言等。这些内容被收录意义不大,而且还会让搜索引擎不知道具体哪个界面是你最想展示给用户的。所以这时候我们就要告诉搜索引擎,哪些资源它不要花时间去爬取,这就要用到“robots.txt”文件。关于“robots.txt”文件的更多信息,我们将在后续的 SEO 教程中详细介绍。
