搜索引擎爬虫(Search Engine Crawler)的定义及工作原理

搜索引擎爬虫(Search Engine Crawler)又称为蜘蛛(Web Crawler)、机器人(bot),是搜索引擎用来抓取网页数据的核心程序。您可以把蜘蛛理解为高德地图公司派出的采集数据的车队,它会沿着道路不停的行驶,探索未知区域。

注:搜索引擎爬虫和网络爬虫(Web Crawler)统称爬虫,实际上搜索引擎爬虫只是网络爬虫的一种(网络爬虫还包括:生成式引擎(AI)爬虫、社交媒体平台爬虫、各种SEO营销工具爬虫等)。

搜索引擎爬虫的工作(流程)原理

搜索引擎爬虫(以下简称为爬虫)的工作流程大致分为5个主要步骤(阶段),分别是:

第一阶段:发现链接(种子URL):

搜索引擎拥有大量不同功能的蜘蛛,为其安排各种抓取任务,蜘蛛会通过多种路径发现新网页,例如:

  • 高权重网站中的链接(例如新浪网、搜狐网首页或其他页面中的链接)。
  • 已知网页中的链接(搜索引擎已知数据库中的链接)。
  • 用户通过站长平台(Google Search Console、Bing Webmaster Tools、百度搜索资源平台)提交的链接。

蜘蛛不会盲目的抓取网页,搜索引擎会给蜘蛛设定合理地抓取频率(先抓取哪个网页,后抓取哪个网页、多久抓取一次),大致规则如下:

  • 网站权重:权重越高的网站抓取次数越频繁。
  • 更新频率:经常更新的网站蜘蛛访问的次数越多,长期不更新的网站蜘蛛会减少访问次数。
  • 服务器承受能力:蜘蛛会控制对同一服务器的抓取频率,避免因频繁抓取而导致服务器宕机。

第二阶段:抓取页面(下载源代码)

当蜘蛛发现了新(目标)页面,会向目标服务器发起请求。具体流程如下:

  1. 检查网站ROBOTS.TXT:如果网站 robots.txt 文件设置了禁止抓取规则,蜘蛛则不会抓取该网站,如果被允许,蜘蛛会按照设定的规则抓取。
  2. 发送 HTTP 请求:蜘蛛模拟浏览器,向对应的服务器发起 HTTP 请求。
  3. 服务器响应后,蜘蛛会下载网页源码到搜索引擎临时数据库中。

站长可根据返回的状态码查询网页收录状态,常见状态码如下:

  • 200:网页已经被正常抓取。
  • 301/302:网页被重定向到新的URL(永久重定向推荐使用301)
  • 404:网页打不开(死链接)
  • 503:服务器繁忙,稍后重试。

第三阶段:提取链接(Link Extraction)

服务器接收到蜘蛛的请求,会返回响应,接着蜘蛛会处理并提取网页数据(正文、网页标题、网页描述、alt标注等)。此过程中搜索引擎会过滤掉一些无关页面(重复页面、死链接页面、不允许被抓取的页面)。

第四阶段:解析与处理(Parsing & Processing)

  1. 分析下载下来的 HTML 源码,从中提取有价值的信息(提取网页标题、正文内容,去掉广告与无意义的数据)。
  2. 提取有价值的信息(例如 h1 标签、图片中的 alt 标注信息、带有加粗或特殊颜色的文本等)。
  3. 探索抓取新页面(蜘蛛会顺着页面中的链接 URL 顺藤摸瓜 继续抓取位置页面)。

第五个阶段:去重与存储(索引入库)

这是蜘蛛工作的最后一个步骤,经过这个步骤,您的网页就会被搜索引擎看见(被用户搜索到)。

  1. 去除重复数据(Deduplication):去除网站内部及互联网中的重复网页(互联网中存在大量盗版采集信息,系统会检查 URL 是否被抓取过)。
  2. 建立索引库(Indexing):把提取到的数据存入搜索引擎数据库,并进行处理分类。

怎么提高网页被搜索引擎收录的概率

为了提高网页内容被搜索引擎收录的概率,推荐您采取以下措施:

  • 建立高质量的外接 (Backlinks):蜘蛛会顺着高质量的外链发现您的网站,且为网站带来信任度投票(就像是一个很牛B的人为您做担保)。
  • 推广您的网站:将您的网站链接发布到各种权威平台(微薄、公众号、知乎、新浪、搜狐)。
  • 提交网站地图(Sitemap):手动或使用插件为您的网站添加一个 sitemap.xml 文件,并通过搜索引擎官方站长平台提交此文件。
  • 设置合理的网站 robots.txt 文件:确保 robots.txt 文件没有屏蔽搜索引擎,且设置了合理的索引规则。
  • 优化网站内部结构:为网站设置清晰的顶部导航、底部导航、面包屑导航,确保用户和蜘蛛顺利访问网页。
  • 使用稳定的服务器:推荐使用大品牌的服务器,以保证网页打开速度(2.5秒以内)。
  • 适配移动端:采用响应式设计,确保网站在手机、平板等移动设备上能正常显示和操作。
  • 保证内容质量:创作对用户有价值的高质量内容,而不是随意采集网络中已经存在的内容或直接引用 AI 生成的内容。
  • 各种细节处理:添加图片alt属性、清晰的段落划分、不要堆砌关键词、不要使用过于亮眼或太小的字体等。

提高收录率不等于提高网页排名

您可以采取各种措施(技巧)提高网页数据被蜘蛛抓取的概率,但这些操作不会从本质上解决网页在搜索结果结果中排名差的问题,因为高收录不等于高排名,想要提高网站SEO排名,唯有一条路可走,那就是提高页面质量。

发表回复