首页 > 网络

网络爬虫工作流程图

⒈网页爬虫有什么具体的应用?网络爬虫是一种自动爬行网页的程序,从万维网上下载网页供搜索引擎使用,是搜索引擎的重要组成部分。 传统的爬虫从一个或多个网页的URL开始,检索该网页的URL。 满足系统的停止条件,如图1(a)所示。 聚焦爬虫的工作流程比较复杂,它要根据一定的网站分析算法过滤掉离题的链接,保留有用的链接并将其放入等待抓取的URL队列中。 然后它会根据给定的搜索策略从队列中选择下一个要爬取的网站URL,并重复上述过程,直到达到某种系统状态时停止,如图1(b)所示。 另外,所有爬取的网页都会系统存储起来,会经过一些分析、过滤和索引,以供搜索和检索,以便有对性的爬虫将来的爬取过程。 
与一般的网络爬虫相比,聚焦爬虫还要解决三个主要问题:
<(1)爬行目标的描述或定义
<(2)网页或数据的分析和过滤;(3)URL搜索略。 
描述和定义抓取目标是确定如何定网页分析算法和URL搜索策略的基础。 网站分析算法和候选URL排名算法是决定搜索引擎提供的服务形式和爬虫网站抓取行为的关键。 这两部分的算法密切相关。 

返回顶部