首页 > 网络

网络爬虫新手入门教程

1、如何入门Python爬虫“开始”是很好的动力,但工作起来可能会很慢。 如果您手上或脑子里有一个项目;您将在实践中以目标为导向,而不是像上课一样慢慢学习。
另外,如果知识系统中的每个知识点都是图中的一个点,依赖关系是一条边。 该图不能是有向无环图。 因为A的学习经历可以帮助你学习B。 所以你不需要学习如何“入门”;因为不存在这样的“起点”。 你需要学习的是如何把东西做大,并且在这个过程中你很快就能学到你需要学的东西。 当然,你得先了解python,不然怎么学会爬取python呢?但事实上,在搭建这个爬虫的过程中你一定会学到python的:D
我看到前面很多答都在讲“技巧”——用什么软件,如何复。 我讲“道”和“术”——我们来讨论一下爬虫是如何工作的,以及在python中是如何实现的。

让我们话短说:
你需要学习什么

基本的脚本行业规则
基本的http爬虫;Rough
BloomFilter:BloomFiltersbyExample
如果您需要大量浏览网页。 你需要学习配送文具的概念。 这不是什么秘密。 您需要学习如何维护一个由所有集群机器有效共享的分布式队列。 最简单的实现是python-rq:https://github.com/nvie/rq
Rq与Scrapy集成:darkrho/scrapy-redis·GitHub
下一步处理;网页提取(grangier/python-goose·GitHub)、存储(Mongodb)

返回顶部