如何理解爬虫工程师-电子发烧友网

上个月初，我入职了一家公司，正式开启了我的爬虫职业生涯。虽然之前自学或者说自己钻研并编写了很多爬虫，不过当我第一次见到一个完成的爬虫系统的时候，坦白说，还是觉得挺不可思议的，我大概花了2到3个礼拜对这个系统进行了熟悉，现在在保持对原系统的进行维护的同时，正着手对其进行性能优化。随着理解的深入，我越发觉得爬虫工程师的瓶颈其实并不是JS、css之类的前端反混淆技术，也不是requests、BeautifulSoup之类的网页获取解析技术，当然也不是仅仅对爬虫框架的使用。这些技术固然是必须的，但是真正的上升瓶颈还是工程师的素养：如何写出一个高性能可扩展的爬虫系统？系统如何兼容数百个甚至数千个不同类型的爬取对象（网站）？如何管理这些爬虫？如何高效的并发这些爬虫？如何处理爬取之后的数据？各个子系统之间如何交流？和这些问题比起来，对某个特定网站的爬取的问题只能算是个入门级问题。

对爬虫工程师的理解

我之前写了很多关于爬虫的文章，涉及了各种各样的爬取策略；也爬了不少主流非主流的网站。从我刚入门爬虫到现在，每一个爬虫对应的文章都可以在我的博客上找到，不论是最最简单的抓取，还是scrapy的使用。

然而爬了这么多网站，按理说应付一位爬虫工程师的工作应该绰绰有余吧？当然不是，正如我上文所说，在整个爬虫系统中，如何抓取某个特定的网站其实是最小的任务模块。而对于一个有爬虫需求的公司而言，一个能够长期稳定运行的爬虫系统才是基本需求。

我从另外一个角度解释一下这个问题，如果我们将“爬取某个页面”称为一个爬虫任务。那么一般而言，我们会需要定期执行这个爬虫任务以满足业务上的需求。比如说，我这有一个爬虫任务是“爬取某只股票的当前价格”，那么我可能会要求每10s执行一次这个爬虫任务以达到汇至股价走势的目的。问题就来了，爬虫系统如何保证每10s执行这个爬虫任务呢？time.sleep（10）？ crontab？open_signal？send_task？

最简单的，你可以让程序执行一次爬虫任务后sleep10秒，然后无限重复这个循环。嗯，如果只有一个任务，理论上是可行的，此时这个程序就是一种爬虫系统。那么比这种解决方案略微高端一点的就是写一个定时任务，每10秒执行一下，这下连爬虫系统都省了。

但是如果这种爬虫任务有很多呢？比如说，我要绘制1000个不同股票的股价走势图。简单一点的可以将爬虫任务改成可接受参数式的，每10s中传入1000个参数（股票代码）并用多进程或异步执行这些任务。用scrapy也可以解决这个问题，scrapy其实非常适合这个场景，但是scrapy没有定时任务，这个时候可能又会需要用到scrapyd和celery。接着，如果有100W个爬虫任务呢？虽然有些爬虫只需要简单调整一下参数，这些任务可以当成同一类爬虫，但即使去除这些同类型爬虫，仍然会剩下不同类型的爬虫任务，比如说30W？那么这30W个任务我们怎么处理，不可能在一个scrapy里写30W个spider？然后还会涉及到调度，因为每个爬虫的抓取频率可能是不一样的；管理，爬虫任务可能会根据产品需求出现增删的情况；爬取结果处理，比如说去重（对100W个结果去重本身也是个不小的事情）、存储等等。

另外，一个健康的爬虫生态，一般还需要一个代理池，一个网页渲染服务器，像爬微博的话可能还需要Cookie池，然后这个系统本身应该是高可用高可扩展的。随着爬虫任务数量的增加，各个地方都有可能产生性能瓶颈。这也是我为什么说，爬取任务其实是最小的一环，对于单次任务的执行速度，甚至有时候它的成败都不是关键。

插一句，scrapy仍然是一个很强大很厉害的框架，它是我目前认知里最牛逼的爬虫框架。它的厉害不在于它可以方便的编写一个爬虫，而是它的模块定制功能，你可以根据实际的产品需求，通过调整中间件或者调度器方便的实现你想要的功能。

但是有时候偶尔会出现一些反爬特别厉害的网站，这个时候就需要对其进行单独的研究了。另外，我以为手机端抓取其实是一个很关键的手段，现在的手机性能强大，能做的事情实在是太多了，只是大多数时候被人忽略了。个人以为这可能会变成今后一个主流的抓取手段。今后我也会开始学习这方面的知识。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

工程师

工程师

+关注

关注
59

文章
1571

浏览量
68535

当硬件工程师穿越到霸总剧：以他性格肯定忍不到第二集? #硬件工程师 #电路设计 #晶振 #扬兴科技

硬件工程师

扬兴科技

发布于 :2024年12月06日 18:02:38

当你的工程师朋友失联时，别气，ta真的是在忙工作 #搞笑 #电子爱好者 #硬件工程师 #晶振 #扬兴科技

硬件工程师

扬兴科技

发布于 :2024年10月30日 18:39:16

硬件工程师VS软件工程师|硬件工程师看到这都泪目了！#硬件设计 #硬件工程师 #电子工程师 #软件工程师

硬件工程师

安泰小课堂

发布于 :2024年09月25日 18:47:52

FPGA算法工程师、逻辑工程师、原型验证工程师有什么区别？

逻辑工程师和 FPGA 原型验证工程师在工作重点和职责上存在一定的区别： FPGA 算法工程师：主要关注算法的设计和优化，以在 FPGA 平台上实现高效的计算和处理。他们需要深入理解

发表于 09-23 18:26

正是拼的年纪|65岁电子工程师上班VLOG #65岁退休 #电子工程师 #搞笑 #上班vlog

电子工程师

安泰小课堂
发布于 :2024年07月25日 11:31:02

用二创，1:1复刻工程师的职场现状

工程师

扬兴科技
发布于 :2024年07月19日 18:30:07

3分钟带你深度理解|什么是谐振？共振真的能穿墙吗？#谐振 #共振 #电子学 #电子工程师

电子工程师谐振

安泰小课堂
发布于 :2024年06月11日 18:05:13

干硬件这一行，各种辛酸只有同行才懂吧 ? #电路设计 #电子爱好者 #硬件工程师 #电子工程师

硬件工程师

扬兴科技
发布于 :2024年05月29日 18:23:29

嵌入式软件工程师和硬件工程师的区别?

、机器人等。定义和工作职责嵌入式软件工程师的主要职责包括但不限于：设计、开发、测试和调试嵌入式软件应用程序，以满足特定硬件和软件要求。他们需要理解并掌握嵌入式系统的基本原理，熟悉相关硬件接口

发表于 05-16 11:00

电子工程师常见面试题(二)看看你能答对几道吧#电子工程师 #电子工程师面试 #电子信息 #电工

电子工程师

安泰小课堂
发布于 :2024年05月13日 17:29:54

“班长！说好毕业后当硬件工程师，你怎么..." #搞笑 #电子行业 #电子工程师 #晶振 #扬兴科技

电子工程师

扬兴科技
发布于 :2024年05月04日 01:33:18

大厂电子工程师常见面试题#电子工程师 #硬件工程师 #电路知识 #面试题

电子工程师电路

安泰小课堂
发布于 :2024年04月30日 17:33:15

一位硬件工程师的历练之路：从入门学习理论到... #搞笑 #硬件工程师 #电子工程师 #扬兴科技

硬件工程师扬兴科技

扬兴科技
发布于 :2024年03月13日 17:50:21

企业老工程师和高校老师有啥区别

电子工程师硬件

电子发烧友网官方
发布于 :2024年02月28日 17:50:00

如何搞崩一个硬件工程师心态？试试对ta说这几句

硬件工程师

扬兴科技
发布于 :2024年02月20日 18:05:49

搜索历史

如何理解爬虫工程师

评论

当硬件工程师穿越到霸总剧：以他性格肯定忍不到第二集? #硬件工程师 #电路设计 #晶振 #扬兴科技

当你的工程师朋友失联时，别气，ta真的是在忙工作 #搞笑 #电子爱好者 #硬件工程师 #晶振 #扬兴科技

硬件工程师VS软件工程师|硬件工程师看到这都泪目了！#硬件设计 #硬件工程师 #电子工程师 #软件工程师

FPGA算法工程师、逻辑工程师、原型验证工程师有什么区别？

正是拼的年纪|65岁电子工程师上班VLOG #65岁退休 #电子工程师 #搞笑 #上班vlog

用二创，1:1复刻工程师的职场现状

3分钟带你深度理解|什么是谐振？共振真的能穿墙吗？#谐振 #共振 #电子学 #电子工程师

干硬件这一行，各种辛酸只有同行才懂吧 ? #电路设计 #电子爱好者 #硬件工程师 #电子工程师

嵌入式软件工程师和硬件工程师的区别?

电子工程师常见面试题(二)看看你能答对几道吧#电子工程师 #电子工程师面试 #电子信息 #电工

“班长！说好毕业后当硬件工程师，你怎么..." #搞笑 #电子行业 #电子工程师 #晶振 #扬兴科技

大厂电子工程师常见面试题#电子工程师 #硬件工程师 #电路知识 #面试题

一位硬件工程师的历练之路：从入门学习理论到... #搞笑 #硬件工程师 #电子工程师 #扬兴科技

企业老工程师和高校老师有啥区别

如何搞崩一个硬件工程师心态？试试对ta说这几句