0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文读懂关于爬虫的概念

454398 来源:搜狐 作者:科技富能量 2020-10-12 16:05 次阅读

最近,我们经常能够听到“XX公司做违法爬虫”被一锅端,程序员坐牢。还有XX公司的爬虫给12306网站带来重压等等新闻,在看热闹的同时,很多人都会提出疑问——爬虫到底是啥?今天就彻底给您讲明白。

按照定义“网络爬虫”就是按照一定的规则,自动地抓取互联网信息的程序或者脚本,能够把网站上的信息收集回来,并且能在网站之间游走。爬虫还会模拟人的行为,这看看、那瞅瞅。

比如百度、谷歌等搜索引擎就是典型的“爬虫”,当你搜索“科技富能量”这个关键词时,搜索引擎就会到各个网站上把和这个关键词有关的内容找来呈现在结果页面。

搜索之后,我们自然会选择想要的结果点击进去,这样“被爬”的网站增加了点击量,搜索引擎也获得流量,这属于双赢局面。

但并非所有网站都愿意“被爬”。比如12306,作为中国唯一的官方火车票预订渠道,本身每天就有海量点击,但火车票代订、代刷软件(比如携程、360等),为了挣抢票费,也会使用爬虫软件,恶意爬12306.

最疯狂的时候,就是年前那段时间,公开数据表示:最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。

令人讨厌的不仅仅有抢票爬虫,还有微博的“僵尸爬虫”——僵尸粉

打开某流量明星的留言页面你就会看到,海量的留言量中,除了几个真粉的发言,剩下的都是“步调一致”的僵尸粉。为啥流量明星最爱爬虫?因为他们可以告诉厂商——我有流量,我有海量粉丝,来找我做代言/拍戏吧!

某流量明星留言中,还带着“文案”二字

当然,还有中性爬虫——比价软件。

按照正常购物流程,你会打开京东、淘宝甚至贝壳找房,查看同一商品然后进行价格对比,费时费力。

在比价网站上,你搜索一样商品,这类聚合平台就会自动把各个电商的商品都放在你面前供你选择,基本各大购物网站都能囊括在内。这就是“爬虫”的功劳。它们去各家电商软件上,把商品的图片和价格统统扒下来,然后在自己这里展示。

这种爬虫方便了用户却“恶心”了电商,因为电商平台会把最显眼的位置留给交钱最多的卖家,你都爬走了,肯定按照最便宜的产品展示,如此一来,谁还看交过钱的商家呢?

但是电商平台没法像12306那样设置验证码,而且爬虫还会模拟用户的操作行为,你能想象每打开一次商品就输入一次验证码吗?谁还愿意买东西呢?

但是电商平台也不是吃素的,各种封禁爬虫IP地址、故意耗费爬虫程序资源等等方式也很常见,爬与被爬的攻防战,一刻不停。

最重要的是,虽然《网络安全法》没有对爬虫行为作出明确规定,但是其司法解释写道“未经授权爬取用户手机通讯录超过50条记录;未经授权抓取用户淘宝交易记录超过500条;未经授权读取用户运营商网站通话记录超过500条;未经授权读取用户公积金社保记录的超过50000条的。”可以入刑。

技术本无善恶之分,就看爬与被爬的,到底是谁。
编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络爬虫
    +关注

    关注

    1

    文章

    52

    浏览量

    8642
  • 爬虫
    +关注

    关注

    0

    文章

    82

    浏览量

    6854
收藏 人收藏

    评论

    相关推荐

    读懂单灯控制器工作原理

    读懂单灯控制器工作原理
    的头像 发表于 11-11 13:13 147次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>读懂</b>单灯控制器工作原理

    读懂MSA(测量系统分析)

    读懂MSA(测量系统分析)
    的头像 发表于 11-01 11:08 803次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>读懂</b>MSA(测量系统分析)

    全球视野下的海外爬虫IP:趋势、机遇与风险

    在全球视野下,海外爬虫IP的使用呈现出系列趋势,同时也伴随着机遇与风险。
    的头像 发表于 10-15 07:54 171次阅读

    海外爬虫IP的合法边界:合规性探讨与实践

    海外爬虫IP的合法边界主要涉及合规性探讨与实践。
    的头像 发表于 10-12 07:56 182次阅读

    如何利用海外爬虫IP进行数据抓取

    利用海外爬虫IP进行数据抓取需要综合考虑多个方面。
    的头像 发表于 10-12 07:54 151次阅读

    详细解读爬虫多开代理IP的用途,以及如何配置!

    爬虫多开代理IP是种在爬虫开发中常用的技术策略,主要用于提高数据采集效率、避免IP被封禁以及获取地域特定的数据。
    的头像 发表于 09-14 07:55 467次阅读

    读懂新能源汽车的功能安全

    电子发烧友网站提供《读懂新能源汽车的功能安全.pdf》资料免费下载
    发表于 09-04 09:22 3次下载

    网络爬虫,Python和数据分析

    电子发烧友网站提供《网络爬虫,Python和数据分析.pdf》资料免费下载
    发表于 07-13 09:27 1次下载

    【古瑞瓦特光伏逆变器品牌】读懂PCS储能变流器

    【古瑞瓦特光伏逆变器品牌】读懂PCS储能变流器 在加快实现双碳目标和构建新型电力系统的进程中,储能技术正逐步成为支撑新型电力系统稳定运行、优化资源配置的关键技术之。其中,PCS(
    的头像 发表于 06-14 16:39 1226次阅读
    【古瑞瓦特光伏逆变器品牌】<b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>读懂</b>PCS储能变流器

    读懂芯导科技2024年第季度报告

    读懂芯导科技2024年第季度报告
    的头像 发表于 04-26 11:31 526次阅读
    <b class='flag-5'>一</b>图<b class='flag-5'>读懂</b>芯导科技2024年第<b class='flag-5'>一</b>季度报告

    读懂紫光国微2023年报

    志高行远 万里可期 | 读懂紫光国微2023年报
    的头像 发表于 04-18 10:40 499次阅读
    <b class='flag-5'>一</b>图<b class='flag-5'>读懂</b>紫光国微2023年报

    电主轴:教您如何读懂?|深圳恒兴隆机电.

    电主轴:教您如何读懂?|深圳恒兴隆机电电主轴是种利用电机作为驱动源的主轴。它具有高速、高精度和高刚性等特点,广泛应用于机械加工、数控机床、机器人等领域。本文将详细介绍电主轴的原理
    发表于 03-27 10:30

    读懂宽带、带宽、网速之间的区别与关系

    读懂宽带、带宽、网速之间的区别与关系  宽带、带宽和网速是在网络领域中经常使用的术语,它们之间有定的区别和关系。在深入理解宽带、带宽和网速之间的关系之前,让我们先了解
    的头像 发表于 01-31 09:11 6593次阅读

    如何解决Python爬虫中文乱码问题?Python爬虫中文乱码的解决方法

    如何解决Python爬虫中文乱码问题?Python爬虫中文乱码的解决方法 在Python爬虫过程中,遇到中文乱码问题是常见的情况。乱码问题主要是由于编码不致所导致的,下面我将详细介绍
    的头像 发表于 01-12 15:11 2242次阅读

    读懂:什么是“算力”?

    算力的定义算力即计算能力(ComputingPower)。《中国算力白皮书(2022年)》将其定义为:算力是数据中心的服务器通过对数据进行处理后实现结果输出的种能力。算力概念的起源可以追溯到计算机
    的头像 发表于 12-22 08:27 6896次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>读懂</b>:什么是“算力”?