0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Web爬虫现在是不是合法了

Wildesbeast 来源:今日头条 作者:Tom Waterman 2020-02-04 14:45 次阅读

技术无罪?江湖传言,互联网上50%以上的流量都是由爬虫创造的,很多人都表示:无爬虫就无互联网的繁荣。也正因为此,网上各种爬虫教程风靡不绝,惹各路大神小白观之参与之。但是,无节制的背后往往隐藏着风险,类似“只因写了一段爬虫,公司200多人被抓!”、“程序员爬虫竟构成犯罪?”等报道也时有发生。关于爬虫合法性的讨论,CSDN也在此前的《爬虫到底违法吗?这位爬虫工程师给出了答案》、《不要在爬虫犯罪的边缘疯狂试探!》等文章中进行了探讨——但是,关于爬虫的争论一直甚嚣尘上。

近日,美国法院驳回 LinkedIn 针对分析公司 HiQ 抓取其数据的申诉一事件,似乎又为网络爬虫的自由添砖加了瓦。决议表明:任何可公开获得且未经版权保护的数据都可供抓取!可以说,这是数据隐私和数据监管时代的历史性时刻。那么,作为开发者的你,如何看到这一事件呢?关于爬虫的风险性又该怎么定论?

2019年末,美国上诉法院驳回了 LinkedIn 针对分析公司 HiQ 抓取其数据的申诉。

这项决议是数据隐私和数据监管时代的历史性时刻。这项决议表明,任何可公开获得且未经版权保护的数据都可供网络爬虫自由抓取。

但是抓取数据的商业用途仍然有限

然而,这项决议并没有授予 HiQ 或其他网络爬虫将抓取获得的数据用于商业目的的自由。

例如,网络爬虫可以在 YouTube 上搜索视频标题,但由于这些视频已获得版权,因此不可以将 YouTube 视频转发到自己的网站上。

一般来说,无论你以何种方式获取数据,数据(包括视频或音乐之类的媒体文件数据)的版权依然有效。

某些形式的网页爬虫仍然是非法的

这项决议也没有赋予网络爬虫自由地从需要身份验证的站点获取数据的权利。

例如,根据规定网络爬虫不可以登录到 Facebook 并下载用户的数据。

该规则不包括那些要求用户在认证之前必须同意使用条款的网站,因为通常这些服务条款都会禁止诸如自动收集数据之类的活动。

但是,由于公开站点无法要求用户在访问数据之前同意任何服务条款,因此用户可以自由使用网络爬虫程序从站点收集的数据。

各个网站仍然可以使用技术来限制网络爬虫

尽管如今各个公司不太可能通过法律途径应对网络爬虫程序,但他们仍然可以通过其他方式限制网络爬虫。

例如,各个网站可以使用“限速”等技术来防止爬虫程序一次下载太多网页。此外,各个网站还可以使用 CAPTCHA 等技术来测试是用户还是网络爬虫正在请求该页面。

这些技术通常用于防止恶意机器人导致网站超载,引起网站崩溃。但是,这些技术也可以广泛用于限制网络爬虫的自动抓取。

LinkedIn可能会进一步上诉

尽管美国上诉法院驳回了LinkedIn的请求,但他们可能还有最后一步棋:向美国最高法院提出上诉。

美国最高法院有权推翻上诉法院的判决,而且还可以撤销网络爬虫公开使用非版权数据的合法化。但是,并非所有上诉至最高法院的决定都能得到实际的审查。

但是,我们仍然可以认为最高法院很可能会审查本案的裁决。毕竟数据政策和相关的隐私问题是相对较新的法律,而且会对 LinkedIn 等公司产生重大的商业影响。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Web
    Web
    +关注

    关注

    2

    文章

    1243

    浏览量

    68755
  • 爬虫
    +关注

    关注

    0

    文章

    77

    浏览量

    6636
收藏 人收藏

    评论

    相关推荐

    请问STM32Cube包含的FATFS例程是不是已经支持8G以上的SD卡

    STM32Cube包含的FATFS例程是不是已经支持8G以上的SD卡? 我手头没有合适的卡做测试,有人知道么 stm324xg_eval_sd.c 文件的uint8_t
    发表于 05-16 06:18

    谷景揭秘贴片叠层电感精度是不是越高越好

    谷景揭秘贴片叠层电感精度是不是越高越好 编辑:谷景电子 贴片叠层电感 是电子电路中非常重要的一种电感元件,它是通过磁环上绕制线圈来实现电感的作用。大家都知道的是,在电感线圈的精度等级是衡量其性能
    的头像 发表于 05-15 15:48 146次阅读

    共模电感是不是感值越大越好

    电子发烧友网站提供《共模电感是不是感值越大越好.docx》资料免费下载
    发表于 03-29 14:38 0次下载

    浪涌电流是不是启动电流?

    浪涌电流是不是启动电流? 浪涌电流不是启动电流。浪涌电流是指在电器设备开关或连接电源时的瞬时电流峰值。启动电流是指电动机或其他大功率设备在启动时需要的电流。 当电器设备启动或重新连接到电源时,通常会
    的头像 发表于 02-05 14:55 578次阅读

    请问不同功率的电机相间的阻值是不是不同的?

    不同功率的电机相间的阻值是不是不同的? 有没有相关的国家标准之类的。
    发表于 01-10 07:19

    直接插电加热的小锅进水了,线路板是不是就坏了?

    直接插电加热的小锅进水了,线路板是不是就坏了?
    的头像 发表于 12-06 14:34 1009次阅读

    爬虫的基本工作原理 用Scrapy实现一个简单的爬虫

    数以万亿的网页通过链接构成了互联网,爬虫的工作就是从这数以万亿的网页中爬取需要的网页,从网页中采集内容并形成结构化的数据。
    的头像 发表于 12-03 11:45 644次阅读
    <b class='flag-5'>爬虫</b>的基本工作原理 用Scrapy实现一个简单的<b class='flag-5'>爬虫</b>

    Python网络爬虫Selenium的简单使用

    想要学习爬虫,如果比较详细的了解web开发的前端知识会更加容易上手,时间不够充裕,仅仅了解html的相关知识也是够用的。
    的头像 发表于 11-14 14:44 271次阅读
    Python网络<b class='flag-5'>爬虫</b>Selenium的简单使用

    如何看待Python爬虫合法性?

    Python爬虫是一种自动化程序,可以从互联网上获取信息并提取数据。通过模拟网页浏览器的行为,爬虫可以访问网页、抓取数据、解析内容,并将其保存到本地或用于进一步分析
    的头像 发表于 11-14 10:35 325次阅读

    在esp8266中内置客户端WEB,请问有固件版本的要求吗?

    各位大神好!我想在8266中内置客户端WEB,请问有固件版本的要求吗?WEB内容是不是可以自己定制?有没有相关方面的资料吗?我在上看到《esp8266从零快速开发教程》,但是链接已经失效
    发表于 11-08 08:07

    feapder:一款功能强大的爬虫框架

    今天推荐一款更加简单、轻量级,且功能强大的爬虫框架:feapder 项目地址: https://github.com/Boris-code/feapder 2. 介绍及安装 和 Scrapy 类似
    的头像 发表于 11-01 09:48 745次阅读

    集成电路击穿时是不是都会短路?

    集成电路击穿时是不是都会短路 这个电阻为多少时就可以认定击穿
    发表于 10-31 07:42

    为什么有轨到轨运放呢?是不是还有非轨到轨运放呢?

    为什么有轨到轨运放呢?是不是还有非轨到轨运放呢? 近年来,电子设备在我们的生活中扮演着越来越重要的角色。轨到轨运放的出现对于特定的应用非常有利,它们允许信号从最低值到最高值的完整范围内进行操作,而在
    的头像 发表于 10-29 11:39 1316次阅读

    请问STC89C51单片机型号是不是没有没有P4口的

    本人刚刚学习单片机,所以在书上看到的单片机是没有P4口的。但是我在淘宝或者立创商城上找到的都是有P4口的51或52单片机。 我想问问哪位大神是不是现在已经没有那种没有P4口的STC单片机
    发表于 10-26 06:24

    网络爬虫 Python和数据分析

    网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件
    发表于 09-25 08:25