0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用表格做爬虫

Wildesbeast 来源:今日头条 作者:Python之眼 2020-02-03 15:15 次阅读

很多人不知道,其实我们最常用的表格,在某些情况下也是可以用来做爬虫的,而且爬下来的数据规整,不需要花太多时间进行数据清洗,来看看是怎么实现的。

一、Microsoft Excel

首先教大家一个用Excel爬取数据的方法,这里用的Microsoft Excel 2013版本,下面手把手开始教学~

(1)新建Excel,打开它,如下图所示

(2)点击“数据”——“自网站”

(3)在弹出的对话框中输入目标网址,这里以全国实时空气质量网站为例,点击转到,再导入

选择导入位置,确定

(4)结果如下图所示,怎么样,是不是很赞?

(5)如果要实时更新数据,可以在“数据”——“全部更新”——“连接属性”中进行设置,输入更新频率即可

非诚勿扰:正在学习python的小伙伴或者打算学习的,可以私信小编“01”领取资料

二、Google Sheet

使用Google Sheet爬取数据前,要保证三点:使用Chrome浏览器、拥有Google账号、电脑可以科学上网。如果这三个条件具备了的话,下面我们就开始吧~

(1)打开Google Sheet网站:http://www.google.cn/sheets/about/

(2)在首页上点击“转到Google表格”,然后登录自己的账号,可以看到如下界面,再点击“+”创建新的表格

新建的表格如下:

(3)打开要爬取的目标网站,一个全国实时空气质量网站http://www.pm25.in/rank,目标网站上的表格结构如下图所示

(4)回到Google sheet页面,使用函数=IMPORTHTML(网址, 查询, 索引),“网址”就是要爬取数据的目标网站,“查询”中输入“list”或“table”,这个取决于数据的具体结构类型,“索引”填阿拉伯数字,从1开始,对应着网站中定义的哪一份表格或列表

对于我们要爬取的网站,我们在Google sheet的A1单元格中输入函数

=IMPORTHTML("http://www.pm25.in/rank","table",1),回车后就爬得数据啦

(5)将爬取好的表格存到本地

是不是感觉超级简单?

当然,没有学习成本的技能缺陷也是很明显的,就是在网页的数据排列没那么规则的时候,或者说多个页面的数据,以上的方法就失效了,这个时候Python就展现出它强大的威力了。

不过,话说回来,这么装逼的技能,而且不需要学习成本,掌握了有什么不好呢,没准什么时候就能用上了。

最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“01”即可领取。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 浏览器
    +关注

    关注

    1

    文章

    1009

    浏览量

    35253
  • Excel
    +关注

    关注

    4

    文章

    217

    浏览量

    55434
  • 爬虫
    +关注

    关注

    0

    文章

    82

    浏览量

    6817
收藏 人收藏

    评论

    相关推荐

    多维表格数据库Teable的适用场景?

    Teable多维表格数据库是一款功能强大的云端数据库和协作工具,结合了电子表格的灵活性和数据库的强大功能,适用企业内部项目管理 数据收集与整理 内容管理与创意协作 客户关系管理 项目跟踪与分析 IT与工程管理等
    的头像 发表于 10-31 15:48 125次阅读

    传统电子表格Excel和Teable多维表格数据库的区别?

    传统Excel是一款功能强大的电子表格软件,它的数据处理 分析以及图表制作等功能给工作带来了很多便利,但也有自身的局限性,本文介绍的多维表格Teable数据库将在传统电子表格Excel的特性上,增强数据处理能力,提升工作效率.
    的头像 发表于 10-23 16:44 250次阅读

    多维表格属于低代码平台吗?

    Teable多维表格数据库是一款功能强大的云端数据库和协作工具,结合了电子表格的灵活性和数据库的强大功能,适用企业内部项目管理 数据收集与整理 内容管理与创意协作 客户关系管理 项目跟踪与分析 IT与工程管理等
    的头像 发表于 10-17 14:22 186次阅读

    全球视野下的海外爬虫IP:趋势、机遇与风险

    在全球视野下,海外爬虫IP的使用呈现出一系列趋势,同时也伴随着机遇与风险。
    的头像 发表于 10-15 07:54 149次阅读

    何为Teable多维表格数据库,它仅仅是一个在线的智能表格吗?

    表格是一种创新的数据管理和协作工具,它结合了传统电子表格的直观界面与关系数据库的强大功能。用户不仅可以像在Excel中一样在二维表格内记录和编辑数据,还能享受到基于数据结构的灵活管理方式。
    的头像 发表于 10-14 16:13 323次阅读

    海外爬虫IP的合法边界:合规性探讨与实践

    海外爬虫IP的合法边界主要涉及合规性探讨与实践。
    的头像 发表于 10-12 07:56 162次阅读

    如何利用海外爬虫IP进行数据抓取

    利用海外爬虫IP进行数据抓取需要综合考虑多个方面。
    的头像 发表于 10-12 07:54 136次阅读

    详细解读爬虫多开代理IP的用途,以及如何配置!

    爬虫多开代理IP是一种在爬虫开发中常用的技术策略,主要用于提高数据采集效率、避免IP被封禁以及获取地域特定的数据。
    的头像 发表于 09-14 07:55 416次阅读

    网络爬虫,Python和数据分析

    电子发烧友网站提供《网络爬虫,Python和数据分析.pdf》资料免费下载
    发表于 07-13 09:27 1次下载

    全球新闻网封锁OpenAI和谷歌AI爬虫

    分析结果显示,至2023年底,超半数(57%)的传统印刷媒体如《纽约时报》等已关闭OpenAI爬虫,反之电视广播以及数字原生媒体相应地分别为48%和31%。而对于谷歌人工智能爬虫,32%的印刷媒体采取相同措施,电视广播和数字原生媒体的比率分别为19%和17%。
    的头像 发表于 02-27 15:31 783次阅读

    如何解决Python爬虫中文乱码问题?Python爬虫中文乱码的解决方法

    如何解决Python爬虫中文乱码问题?Python爬虫中文乱码的解决方法 在Python爬虫过程中,遇到中文乱码问题是常见的情况。乱码问题主要是由于编码不一致所导致的,下面我将详细介绍如何解
    的头像 发表于 01-12 15:11 2153次阅读

    基于LLM的表格数据的大模型推理综述

    面向表格数据的推理任务,在计算机领域,特别是自然语言处理(Natural Language Processing,NLP)领域的研究中扮演着重要角色[1]。该任务要求模型在给定一个或多个表格的情况下,按照任务要求,生成相应的结果作为答案(例如:
    发表于 01-08 09:56 1484次阅读
    基于LLM的<b class='flag-5'>表格</b>数据的大模型推理综述

    OpenHarmony Sheet 表格渲染引擎

    任一位置的数据。 this.table.cell((ri, ci) => {ri}-{ci}).render(); ## 合并单元格 在表格中这是一个常用的方法,我们可以打碎局部单元格合并
    发表于 01-05 16:32

    爬虫的基本工作原理 用Scrapy实现一个简单的爬虫

    数以万亿的网页通过链接构成了互联网,爬虫的工作就是从这数以万亿的网页中爬取需要的网页,从网页中采集内容并形成结构化的数据。
    的头像 发表于 12-03 11:45 1500次阅读
    <b class='flag-5'>爬虫</b>的基本工作原理 用Scrapy实现一个简单的<b class='flag-5'>爬虫</b>

    表格vlookup函数的使用方法

    表格 VLOOKUP 函数是 Microsoft Excel 中非常强大和常用的函数之一。它可以在一个表格中查找特定的值,并在另一个表格中返回对应的结果。跨表格 VLOOKUP 函数
    的头像 发表于 12-01 10:56 2674次阅读