如何使用表格做爬虫-电子发烧友网

很多人不知道，其实我们最常用的表格，在某些情况下也是可以用来做爬虫的，而且爬下来的数据规整，不需要花太多时间进行数据清洗，来看看是怎么实现的。

一、Microsoft Excel

首先教大家一个用Excel爬取数据的方法，这里用的Microsoft Excel 2013版本，下面手把手开始教学~

（1）新建Excel，打开它，如下图所示

（2）点击“数据”——“自网站”

（3）在弹出的对话框中输入目标网址，这里以全国实时空气质量网站为例，点击转到，再导入

选择导入位置，确定

（4）结果如下图所示，怎么样，是不是很赞？

（5）如果要实时更新数据，可以在“数据”——“全部更新”——“连接属性”中进行设置，输入更新频率即可

非诚勿扰：正在学习python的小伙伴或者打算学习的，可以私信小编“01”领取资料！

二、Google Sheet

使用Google Sheet爬取数据前，要保证三点：使用Chrome浏览器、拥有Google账号、电脑可以科学上网。如果这三个条件具备了的话，下面我们就开始吧~

（1）打开Google Sheet网站：http://www.google.cn/sheets/about/

（2）在首页上点击“转到Google表格”，然后登录自己的账号，可以看到如下界面，再点击“+”创建新的表格

新建的表格如下：

（3）打开要爬取的目标网站，一个全国实时空气质量网站http://www.pm25.in/rank，目标网站上的表格结构如下图所示

（4）回到Google sheet页面，使用函数=IMPORTHTML(网址, 查询, 索引)，“网址”就是要爬取数据的目标网站，“查询”中输入“list”或“table”，这个取决于数据的具体结构类型，“索引”填阿拉伯数字，从1开始，对应着网站中定义的哪一份表格或列表

对于我们要爬取的网站，我们在Google sheet的A1单元格中输入函数

=IMPORTHTML("http://www.pm25.in/rank","table",1)，回车后就爬得数据啦

（5）将爬取好的表格存到本地

是不是感觉超级简单？

当然，没有学习成本的技能缺陷也是很明显的，就是在网页的数据排列没那么规则的时候，或者说多个页面的数据，以上的方法就失效了，这个时候Python就展现出它强大的威力了。

不过，话说回来，这么装逼的技能，而且不需要学习成本，掌握了有什么不好呢，没准什么时候就能用上了。

最后多说一句，小编是一名python开发工程师，这里有我自己整理了一套最新的python系统学习教程，包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编，并在后台私信小编：“01”即可领取。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

如何使用表格做爬虫