0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GitHub上开源了个集众多数据源于一身的爬虫工具箱——InfoSpider

人工智能与大数据技术 来源:开源最前线 作者:开源最前线 2020-11-23 11:28 次阅读

国内一位开发者在 GitHub 上开源了个集众多数据源于一身的爬虫工具箱——InfoSpider,一不小心就火了!!!

有多火呢?开源没几天就登上GitHub周榜第四,标星1.3K,累计分支172个(GitHub地址:https://github.com/kangvcar/InfoSpider) 在这样一个信息爆炸的时代,每个人都有很多个账号,账号一多就会出现这么一个情况:个人数据分散在各种各样的公司之间,就会形成数据孤岛,多维数据无法融合,这个项目可以帮你将多维数据进行融合并对个人数据进行分析,这样你就可以更直观、深入了解自己的信息。 InfoSpider 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解自己的信息。

目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。 根据创建者介绍,InfoSpider 具有以下特性:

安全可靠:本项目为开源项目,代码简洁,所有源码可见,本地运行,安全可靠。

使用简单:提供 GUI 界面,只需点击所需获取的数据源并根据提示操作即可。

结构清晰:本项目的所有数据源相互独立,可移植性高,所有爬虫脚本在项目的 Spiders 文件下。

数据源丰富:本项目目前支持多达24+个数据源,持续更新。

数据格式统一:爬取的所有数据都将存储为json格式,方便后期数据分析。

个人数据丰富:本项目将尽可能多地为你爬取个人数据,后期数据处理可根据需要删减。

数据分析:本项目提供个人数据的可视化分析,目前仅部分支持。

InfoSpider使用起来也非常简单,你只需要安装python3和Chrome浏览器,运行 python3 main.py,在打开的窗口点击数据源按钮, 根据提示选择数据保存路径,接着输入账号密码,就会自动爬取数据,根据下载的目录就可以查看爬下来的数据。 是不是很简单呢,如果你对InfoSpider也感兴趣,赶紧试一下。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3244

    浏览量

    42381
  • GitHub
    +关注

    关注

    3

    文章

    466

    浏览量

    16382
  • 爬虫
    +关注

    关注

    0

    文章

    82

    浏览量

    6834

原文标题:一款爆红的开源爬虫工具箱

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    “0元购”智元灵犀X1机器人,软硬件全套图纸和代码全公开!资料免费下载!

    提供核心组件的基础,智元机器人完整地开源软硬件全套图纸和代码,总资料大小超过1.2GB。在整机结构硬件方面,提供整机结构图纸、整机硬件框图、整机BOM,细致到每
    发表于 10-25 15:20

    虽然下载contourlet工具箱但是运行代码出现函数或变量 \'resampc\' 无法识别。

    下载并将contourlet工具箱放到matlab路径中了,依然不能使用pdfbdec函数
    发表于 08-22 17:14

    如何使用MATLAB神经网络工具箱

    神经网络是种模拟人脑神经元网络的计算模型,广泛应用于各种领域,如图像识别、语音识别、自然语言处理等。在MATLAB中,可以使用神经网络工具箱(Neural Network Toolbox)来构建
    的头像 发表于 07-03 10:34 2193次阅读

    matlab神经网络工具箱结果分析

    神经网络是种强大的机器学习技术,广泛应用于各种领域,如图像识别、语音识别、自然语言处理等。MATLAB提供功能强大的神经网络工具箱
    的头像 发表于 07-03 10:32 524次阅读

    数据采集方法有哪些?工具有哪些?

    上收集数据。它通过模拟用户浏览网页的行为,获取网页的文本、图片、链接等信息。网络爬虫可以应用于各种场景,如市场调研、社交媒体分析、新闻聚合等。 常用的网络爬虫
    的头像 发表于 07-01 15:35 1185次阅读

    常见的数据采集工具的介绍

    数据采集是数据分析和处理的基础,它涉及到从各种数据源中提取、收集和整理数据的过程。数据采集工具
    的头像 发表于 07-01 14:51 680次阅读

    DP1363F 多协议NFC 兼容CLRC663开发资料

    ​DP1363F是高度集成的收发器芯片,用于13.56Mhz的非接触式通讯。强大的多协议支持、最高射频输出功率,以及突破性技术低功耗卡片检测等优势于一身,满足市场对更高集成度、更小外壳和互操作性
    发表于 05-31 10:48

    使用PSoc6在Modus工具箱中创建示例应用程序时,终端报错的原因?

    你好, 每当我尝试使用 PSoc6 在 Modus 工具箱中创建示例应用程序时,我的终端都会显示以下两错误。 有人有什么建议吗? 1) make[1]:*** [../mtb_s
    发表于 03-04 07:01

    为什么无法在modustoolbox™工具箱中打开新应用程序?

    我无法在modustoolbox™工具箱中打开新应用程序。 如何解决这个问题?
    发表于 01-31 07:32

    可以在Modus工具箱eclipse中使用DAVE™创建的项目吗?

    我们可以将项目(在 IDE 中创建 DAVE™ )使用 Modus 工具箱 eclipse IDE 吗? 如果是,怎么做? 如果不是,为什么不呢?
    发表于 01-26 06:55

    使用自定义BSP的空项目出现Modus工具箱编译错误的原因?

    的日志。 有人能为我指出有关这个错误的方向吗? 也许使用 BZI 芯片然后尝试在 LQI 芯片加载代码是更好的主意吗? (我可以确认 BZI 芯片成功兼容空应用程序)。 看来这是我要问的关于 modus 工具箱众多问题之
    发表于 01-23 06:32

    请问KitProg2是否支持加载使用Modus工具箱构建的程序闪存?

    。 对于编程工具,我考虑使用Modus工具箱编程器或 PSoC™ 编程器。 我想在 PSOC4100s MAX 设备加载 Flash。
    发表于 01-19 06:29

    芯片行业的几个专业术语盘点

    芯片设计、芯片制造、芯片封装和测试等多个产业链环节于一身,早期多数集成电路企业采用的模式,目前仅有极少数企业能够维持。
    发表于 01-18 09:50 3862次阅读

    WT588F02KD-24SS语音芯片:多功能于一身,引领小家电产品智能化升级

    扩展功能、LED数码管驱动接口、键盘扫描接口等,成为了小家电产品智能化升级的利器。、强大功能集于一身作为款专用芯片,WT588F02KD-24SS具备非常强大
    的头像 发表于 12-02 09:44 451次阅读
    WT588F02KD-24SS语音芯片:<b class='flag-5'>集</b>多功能<b class='flag-5'>于一身</b>,引领小家电产品智能化升级

    在ADAU1761的工具箱库下的部分组件没有Help说明是为什么?

    在ADAU1761的工具箱库下的部分组件没有Help说明,比如MSEnv组件,有没有这部分的资料?
    发表于 11-29 07:20