0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

推荐神器:四大可供学习Pandas的GitHub代码库

如意 来源:读芯术微信公众号 作者:读芯术微信公众号 2020-08-19 13:40 次阅读

Github的大名想必无人不知,无人不晓。一些新手或许会不敢接触Github,但同为初学者,我非常清楚Github的用途远不止管理项目版本。除了人人都可参与的开源项目以外,Github上还有丰富的学习资源。

网课固然让人受益良多,但辅以练习才能巩固新知。一些常用网站,例如“Codewars”和“Codekata”,提供每日练习,用户可根据自身需求选择语言并解题。

如果要针对Pandas进行强化练习,可以参考下列四大可供学习Pandas的Github代码仓库。其中一个代码仓库经Fork次数最多,受众层次广,Pandas新手以及进阶学习者都可使用。

Pandas Exercises——多种类数据(4k Forks)

该代码仓库由11个部分组成,涵盖了从数据预处理到高级数据可视化等内容。每个文件夹中有多个数据集,包含不同的练习。

用户可下载IPYNB文件,打开Jupyter notebook,亲自动手一试。可将代码输入题目下方的空白cell框格中,并查看“Exercise_with_Solution.ipynb”文件以核对答案。

该代码仓库资源综合性强,共有27个notebook可供使用。即使已经熟悉Pandas,“入门须知(Getting and knowing)”部分也值得一看,或许可从中新学到.describe(include=all) 和 .nunique()等函数。

Pandas Videos——多种类数据/含视频(1.2k Forks)

该代码仓库内含的Jupyter notebook附有代码,其代码来自于一个介绍Pandas多种不同功能的系列视频。作者使用真实数据集,遍历了解决问题的全过程,将其写进notebook中并发布于网上。

理想状态下,打开Jupyter notebook后便会随之播放视频。视频和代码都浏览完毕后,可将代码仓库中的notebook作为“答题纸”。这些notebook中还附有脚注,有助于厘清特定cell框格的输出结果。

这些视频与相应的notebook综合性极强。对于Pandas相关的疑问,诸如“如何对Pandas中的Series和Dataframe进行排序”等简单小问题,或是“如何用Pandas和sci-kit learn在Kaggle完成提交”等复杂大问题,都能在这一代码仓库中获得解答。

100 Pandas Puzzles(1k Forks)

该代码库中含有一个Jupyter notebook文件和一些练习以供下载。用户可将代码填入问题下方的cell框格中,并可与“solutionsnotebook”文件中的相应cell框格进行比对。

notebook由不同部分组成,包括“导入Pandas(Importing Pandas)”、“DataFrame基础知识(DataFrame basics)”和“Series与DatetimeIndex(Series andDatetimeIndex)”等。大多数问题并不需大段代码,在理想情况下仅用寥寥几行即可解决。

该代码仓库中的“扫雷(Minesweeper)”部分很有趣,内容包含:创建DataFrame,使其内含扫雷游戏的必要数据,包括方格坐标值、格内是否含雷及其相邻方格中的含雷数量。“扫雷”中等偏难,对于已完成之前练习的人来说,仍属力所能及之范围。有别于传统的数据分析,该部分考察了在特殊场景中运用DataFrame的能力,颇具趣味性。

作者也指出了题目列表尚不完整,有意完善题目的人可以提出申请,以获取更多练习、做出更正和改进。

Pycon 2019 Tutorial——中等难度(180 Forks)

该代码仓库中含有一个极长的notebook,其中有作者在自制的“使用Pandas的最佳数据科学实践(Data Science Best Practices with Pandas)”视频中讨论到的代码。该代码仓库不含Pandas的基础知识,因此适合中等水平的Pandas用户使用。

它共有八个主要部分,并不十分遵循“教程”模式,更类似于真实的数据分析项目,从数据检验、数据清洗到创建初步可视化,以帮助解答一些具体的问题,例如“平均来说,哪类职业的工作者发表的TED演讲最为有趣?”等。

对于刚接触Python和Pandas的数据分析项目的新手来说,可以观看整个视频来学习他人如何完成数据清洗、探索和分析等不同步骤,取其精华并活用于自己的项目之中。

学习的途径多种多样,你不妨从中选取符合自己Pandas水平的学习资源,在Github上一试身手。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6848

    浏览量

    88758
  • 源代码
    +关注

    关注

    96

    文章

    2943

    浏览量

    66634
  • GitHub
    +关注

    关注

    3

    文章

    466

    浏览量

    16366
收藏 人收藏

    评论

    相关推荐

    微软GitHub与Anthropic和谷歌合作

    近日,微软旗下的GitHub宣布了一项重要合作,将Anthropic和谷歌的AI模型整合到其代码助理中,为数百万软件开发者提供新的AI模型选项。
    的头像 发表于 10-30 16:25 135次阅读

    摩尔斯微电子推出社区论坛与开源GitHub资源

    Micro),今天宣布推出多个开源GitHub资源和一个社区论坛。这一举措旨在支持并赋能全球开发者社区,为其提供强大的资产、工具和资源组合。资源和论坛均为免费提供,以满足工程师、开发者、及技术爱好者对推动Wi-Fi HaL
    发表于 10-18 14:55 106次阅读

    上传本地项目代码github

    概述 GitHub是一个面向开源及私有软件项目的托管平台,因为只支持git 作为唯一的版本格式进行托管,故名GitHub。本文主要讲解如何将本地代码上传至
    发表于 09-11 16:33

    一种常用嵌入式开发代码

    语言std,工具等等。具有简单,通用,高效的特点,目的为了学习以及在开发中拿来就用,提高开发效率以及代码可靠稳定性。
    的头像 发表于 09-04 08:06 367次阅读
    一种常用嵌入式开发<b class='flag-5'>代码</b><b class='flag-5'>库</b>

    GitHub推出GitHub Models服务,赋能开发者智能选择AI模型

    8月2日,全球领先的代码托管平台GitHub宣布了一项重大创新——GitHub Models服务的正式推出。该服务被定位为AI时代的工程师助手,旨在帮助全球超过1亿的GitHub用户轻
    的头像 发表于 08-02 15:39 508次阅读

    深度学习常用的Python

    深度学习作为人工智能的一个重要分支,通过模拟人类大脑中的神经网络来解决复杂问题。Python作为一种流行的编程语言,凭借其简洁的语法和丰富的支持,成为了深度学习研究和应用的首选工具。本文将深入探讨
    的头像 发表于 07-03 16:04 530次阅读

    GitHub推出新功能:智能扫描代码潜在漏洞

    代码扫描”功能还能预防新手引入新的问题,并支持在设定的日期和时间进行扫描,或者让特定事件(如推送到仓库中)触发扫描。若AI判定代码内可能存在隐患,GitHub将在仓库中发出预警,待用户修正引发求救信号的部分后,再撤销警告。
    的头像 发表于 03-21 14:55 605次阅读

    MES实施的四大疑惑

    电子发烧友网站提供《MES实施的四大疑惑.docx》资料免费下载
    发表于 03-01 15:35 0次下载

    GitHub Copilot Enterprise全线向企业客户开放,提供个性化定制服务

    在官方博客中,GitHub 详细说明了新版本 Enterprise 在标准版和商业版 GitHub Copilot 基础上的差异点。Enterprise 特有功能包括依据企业特定代码和知识
    的头像 发表于 02-28 15:45 649次阅读

    Python利用pandas读写Excel文件

    使用pandas模块读取Excel文件可以更为方便和快捷。pandas可以将Excel文件读取为一个DataFrame对象,方便进行数据处理和分析。
    的头像 发表于 12-16 11:22 1259次阅读
    Python利用<b class='flag-5'>pandas</b>读写Excel文件

    GitHub入门与实践

    GitHub 是一个基于 Git 版本控制系统的代码托管平台,它提供了许多功能和用途,主要面向软件开发和协作。以下是 GitHub 的主要用途和一些关键技术:GitHub 的主要用途:
    发表于 12-14 09:53 6次下载

    Python编程的十大依赖有哪些

    Pandas是数据科学家的得力工具,它提供了强大的数据结构和数据分析功能。无论您需要进行数据清洗、分析还是可视化,Pandas都能帮您事半功倍。
    的头像 发表于 12-13 10:29 791次阅读

    GitHub底层数据无缝升级到MySQL 8.0的经验

    GitHub 团队近日分享了他们将 GitHub.com 的底层数据无缝升级到 MySQL 8.0 的经验。 据介绍,GitHub 使用 MySQL 来存储大量关系数据,因此在不影响
    的头像 发表于 12-13 10:21 479次阅读
    <b class='flag-5'>GitHub</b>底层数据<b class='flag-5'>库</b>无缝升级到MySQL 8.0的经验

    使用pandas进行数据选择和过滤的基本技术和函数

    Python pandas提供了几种选择和过滤数据的方法,如loc、iloc、[]括号操作符、query、isin、between等等
    的头像 发表于 12-01 10:14 326次阅读
    使用<b class='flag-5'>pandas</b>进行数据选择和过滤的基本技术和函数

    如何实现Pandas的DataFrame转换交互式表格

    Pivottablejs是一个通过IPython widgets集成到Python中的JavaScript,允许用户直接从DataFrame数据创建交互式和灵活的汇总报表。可以进行高效、清晰的数据分析和表示,帮助将数据从Pandas DataFrame转换为易于观察的交
    的头像 发表于 11-21 16:15 794次阅读
    如何实现<b class='flag-5'>Pandas</b>的DataFrame转换交互式表格