0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Python Pandas如何来管理结构化数据

数据分析与开发 来源:数据分析与开发 2023-05-25 11:22 次阅读

Python Pandas是一个为Python编程提供数据操作和分析功能的开源工具包。这个库已经成为数据科学家和分析师的必备工具。它提供了一种有效的方法来管理结构化数据(Series和DataFrame)。

人工智能领域,Pandas经常用于机器学习深度学习过程的预处理步骤。Pandas通过提供数据清理、重塑、合并和聚合,可以将原始数据集转换为结构化的、随时可用的2维表格,并将其输入人工智能算法

63526d2c-fa4e-11ed-90ce-dac502259ad0.png

项目地址:https://github.com/gventuri/pandas-ai

使用 pip 安装 Pandas AI

pipinstallpandasai

使用 OpenAI 导入 PandasAI

在下一步中,我们将导入之前安装的 pandasai 库,然后导入 LLM(大型语言模型)功能。截至 2023 年 5 月,pandasai 仅支持 OpenAI 模型,我们将使用它来理解数据。

importpandasaspd
frompandasaiimportPandasAI

#SampleDataFrame
df=pd.DataFrame({
"country":["UnitedStates","UnitedKingdom","France","Germany","Italy","Spain","Canada","Australia","Japan","China"],
"gdp":[19294482071552,2891615567872,2411255037952,3435817336832,1745433788416,1181205135360,1607402389504,1490967855104,4380756541440,14631844184064],
"happiness_index":[6.94,7.16,6.66,7.07,6.38,6.4,7.23,7.22,5.87,5.12]
})

#InstantiateaLLM
frompandasai.llm.openaiimportOpenAI
llm=OpenAI(api_token="your_API_key")

pandas_ai=PandasAI(llm)
pandas_ai.run(df,prompt='Whicharethe5happiestcountries?')
6Canada
7Australia
1UnitedKingdom
3Germany
0UnitedStates
Name:country,dtype:object

要使用 OpenAI API,您必须生成自己唯一的 API 密钥。

因为pandas的特性,我们不仅仅可以处理csv文件,我们还可以连接关系型的数据库,例如pgsql:

#creatingtheuriandconnectingtodatabase
pg_conn="postgresql://YOURURIHERE"

#Querysqldatabase
query="""
SELECT*
FROMtable_name
"""

#Createdataframenameddf
df=pd.read_sql(query,pg_conn)

然后像上面代码一样,我们可以直接与它进行对话了:

#Usingpandas-ai!
pandas_ai=PandasAI(llm)
pandas_ai.run(df,prompt='Placeyourprompthere)

当然,你也可以让 PandasAI 进行更复杂的查询。例如,可以要求 PandasAI 求出 2 个最不幸福国家的 GDP 总和:

pandas_ai.run(df,prompt='WhatisthesumoftheGDPsofthe2unhappiestcountries?')

上面的代码将返回以下内容:

19012600725504

也可以请 PandasAI 画图:

pandas_ai.run(
df,
"Plotthehistogramofcountriesshowingforeachthegpd,usingdifferentcolorsforeachbar",
)
6370df14-fa4e-11ed-90ce-dac502259ad0.png
最后

ChatGPT、Pandas是强大的工具,当它们结合在一起时,可以彻底改变我们与数据交互和分析的方式。ChatGPT凭借其先进的自然语言处理能力,可以更直观地与数据进行类似人类的交互。而PandasAI可以增强Pandas数据分析体验。通过将复杂的数据操作任务转换为简单的自然语言查询,PandasAI使用户更容易从数据中提取有价值的见解,而无需编写大量代码。

这对于那些还不熟悉Python或pandas操作/转换的人来说是一种编程的新方法。我们不需要为你想要执行的任务编程,而是只是与AI代理交谈,明确的额告诉它想要的结果,代理会将此消息转换为计算机可解释的代码,并返回结果。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编程
    +关注

    关注

    88

    文章

    3591

    浏览量

    93592
  • 机器学习
    +关注

    关注

    66

    文章

    8377

    浏览量

    132402
  • python
    +关注

    关注

    56

    文章

    4782

    浏览量

    84449

原文标题:Pandas + ChatGPT:交互式数据分析!

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    结构化布线系统有哪些难题

    在15年建筑物整修周期内限制系统的升级。经过精心设计的结构化布线系统可以承受超过大多数局域网传输速率10~15倍的数据流量。这将允许在不改变结构化布线系统的情况下使用新型网络技术。  2.通用
    发表于 05-19 13:46

    python数据分析的类库

    ,因为它太重要了.Pandas库提供了我们很多函数,能够快速的方便的,处理结构化的大型数据,不夸张的说,Pandas是让Python成为强大
    发表于 05-10 15:18

    TrustZone结构化消息是什么?

    大家好,我已阅读任何与TrustZone相关的内容,但我无法弄清楚这两个世界是如何相互沟通的。我所能找到的只是TrustZone API规范中的内容:客户端和服务可以通过两种机制进行通信:结构化
    发表于 03-20 08:58

    Deeplearningai结构化机器学习项目

    Deeplearningai 结构化机器学习项目 Week2 6-10
    发表于 05-18 15:12

    结构化设计分为哪几部分?结构化设计的要求有哪些

    结构化设计分为哪几部分?结构化设计的要求有哪些?结构化设计主要包括哪些部分?
    发表于 12-23 06:15

    结构化布线的综合说明

    结构化布线的综合说明 一、结构化布线系统简介     随着计算机和通信技术的飞速发展,网络应用
    发表于 04-14 17:16 731次阅读

    什么叫结构化的算法_算法和结构化数据初识

    结构化算法是由一些基本结构顺序组成的,就是把一个大的功能的实现分隔为许多个小功能的实现。在基本结构之间不存在向前或向后的跳转,流程的转移只存在于一个基本的结构范围内。一个非
    发表于 01-03 16:09 1.2w次阅读
    什么叫<b class='flag-5'>结构化</b>的算法_算法和<b class='flag-5'>结构化</b><b class='flag-5'>数据</b>初识

    结构化布线系统的四点注意事项

    布线系统结构化 结构化布线 title=结构化布线结构化布线 title=结构化布线结构化布线系
    发表于 10-16 10:52 1228次阅读

    海量非结构化数据存储难题 ,杉岩数据对象存储完美解决

    过去几年,大数据产业更多关注的是如何处理海量、多源和异构的数据,但我们必须承认这些只是冰山一角。目前,结构化数据仅占到全部数据量的20%,其
    发表于 03-15 17:22 1181次阅读

    Danfo.js提供高性能、直观易用的数据结构,支持结构化数据的操作和处理

    Danfo.js 是个 JavaScript 开源库,提供了高性能、直观易用的数据结构,支持结构化数据的操作和处理。Danfo.js 深受 Python
    的头像 发表于 09-23 18:21 5247次阅读

    如何在Pixie中收集大量非结构化数据

    Pixie 旨在帮助开发者快速了解并调试产品系统。为了实现这一目标,我们将提供支持,帮助开发者轻松访问其生产系统中的一系列指标和日志数据。如,帮助收集系统中各个进程的 CPU 和内存用量的结构化数据
    的头像 发表于 08-10 17:37 2718次阅读

    详解Python中的Pandas和Numpy库

    pandas、numpy是Python数据科学中非常常用的库,numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效。
    的头像 发表于 05-25 12:49 2514次阅读

    PandasPython中最好的数据分析工具

    Pandas绝对是Python中最好的数据分析工具,不接受反驳。 本文将展示如何美化 Pandas DataFrame 中的数字,并使用一些更高级的
    的头像 发表于 10-31 10:47 454次阅读
    <b class='flag-5'>Pandas</b>:<b class='flag-5'>Python</b>中最好的<b class='flag-5'>数据</b>分析工具

    如何利用Pythonpandas来处理json数据

    了如何利用PythonpandasPython的第三方库)来处理json数据,主要内容包含: json数据简介 常用json
    的头像 发表于 11-01 10:59 2229次阅读
    如何利用<b class='flag-5'>Python</b>和<b class='flag-5'>pandas</b>来处理json<b class='flag-5'>数据</b>

    结构化布线的好处多吗

    结构化布线是网络系统中的重要组成部分,因为它为数据传输提供了强大、可扩展且可靠的基础。通过遵守全球公认的标准,结构化布线可促进高速连接、简化故障排除并确保未来的可扩展性。考虑到这些优势,企业应优先
    的头像 发表于 04-07 11:15 407次阅读