pandas库简介

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

水水水的老师发布于2020-03

Pandas 是基于Numpy开发的一个Python数据分析包，由AQR Capital Management于2008年4月开发，并于2009年底开源出来。 Pandas作为Python数据分析的核心包，提供了大量的数据分析函数，包括数据处理、数据抽取、数据集成、数据计算等基本的数据分析手段。Pandas核心数据结构包括序列和数据框，序列储存一维数据，而数据框则可以存储更复杂的多维数据。这里主要介绍二维数据（类似于数据表）及其相关操作。由于Python是面向对象的语言，序列和数据框本身是一种数据对象，因此序列和数据框有时也称为序列对象和数据框对象，它们具有自身的属性和方法。本部分我们主要介绍序列和数据框的创建、相关属性介绍和主要方法的使用，以及数据的访问、切片及运算。在数据读取方面，我们主要介绍了利用Pandas库中的函数读取外部数据文件的方法，包括Excel数据文件和TXT数据文件的读取方法。在函数计算方面，我们主要介绍了几个滚动计算函数，包括移动平均值、移动最大最小值、移动求和等计算。

全部评论(28)

AIStudio810258

#22 回复于2020-03

水水水的老师 #20

还有90%的pandas干货没发布，等后面有时间我就开个notebook

要是再加点数据清洗的内容就更实用了，写好了可以出本书。

AI-BAI

#23 回复于2020-03

水水水的老师 #20

还有90%的pandas干货没发布，等后面有时间我就开个notebook

嗯嗯，期待大神分享

AIStudio810260

#24 回复于2020-03

特征工程一做pandas dataframe的内存占用就太厉害了，请教有什么好的解决办法吗？

Action

#25 回复于2020-03

开个项目吧

水水水的老师

#26 回复于2020-03

Action #25

开个项目吧

https://aistudio.baidu.com/aistudio/projectdetail/316529

水水水的老师

#27 回复于2020-03

AIStudio810260 #24

特征工程一做pandas dataframe的内存占用就太厉害了，请教有什么好的解决办法吗？

分批次处理别一次读完

水水水的老师

#28 回复于2020-03

AIStudio810260 #24

特征工程一做pandas dataframe的内存占用就太厉害了，请教有什么好的解决办法吗？

先做裁剪，然后再做处理

AIStudio810260

#29 回复于2020-03

水水水的老师 #28

先做裁剪，然后再做处理

好的，主要看很多notebook都一次读取，看来大家内存都很足= =