pandas库简介
收藏
Pandas 是基于Numpy开发的一个Python数据分析包,由AQR Capital Management于2008年4月开发,并于2009年底开源出来。 Pandas作为Python数据分析的核心包,提供了大量的数据分析函数,包括数据处理、数据抽取、数据集成、数据计算等基本的数据分析手段。Pandas核心数据结构包括序列和数据框,序列储存一维数据,而数据框则可以存储更复杂的多维数据。这里主要介绍二维数据(类似于数据表)及其相关操作。 由于Python是面向对象的语言,序列和数据框本身是一种数据对象,因此序列和数据框有时也称为序列对象和数据框对象,它们具有自身的属性和方法。本部分我们主要介绍序列和数据框的创建、相关属性介绍和主要方法的使用,以及数据的访问、切片及运算。在数据读取方面,我们主要介绍了利用Pandas库中的函数读取外部数据文件的方法,包括Excel数据文件和TXT数据文件的读取方法。在函数计算方面,我们主要介绍了几个滚动计算函数,包括移动平均值、移动最大最小值、移动求和等计算。
1
收藏
要是再加点数据清洗的内容就更实用了,写好了可以出本书。
嗯嗯,期待大神分享
特征工程一做pandas dataframe的内存占用就太厉害了,请教有什么好的解决办法吗?
开个项目吧
https://aistudio.baidu.com/aistudio/projectdetail/316529
分批次处理 别一次读完
先做裁剪,然后再做处理
好的,主要看很多notebook都一次读取,看来大家内存都很足= =