Python Pandas


Pandas是一个开源的Python库,用于使用其强大的数据结构进行高性能数据处理和数据分析。Python和熊猫在各种学术和商业领域都有应用,其中包括金融,经济学,统计学,广告,网络分析等等。使用Pandas,无论数据来源如何,我们都可以完成数据处理和分析中的五个典型步骤

  • 加载,组织,操作,建模和分析数据。

以下是Pandas的一些重要功能,专门用于数据处理和数据分析工作。

熊猫的主要特点

  • 使用默认和自定义索引的快速高效的DataFrame对象。
  • 用于将数据从不同文件格式加载到内存数据对象的工具。
  • 数据对齐和缺失数据的集成处理。
  • 重新设置和旋转日期集。
  • 大数据集的基于标签的分片,索引和子集。
  • 数据结构中的列可以被删除或插入。
  • 按数据分组进行聚合和转换。
  • 高性能的数据合并和连接。
  • 时间序列功能。

熊猫处理以下三种数据结构 -

  • 系列
  • 数据帧

这些数据结构建立在Numpy阵列之上,使它们快速高效。

尺寸和说明

考虑这些数据结构的最佳方式是高维数据结构是其较低维数据结构的容器。例如,DataFrame是Series的容器,Panel是DataFrame的容器。

数据结构 外形尺寸 描述
系列 1 1D标记的同质阵列,大小不可变。
数据帧 2 一般的二维标签,大小可变的表格结构,具有潜在的非均匀类型列。

DataFrame被广泛使用,它是最重要的数据结构。

系列

系列是一种具有同质数据结构的一维数组。例如,以下系列是整数10,23,56 ...的集合

10 23 56 17 52 61 73 90 26 72

系列的要点

  • 同质数据
  • 大小不可变
  • 数据可变的值

数据帧

DataFrame是一个具有异构数据的二维数组。例如,

名称 年龄 性别 评分
史蒂夫 32 3.45
利亚 28 4.6
VIN 45 3.9
凯蒂 38 2.78

该表格表示一个组织的销售团队的总体绩效评级数据。数据以行和列表示。每列代表一个属性,每行代表一个人。

数据类型的列

四列的数据类型如下 -

类型
名称
年龄 整数
性别
评分 浮动

数据框架要点

  • 异构数据
  • 大小可变
  • 数据可变

在接下来的章节中,我们将看到很多关于在数据科学工作中使用python的pandas库的例子。