pandas1.0.0发布后,于2020年2月编辑
熊猫通常为每个Series使用NumPy数组和dtype(数据帧是Series的集合,每个都有自己的dtype)。NumPy的文档进一步解释了dtype,数据类型和数据类型对象。另外,@ lcameron05提供的答案很好地描述了numpy
dtype。此外,关于dtypes的pandas文档还有很多其他信息。
存储在pandas对象中的主要类型是float,int,bool,datetime64 [ns],timedelta
[ns]和object。另外,这些dtype具有项目大小,例如int64和int32。默认情况下,整数类型为int64,浮点类型为float64,是平台的REGARDLESS(32位或64位)。以下将导致int64 dtype。
但是,Numpy在创建数组时会选择依赖于平台的类型。以下WILL会在32位平台上生成int32。其中一个重大变化,以大熊猫的1.0.0版本引进
pd.NA来表示标缺失值(而不是以前的值np.nan,pd.NaT或None根据使用情况)。
Pandas扩展了NumPy的类型系统,还允许用户在扩展类型上编写他们的内容。以下列出了所有熊猫扩展名类型。
1)时区处理
数据类型:tz感知日期时间(请注意,NumPy不支持时区感知日期时间)。
数据类型:DatetimeTZDtype
标量:时间戳
数组:arrays.DatetimeArray
字符串别名:“ datetime64 [ns,]”
2)分类数据
数据种类:分类
数据类型:CategoricalDtype
标量:(无)
数组:分类
字符串别名:“类别”
3)时间跨度表示
数据种类:时间段(时间跨度)
数据类型:PeriodDtype
标量:期间
数组:arrays.PeriodArray
字符串别名:“ period []”,“ Period []”
4)稀疏的数据结构
数据种类:稀疏
数据类型:SparseDtype
标量:(无)
数组:arrays.SparseArray
字符串别名:’Sparse’,’Sparse [int]’,’Sparse [float]’
5)间隔索引
数据种类:间隔
数据类型:IntervalDtype
标量:间隔
数组:arrays.IntervalArray
字符串别名:“间隔”,“间隔”,“间隔[]”,“间隔[datetime64 [ns,]]”,“间隔[timedelta64 []]”
6)可空整数数据类型
数据种类:可为空的整数
数据类型:Int64Dtype,…
标量:(无)
数组:arrays.IntegerArray
字符串别名:’Int8’,’Int16’,’Int32’,’Int64’,’UInt8’,’UInt16’,’UInt32’,’UInt64’
7)处理文本数据
数据种类:字符串
数据类型:StringDtype
标量:str
数组:arrays.StringArray
字符串别名:“ string”
8)缺少值的布尔数据
数据类型:布尔值(不适用)
数据类型:BooleanDtype
标量:布尔
数组: arrays.BooleanArray
字符串别名:“ boolean”



