pandas(Python Data Analysis Library)是基于numpy的数据分析模块,提供了大量标准数据模型和高效操作大型数据集所需要的工具,可以说pandas是使得Python能够成为高效且强大的数据分析环境的重要因素之一。它最主要的两个数据结构是series和Dataframe。本文承接上文接着介绍Dataframe的操作。
二、数据框的语法及其功能描述| 语句 | 功能描述 |
|---|---|
| pandas。FDataframe(data,columns=[],index=[]) | 创建数据框 |
| pd.read_csv() | 将CSV文件的数据导入到内存中,快速构建数据库 |
| pd.concat() | 按横向或纵向合并两个pandas数据结构 |
| pd.get_dummies() | 将类别变量转变为独热编码 |
| Dataframe.mean() | 按行或按列计算平均值 |
| Dataframe.dropna() | 删除所有缺失数据的行或列 |
| Dataframe.drop_duplicates | 删除所有重复的行 |
| Dataframe.head() | 默认返回数据框中前五行 |
| Dataframe.tail() | 默认返回数据框中最后五行 |



