dataframe数据预处理第七天

dataframe 数据预处理

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False

%config InlineBackend.figure_format = 'svg'

lagou_df = pd.read_csv(
    '*'
)
# 提取字段中包含'*'内容的
lagou_df[lagou_df.字段.str.contains('*')] 
# 直接删除不包含'*'内容的
index_nums = lagou_df[~lagou_df.字段.str.contains('*')].index
lagou_df.drop(index=index_nums, inplace=True)

# 上函数对指定字段操作
lagou_df['字段'] = lagou_df.字段.apply(函数实现数据操作)
lagou_df


# 实例
temp_df = pd.Dataframe(data=np.random.randint(30, 101, (5, 3)))
temp_df.apply(np.mean)
# 此处lambda函数的参数x是一个数据系列
temp_df.apply(lambda x: (x ** 0.5 * 10).astype(int))
# 此处lambda函数的参数x是一个数据系列
# transform的参数是不带归约性质的函数
temp_df.transform(lambda x: (x ** 0.5 * 10).astype(int))
# 此处lambda函数的参数x是一个值
temp_df.applymap(lambda x: int(x ** 0.5 * 10))
# 分组聚合
groupby('*').字段.agg(['sum', 'max', 'min'])

# 分段
new = pd.cut(luohu_df.字段,np.arange(30,61,5))
luohu_df.groupby(new).字段.count()

加载数据
- read_csv
- read_excel
- read_sql
数据抽取
- 布尔索引
- query
- drop
数据清洗
- 缺失值：isnull、isna、dropna、fillna
- 重复值：duplicated、drop_duplicates、nunique
- 异常值：replace、drop
- 预处理：apply、transform、applymap
  - str
  - dt
  - to_datetime
数据透视
- 分组：groupby
- 透视表：pivot_table
- 排序：sort_values
- 取头部：nlargest、nsmallest
可视化
- 绘图：plot
  - kind
  - figsize
业务洞察

dataframe数据预处理第七天

大数据系统相关栏目本月热门文章