栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

酒店数据分析预处理pandas

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

酒店数据分析预处理pandas

#酒店数据预处理
import pandas as pd
import numpy as np

#读取香港酒店数据
df = pd.read_excel('./香港酒店数据.xlsx')

#删除名字是Unnamed: 0列
df = df.drop('Unnamed: 0',axis=1)
#print(df.head())

#重置索引
df.index = range(len(df))

#重新设置列名称为'名字','类型','城市','地区','地点','评分','评分人数','价格'
rename = ['名字','类型','城市','地区','地点','评分','评分人数','价格']
df.columns = rename

#查找出所有类型为“休闲度假”并且在湾仔地区的酒店
print(df[(df['类型'] == '休闲度假') & (df['地区'] =='湾仔')] )

#查找出所有地址在观塘或者油尖旺,评分大于4的酒店
print(df[((df['地区'] == '观塘') | (df['地区'] == '油尖旺')) & (df['评分'] > 4)])

#找出缺失值数据
print(df[df['名字'].isnull()])
print(df[df['类型'].isnull()])
print(df[df['城市'].isnull()])
print(df[df['地区'].isnull()])
print(df[df['地点'].isnull()])
print(df[df['评分'].isnull()])
print(df[df['评分人数'].isnull()])
print(df[df['价格'].isnull()])

# print(df.isnull().sum())



#用“其他”填充类型和地区
df['类型'].fillna('其他',inplace=True)
print(df[df['类型'].isnull()])

df['地区'].fillna('其他',inplace=True)
print(df[df['地区'].isnull()])

#用评分均值填充评分缺失值
df['评分'].fillna(np.mean(df['评分']),inplace=True)
print(df[df['评分'].isnull()])

#删除价格和评分人数的缺失值

df = df.dropna(axis=0,subset=['价格','评分人数'])
print(df[df['价格'].isnull()])
print(df[df['评分人数'].isnull()])
df.index = range(len(df))


#修改添加去重
# #去重
# df.drop_duplicates(inplace=True)


#最后保存到处理好的数据到“酒店数据1.xlsx“
df.to_excel('./酒店数据1.xlsx')

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/619097.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号