栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

pd.get

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

pd.get

需要用到pandas这个包,调用请提前下载

这个就是用独热编码来替换离散值特征。

例如,“MSZoning”包含值“RL”和“Rm”我们将创建两个新的指示器特征“MSZoning_RL”和“MSZoning_RM”,其值为0或1。根据独热编码,如果“MSZoning”的原始值为“RL”,则:“MSZoning_RL”为1,“MSZoning_RM”为0。

首先假如一个数据集有六个样本,每个样本两种特征,数据保存在‘111.csv’中,其中feature1是文字特征,分别为“bak” “bif” “nig”,feature2是数字特征

直接上代码,演示其使用方法及作用

import pandas as pd

all_features = pd.read_csv('111.csv')
all_features = pd.get_dummies(all_features)
print(all_features)

从输出中可见,get_dummies函数直接将feature1的特征拆分成了3个特征,分别为feature1_bak、 feature1_bif、 feature1_nig,并将其对应项的特征值设为1,没有的设为0

函数中还有一个参数是dummy_na,其作用是:是否将“na”(缺失值)视为有效的特征值,并为其创建指示符特征。

dummy_na = false,就是不将“na”视为有效特征值,等于true就是将“na”视为一个特征值,并为其建立指示符特征。

以222.csv为例

all_features1 = pd.read_csv('222.csv')
all_features1 = pd.get_dummies(all_features, dummy_na=False)
print(all_features)

输出:并没有将nan作为一个特征值来看待,直接将其忽略

all_features1 = pd.get_dummies(all_features1, dummy_na=True)
print(all_features1)

输出: 将nan当作一种特征值,并为其建立feature1_nan特征

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/861594.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号