栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

机器学习自用函数整理

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

机器学习自用函数整理

数据集划分

整条的数据集划分

import random
def randSplit(dataSet,rate):
    l = list(dataSet.index)
    random.shuffle(l)
    dataSet.index = l
    n = dataSet.shape[0]
    m = int(n*rate)
    train = dataSet.loc[range(m),:]
    test = dataSet.loc[range(m,n),:]
    dataSet.index = range(dataSet.shape[0])
    test.index = range(test.shape[0])
    return train, test

特征值和目标值分离的数据集划分

#划分数据集和测试集 ,划分数据集随机划分数据
from sklearn.model_selection import train_test_split
Xtrain, Xtest, Ytrain, Ytest = train_test_split(X, Y, test_size=0.25)
读取数据

Pandas读取文件(read_csv与read_table 的区别)

数据清洗
data.info()#数据信息
data.isnull().sum()#查看缺失值
data.drop(['Name','Cabin','Ticket'],inplace=True,axis=1)#删除缺失值多,目测对建模没有用的列
data = data.dropna()#把Nan去除
data["Age"] = data["Age"].fillna(data["Age"].mean())#Age列的NaN填充Age平均值
data= data.fillna(method='ffill')#在列方向上以前一个值作为值赋给NaN
data["Sex"] = (data["Sex"]=='male').astype('int')#将二分类变量转换为数值型变量
#将三分类变量转换为数值型变量
labels = data["Embarked"].unique().tolist()
data["Embarked"] = data["Embarked"].apply(lambda x: labels.index(x))
数据截取

pandas中iloc和loc的区别和用法:

  1. loc函数:通过行索引 “Index” 中的具体值来取行数据(如取"Index"为"A"的行)
data.loc['b','B']#获取第二行、第二列对应的值

data.loc['b':'c','B':'C']#获取从第二行开始。第二列开始的右下角区域的值
  1. iloc函数:通过行号来取行数据(如取第二行的数据)
data.iloc[1,1]#获取第二行、第二列的值
 
data.iloc[1:3,1:3]#获取从第二行,第二列开始对应的右下角的区域
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/286455.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号