别人整理的numpy函数大全
重点
1.ndarray
-
csv文件读取和操作
-
用各种routines创建各种样式的ndarray
2.ndarray的四种属性
- ndim:维度
- shape:形状
- size:总长度
- dtype:元素类型
3.操作
把任何东西,图片、音频、视频等当作矩阵看待,用矩阵运算去处理它
- 索引
- 切片 n[::-1]反转第一个维度反转和第二个维度反转操作不同
- 变形reshape函数
- 级联垂直级联/水平级联****concatenate
- 切分split
- 聚合操作n.sum(axis=0/1)
nan表示这个函数可以带nan一起玩儿 - 矩阵操作 矩阵积np.dot()
4.ndarray广播机制
二、pandas-
series:由ndarray创建的series是引用,由list创建的series是副本
series中的索引与切片
-显式索引.loc() 隐式索引.iloc()
可以套两层中括号
显式切片/隐式切片2…DataFrame
表格型数据结构,是一个series的字典。可以分块创建,也可以字典创建
- 列索引column
- 行索引index
- 值value
切片
dataframe和dataframe之间的运算,全部行列索引一致才会相加,不一致补nan
dataframe和series之间的运算
add:使用axis参数改变运算的方向(默认是)
3.处理丢失数据
是数据预处理时经常进行的操作
两种丢失数据:None/np.nan
判断是否有空数据:
axis=0行 =1列
df.isnull.any(axis=0)
过滤空数据:dropna(axis=0,how=‘all/any’)
填充函数:fillna(value=)
fillna(axis=/method=/inplace=)
4.创建层级索引
series和dataframe都可以创建多层索引
数组/tuple/product
多层索引数组的索引和切片:不能跨层索引
三、matplotlib作图别人的博客讲的超好了
四、文件读取与数据处理操作1.文件读取
with open(file_path) as file_project:
2.按行处理
for line in file_object: ##rstrip是把右边的空字符删掉,类似的操作还有strip和lstrip print(line.rstrip())
3.把读取的行存进一个数据矩阵中
def filematrix(filename)
fr=open(filename)
arrayOfLines=fr.readlines()
numberOflines=len(arrayOfLines)
##知道了数据条目的数量,创建空矩阵来存储
returnMat=zeros((numberOfLines,3))
##用一个向量存储Labels
classLabelVector=[]
for line in arrayOfLines:
##去掉空字符
line=line.strip()
##每一行用tab分割成一个元素列表
listFromLine=line.split('/t')
returnMat[index,:]=listFromLine[0:3]
##-1在python里表示最后
classLabelVector.append(int(listFromLine[-1])
index+=1
return returnMat,classLabelVector
一些格式方面的处理、字典、元祖、列表、切片等在此不再赘述,可以自行查阅python的字符处理函数



