栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

学习笔记----机器学习(三)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

学习笔记----机器学习(三)

Pandas  是 一个时间序列数据处理包,起初只为了分析财经数据

1.基本数据结构

        series 可理解为一位数组

        s = pd.Series([4,2,5,0,6,3])

        Dataframe,表示二维数组

        df = pd.Dataframe(np.random.randn(6,4),columns=list('ABVD'))

        df.values 查看原始数据

        行索引查询  df.iloc[0]             列索引  df.A         维度  df.shape      前n行  df.head(4)       前n列 df.tail        行索引信息  df.index      列索引信息 df.colums       简单的计算 df.discribe()


2.数据排序    

            Dataframe.sort_index()函数 对索引行排序    df.sort_index(axis=1,ascending=False)

            Dataframe.sort_values()  对数值行排序 df.sort_values(by='B')


3.数据访问

        通过行索引范围来访问特定几行数据 df[3:5]   df['D','A','B']  

        选择某个元素   df.loc(3,'A')    df.iloc(3,0)     df.iloc[2:5,0:2]

        通过布尔值来选择,df[df.C>0]  C列大于0的数据所在行

        可添加一列为tag值以便查询,df["TAG"] = ["cat","dog","cat","cat","cat","dog",];

        根据tag分组统计    df.groupby('TAG').sum()


4.时间序列

        创建以时间序列为索引的数据集,以2010年1月1日起,创建366条数据

        n_items = 366    ts =pd.Series(np.random.randn(n_items),index=pd.date_range(    '20000101',periods=n_items    )    )

    print(ts.shape)

    ts.head(5)

按照月份聚合:ts.resample("lm").sum()


5.数据可视化

           示一

                plt.figure(figsize=(10,6),dpi=144)

                cs = ts.cumsum()

                    cs.plot()

            示二

                    plt.figure(figsize=(10,6),dpi=144)

                    ts.resample("1m").sum.plot.bar()



6.文件读写

         导入   df=pd.read_csv('data.csv',index_col=0)

        导出    Dataframe.to_csv( )



作者:吉林天师
链接:https://www.jianshu.com/p/a95a51402f9f


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/223064.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号