栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

pandas和matplotlib区别(pandas matplotlib)

pandas和matplotlib区别(pandas matplotlib)

欢迎来到机器学习的世界 
博客主页:卿云阁 

欢迎关注点赞收藏⭐️留言

本文由卿云阁原创!

本阶段属于练气阶段,希望各位仙友顺利完成突破

首发时间:2021年3月18日

✉️希望可以和大家一起完成进阶之路!

作者水平很有限,如果发现错误,请留言轰炸哦!万分感谢!


目录

 一、Pandas的介绍

 二. Matplotlib的简单使用

 

 一、Pandas的介绍

Pandas 是 Python 语言的一个扩展程序库,用于数据分析。

Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。

Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)。

Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。

Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。

Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。

Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。

(1).head()可以读取前几条数据,指定前几条都可以

import pandas as pd
df = pd.read_csv('./data/titanic.csv')
df.head(6)

 (2).info返回当前的信息

df.info()


结果:

RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB

 (3)索引列和名

df.index


结果:
RangeIndex(start=0, stop=891, step=1
df.columns #列名

结果:
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
df.dtypes

结果:
PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object
df.values #数值

结果:
array([[1, 0, 3, ..., 7.25, nan, 'S'],
       [2, 1, 1, ..., 71.2833, 'C85', 'C'],
       [3, 1, 3, ..., 7.925, nan, 'S'],
       ..., 
       [889, 0, 3, ..., 23.45, nan, 'S'],
       [890, 1, 1, ..., 30.0, 'C148', 'C'],
       [891, 0, 3, ..., 7.75, nan, 'Q']], dtype=object)

(4)自己创建一个dataframe结构

data = {'country':['aaa','bbb','ccc'],#国家
       'population':[10,12,14]}       #人口
df_data = pd.Dataframe(data)
df_data

(5)取指定的数据

age = df['Age']
age[:5]

结果:
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

 二. Matplotlib的简单使用 这里使用常用的 Python 可视化工具 Matplotlib 。 Matplotlib 具有许多可视化功能。在可视化时, 为了使图形美观,需要编写多行 Python 代码来设置坐标轴、标签、布局和配色等。代码行数的增 加容易让人觉得晦涩难懂,但其实用于输出图形的重要部分的代码只有寥寥几行。 在使用 Matplotlib 实现可视化后,我们就能很容易地把握数据的偏差和特征等信息,所以要掌 握它的用法。 1.绘制折线图
import matplotlib.pyplot as plt
plt.plot([1,2,5,6,8])
plt.ylabel('some number')
plt.show()

 

2.绘制函数曲线

import numpy as np
import matplotlib.pyplot as plt
x1 = np.linspace(-5, 5, 101)
y1 = np.sin(x1)
plt.plot(x1, y1)
plt.show()

 

x1 中保存的是为显示 sin 曲线而生成的从 -5 到 5 的 101 个数据。 y1 中保存的是使用 NumPy 的 sin 函数生成的数据。

2.绘制 散点图
x2 = np.arange(100)
y2 = x2 * np.random.rand(100)
plt.scatter(x2, y2)

x2 中保存的是元素为“从 0 到 99 的整数” 的 数组。 y2 中保存的是元素为“ 在 从 0 到 1 的范围内随机选出的 100 个数据” 的 数组与刚才的变量 x2 相乘的结果。

4.绘制直方图

x2 = np.arange(100)
y2 = x2 * np.random.rand(100)
plt.hist(y2, bins=5)

 5.绘制柱状图

x2 = np.arange(100)
y2 = x2 * np.random.rand(100)
plt.bar(x2, y2)

  6.绘制箱形图

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/771498.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号