栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 系统运维 > 运维 > Linux

【AI小白】

Linux 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

【AI小白】

天池入门与实践 在线编程工具使用说明

在天池实验室通过编辑按钮可以进入DSW,在一些比赛中可以fork到自己的天池实验室,然后编辑进入编程,运行命令,下载数据集,最后点击天池保存到天池。也就是主要把学习赛的内容保存到自己的天池实验室当中。

Python入门与实践 python学习 python的作用:

数据分析,数据挖掘:numpy,pandas,matplotlib。
机器学习深度学习算法。
网络开发:Django,Flask。
爬虫:Request

Python基础知识介绍,包含变量、位运算、条件语句和异常处理。

这个太简单了,但是我又不想跳过
python上

Python中的6大数据结构,包括列表、元祖、字符串、字典、集合、序列。

python中

Python中的函数、lambda表达式、类与对象、魔法方法。

python下

如何利用docker打比赛 Docker 介绍

Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布
到任何流行的Linux或Windows机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互乙同个云有仕何按口。
优点:
1、简化程序:
Docker改变了虚拟化的方式,使开发者可以直接将自己的成果放入Docker中进行管理。2、避免选择恐惧症:
Web应用、后台应用、数据库应用、大数据应用比如Hadoop集群、消息队列等等都可以打包成一个镜像部署。3、节省开支:
一方面,云计算时代到来,使开发者不必为了追求效果而配置高额的硬件,Docker改变了高性能必然高价格的思维定势。

Docker 安装

Docker Desktop是Docker在Windows 10和macOS操作系统上的官方安装方式,这个方法依然属于先在虚拟机中安装Linux然后再安装Docker的方法。
windows版本的下载地址
常见问题:"Docker Desktop requires the Server service to be enabled “
解决方法:
Step1:在命令行运行cmd,输入命令services.msc并回车;
Step2:在弹出的窗口中查找并选中Server,双击,将Server的服务状态设置为“启动”
先了解什么是容器,然后手把手安装docker。

数据分析实战项目,从0开始动手。

主要就是打比赛,把比赛fork到自己的天池实验室当中来。

2020美国总统献金数据分析 kaggle上的数据分析项目

首先安装环境之前有一些不会变的命令
pip install numpy
pip install pandas
pip install matplotlib

Hotel booking demand

该数据集包含城市酒店和度假酒店的预订信息,包括预订时间、停留时间,成人/儿童/婴儿人数以及可用停车位数量等信息。
适用场景:社会科学、旅行、酒店、用户行为,不具有明显的行业标识,可进行常规用户行为分析。
数据量:32列共12W数据量。
:酒店类型,是否取消预定,停留时间,到达年份,到达月份,第几周到达,当月第几日到达,呆在周末的夜晚数,周过夜数,成人数量,儿童数量,婴儿数量,BB餐是什么意思,国家,市场部门,分配渠道,是否是回头客,早先预定没有取消(历史取消数),分配房屋类型,预订次数,定金类型,房间号,公司,当天等待清单,消费者类型,存托凭证,可用停车位数量,特殊需求总数,预定日期。。。
步骤:1.探索数据:读入文件,查看各列类型均值和直方图,有个大概的了解。
2.数据可视化分析:此时需要根据问题来进行可视化分析,所以画这个图是要有理解的,比如各列的各个数据取一部分筛选,列中剔除用==,关联用&。其实画这些所有的图就x轴代表对象索引遍历生成的列表,y轴就是这个对象的值。那么这个对象又是什么呢?这个对象就是已经筛选出来的行[’’].value_counts()。
可以定义的问题:
1)酒店各月份预订量与主要客源分布:(plot)月份预定量通过折线图,画法就是画两条不同的线,具体画法一样。先df列名是hotel且没有被取消预定的行,在这些行中arrival_date_month不一样的有几行,月份肯定12个不同值,统计出每个不同值的和保存在一个对象里。横坐标是根据对象索引创建的列表,纵坐标是这个对象的value。再通过x和y的循环标上数字。客源的主要分布:查看所有属性,分布肯定是和地域有关,直接groupby(df.country).count()再排序就可以。
2)酒店预订量和取消量:(bar)这个就比较简单了,就看is_canceled这个属性是不是0和1,画一个条形图就可以了。
3)酒店消费群体划分:(pie)成人,儿童,婴儿,这个明显适合画饼状图.。这个图依然可以用上一个图创建的对象,脑子不要太死板了。但是我理解错了,消费群体划分其实是按照部门market_segment来划分,饼状图是没有坐标轴的。
4)预订取消与历史取消数的关系:关系图应该怎么画?答:stripplot(分布散点图),这个散点分布图就是
5)各类旅客日均开销

1)基本情况:城市酒店和假日酒店预订需求和入住率比较;
2)用户行为:提前预订时长、入住时长、预订间隔、餐食预订情况;
3)—年中最佳预订酒店时间;
4)利用Logistic预测酒店预订。

总结:

SQL入门与实践 机器学习入门与实践 强化学习入门与实践 趣味视觉AI应用入门与实践 知识积累

os.walk()能够遍历出文件夹下所有的文件和文件夹,此函数的返回值是一个迭代器,所以一般配合for循环来使用。os.walk("./")表示调用当前文件所在的文件夹下的所有。
df.info():主要介绍数据集各列的数据类型,是否为空值,内存占用情况;
df.describe(): 主要介绍数据集各列的数据统计情况(最大值、最小值、标准偏差、分位数等等)。
df.hist(figsize=(20,15))画直方图,figsize表示每张直方图的尺寸大小,dpi 确定了图形每英寸包含的像素数,图形尺寸相同的情况下, dpi 越高,则图像的清晰度越高
.index=range(i.shape[0])索引下标等于矩阵的行数
value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。
value_counts()是Series拥有的方法,一般在Dataframe中使用时,需要指定对哪一列或行使用
list(range(len(通过遍历创建列表
plt.xlim() 显示的是x轴的作图范围,同时plt.ylim() 显示的是y轴的作图范围,而 plt.xticks() 表达的是x轴的刻度内容的范围简而言之就是把x的刻度显示换成其他的列表。
.groupby()分组以及分组后的继续运算。
当给画好的统计图上数字文本标识的时候,直接上代码就行:只需要修改传入括号里的实参就可以了。
for x,y in zip(x,y):
plt.text(x,y+0.1,’%d’ % y,ha = ‘center’,va = ‘bottom’)
画图准则就是先筛选行的df,再在这些行的基础上[筛选的列].value_counts。也就是最后落实在哪个属性,就哪个属性的value_counts()
plt.subplot(2,3,1)也可以简写plt.subplot(231)表示把显示界面分割成2*3的网格。其中,第一个参数是行数,第二个参数是列数,第三个参数表示图形的标号。说白了subplot就是画好几个图,把这好几个图都分格局。
seaborn的知识:
sns.distplot直方图:bins指x平均分成几等份,fit画一个回归线。
sns.jointplot直方图和散点图的结合版:数据量小就用散点图,数据量大的时候就设定参数kind=’‘hex’’,这个图是真的好看。
sns.pairplot数据集中两两之间的特征都画出来就不用for循环了。
sns.replot和sns.implot都可以绘制回归关系
sns.stripplot用于多变量分析,为了防止点都堆在一起,设置jitter=True更清晰一些。
sns.boxplot盒图或者箱线图
sns.violinplot小提琴图
sns.swarmplot树形散点图
sns.barplot条形图
sns.pointplot点图可以更好地描述变化差异
sns.factorplot多层面部分类图
FacetGrid用来布局,一般用法是创建FacetGrid对象,然后用这个对象来调用map函数来画图。
heatmap最实用的图:热度图,

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/333976.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号