栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python数据分析与数据化运行-学习笔记(1)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python数据分析与数据化运行-学习笔记(1)

chapter 2 数据化运营的数据来源

2.1 数据化运营的数据来源类型

2.1.1 数据文件

        结构化数据文件大多来源于数据库。

        txt(任意指定分隔符)、csv(以逗号分割的数据文件)、tsv(以制表符分割的数据文件)时最常用的数据文件格式。

        不同工具对于文件打开的性能支持有差异,文件<=100M-----Excel,几百M-----notepad,G-----ultraedit。

2.1.2 数据库

        数据库是按照数据结构来组织、存储和管理数据的仓库,广泛应用于CMS,CRM,OA,ERP,DSS,数据仓库和数据集市,进销存管理,生产管理,仓储管理等各类企业运营事务中。

数据库应用

应用类型具体应用
事务型工作数据的定义、存储、增加、删除、更新、查询
数据清洗数据传输、同步、抽取、转换、加载
分析型工作数据计算、关联查询、OLAP
其他

数据权限控制、数据质量维护、异构数据库、多系统通信交互

数据库类型

类型应用场景
非关系型面向高性能并发读写的键值数据库,有点事具有极高的并发读写性能,查找速度快,典型代表是Redis、Tokyo Cabinet、Voldmort
面向海量文档的文档数据库,有点事对数据要求不严格,无需提前定义和维护表结构,典型代表为MongoBD、CouchDB
面向可扩展性的列式数据库,优点是查找速度快,可扩展性强,通过分布式扩展来适应数据量的增加以及数据结构的变化,典型代表为Cassandra、Hbase、Riak

面向图结构的图形数据库,优点是利用图结构相关算法,满足特定的数据计算需求,例如最短路径搜寻、关系查询风,典型代表是Neo4J、InfoGrid、InfiniteGraph

关系型DB2、Sybase、Oracle、PostgreSQL、SQL Server、MySQL等

2.3.1 API

服务型API基于预定义的规则,通过调用API实现特定功能。
数据型API通过特定语法向服务器发送数据请求,返回特定格式的数据,多返回JSON(由Javascript创建,广泛应用于web数据交互)、XML格式(可扩展标记语言)

2.4.1 流式数据

        流式数据指的是实时或者接近实时的时效性处理的大数据流。常见的流式数据处理使用Spark、Storm和Samza框架。应用场景:在线个性化推荐系统、网站用户实时行为采集和分析、物联网机器日志实时分析、金融实时消费反欺诈、实施异常人员识别等。

按照数据对象分类

用户行为数据流

围绕人产生的数据流

用户行为数据流采集平台可分为web站、移动站和app应用

可使用JS脚本采集、Noscript、

SDK(针对APP)

机器数据流

围绕物产生的数据流

包括从机器的生产、制造、应用、监控和管理等过程产生的所有数据

例如机器运行日志、传感器监控数据、音频采集器数据、监控图像和视频、GPS地理数据等

2.1.5 外部公开数据

2.1.6 其他来源

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/589378.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号