栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

devops之gcp core infrastructure fundamental,大数据和机器学习

devops之gcp core infrastructure fundamental,大数据和机器学习

最后更新2022/02/13

google big data services提供了如下五种无服务器服务:

Cloud Dataproc, managed hardoop, map reduce,spark,Hive,Pig (俺都不知道是啥,也不敢问…以后自己偷着学吧,都是apache的处理模型)。业务创建飞快,90秒内可生成群集(完整搞一整套infrastructure俺还是知道的,从硬件服务器配置开始,怎么也要几天吧);由于是serverless架构,即使job在运行,可以控制群集启停(都停了job运行还有意义?其实是说能保留运行状态,群集再启动能断点续传)。群集构建在computer engine虚机基础之上,具体虚机配置和数量还是可以控制,并非完全serverless,而且可以使用stackdriver去监视运行状态;还有其它一些好处,例如只按照硬件占有资源收费,可以为batch任务设置抢先参数,而获得更高折扣。这个抢先参数并非优先,而是当别人有空闲时自己才使用资源,其实应该翻译为插空。并非所有任务都可以设置插空参数,因为这种模式可能要求随时启动或者停止当前任务。即使是有状态的服务,如果每次启停都需要过多的前后处理,那么其结果也是得不偿失。Cloud Dataflow, 提供stream和batch处理,主要用于流水作业,适合ETL或orchestration。基于transform模型,这才能说是真正的serverless,已经完全无法看到计算引擎了,由系统自动管理群集规模。写好的执行代码可以自由选择在批处理或流处理模式下执行。示例过程:从bigquery拿数据(source),进行若干处理(map,reduce)transform,最后sink到datastorage。Big Query,数据库数据和流数据分析,提供高达每秒10万行处理,支持几百TB数据量(PB级别),SQL兼容(SQL 2011),不需要维护群集。全球支持,按存储数据量及查询收费(就是计量加计查,两个各收各的,总费用为二者之和,这样如果你授权别人使用这个数据,可以你只付数据存储费,他付查询费。长期保存数据有折扣,而且自动计算,例如超过90天,保存费从每G每月2分钱降为1美分);还支持cost control(具体以后再研究,难道是达量限流?)BigQuery除了query,也支持创建、替换、更新、删除等写操作,但有一些限制及known issue(这个。。。还不赶快去干活修补!)。Cloud Pub/Sub,企业级信息处理(消息总线?),高扩展,例如支持10万/秒(又是10万?难道保存的数据库是bigquery?设置支持100万/秒,单用户最高10万)。消息可以推送,也可以拉取,支持离线用户(代为保存,不知可以保存多久),支持确保发送(但好像不支持仅发送一次,看来要用户自己进行已处理记录)。Cloud Datalab,交互式数据分析,可视化。基于Jupyter(大名是IPython)

下面是google machine learning平台支持。很多其它业务都使用了google machine learning api,例如youtube等。

TensorFlow,这是一种神经网络模型Cloud ML,由GCP完全管理的machine learning服务,基于bigquery和google storageMachine Learning API,预先训练好的machine learning模型,包括语音、视觉、翻译、自然语言。这些API都可以通过REST实现。支持80多种语言,实时翻译;


记录几个本节题外的信息,刚才quiz错了若干次:
datastore是sql数据库(有store,但却是数据库)
spanner是巨大的关系数据库
bigtable是nonSQL数据库(有table,但不是RDB)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/748696.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号