devops之gcp core infrastructure fundamental，大数据和机器学习

最后更新2022/02/13

google big data services提供了如下五种无服务器服务：

Cloud Dataproc, managed hardoop, map reduce，spark，Hive，Pig （俺都不知道是啥，也不敢问…以后自己偷着学吧，都是apache的处理模型）。业务创建飞快，90秒内可生成群集（完整搞一整套infrastructure俺还是知道的，从硬件服务器配置开始，怎么也要几天吧）；由于是serverless架构，即使job在运行，可以控制群集启停（都停了job运行还有意义？其实是说能保留运行状态，群集再启动能断点续传）。群集构建在computer engine虚机基础之上，具体虚机配置和数量还是可以控制，并非完全serverless，而且可以使用stackdriver去监视运行状态；还有其它一些好处，例如只按照硬件占有资源收费，可以为batch任务设置抢先参数，而获得更高折扣。这个抢先参数并非优先，而是当别人有空闲时自己才使用资源，其实应该翻译为插空。并非所有任务都可以设置插空参数，因为这种模式可能要求随时启动或者停止当前任务。即使是有状态的服务，如果每次启停都需要过多的前后处理，那么其结果也是得不偿失。Cloud Dataflow, 提供stream和batch处理，主要用于流水作业，适合ETL或orchestration。基于transform模型，这才能说是真正的serverless，已经完全无法看到计算引擎了，由系统自动管理群集规模。写好的执行代码可以自由选择在批处理或流处理模式下执行。示例过程：从bigquery拿数据（source），进行若干处理（map，reduce）transform，最后sink到datastorage。Big Query，数据库数据和流数据分析，提供高达每秒10万行处理，支持几百TB数据量（PB级别），SQL兼容（SQL 2011），不需要维护群集。全球支持，按存储数据量及查询收费（就是计量加计查，两个各收各的，总费用为二者之和，这样如果你授权别人使用这个数据，可以你只付数据存储费，他付查询费。长期保存数据有折扣，而且自动计算，例如超过90天，保存费从每G每月2分钱降为1美分）；还支持cost control（具体以后再研究，难道是达量限流？）BigQuery除了query，也支持创建、替换、更新、删除等写操作，但有一些限制及known issue（这个。。。还不赶快去干活修补！）。Cloud Pub/Sub，企业级信息处理（消息总线？），高扩展，例如支持10万/秒（又是10万？难道保存的数据库是bigquery？设置支持100万/秒，单用户最高10万）。消息可以推送，也可以拉取，支持离线用户（代为保存，不知可以保存多久），支持确保发送（但好像不支持仅发送一次，看来要用户自己进行已处理记录）。Cloud Datalab，交互式数据分析，可视化。基于Jupyter（大名是IPython）

下面是google machine learning平台支持。很多其它业务都使用了google machine learning api，例如youtube等。

TensorFlow，这是一种神经网络模型Cloud ML，由GCP完全管理的machine learning服务，基于bigquery和google storageMachine Learning API，预先训练好的machine learning模型，包括语音、视觉、翻译、自然语言。这些API都可以通过REST实现。支持80多种语言，实时翻译；

记录几个本节题外的信息，刚才quiz错了若干次：
datastore是sql数据库（有store，但却是数据库）
spanner是巨大的关系数据库
bigtable是nonSQL数据库（有table，但不是RDB）

devops之gcp core infrastructure fundamental，大数据和机器学习

大数据系统相关栏目本月热门文章