主机内存复用
优点:提高虚拟机开机密度
缺点:影响性能
原理
内存共享:多个虚拟机可以访问同一个物理内存,此时虚拟机仅对内存做只读操作,当虚拟机需要对内存进行操作时,开辟另一内存空间,并修改映射。内存置换:虚拟机长时间未访问内存内容被置换到存储(内存置换盘)中,并建立映射,当虚拟机再次访问该内存时再置换回来。内存气泡:Hypervisor通过内存气泡将较为空闲的虚拟机内存释放给内存使用率高的虚拟机,从而提升内存使用率。
其他:默认没有开启,可同时使用三种技术,理论150%的利用率
虚拟机启动策略
负载均衡
默认
系统自动根据使用CPU和内存各50%的加权值计算,选择占用率最小的主机
自动分配
虚拟机启动时,在集群中满足资源条件的节点中随机进行节点的选择
虚拟机NUMA结构自动调整
NUMA:Non Uniform Memory Access 非一致性内存访问
UMA:一致性内存访问,cpu访问内存通过前端总线(FSB),当cpu和内存特别多的时候,FSB会成为瓶颈
NUMA:将某个cpu和内存放到一个NUMA Node中,创建虚拟机时,尽可能地分配同一个NUMA Node中的资源,不会影响其他NUMA Node的资源,当NUMA Node资源不足时,通过快速通道互联(QPI)访问其他NUMA Node
NUMA与主机内存复用互斥
主机内存复用是为了开更多的虚拟机NUMA是为了提高性能
HA配置
HA:Highly Available,一种高可用特性,当物理机或虚拟机故障时,会根据集群HA策略将宕掉的虚拟机在正常工作的主机上开启,从而减少业务中断时间
虚拟机HA原理
VRM或者集群的Master节点检测到某计算节点故障或者虚拟机故障或者设定的预留资源得不到保障时,主动根据自身记录的虚拟机信息,在正常的节点上重新启动故障虚拟机
虚拟机HA流程
1、当VM故障或者物流节点故障,VRM查询VM状态,发现VM故障2、VRM节点判断VM有HA特性,则根据保存的VM信息(规格、卷等信息)选择可用的CNA主机启动VM3、CNA节点收到HA请求,根据VM规格、卷信息创建新的VM,启动过程中,将VM之前的卷重新挂载,包括用户卷
虚拟机HA约束条件
VM层面:安装Tools且正常运行,没有外设绑定FC层面:必须为共享内存,目标主机和源主机在同一集群且网络相通,集群开启HA功能,目标端有足够的资源开启VM
接入控制
HA资源预留集群允许主机故障设置
群体性故障控制
故障控制时间
默认2小时
处理虚拟机HA的主机数
默认2个
计算资源调度配置
计算资源调度自动化
DRS:Dynamic Resource Scheduling 动态资源调度
DRS与HA的区别
HA是为了保证业务连续性、DRS是为了资源均衡
FC集群无法使用DRS的原因
1、设置了聚集或者互斥规则组
2、虚拟机仅用了DRS 3、虚拟机与所在主机进行了绑定
4、虚拟机与DRS的目标主机不兼容 5、迁移阈值为“保守”
电源管理
DPM:Dynamic Power Management 动态电源管理
IMC配置
IMC:incompatible migration cluster 不兼容迁移集群
IMC模式
选择最低cpu的架构
使用Inter cpu场景
虚拟机替代项
可为单独的虚拟机设置规则Windows虚拟机蓝屏处理策略主机故障处理策略
各个规则优先级
DPM—用户自定义规则—DRS 热迁移
虚拟机热迁移
定义
将运行中的虚拟机从一台主机迁移到另一台主机上的过程,迁移过程不中断虚拟机的业务,用户无感知
原理
1、将虚拟机配置文件和设备信息传送到目标主机上2、传送虚拟机内存,将虚拟机迁移时的初始内存及内存变更分片同步到目标主机上3、暂停源虚拟机并传送状态,在源主机上暂停虚拟机,将最后的变更内存转到目标主机4、在目标主机上恢复虚拟机,并在源主机上停止虚拟机在迁移的瞬间生成内存位图,将原来的只读内存迁走,期间发生的变化记录在内存位图中,当原只读内存迁完之后开始迁内存位图,暂停上层IO下发,将内存位图迁走,在目标主机上开机,在原主机上停止虚拟机。
约束条件
虚拟机要求
虚拟机状态为“运行”虚拟机未绑定图形处理器、USB等外设设备
计算资源要求
目标主机不能是维护模式目标主机有足够的CPU和内存资源当跨集群迁移时,源主机所属的集群和目标主机所属集群的内存复用开关设置需相同迁移过程中不能下电或者重启源目主机如果源主机和目标主机的CPU(指的是同厂商不同代的CPU)类型不一致,需要开启集群的IMC模式
存储要求
虚拟机磁盘所在的数据存储和必须是共享存储
网络要求
源目主机网络必须互通,指CNA
应用场景
1、主机负载较重或者较轻的场景下,通过虚拟机热迁移实现负载均衡2、主机进行计划性停机维护3、当多数主机负载较轻时,可以将虚拟机迁移整合,以减少主机数量,提高资源利用率,实现节能减排
失败原因
1、源主机和目标主机网络中断或网络不通2、目标主机无法访问虚拟机的磁盘3、在迁移过程中源目主机故障、被重启或已进入维护模式4、源主机和目标主机的CPU类型不兼容5、目标主机资源不足6、设置了迁移超时时间,迁移时长超过了迁移超时时间(设置迁移超时时间:在创建迁移任务时可选,最低5分钟)
存储热迁移
原理
1、在目的存储上创建一个与源相同的空镜像文件2、将目的存储的镜像文件设置为源镜像文件的mirror,使虚拟机的IO写也能落盘在目的存储上,保证了脏块数的同步3、将源镜像的数据迁移到目的镜像中,保证了基线数据的同步4、在基线数据同步完成后,短暂的时间内暂停虚拟机的IO请求,将虚拟机的存储文件从源镜像切换到目的镜像上,这样就完成了存储的迁移
热迁移约束条件
虚拟机磁盘所在的数据存储必须时虚拟化数据存储
1、不支持迁移已挂载的“共享”类型的磁盘和链接克隆虚拟机的磁盘
链接克隆依赖母盘
2、不支持非持久化磁盘和开启iCache功能虚拟机磁盘
3、不支持数据存储为FusionStorage的迁移
FusionStorage为非虚拟化存储,不能挂载到CNA上
冷迁移约束条件
1、如果目的数据存储为块存储,不支持非持久化磁盘、带快照虚拟机磁盘的迁移2、如果源数据存储为FusionStorage,不支持非持久化磁盘、带快照虚拟机磁盘的迁移
应用场景
将数据存储所有卷迁移后,可以对数据存储进行减容可以调整数据存储之间的负荷 存储
磁盘配置模式
精简模式
创建完,不进行初始化,没有填0,使用时,写多少数据就填多少个0优点:按需分配,不占用未使用空间缺点:性能差,等到全部填完0之后与普通模式性能一样
普通模式
创建完磁盘后,不管是否写入数据,全部用0填充优点:性能好缺点:创建速度慢
普通延迟置零
创建完磁盘后,不用0填充,待第一次写入数据时,则全部用0填充优点:创建时不占用磁盘性能,待使用时性能好缺点:第一次写入数据慢
改变磁盘配置模式方法
vmware可以直接吧精简卷转换为普通卷,不能回转
华为不能直接转换,需要通过克隆虚拟机或者迁移数据存储实现转换
磁盘类型
普通:只能给一个主虚拟机使用,磁盘模式和磁盘配置模式可以根据共享存储类型来选择共享:可以给多个虚拟机使用,磁盘配置模式只能选择“普通模式”,不支持在线扩容
磁盘模式
从属
快照全拍
独立-持久
快照不拍数据盘
独立-非持久
类似于还原卡
差分盘
安装完操作系统,安装好软件并配置,已经可以正常使用了关机,并修改磁盘模式为独立-非持久开机会产生一个差分磁盘文件,从此新写入的数据将会写入到该磁盘中,如果是读旧数据,将通过指针读到源盘当将虚拟机关机后,CNA删除差分盘,下次开机重新生成差分盘
快照
裸设备做快照:COW
Copy on Write 写时复制。写前拷贝
当做了快照之后,不删除数据,新写入的文件的数据块也会复制到COW区域。从性能来讲,会影响写性能,但是对读性能没影响,不还原快照是不会读COW区域的。新建快照之后,上一次快照创建的COW就变成只读了,新创建的快照又会生成新的COW。还原快照后,快照还在,也就是拍快照前的数据的指针还在COW区域,所以快照可以拐弯。索引是以块为单位的,删除COW快照和源卷没有关系,因为所有数据都是写在源卷的。
带文件系统的虚拟机:ROW
Redirect On Write 写时重定向
从性能来讲,会影响读性能,但是对写性能没影响,不还原快照是不会丢数据的 故障处理
虚拟机不能互通分析
1、虚拟机防火墙是否关闭
2、两个虚拟机IP(IP配置、网关、跨网段)
3、安全组
安全组是配置在虚拟机的网卡上的默认拒绝所有添加的条目表示允许所有
4、两个虚拟机所连接的端口组
如果相同VLAN端口组,并且在相同DVS上
1、确定DVS工作正常,如果源和目标虚拟机在相同主机,无法通信,应当检查IP是否正确2、源和目标虚拟机不在相同主机上,此时通信要走外部网络,确定DVS无任何问题后,应当确认外部交换机上是否有该VLAN,并且上行链路要放行该VLAN
如果不同VLAN端口组,并且在相同DVS上
1、源和目标虚拟机在相同主机上,若IP地址在不同网段,则要求外部网络交换机配置路由2、源和目标虚拟机在不同主机上,同上
如果相同VLAN端口组,并且不在相同DVS上
需要检查交换机配置,交换机之间是否相连,并且放心对应VLAN
如果不同VLAN端口组,并且不在相同DVS上
需要检查交换机配置,交换机之间是否相连,并且放心对应VLAN,同时启用路由功能
若上层链路为绑定端口,则需要检查交换机侧是否也做好了对应的配置
排查物理交换机上的路由是否配置正确
大面积故障怎么处理
思路
1、存储问题2、网络问题3、底层系统问题
登录Portal查看告警信息以及是否有误操作
查看存储、网络、计算资源是否异常
登录FC,查看虚拟机状态是否正常
硬件排查
FusionAccess 登录流程客户端访问vAG地址,vAG将请求丢给vLB,vLB会根据负载请求发送给WI,在WI提供的页面输入用户名和密码,WI会去AD中验证用户身份,通过之后WI吧请求给HDC,HDC会从DB中查询与用户关联的桌面列表,然后将桌面列表发送给WI,用户就可以从WI页面中看到桌面了HDC从数据库查询到桌面的IP地址之后,就会向HDAs发起一个预连接请求,连接成功会返回给HDC,接下来HDC去License查询授权是否放行,放行之后,HDC会生成:Address Ticket(地址票)和login Ticket(登录票),选择网关之后,将登录信息发送给WI,WI发送给vLB/vAG/TC,到此,预连接结束TC发起连接,直接连接HDPs 故障处理
虚拟机灰色的
登录后虚拟机列表的虚拟机图标时灰色
虚拟机与HDC服务器网络不通
排查网络(物理连接、pinifconfig、route、dns、vlan)
虚拟机状态没有报到HDC里
排查网络尝试再次登录
虚拟机不是运行中
等待一段时间,待HDC拉起虚拟机后在登陆
虚拟机内部AccessAgent状态异常
自助维护台,一键修复重启虚拟机卸载重新安装AccessAgent
虚拟机转圈圈
预链接失败
HDC到HDA的网络故障或组件故障
时间不同步
License不足
虚拟机蓝色,连不上
虚拟机为蓝色,说明WI、vLB、HDC、GaussDB、License组件均正常
有vAG的情况
vAG故障客户端到vAG、vAG-HDC、vAG-HDA之间网络异常
无vAG的情况
客户端-HDA之间网络异常
License不足
客户端安装不正确
用户登录虚拟机失败
虚拟机与HDC服务器网络不通
排查网络(物理连接、pinifconfig、route、dns、vlan)
虚拟机不是运行中
等待一段时间,待HDC拉起虚拟机后在登陆
虚拟机被其他用户登录
等待登录的用户注销或关闭客户端后在登陆
虚拟机组无可用虚拟机(链接克隆)
License
许可证或者许可证已过期
License服务正常
其他
License服务故障
虚拟机注册失败
虚拟机与HDC服务器网络不通
排查网络(物理连接、pinifconfig、route、dns、vlan)
两台HDC服务器时间不同步,相差超过3min
处理NTP故障
HDC服务器发生跳变
参考时间跳变故障处理
HDC的fqdm未配置或者配置不正确
在DNS上配置HDC的正向解析
用户登录WI看不到虚拟机
WI–HDC、HDC–DB自建网络问题HDC组件故障根本没有给用户分配虚拟机DB中没有记录,ITA中的发放失败
云桌面发放虚拟机失败可能有那些原因?请给出排错思路
网络问题
尝试在ITA上去ping所有通用基础组件虚拟机,包括ping底层对接的虚拟化平台或云平台
基础组件对接问题
检查数据库、vAG、vLB连接、AD连接、HDC连接等
底层对接平台的问题
调用模板失败、DVS、数据存储等问题
无时间服务器
未配置NTP服务器导致各个组件或者虚拟机模板时间不统一
大面积桌面无法登录排错
虚拟机大范围无法访问,一般情况下,很少由于虚拟机配置错误导致的
查看ITA上的告警以及状态监控中查看各服务是否正常
查看对接平台上的告警,主机是否正常运行,网络,DVS,上行链路,端口组是否有问题,存储是否故障
物理硬件故障
交换机或者存储线缆松动配置变更误操作
如果我是用户,我现在通知你桌面登录不了了,你的排错思路?
确认版本配套
客户端AccessClient版本与虚拟机AccessAgent版本是否匹配浏览器是否为兼容版本
工具自检
自助维护控制台一键修复工具强制重启虚拟机日志收集与分析
检查基础架构虚拟机服务状态
检查ITA告警
查看各个组件服务状态
ITA、WI、HDC、vAG、vLB、LicenseAD、DNS、DHCP
模块日志分析
产品文档错误代码
虚拟机蓝屏怎么处理
强制重启虚拟机
VNC登录,进入高启动选项
最后一次正确配置启动操作系统
挂载ISO修复
虚拟机发放失败原因
ITA界面查询发放失败原因
告警日志分析查询文档
桌面云组件故障
ITA接口故障
对接VRM失败导致创建消息未发送到虚拟机
HDC故障
后续注册失败
DB故障
后续注册失败
对接的底层故障
FC VRM故障
对接ITA失败
CNA故障
创建虚拟机失败
FC资源不足
创建虚拟机失败
AD故障
加域失败
DHCP故障
获取不到IP地址
DNS
加域失败
各个组件通信故障
虚拟机网络故障
DHCP地址池分配完网卡未加载手动配置IP错误端口组错误 业务变更
追加计算机域用户
计算机“分配类型”为“静态多用户”计算机“运行状态”是“运行中”
解分配/恢复分配计算机
分配类型为“单用户”的计算机解分配后将自动关闭
分配类型为“单用户”的计算机解分配后再恢复分配,只能分配给原用户且用户组权限保持不变,不能再分配给其他用户
静态多用户和动态多用户分配方式的计算机解分配后不可以再分配
计算机解分配后再恢复分配,把计算机启动后,WI上虚拟图标变亮后,等待3分钟后登录
重建系统盘
计算机系统盘所在数据存储的剩余可用容量大于100GB“运行状态”为“运行中”或“已停止”“分配状态”为“已分配”“登录状态”不为“使用中”
还原系统盘
计算机系统盘所在数据存储的剩余可用容量大于100GB“运行状态”为“运行中”或“已停止”“分配状态”为“已分配”“登录状态”不为“使用中”
更新认证标识
计算机已被分配,且“运行状态”为“已停止” FusionStorage 组件介绍
FSM
FusionStorage Manager
FusionStorage管理模块,web管理,主备部署
FSA
FusionStorage Agent
代理进程,实现各节点FSM通信,可安装在任意一台Linux上
MDC
metaData Controller
元数据控制
对分布式集群的状态控制及控制数据分布规则、数据重建规则等
三节点,默认在ZK盘上,形成MDC集群,单数部署
ZK是集群、MDC是ZK中的进程
VBS
Virtual Block System
虚拟块存储管理组件
提供分布式集群接入点服务,通过VBS访问存储集群
默认一个节点一个,将数据计算、切片之后。根据规则由MDC控制切片的数据写入那块硬盘,由后端网络存储硬盘
OSD
Object Storage Device
对象存储设备服务
业务I/O进程,执行具体的I/O操作,一块磁盘就是一个OSD进程 FusionStorage MDC模块进程
MDC是一个高可用集群,通过HA机制保证整个系统的高可用性和高可靠性
1、通过Zookeeper集群,实现元数据(如:Topology、OSD View、Partition View、VBS View等)的可靠性2、通过Partition分配算法,实现数据多份副本的RAID可靠性3、通过与OSD、VBS间的消息交互,实现对OSD、VBS节点的状态变化的获取与通知4、通过与Agent间的消息交互,实现系统的扩建容、状态查询、维护等5、通过心跳检测机制,实现对OSD、VBS的状态监控
Zookeeper(简称ZK) 分布式服务框架主要用来解决分布式应用中经常遇到的,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等,ZK主要工作包括三项:
MDC主备管理: MDC采用一主两备部署模式;在MDC模块进程启动后,各个MDC进程会向ZK注册选主,先注册的为主MDC;运行过程中,ZK记录MDC主备信息,并通过心跳机制监控MDC主备健康状况,一旦主MDC进程故障,会触发MDC重新选主数据存储:在MDC运行过程中,会生成各种控制视图信息,包括目标视图、中间视图、IO视图信息等,这些信息的保存、更新、查询、删除操作都通过ZK提供的接口实现数据同步:数据更新到主ZK,由主ZK自动同步到两个备ZK,保证主备ZK数据实时同步。一旦ZK发生主备切换,业务不受影响
FusionStorage数据路由采取分层处理方式
VBS通过计算确定数据存放在哪个服务器的哪块硬盘上OSD通过计算确定数据存放在硬盘的具体位置
View
OSD View
OSD的数据应该存在什么地方
I/O View
记录主Partiton View
确定了Partition和主OSD的映射关系,一般该视图会由MDC更新并缓存至VBS
Partition View
记录主备Partition View
确定了Partition和主OSD的映射关系,一般该视图会由MDC更新缓存至VBS
主要模块交互关系
系统启动时,MDC与ZK互动决定主MDC。主MDC与其它MDC相互监控心跳,主MDC决定某MDC故障后接替者。其它MDC发现主MDC故障又与ZK互动升任主MDC
OSD启动时向MDC查询归属MDC,向归属MDC报告状态,归属MDC把状态变化发送给VBS。当归属MDC故障,主MDC指定一个MDC接管,最多两个池归属同一个MDC
VBS启动时查询主MDC,向主MDC注册(主MDC维护了一个活动VBS的列表,主MDC同步VBS列表到其它MDC,以便MDC能将OSD的状态变化通知到VBS),向MDC确认自己是否为leader;VBS从主MDC获取IO View,主VBS向OSD获取元数据,其它VBS向主VBS获取元数据
元数据存在MDC,主VBS向主MDC获取元数据,其他VBS向主VBS获取元数据
为什么数据不存在VBS
因为元数据实时变化
OSD与主MDC有心跳关系
MDC与VBS管理的元数据区别
MDC管理的元数据是FS中存储池的元数据,包含了组成结构(各种视图)以及该此所涉及组件的运行状态等信息VBS中的元数据指的是在系统初始化启动时,由MDC向VBS同步的信息,实际上是该节点所使用的存储池的IO视图OSD管理的元数据是每个1M分片的分配信息 部署
MDC、VBS、OSD都需要额外分配内存,为什么
view都是在内存中,但为了防止丢失,持久化在ZK盘中
融合部署
VBS和OSD部署在一起
虚拟化
分离部署
VBS和OSD分开部署
高性能数据库
组件部署原则
ZK部署原则
ZK分区
60G
不能和管理节点OS盘合布
ZK盘
MDC部署原则
最多96个MDC
OSD部署原则
一块硬盘一个OSD
VBS部署原则
单纯的存储资源池
不需要部署VBS
ISCSI
如果是访问其他人的VBS,则使用ISCSI协议
虚拟化、数据库
需要部署VBS
SCSI
如果是访问自己的VBS,则使用SCSI协议
部署VBS,此节点为存储节点,不部署VBS,此节点为计算节点,如果部署了VBS和OSD,即融合部署
业务场景下:安装了FSA识别不到硬盘要去安装相应服务器RAID卡的命令行工具,将命令行工具上传到FSM的软件包里面,像安装FSA那样安装命令行工具即可识别到服务器硬盘
加入存储池的硬盘,RAID支持直通模式需要打开直通模式,不支持,每个磁盘做RAID0
故障处理
坏一块盘,如何恢复数据
MDC监控所有VBS和OSD,发现异常后,马上启动指定集群中另外一个相同角色作为主角色若OSD损坏,则由MDC监控并发现该异常,并查询Partition视图后将备用OSD升为主OSD,同时更新IO视图,并将IO视图同步给VBS,将该OSD对应的磁盘设置为不可用状态触发并行恢复机制,取存储池中其他OSD与该Partition中的主OSD进行主备关系建立,从而完成恢复
故障
2副本
任意一台节点或任意一块硬盘
3副本
任意两台节点或任意两块硬盘
EC
N+M:原始数据:冗余数据
4+2
最多坏任意两台节点或任意两块硬盘
N+M:B
6+3:1
最多坏任意一台节点或任意三块硬盘 分布式与传统存储
成本结构不同
传统存储专有硬件、授权、组网、板块分布式使用服务器本地硬盘,通用型服务器即可搞定
组网
传统存储成本高,但逻辑简单分布式组网成本低,逻辑复杂
部署方式
传统存储部署简单分布式较为复杂
性能
传统存储性能较好分布式性能较差
维护、扩展
传统存储异构、维护各个厂家都不同分布式扩展性较好,简单
应用场景
传统存储成熟度高
交易型数据库,公安户籍系统
分布式一般应用于虚拟机等场景
DHT环
- 首先创建存储池,会选择服务器和硬盘,一个存储池就是一个完整的DHT环
- 创建完存储池后,DHT环按照1MB大小将存储池空间划分成N个Partition (1048576P)
- DHT环上每一个位置对应某一个主OSD的某一个区域。数据写入默认只写入主OSD,再由主OSD写入备OSD
keystone
鉴权
nova
管理和调度计算资源
角色
nova-api
接收reset消息
控制节点
nova-scheudler
选择合适的主机
控制节点
nova-conductor
数据库操作和复杂流程控制
控制节点
nova-computer
虚拟机生命周期管理和资源管理
计算节点
nova-novncproxy
novnc访问虚拟机代理
控制节点
nova-consoleauth
novnc访问虚拟机鉴权
控制节点
负责计算是怎样实现的
1、由nova-api接受请求2、nova-conductor将vm配置信息导入到DB中3、nova-scheudler从DB中获取信息并选择合适的computer4、nova-computer通过驱动调用底层资源进行创建
cinder
块存储
角色
cinder-api
接收和处理rest请求
cinder-scheduler
根据预定的调度过滤策略以及权重计算策略,选择出合适的后端来处理任务
cinder-volume
负责与后端存储进行对接,通过各厂商提供的driver将OpenStack操作转换为存储操作
cinder可以对接那些存储
FusionStorage
外部存储扩展本地磁盘
SAN
外部存储扩展本地磁盘
对接虚拟化后端使用的数据存储
cinder drive for VRM
本地磁盘
给组件使用
创建虚拟机磁盘的组件交互
neutron
管理网络资源
glance
镜像
glance可以对接那些存储
swift本次磁盘OBS服务
swift
对象存储
swift可以对接什么存储
类似于FusionStorage,指出要提供存储池
heat
应用编排服务
业务发放前,完成自动化的部署与管理,减轻管理源的业务量
ceilometer
云计量&云监控&计费
mongodb
随机小数据
Ironic
裸金属服务
三大存储区别
块存储
多个磁盘使用raid等技术实现将多个磁盘的资源构成一个大的块存储池,最终用户是用这个存储池的快资源,也就是LUN
对象存储
多个节点的本地文件系统,构成一个大的存储资源池,将池的资源分配给租户,这种最小分配单位叫做桶,桶不做存储方式的限制,有可能做总容量的限制
本次磁盘
内部的scsi总线进行连接
三大存储那些是需要文件系统的
块存储
是一个硬盘
对象存储
通常情况下,是一个文件系统 华为私有云网络规划
external-api
为管理员和用户提供一个外部登录的界面
上行链路放行指定vlan三层
external-om
后端资源对接
上行链路放行指定vlan和管理平面互通,也可以和管理平面合布
internal-base
内部基础组件自之间通信网络
上行链路指定默认vlan二层
业务平面
面向租户和用户
管理平面
私有云对接FC时需要规划VRM与CNAFSM与FSA
VIMS心跳平面
私有云对接FC时需要规划
存储平面
私有云对接FC时需要规划FC中CNA的存储网络
云内部服务走Internal_base、云内部用户走External_OM、云外部用户走External_API
云硬盘和本地硬盘的对比
本地磁盘
外部存储
普通性能
日常办公、小型测试
中等性能
普通数据库、应用VM
高性能
数据仓库
超高性能
NoSQL、关系型数据库
云硬盘
宿主机的物理磁盘空间
高IO、低时延、高吞吐量IO
磁盘模式
VDBSCSI
一块非共享云硬盘通知只能挂载到一个实例上
当云硬盘为共享盘时,默认支持同时最多挂载16个实例
私有云规划
1、用户调研
2、根据结果进行规划
3、测试方案
4、提交方案审核
5、采购
6、硬件上架安装系统、软件
7、安装完成,进行测试
8、验收
9、交付
文本资料规划方案实施文档项目进度测试报告验收报告培训 BCManager eBackup
组件介绍
备份服务器
负责备份和恢复任务的调度和监控,备份存储和生产系统的管理,并直接接收和响应用户的请求。备份服务器同时具备备份代理功能
备份代理
负责接收备份服务器下发的备份和恢复等任务,与生产系统和备份存储直接交互,以执行任务
维护终端
提供基于GUI和CLI的管理,实现对备份系统的监控,任务管理以及系统管理,用户通过维护终端发起备份恢复业务的请求
备份窗口
指对数据进行备份而不严重影响使用该数据的应用程序时,进行数据备份的时间间隔
组网
LAN-base
数据流和指令流都走的LAN网络
LAN-Free
数据流走SAN网络、指令流走LAN网络
备份流程
LAN-base
1、备份服务器通过前端LAN网络发送备份指令到备份代理2、备份代理会向VRM下达备份指令,VRM会通知虚拟机所在CNA打快照,由VIMS指定vhd文件拍快照3、CNA的hcagent通知备份代理快照打完了,备份代理下载快照中的数据备份到备份存储中4、备份结束后,删除快照合并数据
LAN-Free
1、备份服务器通过前端LAN网络发送备份指令到备份代理2、备份代理将指令发送到生产端,若生产存储为虚拟化存储,VRM会通知虚拟机所在的CNA打快照;若生产存储为FusionStorage,则由FusionStorage自己打快照3、备份代理挂载快照,将数据写入备份存储4、备份结束后,删除快照合并数据
应用场景
LAN-base
适合于备份数据量小,对备份窗口没有特殊需要的场景充分利用现有网络,节省投资,对设备要求低
LAN-Free
适合于数据量大,对备份窗口要求严格的场景需要单独规划一个存储网络,成本高数据流走存储网络,不会对主机业务造成影响
备份技术
CBT
生产端虚拟化存储,不保存快照,备份速率快,占用空间少 快照对比
生产端非虚拟化存储,保存快照,备份速率慢,占用空间大
网络平面
1、备份管理平面
eBackup对外提供服务的通信平面
2、内部通信平面
备份服务器与备份代理之间的通信平面
3、生产管理平面
备份服务区、备份代理与生产管理平面之间的通信平面
4、生产存储平面
备份服务区、备份代理与生产存储平面之间的通信平面 eReplization
等级
1、本地
应用层
WEB、DB 主机层
Cluster、HA 存储层
同步远程复制、双活、卷镜像 2、同城≤300km
同城双活
AP、AA存储层:HyperMetro计算层:HA应用层:Cluster网络层:DWDN、EVN传输层:设备冗余,冗余架构安全层:FW策略 主备容灾
同步远程复制异步远程复制 虚拟复制网关
主机层VRG
聚合VM的IO数据并经过压缩、加密后发送到远端站点
接收远端站点数据,并将数据路由发送到指定的主机上
提供复制策略下发、状态查询等管理接口
三个网卡
1、管理平面:与容灾软件通讯2、容灾平面:与本端CA节点对接3、业务平面:与对端VRG通讯 3、远程≤3000km
异步远程复制两地三中心
两地三中心容灾解决方案通过建立同城灾备中心和异地灾备中心,实现生产中心遭遇自然灾害或人为破坏时,通过异地的灾备中心快速恢复业务数据,从而保证业务连续性。随着科技的发展,企业的IT化程度越来越高。IT系统能否连续、安全的运行,成了企业正常运转的核心问题。在实际的生产环境中,威胁企业IT系统正常运作的因素有很多,例如设备宕机、网络故障、停电、人为灾难、自然灾害等。为应对这些威胁,企业通常会为关键的业务系统或数据中心建立容灾解决方案。两地三中心容灾解决方案是华为业务连续性容灾解决方案之一,其三数据中心并存的特性,能在任意两个数据中心受损的情况下保障核心业务的连续,大大提高容灾解决方案的可用性。两地三中心容灾解决方案包括了生产中心、同城灾备中心和异地灾备中心:生产中心,对外提供服务、同城灾备中心,通常在离生产中心几十公里的距离建立同城灾备中心,通过光纤网络直连,采用同步或异步复制方式进行容灾,是两地三中心容灾解决方案的第一级容灾保护、异地灾备中心,通常在离生产中心几百或者上千公里的地方建立异地灾备中心,应对区域性重大灾难,实现定时异步复制灾备,是两地三中心容灾解决方案的第二级容灾保护。级联
同步+异步、异步+异步、双活+异步适用于:安全性要求高,性能要求不高,压力不大 并联
同步+异步、异步+异步适用于:并发量大,性能要求高,压力大
FusionSphere容灾
存储层容灾
原理
存储的同步/异步远程复制
将业务数据从生产中心复制到灾备中心,实现生产中心的数据复制和保护
同步远程复制IO流程
1、当生产站点的主LUN和灾备站点的从LUN建立异步远程复制关系后,会启动初始同步,也就是将主LUN数据全量拷贝到从LUN
2、主LUN接收生产主机的写请求,写请求数据写入主LUN后,立即响应主机写完成
3、间隔一个同步周期后,会启动一个将主LUN数据增量同步到从LUN的同步过程
读取主LUN快照的数据,复制到从LUN,主LUN向从LUN同步数据完成后,分别删除主LUN和从LUN的快照,等待下一次同步
快照保证数据的一致性
步骤
1、生产存储创建LUN,规划容灾的主LUN
2、对接虚拟化,迁移虚拟机到容灾的LUN
3、容灾存储创建LUN,规划与主LUN同样大小的从LUN
4、配置生产存储与容灾存储链路
5、配置主从LUN远程复制关系一致性组
6、容灾软件上做主从端资源映射
网络资源集群资源
7、容灾软件上注册主从存储设备,发现远程复制LUN与一致性组
8、容灾软件上创建存储保护组,选择受保护主机,并设置保护策略
9、容灾保护相关配置数据同步
10、针对保护策略创建恢复计划
特点
1、基于存储的高级特性,将数据同步与主机分开,对主机业务影响小2、必须是华为企业级存储设备,采购成本高
使用场景
1、生产站点和容灾站点存储设备同为华为存储2、保护最小单位为LUN3、实现同步、异步远程复制4、被保护的为私有云场景下的LUN上的所有虚拟机
主机层容灾
原理
VRG
通过VRG将被保护的VM数据传到对端,在从端创建一台一样的占位VM
模板部署虚拟机
三个网卡
1、管理平面
与容灾软件通讯
2、容灾平面
与本端CA节点对接
3、业务平面
与对端VRG通讯
100G数据盘
缓存用
只适用基于XEN的虚拟化
Domain0通过容灾网络将数据复制到VRG中VRG通过业务网络复制到对端VRG中对端VRG通过容灾网络复制到占位虚拟机中
作用
1、聚合VM的IO数据并经过压缩、加密后发送到远端站点2、接收远端站点数据,并将数据路由发送到指定的主机上3、提供复制策略下发、状态查询等管理接口
步骤
特点
1、在主机上不需要更换太多现有的设备2、不用担心后端存储的兼容性3、可以对单台虚拟机进行备份4、需要占用主机资源,影响主机性能
使用场景
1、无法使用存储层复制2、保护的最小单位为虚拟机3、被保护的为服务器虚拟化场景中的虚拟机
备份与容灾
备份保护数据容灾保护业务
关键指标
RPO指灾难发生时的数据丢失量,标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO的值越小。
RTO指灾难发生到恢复的时间,标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO的值越小
Rainbow 原则风险从高到低对业务影响从小到大复杂度从易到难允许中断时长从长到短 方式
Windows块级
1、包含大量小文件的主机2、磁盘使用率高的主机3、需要使用分区结构与源端完全一致
Linux文件级
1、规划的目的VM磁盘空间大小相对于源端进行扩容或者减容2、只迁移部分数据文件,排除部分不迁移文件
老版本可以选、新版只能自动Windows块级、Linux文件级
特点
1、自动化迁移
自动挂载WinPE和LiveCD自动配置WinPE和LiveCD的IP
2、兼容性强
3、提供迁移可行性检测
4、支持并发迁移任务
5、通过多次同步功能保障一致性
影响迁移效率的因素1、源目磁盘性能2、迁移数据量3、源目主机负载4、迁移工具所采用的第三方组件的效率约束5、网络带宽及网络质量6、源目主机CPU和内存 迁移失败的原因
1、目标端没有足够资源2、迁移中源端关机3、网络问题、目标端-源端、Rainbow-源端、Rainbow-目标端网络不通4、源端存在压缩目录或空洞文件,可能会导致目的端空间不足5、源端使用特殊硬件或存在硬件绑定的软件应用,迁移后应用可能无法正常使用6、Rainbow不支持的源端类型、操作系统不兼容 迁移顺序
1、基础服务2、开发测试系统3、办公系统4、IT管理系统5、业务系统 Windows块级迁移流程
- 给源主机安装agent,监听8899端口
- 开始迁移任务,系统将ISO(共享)文件挂载到空虚拟机上,使用ISO启动虚拟机(winPE.iso)
- 给虚拟机配置IP地址(手动规划)
- 开启卷影副本功能,使用fastcopy将数据块复制到目标虚拟机,源主机8899端口,TCP 139 TCP 445端口
- 生成引导程序
- 卸载光盘,使用本地硬盘启动
- 测试
- 开始迁移任务,系统将ISO(共享)文件挂载到空虚拟机上,使用ISO启动虚拟机(LiveCD)
- 给虚拟机配置IP地址(手动规划)
- 将虚拟机的硬盘分区,格式化,挂载到liveCD /mnt文件夹上
- 使用scp传输文件,将源主机数据通过ssh复制到/mnt/vda1 /mnt/mapper/rhel-root文件中(实际就是目标虚拟机的磁盘)
- 生成引导程序(grub2-install /dev/vda)
- 卸载光盘,使用本地硬盘启动
- 测试
- 下载linuxImage.qcow2文件
- 将该文件上传到glance中
- 使用glance image发放云主机,直接将云主机发放到云硬盘中
- 源主机与目标云主机通讯,在源端和目标端通过ssh传输文件
- 使用云硬盘启动
1、信息收集2、业务关联性分析3、风险评估4、迁移策略5、流程规划6、迁移解决方案7、应急预案8、迁移准备9、迁移手册10、实施研讨11、环境准备12、迁移演练13、迁移实施14、监控15、优化16、评估17、验收 其他
不能离线迁移,支持离线镜像转换
无License
并发2台不限速
有License
并发30台最高迁移速率1024MB/s
迁移过程中停机了几次
一次
最后一次业务同步需要停机
数据做增量同步时做了几次同步
根据需求进行增量同步,没有具体限制,直到最后勾选最终同步选型最最后一次同步
不支持断点续传
文件级迁移可以调整文件
迁移时,目标主机的网卡是关闭状态
目标主机的CPU和内存 满足业务需求即可,无需与源端相同
windows需要安装代理,Linux不需要,为什么?
Linux使用ssh协议
如果迁移失败可以回退
迁移过程中未停止业务,迁移过程中产生了新数据使用rsyc同步
第一步: 在线将源端数据复制到目标端 (未停止业务) 10个小时 5G 30分钟第二步: 同步一次 (30分钟)(未停止业务)第三步: 停止业务,最终同步一次 2分钟第四步: 修改目标主机的配置(比如IP地址等),启动服务,客户端验证 论述题 论述一:私有云实施
1、私有云的机器上架上电后,你是项目负责人,现在还要考虑那些阶段
设备已上架代表前期环境调研,业务调研,用户需求,网络平面规划等阶段已经告一段落接下来需要进行云平台的安装,云平台内部系统测试,现有业务迁移云平台测试,业务正式迁移,业务验证,编写使用和维护手册,最后进行资料移交和验收。
2、实施过程
1)准备FCD的配置和安装,准备好各类软件;
2)根据网络规划中的External_OM、External_Api、Internal_base这三个网络平面,在FCD平台上启用一个网络接口,在接口中启用三个子接口,分别配置以上3个网络平面的子网和IP。在完成虚拟化平台安装之前禁止接入其他网线,避免网络冲突;
3)在交换机上配置External_OM、External_Api的相应VLAN并放行,使两个网络平面互通创建Internal_base的默认vlan,不放行仅供内部组件通信使用;
4)给FCD配置External_Api所在网段的IP地址,根据网络规划使用root用户编辑/opt/FusionCloudDeploy/fcdscript/fcd_config.ini文件并保存,执行sh /opt/FusionCloudDeploy/fcdscript/config_fcd_net.sh;
5)以上信息编辑完成之后,登录FCD管理页面,选择工程管理→新建工程,安装首个Region和首个Global和AZ;
6)下载LLD模板,根据模板修改主机类型,用户,时区,DNS,管理平面,网络平面,存储平面等各类信息。填写完成之后上传模板;
7)上传各类软件,开始安装,若干小时之后完成安装;
8)待安装完成之后,进行小规模内部组件测试,例如镜像上传,创建本地实例,弹性云服务器,云硬盘等,确认各类组件无异常;
9)内部系统测试完成之后,将客户测试用的主机进行迁移测试;
10)测试主机迁移完成之后可根据业务重要程度分批进行云平台迁移,直至所有业务迁移完成;
11)业务观察阶段,观察业务是否运行正常,对出现的问题及时修复;
12)归纳整理所有文件,方案,预案及实际数据提交给客户,确定培训时间,参与最终验收。
论述二:私有云规划
‘规划一个type3的私有云
1、了解客户需求
客户现网调研结果:
系统利用率低:烟囱式的系统建设部署方式导致系统资源无法共享,系统负载不均衡,整体资源利用率和能耗效率低。
建设扩容成本高:IT系统中原有的UNIX服务器、数据库和存储阵列占比比较高,标准化程度低,通用型差,导致建设扩容成本难以控制,给系统统一维护带来困难。
扩展能力有限:系统的scale-up和scale-out能力不足,难以应对越来越大的系统处理和存储压力。
针对以上现状,通过部署私有云来进行解决:
动态部署架构:构建基于标准化硬件设备和虚拟化架构之上的云计算基础设施资源池,可对上层应用按需提供弹性资源,实现多系统有效共享,有效提高IT系统资源利用率和能耗效率。
标准硬件单元:云计算采用标准的运算和存储处理单元,有效降低系统建设和扩容成本。
高可扩展性:云计算硬件集群技术和软件并行处理能力能偶提供出色的scale-out能力,几乎无限扩展IT系统的处理和存储能力。
2、规划那些网络平面,这些网络平面的作用
1)BMC平面:服务器ipmi管理网络
2)External-OM: 后端资源对接,vcenter、FusionStorage等,上行链路放行指定vlan、和管理平面互通,也可以和管理平面合布
3)External-Api:为管理员和用户提供一个外部登录的界面,上行链路放行指定vlan、三层
4)Internal-base: 内部基础组件之间通信网络,pxe,上行链路指定默认vlan、二层
5)Storage_date:管理节点存储
6)Public_Service:云服务后端VM、云服务DB的VM以及运维组件VM,HA-Proxy
7)Heart_beat:云服务心跳平面
8)DMZ_Service:云服务前端VM,LVS,Nginx
9)DMZ_Tenant:租户网络
云内部服务走Internal_base、云内部用户走External_OM、云外部用户走External_API
3、安装部署流程、组件安装顺序
1)安装FusionCloud Deploy,安装首个Region和首个Global和AZ;
2)新建部署工程,根据规划选择相应的服务与组件;
3)配置部署参数,根据规划填写LLD表,校验LLD无误之后进行上传软件包,校验软件包,校验无误之后开始安装;
4)正式安装,安装顺序:检查告警、OpenStack、Service OM、安装公共虚拟、NTP、DMK、ManageOne、GaussDB、Nginx、ESC UI、Haproxy、LVS、SMNSimple、DNS、SDR、CCS、组合API、VPC、TaskCenter、EVS、FusionCare等。
论述三:私有云故障处理
1、写出桌面指定文件里面截图故障的名称
弹性云服务器故障、弹性云服务器网络故障、弹性云服务器存储故障。
2、分析造成截图错误可能有哪些原因
弹性云服务器故障、nova-api组件异常、内部组件通信异常、资源池(计算 存储 网络 资源不足)、弹性云服务器 云硬盘配置错误、弹性云服务器存储故障、cinder-api组件异常、弹性云服务器配置错误、存储设备问题(存储设备故障 存储性能不足)、存储链路问题、弹性云服务器网络故障、neturn组件异常、内部通信异常、服务器或者交换机配置错误。
3、写出你的排查思路
故障处理主要流程一般可以分为:收集信息,判断,定位,排除
收集信息:故障信息作为故障处理的重要依据,系统维护人员应尽可能多的收集故障信息 登录到cps底层查看openstack的nova ,neturn,cinder组件是否正常,登录服务器底层查看var路径下的日志是有报错信息,登录到服务器ipmi界面,查看硬件是否正常
判断:排除故障之前,系统维护人员对收集到故障信息进行范围和类型进行判断
定位:根据收集到信息,通过排除法,定位是配置问题还是硬软件问题,具体原因具体分析。
排除:根据定位的原因进行分析,在不影响业务的最小情况下,在官方推荐的方法进行排除。包含检修网络线路,修改配置数据,重启相关进程,重启服务器等。
论述四:FA登录交互、排错
1、学校电子阅览室场景,虚拟机用什么,桌面组用什么,什么理由
学校的电子阅览室推荐使用链接克隆桌面,使用动态池的桌面组。首先电子阅览室并不需要个性化数据和应用,此外用链接克隆桌面可以批量的对所有桌面进行更新和维护,便于后期增册软件和安全更新。使用动态池桌面的优点在于支持自动关机还原桌面,不会对后来使用的同学造成影响,并且学生使用电脑是随机的,并不需要一个学生分配一个桌面,所以使用动态池桌面组最优。
2、虚拟机登录组件交互
1)客户端访问vAG地址,vAG将请求丢给vLB,vLB会根据负载请求发送给WI,在WI提供的页面输入用户名和密码,WI会去AD中验证用户身份,通过之后WI吧请求给HDC,HDC会从DB中查询与用户关联的桌面列表,然后将桌面列表发送给WI,用户就可以从WI页面中看到桌面了;
2)HDC从数据库查询到桌面的IP地址之后,就会向HDAs发起一个预连接请求,连接成功会返回给HDC,接下来HDC去License查询授权是否放行,放行之后,HDC会生成:Address Ticket(地址票)和login Ticket(登录票),选择网关之后,将登录信息发送给WI,WI发送给vLB/vAG/TC,到此,预连接结束;
3)TC发起连接,直接连接HDPs并扣除license。
3、若干虚拟机登陆界面系统卡在启动界面,什么问题,怎么排错处理
1)假如该阅览室有100台云桌面,10台卡在登录界面属于小范围故障。假设这10台都在一个CNA中,可能是该CNA出现了故障。
2)如果不是,则需要在CNA上查看是否有误操作,如虚拟机关机,虚拟机端口组修改了,虚拟机正在迁移等状况.通过VNC查看虚拟机IP地址是否被修改,在DHCP服务器中是否IP地址已分配超额。
3)在ITA服务器中查看各组件状态,如ITA、HDC、DB等组件的状况,并且确定WI到HDC、HDC到DB的网络状态,客户端到HAD的故障。查看ITA中这些虚拟机分配状态,是否是正常的,有可能发放失败,重启虚拟机后再次查看连接是否正常。虚拟机模板是否正常,也可能是这些虚拟机对接的链接克隆模板制作有问题。
4)查看license是否充足,license已全部分配,这些虚拟机也无法登录。
5)假如100台云桌面,90台出现故障,属于大范围故障程度,除以上排查方式外,还需要排查物理硬件故障,如CNA集群故障,物理服务器故障,存储故障,网络故障等大范围环境问题。
论述五:FA运维排错
某政府部门使用的是华为FA桌面云作为办公系统,某员工从终端登录发现某台完整复制虚拟机不见了,从FC等VNC可以正常登录该完整复制虚拟机
1、作为桌面云驻场工程师的你,请说一下可能造成该场景的原因有哪些?解决方案是啥?
1)虚拟机不见问题出现在获取虚拟机列表阶段
2)查看WI到HDC,HDC到DB的网络状态是否正常,通过ping命令确认网络连通性
3)HDC组件故障,DB组件故障可在业务非忙时重启HDC组件或FA的服务器
4)在ITA上查看虚拟机,可能分配给该用户的虚拟机被收回,尝试再次给该用户分配该虚拟机
2、该单位有4000分云桌面,其中100个云桌面突然无法登录,请分析造成这种情况有哪些原因?怎么解决?
1)有4000个云桌面,其中100台突然无法登录属于大规模故障;
2)从虚拟化平台角度出发,查看这100台云桌面所在的CNA是否发生故障,上行链路断开,虚拟化存储是否故障,SAN交换机是否出现异常。尝试重启CAN主机,无法重启可等待HA机制,这些虚拟机迁移到其他主机上开机后再次尝试,上行链路故障可查看是否是服务器网口或交换机网口故障,如果是光纤接口需要查看光模块状态。查看存储状态和SAN交换机状态,通常情况下均会有备份存储和SAN网络,等数据源进行切换后再次进行尝试登录;
3)这100台云桌面所在的场所的接入交换机是否故障,可选择重启交换机或接入备份交换机,再次尝试;
4)从桌面云服务器角度出发,查看ITA内各组件是否正常,如果组件异常可尝试重启ITA服务器或单独重启单个组件;
5)查看DHCP服务器,查看是否正常或者DHCP内地址池不充足,可启用新的DHCP地址池来解决。查看AD服务器,是否误删除了用户组,误删除了重新添加同样的用户组和用户信息即可;
6)查看NTP服务器,VNC登录故障虚拟机查看时间是否同步。
论述六:Rainbow迁移
1、Rainbow迁移场景,影响迁移因素
1)Rainbow迁移分为P2V(physicaltovirtual),V2V(virtualtovirtual)和UVP云平台内部虚拟机迁移;
2)影响因素有并行迁移虚拟机的数量,源主机和目的主机的CPU内存性能,源主机和目的主机磁盘性能和负载量,网络质量以及迁移用的第三方工具性能。
2、Rainbow迁移方式有哪些,区别是什么
1)Rainbow迁移分为块级迁移和文件级迁移。
2)块级迁移用于系统文件含有大量小文件的、磁盘使用率比较高,源虚拟机规格和目的虚拟机规格相近或一致的场景,最小迁移单位为LUN,迁移效率较高。适合用于windows迁移容错率高。
3)文件级迁移适用于目的虚拟机规格跟源虚拟机规格不一致的场景,以及指定文件迁移。排除文件不迁移的情况。最小迁移单位为虚拟机,适合用于linux这样由一个个文件组成的系统。
3、以Windows块迁移描述迁移流程以及迁移原理
1)给源主机安装agent,监听8899端口
2)开始迁移任务,系统将ISO(共享)文件挂载到空虚拟机上,使用ISO启动虚拟机(winPE.iso)
3)给虚拟机配置IP地址(手动规划)
4)开启卷影副本功能,使用fastcopy将数据块复制到目标虚拟机,源主机8899端口,TCP 139 TCP 445端口
5)生成引导程序
6)卸载光盘,使用本地硬盘启动
7)测试
论述七:业务上云
传统企业的运营包括办公系统、开发测试系统、业务系统。由于公司规模和运维环境的发展,传统模式无法满足企业要求,决定将运营系统全部上云
1、这3个系统迁移上云的顺序是怎样的?业务迁移影响的原则有哪些
1)顺序为,首先迁移测试系统,其次是办公系统,最后是业务系统
2)业务影响的原则有:规模从小到大,风险从低到高,难度从低到高,可停业务时间从长到短
2、作为项目迁移负责任的你,你认为该迁移项目可以分为那些阶段
1)进行业务和用户的调研,对用户现有业务进行调研,包括不限于设备信息,网络规划,业务关联性,迁移风险评估,迁移方式评估,迁移窗口期评估等
2)规划设计:根据调研信息进行表格化,将业务类型和重要程度进行等级划分,甚至对一些使用年限较久的物理设备着重注意。将迁移方式,迁移流程,风险评估,应急预案迁移后达到的效果等形成不同的文档,提交用户审核
3)测试和正式迁移:在各类方案研讨无误后进行迁移测试,准备测试所用的环境,模拟迁移结果,对迁移结果进行分析总结,再到根据迁移流程,迁移细则将所有正式业务进行迁移。
4)验收阶段:所有业务迁移完成后形成过程和结果统计,对已迁移完成的业务进行最终的确认,对不满足客户需求的状况查缺补漏,优化云平台上的业务,最后资料汇总,培训验收。
3、根据项目阶段划分,阐述一下可能出现的操作情况有那些
1)调研阶段可能出现用户对现有业务架构,网络架构,设备类型等认知不全的问题,此时需要客户协调各厂商,集成商等对该单位有足够了解的人召集商讨细化,直到对该单位的情况足够了解。再环境上可能会出现所用已久的物理设备或者操作系统并不能完美的进行迁移的主机,此时需要跟客户沟通,商量解决方案,对于这些情况需要明确表明并闸述给客户。
2)规划设计阶段主要可能出现的情况是现有的技术手段并不一定能完美实现用户需求,此时需要及时沟通,客户需要对此做出表态,无法实现的预期不能育目笔定。在应急预案和技术方案上大部分是以往经验,但不一定能满足所有单位的现状,在之后测试过程中详细记录并更新文档,尽量涵括所有可能发生的情况,并有解决办法。做好最坏的打算回退准备需要充足。
3)测试和迁移阶段,在测试时尽可能的模拟所有业务类型下的操作系统,对于一些特殊硬件和软件的设备需要协调厂商配合,对于确定无法完美迁移的业务需要与客户达成一致意见,做好物理设备和云平台同时工作的准备。迁移阶段需要严格按照迁移顺序进行随时做好多次迁移的准备,甚至最后回退都有可能,及时更新问题至各类手册中。
4)验收阶段,在完成验收之前需要对未解决的问题进行扫尾工作,优化各类系统,固化所有表格文档并提交,实在无法完成的预期需要多方协调并确认以后的动作,意见达成一致。
论述八:金融容灾
背景: 某金融客户,需要搭建一套灾备系统,要求发生灾难时数据0丢失,能抵抗大面积灾难(小于等于3000km)
1、容灾与备份的区别
备份是容灾的基础,通常指在数据中心内,将全部或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。
容灾系统是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。
一般意义上,容灾指的是不在同一机房的数据或应用系统备份,备份指的是本地的数据或系统备份。通常说的灾备是将容灾与备份结合,即本地备份结合远程数据复制实现完善的数据保护。
容灾保护的是业务,备份保护的是数据。如果只有备份,业务无法快速恢复,数据恢复需要时间,在这段时间内业务时无法使用的,对于某些行业这样的业务中断是无法容忍的;另外,备份一般是周期性执行,一旦数据发生损坏,从恢复时间到上次备份时间之间的数据会丢失。如果只有容灾,业务可以快速恢复,数据也可以被保护,但是生产端有错误的操作,或者系统升级失败等类似情况,会被同步到容灾端,也会造成数据或者业务的中断。容灾是业务的最后保障,备份是数据的最后保障。
2、根据用户的需求,你推荐使用华为的哪个容灾方案,原因是什么?
由于客户业务是金融业务,对业务连续性要求非常高,所以我推荐使用华为的两地三中心容灾解决方案。
华为的两地三中心容灾解决方案由本地数据中心、同城灾备中心和异地灾备中心组成,当本地数据中心遭遇不可抗力,如:洪灾、地震等自然灾害或人为灾害时,可以在灾备中心拉活业务,保障业务连续性,两地三中心解决方案可在任意两个数据中心不能提供业务的情况下保障核心业务的连续性,是非常适合金融业务这样对连续性要求非常高的场景。
3、根据你推荐的方案,有哪些组网方式,它们分别有哪些区别。
两地三中心的组网有级联和并联两种组网方式,级联组网可以使用同步远程复制+异步远程复制的技术、异步远程复制+异步远程复制的技术、双活+异步远程复制技术,此种组网方式适用于对安全性要求高,性能要求不高,压力不大的场景;并联组网可以使用同步远程复制+异步远程复制的技术、异步远程复制+异步远程复制的技术,此种组网方式适用于并发量大,性能要求高,压力大的场景。
论述九:电商容灾
电商做城域容灾
1、RPO和RTO是什么
RPO指灾难发生时的数据丢失量,标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO的值越小。
RTO指灾难发生到恢复的时间,标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO的值越小
2、从那些层面规划
可以从本地容灾的主机层、应用层、存储层等,同城容灾的同城双活、主备容灾、虚拟化复制网关等,远程容灾的异地远程复制、两地三中心来进行规划
3、这些层面用了哪些技术
本地容灾可以使用虚拟化软件的集群,HA等技术,运行业务的WEB集群、数据库集群等技术,存储层的双活、同步远程复制技术或卷镜像技术;同城容灾主机层可以使用虚拟化软件的集群、HA等技术,存储的双活、同步/异步远程复制技术,网络的DWDN,设备冗余,冗余架构,安全设备的策略,虚拟化复制网关VAG等技术;两地三中心可以使用存储的双活+同步远程复制、同步远程复制+异步远程复制、异步远程复制+异步远程复制等技术。



