系统运维
【服务器故障情况概述】
今天介绍的是服务器raid5阵列因为不明原因导致阵列崩溃后的故障排查方法,以及服务器数据恢复过程。下面简单介绍一下需要恢复数据的服务器硬件配置情况:
本次数据恢复案例中的服务器型号为某品牌X3850型号,服务器上组建了一个raid5磁盘阵列,阵列里包含4块成员盘和1块热备盘一共5块。
服务器再正常使用过成功突然崩溃,管理员查看raid阵列状态时发现阵列中有2块硬盘掉线,热备盘没有启用。需要从服务器层面进行数据恢复操作。
·
【服务器数据恢复普通流程】
首先关闭服务器并保证在排查故障和数据恢复的过程中原始服务器状态不被破坏或变更。
将阵列内所有硬盘明确编码后移除服务器,将硬盘挂载到服务器数据恢复专用存储设备上,对raid5阵列中的所有硬盘做完全镜像后恢复故障服务器状态。
对镜像出的服务器数据进行raid结构分析,通过分析提取到磁盘阵列的raid条带信息、条带分布规律、raid阵列校验方向以及meta区域等基础信息。
得到上述阵列信息后,服务器数据恢复工程师在数据恢复专用服务器上虚拟重组了一个相同的raid5阵列环境,进一步解析虚拟磁盘的文件系统数据。
对分析出来的数据进行验证提取,确认数据正确后使用linux livecd或win pe(通常不支持)等进行数据回迁。
·
【服务器raid5数据恢复过程】
数据恢复工程师对所有硬盘进行镜像后分析raid5结构,经过分析得到最佳结构为0,1,2,3盘序,缺3号盘,块大小512扇区,backward parity(Adaptec),
按照服务器数据恢复普通方法,数据恢复工程师对上述数据进行验证,所有压缩包均可正常解压,结构正确。
按照数据恢复工程师分析到的raid5阵列结构虚拟重组raid阵列,重组后的raid5阵列经过验证未发现任何报错。
对raid5阵列的文件系统进行解析和数据提取,提取数据正常。
经客户服务器管理员对提取出来的数据验证后配合客户管理员将恢复出来的所有数据回迁到客户准备的服务器内。回写后启动操作系统进行最终数据验证。
·
【服务器数据恢复结果】
经过客户服务器管理员验证,服务器raid5阵列内的所有数据恢复完整,数据应用正常,本次数据恢复圆满完成。