据外媒报道,微软Azure虚拟机服务在2021年10月13日遭遇了从世界协调时05:12到世界协调时11:45的6小时中端。其中,使用Windows虚拟机的Azure客户子集在执行服务管理操作时面临各种问题,包括启动、创建、更新和删除虚拟机的许多操作失败,依赖Windows虚拟机的服务也可能遇到类似的故障。
针对此事,微软也公布了初步调查结果:
我们发现调用在服务管理操作期间失败,因为无法查询所需的工件版本数据。我们的调查集中在后端计算资源提供程序(CRP)上,以确定调用失败的原因,并确定无法从存储库中查询所需的虚拟机标签。虚拟机来宾代理扩展发布架构正在迁移(作为传统服务管理后台系统迁移的一部分)到一个新平台,该平台利用了最新的Azure资源管理器(ARM)功能。
缓解措施:我们通过将适当的扩展标记为正确的预期级别(在这种情况下,它是开放的)来缓解影响。工程师积极验证,更新完成后,手术恢复到完全成功率。
下一步。我们将继续调查,以确定完全的根本原因,并防止其在未来发生。完整的根本原因分析(RCA)将在72小时内发布。"