/ t, [2 V* w( m
- f8 g1 X; i: H" R8 m' r1 m
说实话。。这个真是我在国内第一次看 SLA 补偿的云服务公司:( L, \) W/ k7 Z$ }4 H! p0 Q% }4 P8 w
H5 d- m+ ?# S2 \: s; n4 T% R
- 尊敬的用户:
+ J. B+ D3 a3 M' R, w% |) N - ) b$ d) A- ]0 x, q; o) h+ O% [
- 因广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障,昨天下午QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用,对此我们深表歉意。现将事故完整过程报告给您:
, \4 S6 y+ ?& Y( I* H3 Y% F - 0 q7 K: B0 f: N* C
- 13:48,我们收到GD1硬件及网络告警,并发现官网及控制台无法访问;工程师马上进行系统状态检查,发现GD1所有硬件设备出现重启;随即我们与GD1所在的IDC运营商沟通询问机房情况,同时排查其他可能导致设备重启的原因,并着手恢复管理服务(KS);其间,我们收到大量用户反映GD1业务中断;
. [9 w# ~7 W+ R( O! _
# x9 S0 h$ O$ F; S/ h- 14:08,操作切换DNS以恢复官网及控制台;
r E" @- M! F o) |, y- l - $ b' l7 }3 ^5 `! e6 E( @, @! o
- 14:23,我们从IDC运营商处获知由于机房所在地区出现雷暴天气,机房因雷击引起UPS异常,机柜瞬时断电再加电,从而导致了青云的全部物理设备异常关机与重启;9 {/ [! X K/ C3 F
- ( U7 }1 ~0 e( ]$ ` S
- 14:38,GD1的管理服务恢复,Bots系统恢复,开始恢复用户主机;用户可以访问GD1资源;DNS完全生效,官网及控制台访问恢复;' W2 |% @5 Q% {$ ]3 l4 w0 Z5 q
5 t- G w8 M Q: u( D- 15:15,内网DNS Server恢复;系统持续检查环境和帮助用户恢复业务;
8 V, h/ d, s9 |
# v" |$ ^3 @( v8 c* p4 p" B- 16:19,GD1业务完全恢复,进一步检查后,于16:30分发布恢复公告。- k P: S. Y R( n, b3 e
- : p! X) W3 R! c$ R* O' x9 E. [, U. `* I
- 本次严重故障从设备重启到用户业务恢复共耗时2小时31分钟,系统数据和用户的业务数据未出现任何丢失。
+ x, x4 V/ L" H- `( K7 ^ - 2 c! y7 {& _" p% F7 J
- 针对本次故障对您的业务造成的影响,我们对受影响的资源按照故障时间的10倍进行赔付,总共是2.5小时 × 10 = 25小时,赔付将以系统赠送的形式给大家进行发放。您可以在 充值记录页 进行查看。 F6 x( j, N( Q3 G" n
- & C1 ]1 N) l( a5 F4 k3 m' p2 I
- 再次,向您表示深深的歉意,也希望在您的支持和帮助下,不断提升我们的服务水平。 您也可以通过下述链接了解关于故障的更多细节。) H' S7 ?7 l; B" w
- K; w4 m. F# N: O9 T- 关于2015年6月6日青云QingCloud广东1区(GD1)机房电力故障的详细说明2 d ?, [" X' t( p4 v( U# `
- " o/ \2 d7 a" m
- 青云QingCloud
复制代码
7 k# V8 |% s% ~! p8 a+ f
6 Q2 T& D7 D& v# p认认真真做事。。必定能成功
1 Q* M2 m: N/ n) Q h |