This typo sparked a Microsoft Azure outage

Microsoft Azure DevOps, a suite of application lifecycle services, stopped working in the South Brazil region for about ten hours on Wednesday due to a basic code error.

On Friday Eric Mattingly, principal software engineering manager, offered an apology for the disruption and revealed the cause of the outage: a simple typo that deleted seventeen production databases.

Mattingly explained that Azure DevOps engineers occasionally take snapshots of production databases to look into reported problems or test performance improvements. And they rely on a background system that runs daily and deletes old snapshots after a set period of time.

During a recent sprint – a group project in Agile jargon – Azure DevOps engineers performed a code upgrade, replacing deprecated Microsoft.Azure.Managment.* packages with supported Azure.ResourceManager.* NuGet packages.

The result was a large pull request of changes that swapped API calls in the old packages for those in the newer packages. The typo occurred in the pull request – a code change that has to be reviewed and merged into the applicable project. And it led the background snapshot deletion job to delete the entire server.

“Hidden within this pull request was a typo bug in the snapshot deletion job which swapped out a call to delete the Azure SQL Database to one that deletes the Azure SQL Server that hosts the database,” said Mattingly.

Azure DevOps has tests to catch such issues, but according to Mattingly, the errant code only runs under certain conditions and thus isn’t well covered under existing tests. Those conditions, presumably, require the presence of a database snapshot that is old enough to be caught by the deletion script.

Mattingly said Sprint 222 was deployed internally (Ring 0) without incident due to the absence of any snapshot databases. Several days later, the software changes were deployed to the customer environment (Ring 1) for the South Brazil scale unit (a cluster of servers for a specific role). That environment had a snapshot database old enough to trigger the bug, which led the background job to delete the “entire Azure SQL Server and all seventeen production databases” for the scale unit.

The data has all been recovered, but it took more than ten hours. There are several reasons for that, said Mattingly.

One is that since customers can’t revive Azure SQL Servers themselves, on-call Azure engineers had to handle that, a process that took about an hour for many.

Another reason is that the databases had different backup configurations: some were configured for Zone-redundant backup and others were set up for the more recent Geo-zone-redundant backup. Reconciling this mismatch added many hours to the recovery process.

“Finally,” said Mattingly, “Even after databases began coming back online, the entire scale unit remained inaccessible even to customers whose data was in those databases due to a complex set of issues with our web servers.”

These issues arose from a server warmup task that iterated through the list of available databases with a test call. Databases in the process of being recovered chucked up an error that led the warm-up test “to perform an exponential backoff retry resulting in warmup taking ninety minutes on average, versus sub-second in a normal situation.”

Further complicating matters, this recovery process was staggered and once one or two of the servers started taking customer traffic again, they’d get overloaded, and go down. Ultimately, restoring service required blocking all traffic to the South Brazil scale unit until everything was sufficiently ready to rejoin the load balancer and handle traffic.

Various fixes and reconfigurations have been put in place to prevent the issue from recurring.

“Once again, we apologize to all the customers impacted by this outage,” said Mattingly. ®

Note: This article have been indexed to our site. We do not claim legitimacy, ownership or copyright of any of the content above. To see the article at original source Click Here

Related Posts
Announcing TNW Conference 2023: Reclaim the future thumbnail

Announcing TNW Conference 2023: Reclaim the future

Story by Zach Butler Events Director at TNW. Events Director at TNW. When TNW Conference first took place in 2006, the digital disruption was still in its early stages. The conference served as a platform for forward thinkers to explore what a tech-enabled future could, and eventually would, look like. Today, technology has transformed everything.
Read More
Pediatricians now recommend drugs and surgery for kids with obesity thumbnail

Pediatricians now recommend drugs and surgery for kids with obesity

Early start — Doctors step up fight against childhood obesity, say "watchful waiting" doesn't work. Beth Mole - Jan 10, 2023 12:13 am UTC Children as young as 12 with obesity should now consider taking weight-loss drugs, and those as young as 13 with severe obesity should consider metabolic or bariatric surgery, according to aggressive
Read More
Why Skincare That Burns Is So Satisfying thumbnail

Why Skincare That Burns Is So Satisfying

The ritual goes a little bit like this. Once or twice a month, I prance expectantly into my little bathroom and greet my face in the mirror. In the private sanctum of this intimate space, I scrutinize my skin under a soft amber bulb. The lighting here is gentle and welcoming, but the act I…
Read More
Surface Go 3 is now available in Thailand, comes with Windows 11, starting price 14,999 baht. thumbnail

Surface Go 3 is now available in Thailand, comes with Windows 11, starting price 14,999 baht.

 ไมโครซอฟท์ประกาศวางจำหน่าย Surface Go 3 ในประเทศไทยวันที่ 5 ตุลาคม 2564 ผ่านช่องทางตัวแทนจำหน่ายสำหรับสำหรับลูกค้าทั่วไปที่ Banana, JIB, DKAN, IT City, Power Buy และ Shopee Microsoft Authorized Store และลูกค้าภาคธุรกิจที่ CipherMed และ ADD In Business Surface Go 3 มาพร้อมที่สุดแห่งการพกพา สำหรับผู้ใช้งานที่มองหาการเชื่อมต่อ การทำงานร่วมกันและความบันเทิงที่สามารถพกพาไปได้ทุกที่ ราคาเริ่มต้นที่ 14,999 บาท ยังคงความเบาบางกับน้ำหนัก 544 กรัม หน้าจอสัมผัส PixelSense ขนาดใหญ่ 10.5 นิ้ว มาพร้อมกล้องที่ให้ความละเอียดคมชัดระดับ 1080p และมีไมโครโฟนสำหรับสตูดิโอคู่ที่ดีที่สุด ลำโพงสเตอริโอ และรองรับระบบเสียง Dolby มอบความสมบูณ์แบบในการเชื่อมต่อ โดยรุ่น LTE จะวางจำหน่ายในอีกไม่กี่เดือนข้างหน้า “เรามีความยินดีอย่างยิ่งที่ Surface Go 3พร้อมวางจำหน่ายในประเทศไทย เพื่อขยายไลน์อัพดีไวซ์ในตระกูล Surface สำหรับ Windows11 ให้ครบครันมากยิ่งขึ้น ดีไวซ์รุ่นใหม่ๆ ของ Windowsเข้ามาช่วยปลดล็อคนวัตกรรมอันล้ำสมัยให้กับฮาร์ดแวร์สำหรับอนาคต ในทศวรรษที่ผ่านมา Surfaceนับเป็นดีไวซ์แถวหน้า ที่มาพร้อมความท้าทายในการฉีกกฎจากรูปแบบเดิม ริเริ่มประสบการณ์ใหม่ และสร้างสรรค์รูปแบบใหม่ของดีไวซ์ เราเชื่อว่าด้วยความสามารถการพกพานี้ Surface Go 3จะช่วยให้ผู้คนจำนวนมากทำงานร่วมกันได้ดียิ่งขึ้น และรังสรรค์งานในทุกรูปแบบได้ทุกที่ ทุกเวลาไม่ว่าจะอยู่ที่ไหนก็ตาม โดยเฉพาะอย่างยิ่งในขณะนี้ที่เทคโนโลยีมีบทบาทสำคัญในการขับเคลื่อนโลกใบนี้” นางชนิกานต์ โปรณานันท์ รองกรรมการผู้จัดการ สายงานการตลาดและปฏิบัติการ บริษัท ไมโครซอฟท์ (ประเทศไทย) จำกัด กล่าว Surface Go 3 คือ Surface แบบทูอินวัน เหมาะสำหรับการพกพาที่สมบูรณ์แบบที่สุด เหมาะสำหรับทั้งการทำงาน การเรียน และความบันเทิง และถูกดีไซน์มาให้ใช้งานกับคุณสมบัติเด่นมากมายของ Windows 11 ได้อย่างลงตัว…
Read More
Index Of News
Total
0
Share