ความพร้อมใช้งานสูง

Q: ข้อมูลสำคัญเกี่ยวกับ ความพร้อมใช้งานสูง

ความพร้อมใช้งานสูง ( HA ) เป็นลักษณะเฉพาะของระบบที่มุ่งให้มั่นใจว่าระดับประสิทธิภาพการทำงานตามที่ตกลงกันไว้ ซึ่งโดยทั่วไปคือ เวลาทำงาน เป็นระยะเวลานานกว่าปกติ [ 1 ]

Q: หลักการ

มีหลักการ ออกแบบระบบ สามประการ ใน วิศวกรรมความน่าเชื่อถือ ที่สามารถช่วยให้บรรลุความพร้อมใช้งานสูงได้ [ 10 ]

ความพร้อมใช้งานสูง ( HA ) เป็นลักษณะเฉพาะของระบบที่มุ่งให้มั่นใจว่าระดับประสิทธิภาพการทำงานตามที่ตกลงกันไว้ ซึ่งโดยทั่วไปคือเวลาทำงานเป็นระยะเวลานานกว่าปกติ^{[ 1 ]}

ปัจจุบันมีการพึ่งพาระบบเหล่านี้มากขึ้นอันเป็นผลมาจากการพัฒนาให้ทันสมัย ตัวอย่างเช่น โรงพยาบาลและศูนย์ข้อมูลจำเป็นต้องมีระบบที่มีความพร้อมใช้งานสูงเพื่อให้สามารถดำเนินงานประจำวันได้ความพร้อมใช้งานหมายถึงความสามารถของผู้ใช้ในการเข้าถึงบริการหรือระบบ ไม่ว่าจะเป็นการส่งงานใหม่ การอัปเดตหรือแก้ไขงานที่มีอยู่ หรือการเรียกดูผลลัพธ์ของงานก่อนหน้า หากผู้ใช้ไม่สามารถเข้าถึงระบบได้ ระบบจะถือว่า ไม่พร้อม ใช้งานจากมุมมองของผู้ใช้^{[ 2 ]} โดยทั่วไปแล้ว คำว่าdowntimeใช้เพื่ออธิบายช่วงเวลาที่ระบบไม่พร้อมใช้งาน

ความยืดหยุ่น

ความพร้อมใช้งานสูงเป็นคุณสมบัติของความยืดหยุ่นของเครือข่าย ซึ่งหมายถึงความสามารถในการ "ให้บริการและรักษาระดับการบริการที่ยอมรับได้เมื่อเผชิญกับข้อผิดพลาดและความท้าทายต่อการทำงานปกติ" ^[³^]ภัยคุกคามและความท้าทายสำหรับบริการอาจมีตั้งแต่การกำหนดค่าผิดพลาดอย่างง่ายไปจนถึงภัยพิบัติทางธรรมชาติขนาดใหญ่และการโจมตีแบบเจาะจง^[⁴^]ด้วยเหตุนี้ ความยืดหยุ่นของเครือข่ายจึงครอบคลุมหัวข้อที่หลากหลายมาก เพื่อเพิ่มความยืดหยุ่นของเครือข่ายการสื่อสารที่กำหนด ความท้าทายและความเสี่ยงที่อาจเกิดขึ้นจะต้องได้รับการระบุ และต้องกำหนดตัวชี้วัดความยืดหยุ่นที่เหมาะสมสำหรับบริการที่จะได้รับการปกป้อง^[⁵^]

ความสำคัญของความยืดหยุ่นของเครือข่ายเพิ่มขึ้นอย่างต่อเนื่อง เนื่องจากเครือข่ายการสื่อสารกำลังกลายเป็นองค์ประกอบพื้นฐานในการดำเนินงานของโครงสร้างพื้นฐานที่สำคัญ^{[ 6 ]}ด้วยเหตุนี้ ความพยายามล่าสุดจึงมุ่งเน้นไปที่การตีความและปรับปรุงความยืดหยุ่นของเครือข่ายและการประมวลผลด้วยการประยุกต์ใช้กับโครงสร้างพื้นฐานที่สำคัญ^{[ 7 ]}ตัวอย่างเช่น อาจพิจารณาการจัดหาบริการผ่านเครือข่ายเป็นเป้าหมายของความยืดหยุ่น แทนที่จะเป็นบริการของเครือข่ายเอง ซึ่งอาจต้องมีการตอบสนองที่ประสานงานกันจากทั้งเครือข่ายและจากบริการที่ทำงานอยู่บนเครือข่าย^{[ 8 ]}

บริการเหล่านี้ได้แก่:

รองรับการประมวลผลแบบกระจาย
รองรับการจัดเก็บข้อมูลเครือข่าย
การบำรุงรักษาการให้บริการด้านการสื่อสาร เช่น
สามารถเข้าถึงแอปพลิเคชันและข้อมูลได้ตามต้องการ

ความยืดหยุ่นและความอยู่รอดสามารถใช้แทนกันได้ ขึ้นอยู่กับบริบทเฉพาะของการศึกษาที่กำหนด^{[ 9 ]}

หลักการ

มีหลักการออกแบบระบบ สามประการ ในวิศวกรรมความน่าเชื่อถือที่สามารถช่วยให้บรรลุความพร้อมใช้งานสูงได้^{[ 10 ]}

การกำจัดจุดล้มเหลวเพียงจุดเดียวหมายถึงการเพิ่มหรือสร้างระบบสำรองเข้าไปในระบบ เพื่อให้หากส่วนประกอบใดส่วนประกอบหนึ่งล้มเหลว ระบบทั้งหมดก็จะไม่ล้มเหลวไปด้วย
จุดเชื่อมต่อที่เชื่อถือได้ ในระบบสำรองจุดเชื่อมต่อเองมักกลายเป็นจุดล้มเหลวเพียงจุดเดียว ระบบที่เชื่อถือได้จึงต้องมีจุดเชื่อมต่อที่เชื่อถือได้
การตรวจจับความล้มเหลวขณะที่เกิดขึ้น หากปฏิบัติตามหลักการสองข้อข้างต้น ผู้ใช้อาจไม่เคยเห็นความล้มเหลวเลย แต่จะต้องมีการบำรุงรักษาเกิดขึ้น

การหยุดทำงานตามกำหนดและนอกกำหนด

สามารถแยกความแตกต่างระหว่างเวลาหยุดทำงานตามกำหนดและเวลาหยุดทำงานที่ไม่ได้กำหนดไว้ได้ โดยทั่วไปเวลาหยุดทำงานตามกำหนดเป็นผลมาจากการบำรุงรักษาที่ขัดขวางการทำงานของระบบและโดยปกติแล้วไม่สามารถหลีกเลี่ยงได้ด้วยการออกแบบระบบที่ติดตั้งในปัจจุบัน เหตุการณ์เวลาหยุดทำงานตามกำหนดอาจรวมถึงแพตช์ซอฟต์แวร์ระบบที่ต้องรีบูตหรือการเปลี่ยนแปลงการกำหนดค่าระบบที่จะมีผลเฉพาะเมื่อรีบูตเท่านั้น โดยทั่วไป เวลาหยุดทำงานตามกำหนดมักเป็นผลมาจากเหตุการณ์เชิงตรรกะที่เริ่มต้นโดยฝ่ายบริหาร เหตุการณ์เวลาหยุดทำงานที่ไม่ได้กำหนดไว้มักเกิดขึ้นจากเหตุการณ์ทางกายภาพ เช่น ความล้มเหลวของฮาร์ดแวร์หรือซอฟต์แวร์ หรือความผิดปกติของสภาพแวดล้อม ตัวอย่างของเหตุการณ์เวลาหยุดทำงานที่ไม่ได้กำหนดไว้ ได้แก่ ไฟฟ้าดับ ส่วนประกอบ CPUหรือRAM ล้มเหลว (หรืออาจเป็นส่วนประกอบฮาร์ดแวร์อื่นๆ ที่ล้มเหลว) การปิดระบบที่เกี่ยวข้องกับอุณหภูมิสูงเกินไป การเชื่อมต่อเครือข่ายถูกตัดขาดทางตรรกะหรือทางกายภาพ การละเมิดความปลอดภัย หรือความล้มเหลวของแอปพลิเคชัน มิดเดิลแวร์และระบบปฏิบัติการ ต่างๆ ^{[ 11 ]}

หากสามารถแจ้งเตือนผู้ใช้ให้หลีกเลี่ยงช่วงเวลาที่ระบบหยุดทำงานตามกำหนดการได้ การแยกแยะความแตกต่างนี้ก็จะมีประโยชน์ แต่หากความต้องการคือความพร้อมใช้งานสูงอย่างแท้จริงแล้ว การหยุดทำงานก็คือการหยุดทำงาน ไม่ว่าจะมีการกำหนดตารางเวลาไว้หรือไม่ก็ตาม

เว็บไซต์ด้านคอมพิวเตอร์หลายแห่งไม่รวมเวลาปิดระบบตามกำหนดการไว้ในการคำนวณความพร้อมใช้งาน โดยสันนิษฐานว่ามีผลกระทบต่อผู้ใช้งานน้อยมากหรือไม่มีเลย การทำเช่นนี้ทำให้พวกเขาสามารถอ้างได้ว่ามีความพร้อมใช้งานสูงมาก ซึ่งอาจทำให้เกิดภาพลวงตาว่ามีความพร้อมใช้งานอย่างต่อเนื่องระบบที่มีความพร้อมใช้งานอย่างต่อเนื่องอย่างแท้จริงนั้นค่อนข้างหายากและมีราคาสูงกว่า และส่วนใหญ่มีการออกแบบพิเศษที่ดำเนินการอย่างระมัดระวังเพื่อขจัดจุดล้มเหลวเพียงจุดเดียวและอนุญาตให้มีการอัปเกรด แพทช์ และการเปลี่ยนฮาร์ดแวร์ เครือข่าย ระบบปฏิบัติการมิดเดิลแวร์และแอปพลิเคชันแบบออนไลน์ สำหรับบางระบบ เวลาปิดระบบตามกำหนดการไม่สำคัญ ตัวอย่างเช่น เวลาปิดระบบในอาคารสำนักงานหลังจากทุกคนกลับบ้านไปแล้วในตอนกลางคืน

การคำนวณเปอร์เซ็นต์

ความพร้อมใช้งานมักแสดงเป็นเปอร์เซ็นต์ของเวลาทำงานในรอบปีที่กำหนด ตารางต่อไปนี้แสดงเวลาหยุดทำงานที่อนุญาตสำหรับเปอร์เซ็นต์ความพร้อมใช้งานที่กำหนด โดยสมมติว่าระบบจำเป็นต้องทำงานอย่างต่อเนื่องข้อตกลงระดับบริการมักอ้างอิงถึงเวลาหยุดทำงานหรือความพร้อมใช้งานรายเดือนเพื่อคำนวณเครดิตบริการให้ตรงกับรอบการเรียกเก็บเงินรายเดือน ตารางต่อไปนี้แสดงการแปลงจากเปอร์เซ็นต์ความพร้อมใช้งานที่กำหนดเป็นจำนวนเวลาที่ระบบจะไม่พร้อมใช้งาน ความพร้อมใช้งานมักระบุเป็น "เก้า" โดยความพร้อมใช้งาน 90% เรียกว่า "หนึ่งเก้า" 99% เรียกว่า "สองเก้า" 99.9% เรียกว่า "สามเก้า" และอื่นๆ ยิ่งจำนวนเก้ามากขึ้นเท่าใด เป้าหมายความพร้อมใช้งานก็จะยิ่งเข้มงวดมากขึ้นเท่านั้น

ระดับความน่าเชื่อถือที่มากกว่าเก้าเก้านั้นหายาก และโดยทั่วไปแล้วจะทำได้เฉพาะในเครือข่ายแบบกระจายที่มีระบบสำรอง และถึงกระนั้นก็เป็นเพียงในทางทฤษฎีเท่านั้น เนื่องจากในทางปฏิบัติแล้วเป็นไปไม่ได้ที่จะวัดระดับเวลาหยุดทำงานที่ต่ำเช่นนั้นได้ภายในระยะเวลาที่เหมาะสม แม้แต่เวลาหยุดทำงานของระบบทั้งหมดเพียงหนึ่งวินาทีในรอบ 30 ปี (เช่น จากข้อผิดพลาดของซอฟต์แวร์ที่ไม่ได้คาดคิด) ก็เพียงพอที่จะทำให้ระบบที่มีความพร้อมใช้งาน 11 เก้า ลดลงเหลือเพียงเก้าเก้าได้

เก้า	เปอร์เซ็นต์ความพร้อมใช้งาน	เวลาหยุดทำงาน ต่อปี	เวลาหยุดทำงาน ต่อเดือน	เวลาหยุดทำงาน สัปดาห์ละครั้ง	เวลาหยุดทำงาน ต่อวัน
1	90%	37 วัน	73 ชั่วโมง	17 ชั่วโมง	2.4 ชั่วโมง
2	99%	3.7 วัน	7.3 ชั่วโมง	1.7 ชั่วโมง	14 นาที
3	99.9%	9 ชั่วโมง	44 นาที	10 นาที	1.4 นาที
4	99.99%	53 นาที	4.4 นาที	1 นาที	8.6 วินาที
5	99.999%	5.3 นาที	26 วินาที	6 วินาที	860 มิลลิวินาที
6	99.9999%	32 วินาที	2.6 วินาที	600 มิลลิวินาที	86 มิลลิวินาที
7	99.99999%	3.2 วินาที	260 มิลลิวินาที	60 มิลลิวินาที	8.6 มิลลิวินาที
8	99.999999%	320 มิลลิวินาที	26 มิลลิวินาที	6 มิลลิวินาที	860 ไมโครวินาที
9	99.9999999%	32 มิลลิวินาที	2.6 มิลลิวินาที	600 ไมโครวินาที	86 ไมโครวินาที
10	99.99999999%	3.2 มิลลิวินาที	260 ไมโครวินาที	60 ไมโครวินาที	8.6 ไมโครวินาที

คำว่าuptimeและavailabilityมักถูกใช้สลับกัน แต่ไม่ได้หมายถึงสิ่งเดียวกันเสมอไป ตัวอย่างเช่น ระบบอาจ "ทำงานได้" แต่บริการต่างๆ อาจ "ไม่พร้อมใช้งาน" ในกรณีที่เครือข่ายขัดข้อง หรือระบบที่อยู่ระหว่างการบำรุงรักษาซอฟต์แวร์อาจ "พร้อมใช้งาน" ให้ ผู้ดูแลระบบทำงานได้แต่บริการต่างๆ อาจดูไม่ "ทำงานได้" สำหรับผู้ใช้ปลายทางหรือลูกค้า ดังนั้น หัวข้อของคำศัพท์จึงมีความสำคัญ ไม่ว่าหัวข้อของการสนทนาจะเป็นฮาร์ดแวร์เซิร์ฟเวอร์ ระบบปฏิบัติการเซิร์ฟเวอร์ บริการการทำงาน บริการ/กระบวนการซอฟต์แวร์ หรืออื่นๆ ที่คล้ายกัน ก็ต่อเมื่อมีหัวข้อการสนทนาที่สอดคล้องกันเพียงหัวข้อเดียวเท่านั้น จึงจะสามารถใช้คำว่า uptime และ availability เป็นคำพ้องความหมายได้

ตัวช่วยจำแบบห้าคูณห้า

กฎช่วยจำง่ายๆ ระบุว่า5 เก้า (9999)หมายถึงเวลาหยุดทำงานประมาณ 5 นาทีต่อปี สามารถปรับเปลี่ยนได้โดยการคูณหรือหารด้วย 10: 4 เก้า (9999) คือ 50 นาที และ 3 เก้า (9999) คือ 500 นาที ในทางกลับกัน 6 เก้า (9999) คือ 0.5 นาที (30 วินาที) และ 7 เก้า (9999) คือ 3 วินาที

เทคนิค "เลขยกกำลัง 10"

อีกหนึ่งเทคนิคช่วยจำในการคำนวณระยะเวลาหยุดทำงานที่อนุญาตสำหรับเปอร์เซ็นต์ความพร้อมใช้งาน "-ไนน์" คือการใช้สูตรวินาทีต่อวัน $n$ $8.64\times 10^{4-n}$

ตัวอย่างเช่น 90% ("หนึ่งเก้า") จะได้ค่าเลขชี้กำลังและดังนั้น เวลาหยุดทำงานที่อนุญาตได้คือวินาทีต่อวัน $4-1=3$ $8.64\times 10^{3}$

นอกจากนี้ 99.999% ("ห้าเก้า") จะให้ค่าเลขชี้กำลังและด้วยเหตุนี้ เวลาหยุดทำงานที่อนุญาตจึงเท่ากับวินาทีต่อวัน $4-5=-1$ $8.64\times 10^{-1}$

"เก้า"

เปอร์เซ็นต์ของลำดับขนาดที่เฉพาะเจาะจงบางครั้งจะถูกอ้างถึงโดยจำนวนเลขเก้าหรือ "คลาสของเลขเก้า" ในตัวเลข ตัวอย่างเช่น ไฟฟ้าที่ส่งมอบโดยไม่หยุดชะงัก ( ไฟดับไฟตกหรือไฟกระชาก ) 99.999% ของเวลาจะมีค่าความน่าเชื่อถือ 5 เลขเก้า หรือคลาสห้า^{[ 12 ]}โดยเฉพาะอย่างยิ่ง คำนี้ใช้ในบริบทของเมนเฟรม^{[ 13 ]}^{[ 14 ]}หรือการประมวลผลระดับองค์กร ซึ่งมักเป็นส่วนหนึ่งของข้อ ตกลงระดับบริการ

ในทำนองเดียวกัน เปอร์เซ็นต์ที่ลงท้ายด้วย 5 จะมีชื่อเรียกตามปกติ โดยตามธรรมเนียมแล้วจะเป็นจำนวนเก้า แล้วตามด้วย "ห้า" ดังนั้น 99.95% จึงเป็น "สามเก้าห้า" ซึ่งย่อว่า 3N5 ^{[ 15 ]}^{[ 16 ]}โดยทั่วไปจะเรียกกันว่า "สามเก้าครึ่ง" ^{[ 17 ]}แต่ไม่ถูกต้อง เพราะ 5 เป็นเพียงตัวประกอบของ 2 ในขณะที่ 9 เป็นตัวประกอบของ 10 ดังนั้น 5 จึงเป็น 0.3 เก้า (ตามสูตรด้านล่าง): ^[^{หมายเหตุ 1}^]ความพร้อมใช้งาน 99.95% คือ 3.3 เก้า ไม่ใช่ 3.5 เก้า^[¹⁸^]กล่าวโดยง่าย การเปลี่ยนจากความพร้อมใช้งาน 99.9% เป็น 99.95% นั้นเป็นปัจจัย 2 เท่า (ความไม่พร้อมใช้งาน 0.1% เป็น 0.05%) แต่การเปลี่ยนจากความพร้อมใช้งาน 99.95% เป็น 99.99% นั้นเป็นปัจจัย 5 เท่า (ความไม่พร้อมใช้งาน 0.05% เป็น 0.01%) มากกว่าสองเท่า^[^{หมายเหตุ 2}^] $\log _{10}2\approx 0.3$

การกำหนดสูตรของกลุ่มเลข 9 โดยอิงจาก ความไม่พร้อมใช้งาน ของระบบจะเป็นดังนี้ $c$ $x$

c:=\lfloor -\log _{10}x\rfloor

(ดูเพิ่มเติมที่ หน้าที่ของพื้นและเพดาน )

บางครั้งมีการใช้ การวัดในลักษณะเดียวกันนี้เพื่ออธิบายความบริสุทธิ์ของสารต่างๆ

โดยทั่วไป วิศวกรเครือข่ายมักไม่ค่อยใช้จำนวนเก้าในการสร้างแบบจำลองและวัดความพร้อมใช้งาน เนื่องจากยากต่อการนำไปใช้ในสูตร บ่อยครั้งที่ความไม่พร้อมใช้งานจะแสดงเป็นความน่าจะเป็น (เช่น 0.00001) หรือเวลาหยุดทำงานต่อปี ความพร้อมใช้งานที่ระบุเป็นจำนวนเก้ามักพบเห็นได้ใน เอกสาร ทางการตลาดการใช้ "เก้า" ถูกตั้งคำถาม เนื่องจากไม่ได้สะท้อนให้เห็นอย่างเหมาะสมว่าผลกระทบของความไม่พร้อมใช้งานนั้นแตกต่างกันไปตามเวลาที่เกิดขึ้น^{[ 19 ]} สำหรับจำนวนเก้าจำนวนมาก ดัชนี "ความไม่พร้อมใช้งาน" (การวัดเวลาหยุดทำงานมากกว่าเวลาทำงาน) จะจัดการได้ง่ายกว่า ตัวอย่างเช่น นี่คือเหตุผลที่ใช้เมตริก "ความไม่พร้อมใช้งาน" แทนเมตริกความพร้อมใช้งานใน อัตราข้อผิดพลาดบิตของฮาร์ดดิสก์หรือลิงก์ข้อมูล

บางครั้งมีการใช้คำที่ตลกขบขันว่า "เก้าห้า" (55.5555555%) เพื่อเปรียบเทียบกับ "ห้าเก้า" (99.999%) ^{[ 20 ]}^{[ 21 ]}^{[ 22 ]}แม้ว่านี่จะไม่ใช่เป้าหมายที่แท้จริง แต่เป็นการอ้างอิงเชิงเสียดสีถึงบางสิ่งที่ล้มเหลวโดยสิ้นเชิงในการบรรลุเป้าหมายที่สมเหตุสมผลใดๆ

การวัดและการตีความ

การวัดความพร้อมใช้งานนั้นขึ้นอยู่กับการตีความในระดับหนึ่ง ระบบที่ใช้งานได้ 365 วันในปีปกติ อาจประสบปัญหาเครือข่ายล่มนาน 9 ชั่วโมงในช่วงเวลาที่มีการใช้งานสูงสุด ผู้ใช้งานจะมองว่าระบบไม่พร้อมใช้งาน ในขณะที่ผู้ดูแลระบบจะอ้างว่าระบบทำงานได้ 100% อย่างไรก็ตาม หากพิจารณาตามความหมายที่แท้จริงของความพร้อมใช้งาน ระบบจะมีความพร้อมใช้งานประมาณ 99.9% หรือสามเก้า (8751 ชั่วโมงจาก 8760 ชั่วโมงในปีปกติ) นอกจากนี้ ระบบที่ประสบปัญหาด้านประสิทธิภาพมักถูกผู้ใช้มองว่าไม่พร้อมใช้งานบางส่วนหรือทั้งหมด แม้ว่าระบบจะยังคงทำงานอยู่ก็ตาม ในทำนองเดียวกัน ความไม่พร้อมใช้งานของฟังก์ชันแอปพลิเคชันบางอย่างอาจไม่เป็นที่สังเกตเห็นโดยผู้ดูแลระบบ แต่กลับส่งผลเสียอย่างร้ายแรงต่อผู้ใช้ การวัดความพร้อมใช้งานที่แท้จริงจึงต้องครอบคลุมทุกด้าน

ต้องวัดความพร้อมใช้งานเพื่อตรวจสอบ โดยควรใช้เครื่องมือตรวจสอบที่ครอบคลุม ("เครื่องมือวัด") ซึ่งต้องมีความพร้อมใช้งานสูงด้วย หากขาดเครื่องมือวัด ระบบที่รองรับการประมวลผลธุรกรรมปริมาณมากตลอดทั้งวันทั้งคืน เช่น ระบบประมวลผลบัตรเครดิตหรือระบบสวิตช์โทรศัพท์ มักจะได้รับการตรวจสอบที่ดีกว่าโดยผู้ใช้เอง มากกว่าระบบที่มีช่วงเวลาที่ความต้องการลดลงเป็นระยะๆ

ตัวชี้วัดทางเลือกอีกอย่างหนึ่งคือเวลาเฉลี่ยระหว่างความล้มเหลว (MTBF)

แนวคิดที่เกี่ยวข้องกันอย่างใกล้ชิด

เวลาในการกู้คืน (หรือเวลาซ่อมแซมโดยประมาณ (ETR) หรือที่เรียกว่าเป้าหมายเวลาในการกู้คืน (RTO)) มีความสัมพันธ์อย่างใกล้ชิดกับความพร้อมใช้งาน กล่าวคือ เวลาทั้งหมดที่จำเป็นสำหรับการหยุดทำงานตามแผน หรือเวลาที่จำเป็นในการกู้คืนอย่างสมบูรณ์จากการหยุดทำงานที่ไม่ได้วางแผนไว้ ตัวชี้วัดอีกอย่างหนึ่งคือเวลาเฉลี่ยในการกู้คืน (MTTR) เวลาในการกู้คืนอาจเป็นอนันต์ได้ในบางกรณีของการออกแบบระบบและความล้มเหลว กล่าวคือ การกู้คืนอย่างสมบูรณ์เป็นไปไม่ได้ ตัวอย่างหนึ่งคือ ไฟไหม้หรือน้ำท่วมที่ทำลายศูนย์ข้อมูลและระบบต่างๆ ในกรณีที่ไม่มีศูนย์ข้อมูล สำรอง สำหรับการกู้คืนจากภัยพิบัติ

อีกแนวคิดหนึ่งที่เกี่ยวข้องคือความพร้อมใช้งานของข้อมูลซึ่งหมายถึงระดับที่ฐานข้อมูลและระบบจัดเก็บข้อมูลอื่นๆ บันทึกและรายงานธุรกรรมของระบบได้อย่างถูกต้องแม่นยำ การจัดการข้อมูลมักจะมุ่งเน้นไปที่ความพร้อมใช้งานของข้อมูล หรือ เป้าหมายจุดกู้คืน ( Recovery Point Objective ) แยกต่างหาก เพื่อกำหนด ระดับ การสูญเสียข้อมูล ที่ยอมรับได้ (หรือที่เกิดขึ้นจริง) จากเหตุการณ์ความล้มเหลวต่างๆ ผู้ใช้บางรายสามารถทนต่อการหยุดชะงักของบริการแอปพลิเคชันได้ แต่ไม่สามารถทนต่อการสูญเสียข้อมูลได้

ข้อตกลงระดับการให้บริการ ("SLA") เป็นข้อตกลงที่กำหนดวัตถุประสงค์และข้อกำหนดด้านความพร้อมใช้งานขององค์กรอย่างเป็นทางการ

ระบบควบคุมทางทหาร

ความพร้อมใช้งานสูงเป็นหนึ่งในข้อกำหนดหลักของระบบควบคุมในยานไร้คนขับและเรือเดินทะเลอัตโนมัติหากระบบควบคุมไม่สามารถใช้งานได้ยานรบภาคพื้นดิน (GCV) หรือเรือไร้คนขับต่อต้านเรือดำน้ำ (ACTUV) ก็จะสูญหายไป

การออกแบบระบบ

ในอีกด้านหนึ่ง การเพิ่มส่วนประกอบเพิ่มเติมลงในการออกแบบระบบโดยรวมอาจบั่นทอนความพยายามในการบรรลุความพร้อมใช้งานสูง เนื่องจากระบบที่ซับซ้อนโดยเนื้อแท้แล้วมีจุดล้มเหลวที่อาจเกิดขึ้นได้มากกว่าและยากต่อการใช้งานอย่างถูกต้อง ในขณะที่นักวิเคราะห์บางคนเสนอทฤษฎีว่าระบบที่มีความพร้อมใช้งานสูงที่สุดนั้นยึดตามสถาปัตยกรรมที่เรียบง่าย (ระบบทางกายภาพแบบอเนกประสงค์คุณภาพสูงเพียงระบบเดียวที่มีการสำรองฮาร์ดแวร์ภายในอย่างครอบคลุม) สถาปัตยกรรมนี้มีข้อเสียคือต้องปิดระบบทั้งหมดเพื่อทำการแก้ไขและอัปเกรดระบบปฏิบัติการ การออกแบบระบบขั้นสูงกว่านั้นช่วยให้สามารถแก้ไขและอัปเกรดระบบได้โดยไม่กระทบต่อความพร้อมใช้งานของบริการ (ดูการปรับสมดุลโหลดและ การสลับระบบ เมื่อเกิดข้อผิดพลาด ) ความพร้อมใช้งานสูงต้องการการแทรกแซงจากมนุษย์น้อยลงในการกู้คืนการทำงานในระบบที่ซับซ้อน เหตุผลก็คือสาเหตุที่พบบ่อยที่สุดของการหยุดชะงักคือความผิดพลาดของมนุษย์^{[ 23 ]}

ความพร้อมใช้งานสูงผ่านระบบสำรอง

ในทางกลับกันการสำรองข้อมูลถูกนำมาใช้เพื่อสร้างระบบที่มีความพร้อมใช้งานสูง (เช่น เว็บไซต์อีคอมเมิร์ซยอดนิยม) ในกรณีนี้ จำเป็นต้องมีระบบตรวจจับความล้มเหลวที่มีประสิทธิภาพสูงและหลีกเลี่ยงความล้มเหลวจากสาเหตุทั่วไป

หากมีการใช้ชิ้นส่วนสำรองแบบขนานและมีความล้มเหลวที่เป็นอิสระ (เช่น ไม่ได้อยู่ในศูนย์ข้อมูลเดียวกัน) จะสามารถเพิ่มความพร้อมใช้งานได้อย่างมากและทำให้ระบบโดยรวมมีความพร้อมใช้งานสูง หากคุณมีส่วนประกอบแบบขนาน N ตัว โดยแต่ละตัวมีความพร้อมใช้งาน X คุณสามารถใช้สูตรต่อไปนี้ได้: ^{[ 24 ]}^{[ 25 ]}

ความพร้อมใช้งานของส่วนประกอบแบบขนาน = 1 - (1 - X)^ N

ตัวอย่างเช่น หากส่วนประกอบแต่ละชิ้นของคุณมีอัตราความพร้อมใช้งานเพียง 50% การใช้ส่วนประกอบ 10 ชิ้นทำงานแบบขนาน จะทำให้อัตราความพร้อมใช้งานสูงถึง 99.9023%

ระบบสำรองมีสองประเภท ได้แก่ ระบบสำรองแบบพาสซีฟ และระบบสำรองแบบแอคทีฟ

การสำรองแบบพาสซีฟ (Passive redundancy) ใช้เพื่อให้ได้ความพร้อมใช้งานสูงโดยการออกแบบให้มีกำลังการผลิตส่วนเกินเพียงพอเพื่อรองรับประสิทธิภาพที่ลดลง ตัวอย่างที่ง่ายที่สุดคือเรือที่มีเครื่องยนต์สองเครื่องแยกกันขับเคลื่อนใบพัดสองใบแยกกัน เรือยังคงแล่นต่อไปยังจุดหมายปลายทางได้แม้ว่าเครื่องยนต์หรือใบพัดเพียงเครื่องเดียวจะขัดข้อง ตัวอย่างที่ซับซ้อนกว่าคือโรงไฟฟ้าสำรองหลายแห่งภายในระบบขนาดใหญ่ที่เกี่ยวข้องกับการส่งกำลังไฟฟ้าการทำงานผิดปกติของส่วนประกอบเพียงชิ้นเดียวจะไม่ถือว่าเป็นความล้มเหลว เว้นแต่ว่าประสิทธิภาพที่ลดลงจะเกินขีดจำกัดตามข้อกำหนดของระบบทั้งหมด

การสำรองข้อมูลแบบแอคทีฟใช้ในระบบที่ซับซ้อนเพื่อให้ได้ความพร้อมใช้งานสูงโดยไม่มีการลดประสิทธิภาพ มีการรวมรายการประเภทเดียวกันหลายรายการเข้าไว้ในการออกแบบซึ่งรวมถึงวิธีการตรวจจับความล้มเหลวและกำหนดค่าระบบใหม่โดยอัตโนมัติเพื่อข้ามรายการที่ล้มเหลวโดยใช้แผนการลงคะแนน สิ่งนี้ใช้กับระบบคอมพิวเตอร์ที่ซับซ้อนซึ่งเชื่อมโยงกันการกำหนดเส้นทาง อินเทอร์เน็ต ได้มาจากงานในช่วงแรกของ Birman และ Joseph ในด้านนี้^{[ 26 ]}การสำรองข้อมูลแบบแอคทีฟอาจทำให้เกิดโหมดความล้มเหลวที่ซับซ้อนมากขึ้นในระบบ เช่น การกำหนดค่าระบบใหม่อย่างต่อเนื่องเนื่องจากตรรกะการลงคะแนนที่ผิดพลาด

การออกแบบระบบที่ไม่มีการหยุดทำงานหมายความว่า การสร้างแบบจำลองและการจำลองแสดงให้เห็นว่า เวลาเฉลี่ยระหว่างความล้มเหลวเกินกว่าช่วงเวลาระหว่าง การบำรุงรักษา ตามแผน การ อัปเกรดหรืออายุการใช้งานของระบบอย่างมีนัยสำคัญ การหยุดทำงานเป็นศูนย์นั้นเกี่ยวข้องกับการสำรองข้อมูลจำนวนมาก ซึ่งจำเป็นสำหรับเครื่องบินบางประเภทและดาวเทียมสื่อสาร ส่วนใหญ่ ระบบระบุตำแหน่งทั่วโลก (GPS ) เป็นตัวอย่างหนึ่งของระบบที่ไม่มีการหยุดทำงาน

การตรวจจับความผิดพลาดสามารถใช้ในระบบที่มีความซ้ำซ้อนจำกัดเพื่อให้ได้ความพร้อมใช้งานสูง การดำเนินการบำรุงรักษาจะเกิดขึ้นในช่วงเวลาหยุดทำงานสั้นๆ เท่านั้นหลังจากที่ตัวบ่งชี้ความผิดพลาดทำงาน ความล้มเหลวจะมีความสำคัญก็ต่อเมื่อเกิดขึ้นในช่วงเวลา ที่สำคัญต่อภารกิจ เท่านั้น

การสร้างแบบจำลองและการจำลองสถานการณ์ถูกนำมาใช้เพื่อประเมินความน่าเชื่อถือเชิงทฤษฎีสำหรับระบบขนาดใหญ่ ผลลัพธ์ของแบบจำลองประเภทนี้ถูกนำมาใช้เพื่อประเมินตัวเลือกการออกแบบต่างๆ โดยจะสร้างแบบจำลองของระบบทั้งหมดขึ้นมา และทำการทดสอบความเครียดของแบบจำลองโดยการถอดส่วนประกอบออก การจำลองความซ้ำซ้อนเกี่ยวข้องกับเกณฑ์ Nx โดยที่ N แทนจำนวนส่วนประกอบทั้งหมดในระบบ และ x คือจำนวนส่วนประกอบที่ใช้ในการทดสอบความเครียดของระบบ N-1 หมายถึง แบบจำลองถูกทดสอบความเครียดโดยการประเมินประสิทธิภาพด้วยชุดค่าผสมที่เป็นไปได้ทั้งหมด โดยที่ส่วนประกอบหนึ่งชิ้นเกิดความผิดพลาด N-2 หมายถึง แบบจำลองถูกทดสอบความเครียดโดยการประเมินประสิทธิภาพด้วยชุดค่าผสมที่เป็นไปได้ทั้งหมด โดยที่ส่วนประกอบสองชิ้นเกิดความผิดพลาดพร้อมกัน

เหตุผลที่ไม่พร้อมให้บริการ

การสำรวจในหมู่ผู้เชี่ยวชาญด้านความพร้อมใช้งานทางวิชาการในปี 2010 ได้จัดอันดับสาเหตุของความไม่พร้อมใช้งานของระบบไอทีขององค์กร สาเหตุทั้งหมดอ้างถึงการไม่ปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดในแต่ละด้านต่อไปนี้ (เรียงตามลำดับความสำคัญ): ^{[ 27 ]}

การตรวจสอบส่วนประกอบที่เกี่ยวข้อง
ข้อกำหนดและการจัดซื้อจัดจ้าง
การดำเนินงาน
การหลีกเลี่ยงความล้มเหลวของเครือข่าย
การหลีกเลี่ยงความล้มเหลวภายในแอปพลิเคชัน
หลีกเลี่ยงบริการภายนอกที่ล้มเหลว
สภาพแวดล้อมทางกายภาพ
ความซ้ำซ้อนของเครือข่าย
โซลูชันทางเทคนิคสำหรับการสำรองข้อมูล
กระบวนการแก้ปัญหาการสำรองข้อมูล
ที่ตั้งทางกายภาพ
ความซ้ำซ้อนของโครงสร้างพื้นฐาน
ความซ้ำซ้อนของสถาปัตยกรรมจัดเก็บข้อมูล

หนังสือเกี่ยวกับปัจจัยต่างๆ ได้รับการตีพิมพ์ในปี พ.ศ. 2546 ^{[ 28 ]}

ต้นทุนของการไม่พร้อมใช้งาน

ในรายงานปี 1998 จากIBM Global Servicesคาดว่าระบบที่ไม่พร้อมใช้งานทำให้ธุรกิจของอเมริกาสูญเสียเงิน 4.54 พันล้านดอลลาร์ในปี 1996 เนื่องจากผลผลิตและรายได้ที่สูญเสียไป^{[ 29 ]}

ดูเพิ่มเติม

หมายเหตุ

^โปรดดูความบังเอิญทางคณิตศาสตร์เกี่ยวกับฐาน 2สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการประมาณค่านี้
^ "สองเท่า" ในมาตราส่วนลอการิทึม หมายถึงตัวประกอบของ 2 สองตัว: $\times 2\times 2<\times 5$

ลิงก์ภายนอก

เอกสารประกอบการบรรยายเรื่องการประมวลผลระดับองค์กร (Enterprise Computing) ถูกเก็บถาวรเมื่อวันที่ 16 พฤศจิกายน 2013 ที่Wayback Machineมหาวิทยาลัยทูบิงเงน
เอกสารประกอบการบรรยายเรื่องวิศวกรรมระบบฝังตัวโดยศาสตราจารย์ฟิล คูปแมน
เครื่องคำนวณเวลาการทำงาน (SLA)

[18] โปรดดูความบังเอิญทางคณิตศาสตร์เกี่ยวกับฐาน 2สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการประมาณค่านี้

[20] "สองเท่า" ในมาตราส่วนลอการิทึม หมายถึงตัวประกอบของ 2 สองตัว: $\times 2\times 2<\times 5$

[ 1 ]

[ 2 ]

[

[

[

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[

[

[

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]