กลับไปหน้าบทความ

อ่าน 4 นาที

การวิเคราะห์ความถี่

ในการวิเคราะห์รหัสลับการวิเคราะห์ความถี่ (หรือที่เรียกว่าการนับตัวอักษร ) คือการศึกษาความถี่ของตัวอักษรหรือกลุ่มตัวอักษรในข้อความที่เข้ารหัสวิธีนี้ใช้เป็นเครื่องมือช่วยในการถอดรหัส...

การวิเคราะห์ความถี่

รูปแบบการจัดเรียงตัวอักษรทั่วไปใน ข้อความ ภาษาอังกฤษรหัสลับที่อ่อนแอไม่สามารถปกปิดการจัดเรียงนี้ได้อย่างเพียงพอ และนักวิเคราะห์รหัสอาจใช้ประโยชน์จากจุดนี้เพื่ออ่านข้อความได้

ในการวิเคราะห์รหัสลับการวิเคราะห์ความถี่ (หรือที่เรียกว่าการนับตัวอักษร ) คือการศึกษาความถี่ของตัวอักษรหรือกลุ่มตัวอักษรในข้อความที่เข้ารหัสวิธีนี้ใช้เป็นเครื่องมือช่วยในการถอดรหัสลับแบบคลาสสิ

การวิเคราะห์ความถี่นั้นอิงอยู่กับข้อเท็จจริงที่ว่า ในส่วนใดส่วนหนึ่งของภาษาเขียน ตัวอักษรและกลุ่มตัวอักษรบางกลุ่มจะปรากฏขึ้นด้วยความถี่ที่แตกต่างกัน นอกจากนี้ ยังมีการกระจายตัวของตัวอักษรที่เป็นลักษณะเฉพาะซึ่งโดยประมาณแล้วจะเหมือนกันในตัวอย่างเกือบทั้งหมดของภาษานั้น ตัวอย่างเช่น เมื่อพิจารณาส่วนหนึ่งของภาษาอังกฤษอี,ที,เอและโอเป็นสิ่งที่พบได้บ่อยที่สุด ในขณะที่,คิว,Xและเจหายาก เช่นเดียวกันไทย,ห้องฉุกเฉิน,บน, และหนึ่งเป็นคู่ตัวอักษรที่พบได้บ่อยที่สุด (เรียกว่าไบแกรมหรือไดกราฟ ) และเอสเอส,อีอี,ทีที, และเอฟเอฟเป็นการทำซ้ำที่พบบ่อยที่สุด[ 1 ]วลีไร้สาระetaoin shrdluแสดงถึงตัวอักษรที่พบบ่อยที่สุด 12 ตัวในข้อความภาษาอังกฤษทั่วไป

ในระบบการเข้ารหัสบางระบบ คุณสมบัติเหล่านี้ของข้อความต้นฉบับที่เป็นภาษาธรรมชาติจะถูกรักษาไว้ในข้อความที่เข้ารหัสแล้ว และรูปแบบเหล่านี้มีศักยภาพที่จะถูกนำไปใช้ประโยชน์ใน การโจมตีโดยใช้เฉพาะ ข้อความ ที่เข้ารหัสเท่านั้น

การวิเคราะห์ความถี่สำหรับรหัสลับแบบแทนที่อย่างง่าย

ในการเข้ารหัสแบบแทนที่ อย่างง่าย ตัวอักษรแต่ละตัวในข้อความต้นฉบับจะถูกแทนที่ด้วยตัวอักษรอื่น และตัวอักษรใดๆ ในข้อความต้นฉบับจะถูกแปลงเป็นตัวอักษรเดียวกันในข้อความที่เข้ารหัสเสมอ ตัวอย่างเช่น หากตัวอักษรทั้งหมดที่ปรากฏอีเปลี่ยนเป็นตัวอักษรXข้อความเข้ารหัสลับที่มีตัวอักษรดังกล่าวปรากฏอยู่หลายครั้งXจะทำให้ผู้เชี่ยวชาญด้านการถอดรหัสทราบว่าXตัวแทนอี.

หลักการวิเคราะห์ความถี่พื้นฐานคือการนับความถี่ของตัวอักษรในข้อความที่เข้ารหัสก่อน จากนั้นจึงเชื่อมโยงตัวอักษรที่คาดเดาในข้อความต้นฉบับกับความถี่เหล่านั้น เพิ่มเติมXตัวอักษร s ในข้อความที่เข้ารหัสมากกว่าสิ่งอื่นใด บ่งชี้ว่าXสอดคล้องกับอีในข้อความต้นฉบับ แต่ก็ไม่แน่ชัดทีและเอนอกจากนี้ยังพบได้บ่อยมากในภาษาอังกฤษด้วย ดังนั้นXอาจเป็นอย่างใดอย่างหนึ่งก็ได้ ไม่น่าจะเป็นข้อความธรรมดาzหรือqซึ่งพบได้น้อยกว่า ดังนั้นนักวิเคราะห์รหัสอาจจำเป็นต้องลองการจับคู่ระหว่างตัวอักษรในข้อความที่เข้ารหัสและข้อความต้นฉบับหลายแบบ

สามารถใช้สถิติในรูปแบบที่ซับซ้อนกว่าได้ เช่น การพิจารณาจำนวนคู่ตัวอักษร ( bigrams ) สามตัวอักษร ( trigrams ) และอื่นๆ ซึ่งทำเพื่อให้ข้อมูลเพิ่มเติมแก่ผู้เชี่ยวชาญด้านการถอดรหัส ตัวอย่างเช่นคิวและยูในภาษาอังกฤษมักจะปรากฏร่วมกันในลำดับนั้นเสมอ แม้ว่าคิวนับว่าเป็นเรื่องหายาก

ตัวอย่าง

สมมติว่าอีฟได้ดักจับรหัสลับด้านล่างนี้ และทราบว่ามันถูกเข้ารหัสโดยใช้การเข้ารหัสแบบแทนที่อย่างง่าย:

LIVITCSWPIYVEWHEVSRIQMXLEYVEOIEWHRXEXIPFEMVEWHKVSTYLXZIXLIKIIXPIJVSZEYPERRGERIM WQLMGLMXQERIWGPSRIHMXQEREKIETXMJTPRGEVEKEITREWHEXXLEXXMZITWAWSQWXSWEXTVEPMRXRSJ GSTVRIEYVIEXCVMUIMWERGMIWXMJMGCSMWXSJOMIQXLIVIQIVIXQSVSTWHKPEGARCSXRWIEVSWIIBXV IZMXFSJXLIKEGAEWHEPSWYSWIWIEVXLISXLIVXLIRGEPIRQIVIIBGIIHMWYPFLEVHEWHYPSRRFQMXLE PPXLIECCIEVEWGISJKTVWMRLIHYSPHXLIQIMYLXSJXLIMWRIGXQEROIVFVIZEVAEKPIEWHXEAMWYEPP XLMWYRMWXSGSWRMHIVEXMSWMGSTPHLEVHPFKPEZINTCMXIVJSVLMRSCMWMSWVIRCIGXMWYMX 

ในตัวอย่างนี้ ตัวอักษรพิมพ์ใหญ่ใช้เพื่อแสดงข้อความที่เข้ารหัส ตัวอักษรพิมพ์เล็กใช้เพื่อแสดงข้อความต้นฉบับ (หรือการคาดเดา) และX~ทีใช้เพื่อแสดงการคาดเดาตัวอักษรของข้อความเข้ารหัสXแสดงถึงตัวอักษรข้อความธรรมดาที.

อีฟสามารถใช้การวิเคราะห์ความถี่เพื่อช่วยถอดรหัสข้อความได้ดังนี้: การนับจำนวนตัวอักษรในรหัสลับแสดงให้เห็นว่าฉันเป็นตัวอักษรเดี่ยวที่พบบ่อยที่สุด[ 2 ]เอ็กซ์แอลไบแกรมที่พบบ่อยที่สุดและเอ็กซ์แอลไอเป็นไตรแกรมที่ พบได้บ่อยที่สุดอีเป็นตัวอักษรที่พบได้บ่อยที่สุดในภาษาอังกฤษไทยเป็นไบแกรมที่พบได้บ่อยที่สุด และที่เป็นไตรแกรมที่พบได้บ่อยที่สุด สิ่งนี้บ่งชี้อย่างชัดเจนว่าX~ที,แอล~ชม.และ ฉัน~อีตัวอักษรที่พบมากเป็นอันดับสองในรหัสลับคืออีเนื่องจากตัวอักษรที่ใช้บ่อยที่สุดอันดับแรกและอันดับสองในภาษาอังกฤษอีและทีอีฟคาดเดาว่า เมื่อมีการตรวจสอบรายละเอียดต่างๆ แล้วอี~เอซึ่งเป็นตัวอักษรที่พบมากเป็นอันดับสาม เมื่อพิจารณาตามสมมติฐานเหล่านี้แล้ว จะได้ข้อความที่ถอดรหัสได้บางส่วนดังต่อไปนี้

heVeTCSWPeYVaWHaVSReQMthaYVaOeaWHRtatePFaMVaWHKVSTYhtZetheKeetPeJVSZaYPaRRGaReM WQhMGhMtQaReWGPSReHMtQaRaKeaTtMJTPRGaVaKaeTRaWHatthattMZeTWAWSQWtSWatTVaPMRtRSJ GSTVReaYVeatCVMUeMWaRGMeWtMJMGCSMWtSJOMeQtheVeQeVetQSVSTWHKPaGARCStRWeaVSWeeBtV eZMtFSJtheKaGAaWHaPSWYSWeWeaVtheStheVtheRGaPeRQeVeeBGeeHMWYPFhaVHaWHYPSRRFQMtha PPtheaCCeaVaWGeSJKTVWMRheHYSPHtheQeMYhtSJtheMWReGtQaROeVFVeZaVAaKPeaWHtaAMWYaPP thMWYRMWtSGSWRMHeVatMSWMGSTPHhaVHPFKPaZeNTCMteVJSVhMRSCMWMSWVeRCeGtMWYMt 

จากการคาดเดาเบื้องต้นเหล่านี้ อีฟสามารถสังเกตเห็นรูปแบบที่ยืนยันการเลือกของเธอได้ เช่น "ที่นอกจากนี้ รูปแบบอื่นๆ ยังชี้ให้เห็นถึงข้อสันนิษฐานเพิ่มเติมอีกด้วยเรทเต"อาจจะเป็น"สถานะซึ่งหมายความว่าอาร์~ในทำนองเดียวกัน "atthattMZe"สามารถเดาได้ว่า "ในเวลานั้น"ให้ผลลัพธ์เอ็ม~ฉันและ~. นอกจากนี้, "เฮเว"อาจจะเป็น"ที่นี่"ให้"วี~เมื่อเติมคำตอบที่คาดเดาลงไป อีฟจะได้ผลลัพธ์ดังนี้:

hereTCSWPeYraWHarSseQithaYraOeaWHstatePFairaWHKrSTYhtmetheKeetPeJrSmaYPassGasei WQhiGhitQaseWGPSseHitQasaKeaTtiJTPsGaraKaeTsaอะไรในช่วงเวลานั้นTWAWSQWtSWatTraPistsSJ GSTrseaYreatCriUeiWasGieWtiJiGCSiWtSJOieQthereQeretQSrSTWHKPaGAsCStsWearSWeeBtr emitFSJtheKaGAaWHaPSWYSWeWeartheStherthesGaPesQereeBGeeHiWYPFharHaWHYPSssFQitha PPtheaCCearaWGeSJKTrปรารถนาHYSPHtheQeiYhtSJtheiWseGtQasOerFremarAaKPeaWHtaAiWYaPP thiWYsiWtSGSWsiHeratiSWiGSTPHharHPFKPameNTCiterJSrhisSCiWiSWresCeGtiWYit 

ในทางกลับกัน การคาดเดาเหล่านี้ก็ชี้ไปสู่การคาดเดาอื่นๆ อีก (ตัวอย่างเช่น "เรมาร์เอ"อาจจะเป็น"หมายเหตุ"โดยนัย"เอ~เค) และอื่นๆ ต่อไปเรื่อยๆ และการอนุมานตัวอักษรที่เหลือก็ค่อนข้างตรงไปตรงมา จนกระทั่งได้ข้อความต้นฉบับในที่สุด

จากนั้นแกรนด์ก็ลุกขึ้นด้วยท่าทางเคร่งขรึมและสง่างาม แล้วนำด้วงออกมาจากตู้กระจกให้ฉัน ซึ่งมันถูกล้อมรอบไว้ มันเป็นด้วงคาราเบียนที่สวยงาม และในเวลานั้นยังไม่เป็นที่รู้จักของนักธรรมชาติวิทยา courseagreatprizeinascientificpointofviewthereweretworoundblackspotsnearoneextr ลักษณะของด้านหลังและด้านข้างของโลก เกล็ดนั้นแข็งและมันเงาอย่างมาก ลักษณะที่ปรากฏของทองคำขัดเงา น้ำหนักของแมลงนั้นน่าทึ่งมาก และเมื่อนำทั้งหมดออกไป thingsintoconsiderationicould hardly blamemejupiterforhisopionrespectingit 

ณ จุดนี้ อีฟควรเว้นวรรคและใส่เครื่องหมายวรรคตอนลงไปด้วย:

จากนั้นเลอกรองด์ก็ลุกขึ้นด้วยท่าทางเคร่งขรึมและสง่างาม แล้วนำด้วงตัวนั้นมาให้ข้า จากตู้กระจกที่มันถูกเก็บไว้ มันเป็นด้วงสคาราเบียสที่สวยงาม และในตอนนั้น ในเวลานั้น ซึ่งไม่เป็นที่รู้จักของนักธรรมชาติวิทยา—แน่นอนว่าเป็นรางวัลอันยิ่งใหญ่ในเชิงวิทยาศาสตร์ จากมุมมอง มีจุดสีดำกลมสองจุดอยู่ใกล้ส่วนท้ายด้านหนึ่ง และมี ยาวอันหนึ่งอยู่ใกล้อีกอันหนึ่ง เกล็ดนั้นแข็งและมันเงามาก พร้อมด้วย... มีลักษณะเหมือนทองคำขัดเงา น้ำหนักของแมลงนั้นน่าทึ่งมาก และ เมื่อพิจารณาจากทุกสิ่งทุกอย่างแล้ว ฉันแทบจะตำหนิความคิดเห็นของจูปิเตอร์ไม่ได้เลย เคารพในสิ่งนั้น 

ในตัวอย่างจากเรื่อง " The Gold-Bug " การคาดเดาของอีฟถูกต้องทั้งหมด อย่างไรก็ตาม นี่อาจไม่ใช่กรณีเสมอไป เนื่องจากความผันแปรของสถิติสำหรับข้อความต้นฉบับแต่ละข้อความอาจทำให้การคาดเดาเริ่มต้นไม่ถูกต้อง อาจจำเป็นต้องย้อนกลับไปแก้ไขข้อผิดพลาด หรือวิเคราะห์สถิติที่มีอยู่ให้ละเอียดกว่าคำอธิบายที่ค่อนข้างเรียบง่ายในตัวอย่างข้างต้น

เป็นไปได้ว่าข้อความต้นฉบับอาจไม่ได้แสดงการกระจายความถี่ของตัวอักษรตามที่คาดไว้ ข้อความที่สั้นกว่ามักจะแสดงความแปรผันมากกว่า นอกจากนี้ยังสามารถสร้างข้อความที่เบี่ยงเบนไปจากความเป็นจริงได้ ตัวอย่างเช่น มีนวนิยายทั้งเล่มที่เขียนขึ้นโดยละเว้นตัวอักษรบางตัวอีโดยรวมแล้ว — รูปแบบวรรณกรรมที่เรียกว่าลิโปแกรม (lipogram )

ประวัติและการใช้งาน

หน้าแรกของ ต้นฉบับ อัล-คินดีในศตวรรษที่ 9 ว่าด้วยการถอดรหัสข้อความเข้ารหัสลับ
การกระจายความถี่ของตัวอักษรอาหรับ

คำอธิบายที่บันทึกไว้ครั้งแรกเกี่ยวกับการวิเคราะห์ความถี่ (และแท้จริงแล้ว การวิเคราะห์รหัสลับทุกประเภท) ได้รับการบันทึกไว้ในศตวรรษที่ 9 โดยอัล-คินดีนักปราชญ์ชาวอาหรับ ในต้นฉบับเกี่ยวกับการถอดรหัสข้อความเข้ารหัส [ 3 ] มีการเสนอแนะว่าการศึกษาข้อความอย่างละเอียดของอัลกุรอานเป็นครั้งแรกที่ทำให้เห็นว่าภาษาอาหรับมีความถี่ของตัวอักษรที่เป็นลักษณะเฉพาะ[ 4 ]การใช้งานแพร่หลาย และระบบที่คล้ายกันนี้ถูกนำมาใช้อย่างกว้างขวางในรัฐต่างๆ ในยุโรปในช่วงยุคฟื้นฟูศิลปวิทยาในปี 1474 ซิกโก ซิโมเนตตาได้เขียนคู่มือเกี่ยวกับการถอดรหัสข้อความภาษาละตินและอิตาลี[ 5 ]

นักเข้ารหัสได้คิดค้นวิธีการต่างๆ มากมายเพื่อเอาชนะจุดอ่อนนี้ในการเข้ารหัสแบบแทนที่อย่างง่าย ซึ่งรวมถึง:

ข้อเสียเปรียบของความพยายามทั้งหมดเหล่านี้ในการต่อต้านการโจมตีด้วยการนับความถี่คือ มันทำให้ทั้งการเข้ารหัสและการถอดรหัสซับซ้อนขึ้น นำไปสู่ข้อผิดพลาด มีเรื่องเล่าที่โด่งดังว่า รัฐมนตรีต่างประเทศของอังกฤษคนหนึ่งปฏิเสธรหัส Playfair เพราะถึงแม้เด็กนักเรียนชายจะสามารถถอดรหัสได้สำเร็จดังที่ Wheatstone และ Playfair ได้แสดงให้เห็นแล้วก็ตาม "แต่เจ้าหน้าที่ทูตของเราไม่มีทางเรียนรู้มันได้!"

เครื่องโรเตอร์ในช่วงครึ่งแรกของศตวรรษที่ 20 (เช่นเครื่อง Enigma ) โดยพื้นฐานแล้วไม่สามารถวิเคราะห์ความถี่โดยตรงได้ อย่างไรก็ตาม การวิเคราะห์ประเภทอื่น ("การโจมตี") สามารถถอดรหัสข้อความจากเครื่องเหล่านั้นได้สำเร็จ[ 6 ]

ความถี่ในการใช้ตัวอักษรในภาษาสเปน

การวิเคราะห์ความถี่นั้นต้องการเพียงความเข้าใจพื้นฐานเกี่ยวกับสถิติของภาษาต้นฉบับและทักษะการแก้ปัญหาบางอย่าง และหากทำด้วยมือ ก็ต้องอดทนกับการจดบันทึกตัวอักษรจำนวนมาก ในช่วงสงครามโลกครั้งที่สองทั้งอังกฤษและอเมริกา ต่าง ก็รับสมัครผู้ถอดรหัสโดยการลงปริศนาอักษรไขว้ในหนังสือพิมพ์หลักๆ และจัดการแข่งขันเพื่อหาผู้ที่สามารถแก้ปริศนาได้เร็วที่สุด รหัสลับหลายรหัสที่ฝ่ายอักษะ ใช้ สามารถถอดรหัสได้โดยใช้การวิเคราะห์ความถี่ ตัวอย่างเช่น รหัสลับกงสุลบางส่วนที่ญี่ปุ่นใช้ วิธีการเชิงกลในการนับตัวอักษรและการวิเคราะห์ทางสถิติ (โดยทั่วไปคือ เครื่องจักรแบบการ์ด ของ IBM ) ถูกนำมาใช้ครั้งแรกในสงครามโลกครั้งที่สอง อาจโดยหน่วย SIS ของกองทัพสหรัฐฯ ในปัจจุบัน งานนับและวิเคราะห์ตัวอักษรทำโดยซอฟต์แวร์คอมพิวเตอร์ ซึ่งสามารถทำการวิเคราะห์ดังกล่าวได้ในเวลาเพียงไม่กี่วินาที ด้วยพลังการประมวลผลของคอมพิวเตอร์ในปัจจุบัน รหัสลับแบบคลาสสิกจึงไม่น่าจะให้การป้องกันข้อมูลที่เป็นความลับได้อย่างแท้จริง

การวิเคราะห์ความถี่ในนิยาย

ส่วนหนึ่งของรหัสลับในบทกวี " The Dancing Men"

การวิเคราะห์ความถี่ได้รับการกล่าวถึงในงานเขียนเชิงวรรณกรรม ตัวอย่างเช่นเรื่อง " The Gold-Bug " ของเอ็ดการ์ อัลลัน โพ และ เรื่องเชอร์ล็อก โฮลมส์ " The Adventure of the Dancing Men " ของเซอร์ อาร์เธอร์ โคนัน ดอยล์ ซึ่งบรรยายถึงการใช้การวิเคราะห์ความถี่ในการโจมตีรหัสลับแบบแทนที่อย่างง่าย รหัสลับในเรื่องของโพนั้นเต็มไปด้วยมาตรการหลอกลวงหลายอย่าง แต่สิ่งนี้เป็นเพียงกลวิธีทางวรรณกรรมมากกว่าสิ่งสำคัญทางด้านการเข้ารหัสลับ

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • เฮเลน ฟูเช เกนส์, "การเข้ารหัสลับ", 1939, โดเวอร์ไอเอสบีเอ็น 0-486-20097-3.
  • Abraham Sinkov , "Elementary Cryptanalysis: A Mathematical Approach", The Mathematical Association of America, 1966. ISBN 0-88385-622-0.
  • เครื่องมือวิเคราะห์ความถี่ออนไลน์
  • ความถี่ของ ตัวอักษรและพยางค์ใน 41 ภาษา และเครื่องมือพกพาสำหรับสร้างการกระจายความถี่และพยางค์
  • การวิเคราะห์ความถี่ของตัวอักษรอาหรับ
  • ความน่าจะเป็นแบบมีเงื่อนไขสำหรับตัวอักษรในข้อความภาษาอังกฤษ
  • ความถี่ของตัวอักษร/ไบแกรม/ไตรแกรมภาษาเช็ก
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Frequency_analysis&oldid=1335341223 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การวิเคราะห์ความถี่

ในการวิเคราะห์รหัสลับการวิเคราะห์ความถี่ (หรือที่เรียกว่าการนับตัวอักษร ) คือการศึกษาความถี่ของตัวอักษรหรือกลุ่มตัวอักษรในข้อความที่เข้ารหัสวิธีนี้ใช้เป็นเครื่องมือช่วยในการถอดรหัส...

การวิเคราะห์ความถี่สำหรับรหัสลับแบบแทนที่อย่างง่าย

ใน การเข้ารหัสแบบแทนที่ อย่างง่าย ตัวอักษรแต่ละตัวในข้อความ ต้นฉบับ จะถูกแทนที่ด้วยตัวอักษรอื่น และตัวอักษรใดๆ ในข้อความต้นฉบับจะถูกแปลงเป็นตัวอักษรเดียวกันในข้อความที่เข้ารหัสเสมอ ตัวอย่างเช่น หากตัวอักษรทั้งหมดที่ปรากฏ อี เปลี่ยนเป็นตัวอักษร X...

ตัวอย่าง

สมมติว่า อีฟ ได้ดักจับ รหัสลับ ด้านล่างนี้ และทราบว่ามันถูกเข้ารหัสโดยใช้การเข้ารหัสแบบแทนที่อย่างง่าย:

ประวัติและการใช้งาน

คำอธิบายที่บันทึกไว้ครั้งแรกเกี่ยวกับการวิเคราะห์ความถี่ (และแท้จริงแล้ว การวิเคราะห์รหัสลับทุกประเภท) ได้รับการบันทึกไว้ในศตวรรษที่ 9 โดย อัล-คินดี นักปราชญ์ ชาว อาหรับ ใน ต้นฉบับเกี่ยวกับการถอดรหัสข้อความเข้ารหัส [ 3 ] มี...