ความซับซ้อนของลำดับทางภาษา

Q: ดูเพิ่มเติม

ฟังก์ชันความซับซ้อน – ฟังก์ชันที่นับจำนวนองค์ประกอบที่แตกต่างกันของสตริง ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Linguistic_sequence_complexity&oldid=1314812894 "

ความซับซ้อนของลำดับทางภาษาศาสตร์ (LC) เป็นการวัด 'ความหลากหลายของคำศัพท์' ของข้อความทางพันธุกรรมในลำดับยีน^{[ 1 ]} เมื่อ ลำดับนิ วคลีโอไทด์ถูกเขียนเป็นข้อความโดยใช้อักษร 4 ตัว ความซ้ำซ้อนของข้อความ นั่นคือ การซ้ำซ้อนของN-grams (คำ) สามารถคำนวณได้และใช้เป็นการวัดความซับซ้อนของลำดับ ดังนั้น ยิ่งลำดับ DNA ซับซ้อนมากเท่าใดคำศัพท์ ของโอลิโก นิวคลีโอไทด์ก็จะยิ่งหลากหลาย มากขึ้น เท่านั้น ในขณะที่ลำดับที่ซ้ำซ้อนจะมีความซับซ้อนค่อนข้างต่ำ งานวิจัยต่อมาได้ปรับปรุงอัลกอริทึมดั้งเดิมที่อธิบายไว้ในTrifonov (1990) ^{[ 1 ]}โดยไม่เปลี่ยนแปลงสาระสำคัญของวิธีการความซับซ้อนทางภาษาศาสตร์^{[ 2 ]}^{[ 3 ]}^{[ 4 ]}

ความหมายของ LC อาจเข้าใจได้ดียิ่งขึ้นโดยพิจารณาการนำเสนอลำดับเป็นต้นไม้ของลำดับย่อยทั้งหมดของลำดับที่กำหนด ลำดับที่ซับซ้อนที่สุดจะมีต้นไม้ที่สมดุลสูงสุด ในขณะที่การวัดความไม่สมดุลหรือความไม่สมมาตรของต้นไม้ทำหน้าที่เป็นการวัดความซับซ้อนจำนวนโหนดที่ระดับต้นไม้ $i$ เท่ากับขนาดคำศัพท์จริงของคำที่มีความยาว $i$ ในลำดับที่กำหนด จำนวนโหนดในต้นไม้ที่สมดุลที่สุด ซึ่งสอดคล้องกับลำดับที่ซับซ้อนที่สุดที่มีความยาว N ที่ระดับต้นไม้ $i$ คือ 4 ⁱหรือ N-i+1 แล้วแต่ว่าค่าใดน้อยกว่า ความซับซ้อน ( $C$ ) ของส่วนย่อยของลำดับ (ที่มีความยาว RW) สามารถคำนวณได้โดยตรงจากผลคูณของการวัดการใช้คำศัพท์ (U _i ): ^{[ 2 ]}

$C=U_{1}U_{2}...U_{i}....U_{w}$

การใช้คำศัพท์สำหรับโอลิโกเมอร์ที่มีขนาด $i$ ที่กำหนด สามารถนิยามได้ว่าเป็นอัตราส่วนของขนาดคำศัพท์จริงของลำดับที่กำหนดต่อขนาดคำศัพท์สูงสุดที่เป็นไปได้สำหรับลำดับที่มีความยาวนั้น ตัวอย่างเช่น U ₂_{สำหรับ}ลำดับ ACGGGAAGCTGATTCCA = 14/16 เนื่องจากมีไดนิวคลีโอไทด์ที่แตกต่างกัน 14 จาก 16 แบบที่เป็นไปได้; U 3 สำหรับลำดับเดียวกัน = 15/15 และ U ₄ = 14/14 สำหรับลำดับ ACACACACACACACACACA, U ₁ = 1/2; U ₂ = 2/16 = 0.125 เนื่องจากมีคำศัพท์ง่ายๆ เพียงสองไดนิวคลีโอไทด์; U ₃สำหรับลำดับนี้ = 2/15 พิจารณา k-tuples โดยที่ k ตั้งแต่สองถึง W ในขณะที่ W ขึ้นอยู่กับ RW สำหรับค่า RW น้อยกว่า 18, W เท่ากับ 3; สำหรับ RW น้อยกว่า 67, W เท่ากับ 4; สำหรับ RW < 260, W = 5; สำหรับ RW<1029, W=6 และอื่นๆ ค่าของ $C$ ให้การวัดความซับซ้อนของลำดับในช่วง 0<C<1 สำหรับชิ้นส่วนลำดับ DNA ต่างๆ ที่มีความยาวที่กำหนด^[²^] สูตรนี้แตกต่างจากการวัด LC ดั้งเดิม^[¹^]ในสองประเด็น: ในวิธีการคำนวณการใช้คำศัพท์ U _iและเนื่องจาก $i$ ไม่ได้อยู่ในช่วง 2 ถึง N-1 แต่ถึงแค่ W เท่านั้น ข้อจำกัดนี้เกี่ยวกับช่วงของ U _iทำให้ขั้นตอนวิธีมีประสิทธิภาพมากขึ้นอย่างมากโดยไม่สูญเสียพลัง^[²^] ใน^[⁵^] ได้ใช้เวอร์ชันที่แก้ไขอีกเวอร์ชันหนึ่ง ซึ่งความซับซ้อนทางภาษา (LC) ถูกกำหนดให้เป็นอัตราส่วนของจำนวนสตริงย่อยที่มีความยาวใดๆ ที่มีอยู่ในสตริงต่อจำนวนสตริงย่อยสูงสุดที่เป็นไปได้ คำศัพท์สูงสุดเหนือขนาดคำ 1 ถึง m สามารถคำนวณได้ตามสูตรง่ายๆ^[⁵^] การคำนวณความซับซ้อนของการวิเคราะห์ลำดับนี้สามารถใช้ในการค้นหาบริเวณที่อนุรักษ์ไว้ระหว่างลำดับที่เปรียบเทียบกันเพื่อตรวจจับบริเวณที่มีความซับซ้อนต่ำ รวมถึงการทำซ้ำลำดับอย่างง่าย การทำซ้ำโดยตรงหรือแบบกลับด้านที่ ไม่สมบูรณ์ โครงสร้าง DNA สามสายโพลีพิวรีนและโพลีไพริมิดีนและโครงสร้างสี่สาย (เช่นG-quadruplexes ) ^[⁶^]

ดูเพิ่มเติม

ฟังก์ชันความซับซ้อน – ฟังก์ชันที่นับจำนวนองค์ประกอบที่แตกต่างกันของสตริง

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[

[

ความซับซ้อนของลำดับทางภาษา

ดูเพิ่มเติม

ข้อมูลสำคัญจากบทความ