กลับไปหน้าบทความ

อ่าน 3 นาที

ความซับซ้อนของลำดับทางภาษา

ความซับซ้อนของลำดับทางภาษาศาสตร์ (LC) เป็นการวัด 'ความหลากหลายของคำศัพท์' ของข้อความทางพันธุกรรมใน ลำดับยีน [ 1 ] เมื่อ ลำดับนิ วคลีโอไทด์ ถูกเขียนเป็นข้อความโดยใช้อักษร 4 ตัว...

ความซับซ้อนของลำดับทางภาษา

ความซับซ้อนของลำดับทางภาษาศาสตร์ (LC) เป็นการวัด 'ความหลากหลายของคำศัพท์' ของข้อความทางพันธุกรรมในลำดับยีน[ 1 ] เมื่อ ลำดับนิ วคลีโอไทด์ถูกเขียนเป็นข้อความโดยใช้อักษร 4 ตัว ความซ้ำซ้อนของข้อความ นั่นคือ การซ้ำซ้อนของN-grams (คำ) สามารถคำนวณได้และใช้เป็นการวัดความซับซ้อนของลำดับ ดังนั้น ยิ่งลำดับ DNA ซับซ้อนมากเท่าใดคำศัพท์ ของโอลิโก นิวคลีโอไทด์ก็จะยิ่งหลากหลาย มากขึ้น เท่านั้น ในขณะที่ลำดับที่ซ้ำซ้อนจะมีความซับซ้อนค่อนข้างต่ำ งานวิจัยต่อมาได้ปรับปรุงอัลกอริทึมดั้งเดิมที่อธิบายไว้ในTrifonov (1990) [ 1 ]โดยไม่เปลี่ยนแปลงสาระสำคัญของวิธีการความซับซ้อนทางภาษาศาสตร์[ 2 ] [ 3 ] [ 4 ]

ความหมายของ LC อาจเข้าใจได้ดียิ่งขึ้นโดยพิจารณาการนำเสนอลำดับเป็นต้นไม้ของลำดับย่อยทั้งหมดของลำดับที่กำหนด ลำดับที่ซับซ้อนที่สุดจะมีต้นไม้ที่สมดุลสูงสุด ในขณะที่การวัดความไม่สมดุลหรือความไม่สมมาตรของต้นไม้ทำหน้าที่เป็นการวัดความซับซ้อนจำนวนโหนดที่ระดับต้นไม้iเท่ากับขนาดคำศัพท์จริงของคำที่มีความยาวiในลำดับที่กำหนด จำนวนโหนดในต้นไม้ที่สมดุลที่สุด ซึ่งสอดคล้องกับลำดับที่ซับซ้อนที่สุดที่มีความยาว N ที่ระดับต้นไม้iคือ 4 iหรือ N-i+1 แล้วแต่ว่าค่าใดน้อยกว่า ความซับซ้อน ( C ) ของส่วนย่อยของลำดับ (ที่มีความยาว RW) สามารถคำนวณได้โดยตรงจากผลคูณของการวัดการใช้คำศัพท์ (U i ): [ 2 ]

     

การใช้คำศัพท์สำหรับโอลิโกเมอร์ที่มีขนาดi ที่กำหนด สามารถนิยามได้ว่าเป็นอัตราส่วนของขนาดคำศัพท์จริงของลำดับที่กำหนดต่อขนาดคำศัพท์สูงสุดที่เป็นไปได้สำหรับลำดับที่มีความยาวนั้น ตัวอย่างเช่น U 2 สำหรับลำดับ ACGGGAAGCTGATTCCA = 14/16 เนื่องจากมีไดนิวคลีโอไทด์ที่แตกต่างกัน 14 จาก 16 แบบที่เป็นไปได้; U 3 สำหรับลำดับเดียวกัน = 15/15 และ U 4 = 14/14 สำหรับลำดับ ACACACACACACACACACA, U 1 = 1/2; U 2 = 2/16 = 0.125 เนื่องจากมีคำศัพท์ง่ายๆ เพียงสองไดนิวคลีโอไทด์; U 3สำหรับลำดับนี้ = 2/15 พิจารณา k-tuples โดยที่ k ตั้งแต่สองถึง W ในขณะที่ W ขึ้นอยู่กับ RW สำหรับค่า RW น้อยกว่า 18, W เท่ากับ 3; สำหรับ RW น้อยกว่า 67, W เท่ากับ 4; สำหรับ RW < 260, W = 5; สำหรับ RW<1029, W=6 และอื่นๆ ค่าของCให้การวัดความซับซ้อนของลำดับในช่วง 0<C<1 สำหรับชิ้นส่วนลำดับ DNA ต่างๆ ที่มีความยาวที่กำหนด[ 2 ] สูตรนี้แตกต่างจากการวัด LC ดั้งเดิม[ 1 ]ในสองประเด็น: ในวิธีการคำนวณการใช้คำศัพท์ U iและเนื่องจากiไม่ได้อยู่ในช่วง 2 ถึง N-1 แต่ถึงแค่ W เท่านั้น ข้อจำกัดนี้เกี่ยวกับช่วงของ U iทำให้ขั้นตอนวิธีมีประสิทธิภาพมากขึ้นอย่างมากโดยไม่สูญเสียพลัง[ 2 ] ใน[ 5 ] ได้ใช้เวอร์ชันที่แก้ไขอีกเวอร์ชันหนึ่ง ซึ่งความซับซ้อนทางภาษา (LC) ถูกกำหนดให้เป็นอัตราส่วนของจำนวนสตริงย่อยที่มีความยาวใดๆ ที่มีอยู่ในสตริงต่อจำนวนสตริงย่อยสูงสุดที่เป็นไปได้ คำศัพท์สูงสุดเหนือขนาดคำ 1 ถึง m สามารถคำนวณได้ตามสูตรง่ายๆ[ 5 ] การคำนวณความซับซ้อนของการวิเคราะห์ลำดับนี้สามารถใช้ในการค้นหาบริเวณที่อนุรักษ์ไว้ระหว่างลำดับที่เปรียบเทียบกันเพื่อตรวจจับบริเวณที่มีความซับซ้อนต่ำ รวมถึงการทำซ้ำลำดับอย่างง่าย การทำซ้ำโดยตรงหรือแบบกลับด้านที่ ไม่สมบูรณ์ โครงสร้าง DNA สามสายโพลีพิวรีนและโพลีไพริมิดีนและโครงสร้างสี่สาย (เช่นG-quadruplexes ) [ 6 ]

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Linguistic_sequence_complexity&oldid=1314812894 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ความซับซ้อนของลำดับทางภาษา

ความซับซ้อนของลำดับทางภาษาศาสตร์ (LC) เป็นการวัด 'ความหลากหลายของคำศัพท์' ของข้อความทางพันธุกรรมใน ลำดับยีน [ 1 ] เมื่อ ลำดับนิ วคลีโอไทด์ ถูกเขียนเป็นข้อความโดยใช้อักษร 4 ตัว...

ดูเพิ่มเติม

ฟังก์ชันความซับซ้อน – ฟังก์ชันที่นับจำนวนองค์ประกอบที่แตกต่างกันของสตริง ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Linguistic_sequence_complexity&oldid=1314812894 "