อ่าน 14 นาที
ภาวะไม่สมดุลของการเชื่อมโยง
ภาวะไม่สมดุล ของการเชื่อมโยง (Linkage disequilibrium ) ซึ่งมักย่อว่า LD เป็นคำศัพท์ในพันธุศาสตร์ประชากร ที่หมายถึงการเชื่อมโยงของยีน โดยปกติจะ เป็น ยีนที่เชื่อมโยงกันในประชากร
ภาวะไม่สมดุลของการเชื่อมโยง
ภาวะไม่สมดุล ของการเชื่อมโยง (Linkage disequilibrium ) ซึ่งมักย่อว่า LD เป็นคำศัพท์ในพันธุศาสตร์ประชากร ที่หมายถึงการเชื่อมโยงของยีน โดยปกติจะ เป็น ยีนที่เชื่อมโยงกันในประชากร ได้กลายเป็นเครื่องมือสำคัญในพันธุศาสตร์ทางการแพทย์และสาขาอื่นๆ[ 1 ] [ 2 ]
ในการนิยาม LD นั้น สิ่งสำคัญคือต้องแยกแยะความแตกต่างระหว่างสองแนวคิดก่อน คือ ภาวะไม่สมดุลของการเชื่อมโยง (linkage disequilibrium) และการเชื่อมโยง ( linkage ) ทางพันธุกรรม ภาวะไม่สมดุลของการเชื่อมโยงหมายถึงความสัมพันธ์ของยีนในประชากรในขณะที่การเชื่อมโยงบอกเราว่ายีนอยู่บนโครโมโซมเดียวกันในแต่ละบุคคลหรือไม่ ไม่มีความสัมพันธ์ที่จำเป็นระหว่างสองสิ่งนี้ ยีนที่เชื่อมโยงกันอย่างใกล้ชิดอาจมีความสัมพันธ์กันหรือไม่ก็ได้ในประชากร หากพิจารณาจากพ่อแม่และลูก หากยีนในตำแหน่งที่เชื่อมโยงกันอย่างใกล้ชิดปรากฏอยู่ด้วยกันในพ่อแม่ ก็มักจะพบยีนเหล่านั้นอยู่ด้วยกันในลูกด้วย แต่หากพิจารณาจากแต่ละบุคคลในประชากรที่ไม่มีบรรพบุรุษร่วมกันที่ทราบแน่ชัด การหาความสัมพันธ์ใดๆ จะทำได้ยากกว่ามาก
เพื่อให้เห็นภาพตัวอย่างที่เป็นรูปธรรม แม้จะเป็นตัวอย่างสมมติ ในแง่ของความถี่ของลักษณะต่างๆ ลองพิจารณากรณีที่ "ยีนสำหรับผมสีแดง" มีความเชื่อมโยงอย่างใกล้ชิดกับ "ยีนสำหรับดวงตาสีฟ้า" สิ่งนี้บอกอะไรเราเกี่ยวกับความถี่ของประชากรที่คาดหวังของบุคคลที่มีผมสีแดงและดวงตาสีฟ้า? คนผมแดงทุกคนจะต้องมีดวงตาสีฟ้าหรือไม่ เพียงเพราะยีนที่ควบคุมลักษณะเหล่านี้มีความเชื่อมโยงกันอย่างใกล้ชิด?
คำจำกัดความอย่างเป็นทางการ
พิจารณาอัลลีลAที่ ตำแหน่ง Aซึ่งมีความถี่pAในประชากรกลุ่มหนึ่ง ที่ ตำแหน่ง B ที่ เชื่อมโยงกัน ความถี่ของอัลลีลBคือpBคำถามคือ ความถี่ที่คาดหวังpAB ของคู่แอลลีลหรือแฮพลอไทป์ABคือเท่าใด (ดูหมายเหตุเกี่ยวกับศัพท์ทางพันธุกรรมด้านล่าง)
ถ้า แอลลีล AและBเป็นอิสระต่อกันในประชากรแล้ว ตามนิยามแล้วp ABก็คือผลคูณของp A p Bนั่นเอง ความแตกต่างระหว่างสองค่านี้แสดงด้วยDซึ่งเป็นสัมประสิทธิ์ของความไม่สมดุลของการเชื่อมโยง:
D = p AB - p A p B
การที่ค่าD เบี่ยง เบนจากศูนย์ แสดงว่าค่าเป็น LD
หมายเหตุเกี่ยวกับศัพท์เฉพาะทางพันธุกรรม
คำอธิบาย "อัลลีลAที่ ตำแหน่ง A " และ "อัลลีลBที่ ตำแหน่ง B " ดูเหมือนจะซับซ้อนโดยไม่จำเป็น ทำไมไม่ใช้แค่ " ยีน A " และ " ยีน B " ล่ะ? ปัญหาคือคำว่า "ยีน" ถูกใช้มาตั้งแต่เริ่มก่อตั้งพันธุศาสตร์โดยที่ไม่มีความเข้าใจที่ชัดเจนว่ายีนคืออะไรกันแน่ ดังนั้น แม้ว่าจะมีการใช้กันอย่างแพร่หลาย แต่ปัจจุบันวารสารพันธุศาสตร์กลับหลีกเลี่ยงการใช้คำนี้ (ดู[ 3 ]สำหรับการอภิปรายเกี่ยวกับการเปลี่ยนแปลงนิยามของยีน) ซึ่งน่าเสียดายสำหรับการอภิปรายเกี่ยวกับความถี่ของประชากรที่ธรรมชาติของยีนไม่สำคัญ
การใช้คำว่า " อัลลีล " แทนคำว่า "ยีน" ช่วยหลีกเลี่ยงปัญหานี้ได้ แต่ก็ไม่ใช่วิธีที่น่าพอใจนัก เดิมทีคำว่าอัลลีลถูกนิยามและยังคงเข้าใจว่าหมายถึง "ทางเลือก" และอัลลีลAกับอัลลีลBไม่ใช่อัลลีลของกันและกัน วิธีที่ง่ายที่สุดในการพูดถึง "สิ่ง" ที่เชื่อมโยงกันเหล่านี้คือการใช้คำว่า "ยีน"
ประวัติศาสตร์
ความคาดหวังที่มีมาตั้งแต่ปี พ.ศ. 2461 คือ LD ไม่น่าจะเกิดขึ้นได้ แม้แต่กับตำแหน่งยีนที่เชื่อมโยงกันอย่างใกล้ชิด Robbins [ 4 ]แสดงให้เห็นว่าการรวมตัวใหม่คาดว่าจะลดค่าDในแต่ละรุ่นลงด้วยปัจจัย (1 - c ) โดยที่cคือความถี่ของการรวมตัวใหม่
ถ้าค่า Dระหว่างแอลลีลที่สองตำแหน่งในรุ่นที่ 0 ถูกกำหนดให้เป็นD 0แล้วในรุ่นถัดไป:
D 1 = D 0 (1 - c )
และในรุ่นที่t :
D t = D 0 (1 - c ) t
หากมีการเกิดการรวมตัวใหม่ค่า cจะมากกว่าศูนย์ และค่า Dtจะเข้าใกล้ศูนย์เมื่อค่า tมีขนาดใหญ่ขึ้น
จากตัวอย่างที่ยกมาข้างต้น ไม่คาดว่าจะมีความสัมพันธ์ระหว่างสีผมและสีตา ความถี่ของบุคคลที่มีทั้งผมสีแดงและตาสีฟ้าคาดว่าจะเท่ากับผลคูณของความถี่ของบุคคลผมสีแดงกับความถี่ของบุคคลตาสีฟ้า แม้ว่าลักษณะทั้งสองจะถูกควบคุมโดยยีนที่เชื่อมโยงกันอย่างใกล้ชิดก็ตาม
การคัดเลือกให้วิธีหนึ่งที่เป็นไปได้ที่ LD อาจเกิดขึ้นได้ แม้จะมีข้อโต้แย้งข้างต้นก็ตาม หากยีนคู่ใดคู่หนึ่งได้รับความโปรดปราน การคัดเลือกสามารถทำให้เกิด LD ขึ้นในประชากร โดยรักษาความถี่ของยีนคู่ที่ได้รับความโปรดปรานไว้[ 5 ] “แบบจำลองสมดุล” ดังกล่าวต้องการระดับการคัดเลือกที่ค่อนข้างสูง โดยเฉพาะอย่างยิ่ง “ปฏิสัมพันธ์แบบคัดเลือก” ซึ่งเป็นไปได้เฉพาะกับยีนคู่ส่วนน้อยเท่านั้น
คำว่า LD ยังคงเป็นมรดกจากช่วงเวลานี้ มีการนำมาใช้ในกรณีที่ทราบการเกิดการรวมตัวใหม่ แต่ประชากรยังไม่ถึงจุดสมดุลสำหรับคู่ยีนที่เกี่ยวข้อง[ 6 ]แต่การใช้ LD ที่โดดเด่นที่สุดในปัจจุบันเกี่ยวข้องกับเบส DNA ที่เชื่อมโยงกันอย่างใกล้ชิด (ดูด้านล่าง) ไม่สามารถคาดหวังความเป็นอิสระได้ในกรณีเช่นนี้ คำอธิบาย 'ความไม่สมดุล' ดูเหมือนจะไม่เหมาะสม เนื่องจากมีนัยว่าสถานการณ์นี้เป็นเพียงชั่วคราวและ/หรือคาดไม่ถึง
ยุคโมเลกุล
อาจกล่าวได้ว่ายุคโมเลกุลของพันธุศาสตร์ประชากรเริ่มต้นขึ้นในปี พ.ศ. 2509 [ 7 ]ตามการศึกษาของ Lewontin และ Hubby ใน Drosophila [ 8 ]และ Harris [ 9 ]ในมนุษย์ โดยใช้การแยกโปรตีนด้วยไฟฟ้า ผู้เขียนเหล่านี้แสดงให้เห็นว่าประมาณหนึ่งในสามของตำแหน่งต้องเป็น 'โพลีมอร์ฟิก' ซึ่งมีความแตกต่างทางพันธุกรรมระหว่างบุคคลในประชากร เมื่อพิจารณาจากจำนวนตำแหน่งจำนวนมากในจีโนมและปริมาณการรวมตัวใหม่ที่จำกัด จึงสรุปได้ว่าต้องมีตำแหน่งโพลีมอร์ฟิกที่เชื่อมโยงกันอย่างใกล้ชิดจำนวนมาก
การลำดับดีเอ็นเอในภายหลังเช่นโครงการ International HapMap Projectแสดงให้เห็นว่าการศึกษาโปรตีนนั้นประเมินปริมาณความหลากหลายทางพันธุกรรมต่ำกว่าความเป็นจริงมาก โดยปกติแล้วจะมีจุดแตกต่างทางพันธุกรรมหลายพันจุด ซึ่งเรียกว่าSingle Nucleotide PolymorphismหรือSNPsอยู่ในบริเวณสั้นๆ ของจีโนม กรณีที่มีการเกิดการรวมตัวใหม่เป็นศูนย์หรือต่ำมากจึงพบได้ทั่วไป
ข้อค้นพบสำคัญประการที่สองที่เกี่ยวข้องกับ LD คือการตระหนักว่า LD สามารถเกิดขึ้นได้เพียงเพราะโครงสร้างประชากร[ 10 ] [ 11 ] [ 12 ]การศึกษาเช่นของ Robbins [ 4 ]ที่กล่าวถึงข้างต้นนั้นโดยพื้นฐานแล้วถือว่าขนาดประชากรเป็นอนันต์ ขนาดประชากรที่เล็กโดยเฉพาะอย่างยิ่งสามารถนำไปสู่ LD ได้อย่างอิสระจากการคัดเลือกใดๆ เป็นที่ชัดเจนว่า LD ไม่ใช่สิ่งที่หายากและมีความสำคัญรอง แต่ต้องแพร่หลาย
สิ่งนี้มีความสำคัญอย่างยิ่งในสาขาพันธุศาสตร์ของมนุษย์และการผสมพันธุ์สัตว์ที่หลากหลาย[ 1 ] [ 2 ]หมายความว่ายีนที่สำคัญใดๆ มีแนวโน้มที่จะถูกล้อมรอบด้วย DNA SNP ที่มี LD สูงกับยีนที่สนใจ ตำแหน่งของยีนอาจไม่เป็นที่รู้จัก แต่ตำแหน่งของ DNA SNP ทั้งหมดเป็นที่รู้จักอย่างแม่นยำ สิ่งนี้ทำให้สามารถทำแผนที่ยีนที่เป็นสาเหตุในพันธุศาสตร์ของมนุษย์ได้โดยใช้การศึกษาการเชื่อมโยงทั่วทั้งจีโนม ( GWAS ) และทำให้สามารถใช้ 'ค่าการผสมพันธุ์' ของ DNA เป็นตัวทำนาย ซึ่งนำไปสู่ความก้าวหน้าในการผสมพันธุ์สัตว์และพืช[ 13 ]
LD คือค่าความแปรปรวนร่วมหรือความสัมพันธ์ของความถี่
ความถี่ของแฮพลโลไทป์สามารถแสดงได้ในรูปตารางที่มีคอลัมน์xและyโดยกำหนดค่า '1' ให้กับ อัลลีล A และค่า '0' ให้กับอัลลีล a ในคอลัมน์ x และ ค่า '0' ให้กับอัลลีล Bในคอลัมน์yเช่นเดียวกัน ความถี่ ของแกมีตจะมีรูปแบบg iโดยผลรวมเท่ากับ 1
| แฮพลโลไทป์ | ค่า x | ค่า y | ความถี่ ( f ) |
|---|---|---|---|
| เอบี | 1 | 1 | จี1 |
| อาบ | 1 | 0 | จี2 |
| เอบี | 0 | 1 | จี3 |
| ab | 0 | 0 | จี4 |
จากนั้นจึงรวมผลลัพธ์จากทั้งสี่คลาส:
Σ fxy = 1. ก. 1 + 0. ก. 2 + 0. ก. 3 + 0. ก. 4 = ก. 1
Σ fx = g 1 + g 2 = p A
Σ fy = g 1 + g 3 = p B
ค่า ความแปรปรวนร่วมระหว่าง ค่า xและyคือ
Σ fxy - Σ fx Σ fy = g 1 - p A p B
ซึ่งเทียบเท่ากับค่าสัมประสิทธิ์ LD, D , ตามที่นิยามไว้ข้างต้น
โดยทั่วไปแล้ว การคำนวณค่าสัมประสิทธิ์สหสัมพันธ์จะสะดวกกว่าการคำนวณค่าความแปรปรวนร่วม โดยปรับค่าให้เป็นมาตรฐานตามค่าความแปรปรวน:
V(x) = Σ fx 2 - (Σ fx) 2 = p A - p A 2 = p A ( 1 - p A )
V(y) = Σ fy 2 - (Σ fy) 2 = p B - p B 2 = p B ( 1 - p B )
เมื่อแทนค่าจะได้ค่าสัมประสิทธิ์สหสัมพันธ์ ซึ่งสามารถกำหนดให้เป็นr ABได้ดังนี้:
หรือ
มาตรการ LD นี้ได้รับการแนะนำโดย Sewall Wright [ 14 ]และการใช้งานได้รับความนิยมโดย Hill และ Robertson [ 10 ]
LD สำหรับความถี่แบบดิพลอยด์
ทฤษฎี LD ข้างต้นนั้นอิงตามความถี่ของแฮพลอยด์ ในทางปฏิบัติ การสังเกตความถี่ดังกล่าวโดยตรงนั้นทำได้ยาก เนื่องจากในสิ่งมีชีวิตส่วนใหญ่ที่สนใจนั้นสามารถสังเกตได้เฉพาะจีโนไทป์แบบดิพลอยด์เท่านั้น จึงจำเป็นต้องมีการตั้งสมมติฐานเพื่ออนุมานความถี่ของแฮพลอยด์
แนวทางที่แตกต่างในการประมาณค่า LD จากความถี่แบบดิพลอยด์คือการคำนวณค่าความแปรปรวนร่วมและความสัมพันธ์ของความถี่ เช่นเดียวกับความถี่แบบแฮพลอยด์[ 15 ] Gao et al [ 16 ]แสดงให้เห็นว่าค่าความแปรปรวนร่วมแบบดิพลอยด์นั้นเหมือนกับ "การวัด LD แบบผสมของ Burrows" [ 17 ]ตารางด้านล่างแสดง ค่า xและyสำหรับจีโนไทป์แบบดิพลอยด์ นอกจากนี้ยังแสดงความถี่ที่คาดหวังโดยสมมติว่ามีการผสมพันธุ์แบบสุ่ม
| จีโนไทป์ | ค่า x | ค่า y | ความถี่(f ) |
|---|---|---|---|
| เอเอบีบี | 1 | 1 | กรัม1 2 |
| เอเอบีบี | 1 | 1/2 | 2 กรัม1 กรัม2 |
| เอเอบีบี | 1 | 0 | จี2 2 |
| เอบีบี | 1/2 | 1 | 2 กรัม1 กรัม3 |
| เอบีบี | 1/2 | 1/2 | 2 กรัม1 กรัม4 +2 กรัม2 กรัม3 |
| อับบ์ | 1/2 | 0 | 2 กรัม2 กรัม4 |
| อะบีบี | 0 | 1 | จี3 2 |
| อะบีบี | 0 | 1/2 | 2 กรัม3 กรัม4 |
| เอบีบี | 0 | 0 | จี4 2 |
การคำนวณค่าความแปรปรวนร่วมและค่าสหสัมพันธ์สำหรับความถี่เหล่านี้มีดังต่อไปนี้:
Σ fxy = ก. 1 2 + ก. 1 ก. 2 + ก. 1 ก. 3 + ก. 1 ก. 4 /2 + ก. 2 ก. 3 /2
เมื่อพิจารณานิยามทางเลือกของD = g 1 g 4 - g 2 g 3แล้ว จะได้ว่าสมการนี้ลดรูปเหลือดังนี้
Σ fxy = g 1 - D/2.
Σ fx = ก. 1 2 + 2 ก. 1 ก. 2 + ก. 2 2 + ก. 1 ก. 3 + ก. 1 ก. 4 + ก. 2 ก. 3 + ก. 3 ก. 4
ซึ่งทำให้ง่ายขึ้น เหมือนกับการคำนวณแบบแฮพลอยด์ ดังนี้
Σ fx = g 1 + g 2 = p A
ในทำนองเดียวกัน Σ fy = g 1 + g 3 = p B
ค่า ความแปรปรวนร่วมระหว่าง ค่า xและyคือ
Σ fxy - Σ fx Σ fy = g 1 - D /2 - p A p B
ซึ่งก็คือD /2 นั่นเอง
V( x ) = Σ fx 2 - (Σ fx) 2 ซึ่งสามารถแสดงได้ว่าเป็น p A ( 1 - p A )/2
V( y ) = Σ fy 2 - (Σ fy) 2 = p B ( 1 - p B )/2
เมื่อปรับค่าให้เป็นมาตรฐานโดยใช้ค่าความแปรปรวน ปัจจัยที่ 2 จะหักล้างกันไป ความสัมพันธ์แบบดิพลอยด์ซึ่งสามารถกำหนดได้เป็นR ABมีค่าคาดหวังดังนี้:
ที่น่าประหลาดใจคือ ผลลัพธ์นี้เหมือนกับค่าสหสัมพันธ์ LD ของแฮพลอยด์r ABผลลัพธ์ที่ได้นั้น เป็นไปตามที่กล่าวไว้ข้างต้น เป็นไปตามความคาดหวังโดยอาศัยสมมติฐานของการผสมพันธุ์แบบสุ่ม แต่สมมติฐานนี้สามารถผ่อนปรนได้
หากความเบี่ยงเบนจากการผสมพันธุ์แบบสุ่มแสดงในรูปของสัมประสิทธิ์การผสมพันธุ์ในสายเลือดFความถี่ที่คาดหวังของ โฮโมไซโกต AABBจะเท่ากับ (1- F ) g 1 2 + Fg 1ความถี่ที่คาดหวังของไม่ใช่โฮโมไซโกต เช่นAABbจะเท่ากับ (1- F ) g 1 g 2เป็นต้น เมื่อใช้ความถี่เหล่านี้ สถิติความแปรปรวนร่วมและความแปรปรวนจะลดรูปเหลือดังนี้:
Cov( x , y ) = (1+ F ) D /2
V( x ) = (1+ F ) p A (1- p A )/2 [เทียบเท่ากับ ( p A (1- p A ) + D A )/2โดยที่D Aคือความไม่สมดุลของตำแหน่งA [ 15 ] ]
V(y) = (1+ F ) p B (1- p B )/2
เงื่อนไขใน (1+ F ) ตัดกัน ดังนั้นความสัมพันธ์แบบดิพลอยด์จึงยังคงประมาณความสัมพันธ์แบบแฮพลอยด์ได้:
E( R AB ) = r AB
การคำนวณเพิ่มเติมที่เกี่ยวข้องกับ D
สำหรับตำแหน่งไบอัลลีลิกสองตำแหน่ง โดยที่aและbเป็นอัลลีลอื่น ๆ ที่ตำแหน่งทั้งสองนี้ ข้อจำกัดนั้นเข้มงวดมากจนค่าD เพียงค่าเดียว ก็เพียงพอที่จะแสดงความสัมพันธ์ความไม่สมดุลของการเชื่อมโยงทั้งหมดระหว่างอัลลีลเหล่านี้ ในกรณีนี้ความสัมพันธ์ของพวกมันสามารถอธิบายได้ดังนี้[ 1 ]
ในกรณีนี้ เครื่องหมายของDถูกเลือกโดยพลการ ขนาดของDมีความสำคัญมากกว่าเครื่องหมายของDเพราะขนาดของDเป็นตัวแทนของระดับความไม่สมดุลของการเชื่อมโยง[ 18 ]อย่างไรก็ตาม ค่า D ที่เป็นบวก หมายความว่าแกมีตมีความถี่มากกว่าที่คาดไว้ ในขณะที่ค่าลบหมายความว่าการรวมกันของอัลลีลทั้งสองนี้มีความถี่น้อยกว่าที่คาดไว้
ภาวะไม่สมดุลของการเชื่อมโยงใน ประชากร ที่สืพันธุ์แบบไม่อาศัยเพศสามารถกำหนดได้ในลักษณะเดียวกันโดยพิจารณาจากความถี่ของอัลลีลในประชากร นอกจากนี้ ยังสามารถกำหนดภาวะไม่สมดุลของการเชื่อมโยงระหว่างอัลลีลสามตัวขึ้นไปได้อีกด้วย อย่างไรก็ตาม การเชื่อมโยงลำดับสูงเหล่านี้ไม่ได้ถูกนำมาใช้ในทางปฏิบัติโดยทั่วไป[ 1 ]
การทำให้เป็นมาตรฐาน
ภาวะไม่สมดุลของการเชื่อมโยงยีนสะท้อนให้เห็นถึงการเปลี่ยนแปลงทั้งความเข้มข้นของความสัมพันธ์ในการเชื่อมโยงยีนและการเปลี่ยนแปลงความถี่ของยีน ซึ่งก่อให้เกิดปัญหาเมื่อเปรียบเทียบภาวะไม่สมดุลของการเชื่อมโยงยีนระหว่างอัลลีลที่มีความถี่แตกต่างกัน การปรับค่าภาวะไม่สมดุลของการเชื่อมโยงยีนให้เป็นมาตรฐานจะช่วยให้สามารถเปรียบเทียบอัลลีลเหล่านี้ได้ง่ายขึ้น
วิธี D
Lewontin [ 5 ]แนะนำให้คำนวณความไม่สมดุลของการเชื่อมโยงแบบปกติ (เรียกอีกอย่างว่าความไม่สมดุลของการเชื่อมโยงแบบสัมพัทธ์) โดยการหารด้วยความแตกต่างสูงสุดทางทฤษฎีระหว่างความถี่ของอัลลีลที่สังเกตได้และที่คาดหวัง ดังนี้:
ที่ไหน
ค่าของจะอยู่ในช่วงเมื่อตำแหน่งยีนจะเป็นอิสระต่อกัน เมื่ออัลลีลจะพบได้น้อยกว่าที่คาดไว้ เมื่ออัลลีลจะพบได้บ่อยกว่าที่คาดไว้
โปรดทราบว่าอาจใช้แทนเมื่อวัดว่าอัลลีลสองตัวอยู่ใกล้สมดุลการเชื่อมโยงกันมากน้อยเพียงใด
วิธีr 2
อีกทางเลือกหนึ่งคือสัมประสิทธิ์สหสัมพันธ์ระหว่างคู่ของตำแหน่งทางพันธุกรรม ซึ่งโดยปกติจะแสดงเป็นค่ากำลังสองของสัมประสิทธิ์นั้น
ค่าของจะอยู่ในช่วงเมื่อจะไม่มีความสัมพันธ์ระหว่างคู่ดังกล่าว เมื่อความสัมพันธ์จะเป็นบวกอย่างสมบูรณ์หรือลบอย่างสมบูรณ์ ขึ้นอยู่กับเครื่องหมายของ
d วิธีการ
อีกทางเลือกหนึ่งคือการทำให้เป็นมาตรฐานโดยใช้ผลคูณของความถี่อัลลีลสองในสี่ความถี่ เมื่อความถี่ทั้งสองแสดงถึงอัลลีลจากโลคัสเดียวกัน วิธีนี้ช่วยให้สามารถเปรียบเทียบความไม่สมมาตรระหว่างคู่ของโลคัสได้ วิธีนี้มักใช้ในการศึกษากรณีควบคุมโดยที่โลคัสนั้นมีอัลลีลของโรคอยู่[ 19 ]
วิธี ρ
เช่นเดียวกับวิธี d ทางเลือกนี้จะทำให้เป็นมาตรฐานโดยใช้ผลคูณของความถี่อัลลีลสองในสี่ความถี่เมื่อความถี่ทั้งสองแสดงถึงอัลลีลจากตำแหน่งที่แตกต่างกัน[ 19 ]
ขีดจำกัดสำหรับช่วงของการวัดความไม่สมดุลของการเชื่อมโยง
มาตรการเหล่านี้ มีขีดจำกัดในช่วง และไม่ครอบคลุมค่าทั้งหมดตั้งแต่ศูนย์ถึงหนึ่งสำหรับโลคัสทุกคู่ ค่าสูงสุดของขึ้นอยู่กับความถี่ของอัลลีลที่โลคัสทั้งสองที่กำลังเปรียบเทียบกัน และสามารถอยู่ในช่วงตั้งแต่ศูนย์ถึงหนึ่งได้อย่างสมบูรณ์ก็ต่อเมื่อความถี่ของอัลลีลที่โลคัสทั้งสองเท่ากันซึ่งก็คือหรือเมื่อความถี่ของอัลลีลมีความสัมพันธ์กันเมื่อ[ 20 ]ในขณะที่ สามารถมีค่าสูงสุดเป็น 1 ได้เสมอ ค่าต่ำสุดสำหรับ โลคัสสองโลคัสจะเท่ากับสำหรับโลคัสเหล่านั้น[ 21 ]
ตัวอย่าง: สองตำแหน่งยีนและสองอัลลีล
พิจารณาแฮพลอไทป์สำหรับสองตำแหน่ง A และ B ซึ่งแต่ละตำแหน่งมีสองอัลลีล—แบบจำลองสองตำแหน่ง สองอัลลีล จากนั้นตารางต่อไปนี้จะกำหนดความถี่ของแต่ละชุดค่าผสม:
| แฮพลโลไทป์ | ความถี่ |
โปรดทราบว่านี่คือความถี่สัมพัทธ์เราสามารถใช้ความถี่ข้างต้นเพื่อกำหนดความถี่ของแต่ละอัลลีลได้:
| อัลลีล | ความถี่ |
หากตำแหน่งทางพันธุกรรมทั้งสองและอัลลีลเป็นอิสระต่อกัน เราก็คาดหวังว่าความถี่ของแต่ละแฮพลอไทป์จะเท่ากับผลคูณของความถี่ของอัลลีลที่สอดคล้องกัน (เช่น)
การเบี่ยงเบนของความถี่ที่สังเกตได้ของแฮพลอไทป์จากที่คาดไว้คือปริมาณ[ 4 ] ที่เรียกว่าความไม่สมดุลของการเชื่อมโยง[ 6 ]และโดยทั่วไปจะใช้ตัวอักษรD ตัวใหญ่ แทน
ดังนั้น หากตำแหน่งยีนถูกถ่ายทอดอย่างอิสระ แล้ว ดังนั้นและจะเกิดภาวะสมดุลของการเชื่อมโยงยีน อย่างไรก็ตาม หากความถี่ของแฮพลอไทป์ที่สังเกตได้สูงกว่าที่คาดการณ์ไว้จากความถี่ของแต่ละตัวแล้วดังนั้น และจะเกิดภาวะไม่สมดุลของการเชื่อมโยงยีนในเชิง บวกในทางกลับกัน หากความถี่ที่สังเกตได้ต่ำกว่า แล้วและจะเกิดภาวะไม่สมดุลของการเชื่อมโยงยีนในเชิงลบ
ตารางต่อไปนี้แสดงความสัมพันธ์ระหว่างความถี่ของแฮพลอไทป์และความถี่ของอัลลีลกับค่า D
| ทั้งหมด | |||
| ทั้งหมด |
นอกจากนี้ เราสามารถปรับข้อมูลของเราให้เป็นมาตรฐานตามสิ่งที่เราพยายามจะทำให้สำเร็จ ตัวอย่างเช่น หากเราตั้งเป้าที่จะสร้างแผนที่ความสัมพันธ์ในการศึกษากรณีควบคุมเราอาจใช้วิธี d เนื่องจากความไม่สมมาตร หากเราพยายามหาความน่าจะเป็นที่แฮพลอไทป์ที่กำหนดจะสืบทอดในประชากรโดยไม่ถูกรวมเข้ากับแฮพลอไทป์อื่น ๆ การใช้วิธี ρ อาจจะดีกว่า แต่สำหรับสถานการณ์ส่วนใหญ่มักจะเป็นวิธีที่ได้รับความนิยมมากที่สุดเนื่องจากประโยชน์ของสัมประสิทธิ์สหสัมพันธ์ในทางสถิติ ตัวอย่างบางส่วนที่อาจมีประโยชน์มาก ได้แก่ การวัดอัตราการรวมตัวใหม่ในประชากรที่กำลังวิวัฒนาการ หรือการตรวจหาความสัมพันธ์ของโรค[ 19 ]
บทบาทของการรวมตัวใหม่
ในกรณีที่ไม่มีแรงผลักดันเชิงวิวัฒนาการอื่นใดนอกจากการ ผสมพันธุ์แบบสุ่ม การแยกตัวแบบ เมนเดล การจัดเรียง โครโมโซมแบบสุ่มและการไขว้กันของโครโมโซม (กล่าวคือ ในกรณีที่ไม่มีการคัดเลือกโดยธรรมชาติการผสมพันธุ์ในสายเลือดเดียวกันและการลอยตัวทางพันธุกรรม ) ค่าความไม่สมดุลของการเชื่อมโยงจะลู่เข้าสู่ศูนย์ตามแกนเวลาในอัตราที่ขึ้นอยู่กับขนาดของอัตราการรวมตัวใหม่ระหว่างสองตำแหน่งทาง พันธุกรรม
โดยใช้สัญลักษณ์ข้างต้นเราสามารถแสดงการลู่เข้าสู่ศูนย์ได้ดังนี้ ในรุ่นถัดไปความถี่ของแฮพลอไทป์จะกลายเป็น
เนื่องจากแฮพลอไทป์ส่วนหนึ่งในลูกหลานไม่ได้เกิดการรวมตัวกันใหม่ ดังนั้นจึงเป็นสำเนาของแฮพลอไทป์แบบสุ่มในพ่อแม่ ส่วนหนึ่งของแฮพลอไทป์เหล่านั้นคือ และ อีกส่วนหนึ่ง ได้เกิดการรวมตัวกันใหม่ของสองตำแหน่งนี้แล้ว หากพ่อแม่เกิดจากการผสมพันธุ์แบบสุ่ม ความน่าจะเป็นที่สำเนาที่ตำแหน่งจะมีอัลลีลคือและความน่าจะเป็นที่สำเนาที่ตำแหน่งจะมีอัลลีลคือและเนื่องจากสำเนาเหล่านี้อยู่ในแกมีตสองชนิดที่แตกต่างกันซึ่งก่อให้เกิดจีโนไทป์แบบดิพลอยด์ เหตุการณ์เหล่านี้จึงเป็นอิสระต่อกัน ดังนั้นจึงสามารถคูณความน่าจะเป็นได้
สูตรนี้สามารถเขียนใหม่ได้ดังนี้
ดังนั้น
โดย ที่ รุ่น ที่-th ถูกกำหนดให้เป็นดังนั้นเราจึงมี
ถ้าเช่นนั้นจะทำให้ลู่เข้าสู่ศูนย์
หากในบางช่วงเวลาเราสังเกตเห็นภาวะไม่สมดุลของการเชื่อมโยงยีน มันจะหายไปในอนาคตเนื่องจากการเกิดการรวมตัวใหม่ อย่างไรก็ตาม ยิ่งระยะห่างระหว่างตำแหน่งยีนทั้งสองน้อยลงเท่าใด อัตราการลู่เข้าสู่ศูนย์ ก็จะยิ่งน้อยลงเท่านั้น
การแสดงภาพ
เมื่อคำนวณค่าความไม่สมดุลของการเชื่อมโยงยีนสำหรับชุดข้อมูลแล้ว มักจะเลือกวิธีการแสดงผลด้วยภาพเพื่อแสดงค่าความไม่สมดุลของการเชื่อมโยงยีนนั้นให้เข้าใจได้ง่ายขึ้น
วิธีที่พบได้บ่อยที่สุดคือการใช้ฮีทแมป (heatmap ) โดยใช้สีเพื่อระบุตำแหน่งยีนที่มีภาวะไม่สมดุลของการเชื่อมโยง (linkage disequilibrium) และภาวะสมดุลของการเชื่อมโยง (linkage equilibrium) ตัวอย่างนี้แสดงฮีทแมปแบบเต็ม แต่เนื่องจากฮีทแมปมีความสมมาตรตามแนวทแยงมุม (กล่าวคือ ภาวะไม่สมดุลของการเชื่อมโยงระหว่างตำแหน่งยีน A และ B เท่ากับระหว่าง B และ A) จึงมักใช้ฮีทแมปแบบสามเหลี่ยมที่แสดงคู่ยีนเพียงครั้งเดียว วิธีนี้มีข้อดีคือตีความได้ง่าย แต่ก็ไม่สามารถแสดงข้อมูลเกี่ยวกับตัวแปรอื่นๆ ที่อาจน่าสนใจได้

นอกจากนี้ยังมีตัวเลือกการแสดงภาพข้อมูลที่มีประสิทธิภาพมากขึ้น เช่น แผนภาพสิ่งทอ ในแผนภาพสิ่งทอ การรวมกันของอัลลีลที่ตำแหน่งหนึ่งสามารถเชื่อมโยงกับการรวมกันของอัลลีลที่ตำแหน่งอื่นได้ แต่ละจีโนไทป์ (การรวมกันของอัลลีล) จะถูกแทนด้วยวงกลมที่มีพื้นที่เป็นสัดส่วนกับความถี่ของจีโนไทป์นั้น โดยมีคอลัมน์สำหรับแต่ละตำแหน่ง เส้นจะถูกลากจากแต่ละวงกลมไปยังวงกลมในคอลัมน์อื่น ๆ และความหนาของเส้นเชื่อมจะเป็นสัดส่วนกับความถี่ที่จีโนไทป์ทั้งสองเกิดขึ้นร่วมกัน ภาวะไม่สมดุลของการเชื่อมโยงจะเห็นได้จากจำนวนจุดตัดของเส้นในแผนภาพ โดยจำนวนจุดตัดของเส้นที่มากขึ้นแสดงถึงภาวะไม่สมดุลของการเชื่อมโยงต่ำ และจำนวนจุดตัดที่น้อยลงแสดงถึงภาวะไม่สมดุลของการเชื่อมโยงสูง ข้อดีของวิธีนี้คือแสดงความถี่ของจีโนไทป์แต่ละบุคคลและรวมถึงความแตกต่างทางภาพระหว่างความไม่สมดุลของการเชื่อมโยงแบบสัมบูรณ์ (ซึ่งอัลลีลที่ตำแหน่งทั้งสองปรากฏร่วมกันเสมอ) และแบบสมบูรณ์ (ซึ่งอัลลีลที่ตำแหน่งทั้งสองแสดงการเชื่อมต่อที่แข็งแกร่งแต่มีความเป็นไปได้ของการรวมตัวใหม่) โดยรูปร่างของกราฟ[ 22 ]
ตัวเลือกการแสดงภาพอีกอย่างหนึ่งคือป่าของแบบจำลองชั้นแฝงแบบลำดับชั้น (FHLCM) ตำแหน่งทั้งหมดจะถูกพล็อตตามชั้นบนสุดของกราฟ และด้านล่างชั้นบนสุดนี้ จะมีการเพิ่มกล่องที่แสดงถึงตัวแปรแฝงพร้อมลิงก์ไปยังระดับบนสุด เส้นจะเชื่อมต่อตำแหน่งที่ระดับบนสุดกับตัวแปรแฝงด้านล่าง และยิ่งระดับของกล่องที่เชื่อมต่อตำแหน่งต่ำลงเท่าใด ความไม่สมดุลของการเชื่อมโยงก็จะยิ่งมากขึ้น และระยะห่างระหว่างตำแหน่งก็จะยิ่งน้อยลงเท่านั้น แม้ว่าวิธีนี้จะไม่มีข้อดีเช่นเดียวกับพล็อตสิ่งทอ แต่ก็ช่วยให้สามารถแสดงภาพตำแหน่งที่อยู่ห่างกันได้โดยไม่ต้องจัดเรียงลำดับใหม่ เช่นเดียวกับกรณีของพล็อตสิ่งทอ[ 23 ]
นี่ไม่ใช่รายการวิธีการแสดงภาพข้อมูลทั้งหมด และอาจใช้วิธีการหลายวิธีในการแสดงชุดข้อมูลเพื่อให้ได้ภาพรวมของข้อมูลที่ดีขึ้น โดยอิงจากข้อมูลที่นักวิจัยต้องการเน้นย้ำ
ทรัพยากร
Devlin & Risch [ 24 ]ได้ทำการเปรียบเทียบมาตรวัด LD ที่แตกต่างกัน
โครงการInternational HapMapช่วยให้สามารถศึกษาภาวะความไม่สมดุลของการเชื่อมโยงยีน (LD) ในประชากรมนุษย์ทางออนไลน์ได้โครงการEnsemblผสานรวมข้อมูล HapMap กับข้อมูลทางพันธุกรรมอื่นๆจาก dbSNP
ซอฟต์แวร์วิเคราะห์
- PLINK – ชุดเครื่องมือวิเคราะห์ความสัมพันธ์ของจีโนมทั้งหมด ซึ่งสามารถคำนวณค่า LD และอื่นๆ ได้
- LDHat ถูกเก็บถาวรเมื่อวันที่ 13 พฤษภาคม 2016 ที่Wayback Machine
- ฮาปโลวิว
- LdCompare [ 25 ] — ซอฟต์แวร์โอเพนซอร์สสำหรับการคำนวณ LD
- SNP and Variation Suite – ซอฟต์แวร์เชิงพาณิชย์พร้อมแผนภาพ LD แบบโต้ตอบ
- GOLD ถูกเก็บถาวรเมื่อวันที่ 21 กันยายน 2014 ที่Wayback Machine – ภาพรวมเชิงกราฟิกของภาวะไม่สมดุลของการเชื่อมโยง
- TASSEL – ซอฟต์แวร์สำหรับประเมินภาวะไม่สมดุลของการเชื่อมโยงยีน ความสัมพันธ์ของลักษณะต่างๆ และรูปแบบวิวัฒนาการ
- rAggr – ค้นหาตัวบ่งชี้แทน (SNP และ indel) ที่อยู่ในภาวะสมดุลการเชื่อมโยงกับชุดของตัวบ่งชี้ที่ต้องการค้นหา โดยใช้ฐานข้อมูลจีโนไทป์ของโครงการ 1000 Genomes ProjectและHapMap
- SNeP – การคำนวณ LD และ Ne อย่างรวดเร็วสำหรับชุดข้อมูลจีโนไทป์ขนาดใหญ่ในรูปแบบ PLINK
- LDlink – ชุดแอปพลิเคชันบนเว็บที่ช่วยให้สำรวจภาวะไม่สมดุลของการเชื่อมโยงทางพันธุกรรมในกลุ่มประชากรย่อยได้อย่างง่ายดายและมีประสิทธิภาพ ข้อมูลจีโนไทป์ของประชากรทั้งหมดมาจากเฟส 3 ของโครงการ 1000 Genomes Project และหมายเลข RS ของตัวแปรต่างๆ ได้รับการจัดทำดัชนีโดยอิงจาก dbSNP build 151
- Bcftools – เครื่องมือสำหรับระบุและจัดการไฟล์ VCF และ BCF ที่เกี่ยวข้องกับความแปรผันทางพันธุกรรม
ซอฟต์แวร์จำลอง
ดูเพิ่มเติม
- ฮาปโลวิว
- หลักการฮาร์ดี-ไวน์เบิร์ก
- การโบกมือทางพันธุกรรม
- การเชื่อมโยงทางพันธุกรรม
- การปรับตัวร่วมกัน
- การตรวจดีเอ็นเอเพื่อสืบสายตระกูล
- แท็ก SNP
- การทำแผนที่ความสัมพันธ์
- การทำแผนที่ QTL ตามครอบครัว
อ่านเพิ่มเติม
- เฮดริก, ฟิลิป ดับเบิลยู. (2005). พันธุศาสตร์ของประชากร (ฉบับที่ 3). ซัดเบอรี, บอสตัน, โทรอนโต, ลอนดอน, สิงคโปร์: สำนักพิมพ์โจนส์ แอนด์ บาร์ตเลตต์ ISBN 978-0-7637-4772-5.
- บรรณานุกรม: การวิเคราะห์ภาวะไม่สมดุลของการเชื่อมโยงยีน : บรรณานุกรมบทความมากกว่าหนึ่งพันบทความเกี่ยวกับภาวะไม่สมดุลของการเชื่อมโยงยีนที่ตีพิมพ์ตั้งแต่ปี 1918
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ภาวะไม่สมดุลของการเชื่อมโยง
ภาวะไม่สมดุล ของการเชื่อมโยง (Linkage disequilibrium ) ซึ่งมักย่อว่า LD เป็นคำศัพท์ในพันธุศาสตร์ประชากร ที่หมายถึงการเชื่อมโยงของยีน โดยปกติจะ เป็น ยีนที่เชื่อมโยงกันในประชากร
คำจำกัดความอย่างเป็นทางการ
พิจารณาอัลลีล A ที่ ตำแหน่ง A ซึ่งมีความถี่ pA ในประชากรกลุ่มหนึ่ง ที่ ตำแหน่ง B ที่ เชื่อมโยงกัน ความถี่ของอัลลีล B คือ pB คำถามคือ ความถี่ที่คาดหวัง pAB ของ คู่แอลลีลหรือ แฮพลอไทป์ AB คือ เท่าใด (ดูหมายเหตุเกี่ยวกับศัพท์ทางพันธุกรรมด้านล่าง)
หมายเหตุเกี่ยวกับศัพท์เฉพาะทางพันธุกรรม
คำอธิบาย "อัลลีล A ที่ ตำแหน่ง A " และ "อัลลีล B ที่ ตำแหน่ง B " ดูเหมือนจะซับซ้อนโดยไม่จำเป็น ทำไมไม่ใช้แค่ " ยีน A " และ " ยีน B " ล่ะ?
ประวัติศาสตร์
ความคาดหวังที่มีมาตั้งแต่ปี พ.ศ. 2461 คือ LD ไม่น่าจะเกิดขึ้นได้ แม้แต่กับตำแหน่งยีนที่เชื่อมโยงกันอย่างใกล้ชิด Robbins [ 4 ] แสดงให้เห็นว่าการรวมตัวใหม่คาดว่าจะลดค่า D ในแต่ละรุ่นลงด้วยปัจจัย (1 - c ) โดยที่ c คือความถี่ของการรวมตัวใหม่