ภาวะไม่สมดุลของการเชื่อมโยง

Q: ข้อมูลสำคัญเกี่ยวกับ ภาวะไม่สมดุลของการเชื่อมโยง

ภาวะไม่สมดุล ของการเชื่อมโยง (Linkage disequilibrium ) ซึ่งมักย่อว่า LD เป็นคำศัพท์ในพันธุศาสตร์ประชากร ที่หมายถึงการเชื่อมโยงของยีน โดยปกติจะ เป็น ยีนที่เชื่อมโยงกันในประชากร

Q: คำจำกัดความอย่างเป็นทางการ

พิจารณาอัลลีล A ที่ ตำแหน่ง A ซึ่งมีความถี่ pA ในประชากรกลุ่มหนึ่ง ที่ ตำแหน่ง B ที่ เชื่อมโยงกัน ความถี่ของอัลลีล B คือ pB คำถามคือ ความถี่ที่คาดหวัง pAB ของ คู่แอลลีลหรือ แฮพลอไทป์ AB คือ เท่าใด (ดูหมายเหตุเกี่ยวกับศัพท์ทางพันธุกรรมด้านล่าง)

Q: หมายเหตุเกี่ยวกับศัพท์เฉพาะทางพันธุกรรม

คำอธิบาย "อัลลีล A ที่ ตำแหน่ง A " และ "อัลลีล B ที่ ตำแหน่ง B " ดูเหมือนจะซับซ้อนโดยไม่จำเป็น ทำไมไม่ใช้แค่ " ยีน A " และ " ยีน B " ล่ะ?

ภาวะไม่สมดุล ของการเชื่อมโยง (Linkage disequilibrium ) ซึ่งมักย่อว่า LD เป็นคำศัพท์ในพันธุศาสตร์ประชากร ที่หมายถึงการเชื่อมโยงของยีน โดยปกติจะ เป็น ยีนที่เชื่อมโยงกันในประชากร ได้กลายเป็นเครื่องมือสำคัญในพันธุศาสตร์ทางการแพทย์และสาขาอื่นๆ^{[ 1 ]}^{[ 2 ]}

ในการนิยาม LD นั้น สิ่งสำคัญคือต้องแยกแยะความแตกต่างระหว่างสองแนวคิดก่อน คือ ภาวะไม่สมดุลของการเชื่อมโยง (linkage disequilibrium) และการเชื่อมโยง ( linkage ) ทางพันธุกรรม ภาวะไม่สมดุลของการเชื่อมโยงหมายถึงความสัมพันธ์ของยีนในประชากรในขณะที่การเชื่อมโยงบอกเราว่ายีนอยู่บนโครโมโซมเดียวกันในแต่ละบุคคลหรือไม่ ไม่มีความสัมพันธ์ที่จำเป็นระหว่างสองสิ่งนี้ ยีนที่เชื่อมโยงกันอย่างใกล้ชิดอาจมีความสัมพันธ์กันหรือไม่ก็ได้ในประชากร หากพิจารณาจากพ่อแม่และลูก หากยีนในตำแหน่งที่เชื่อมโยงกันอย่างใกล้ชิดปรากฏอยู่ด้วยกันในพ่อแม่ ก็มักจะพบยีนเหล่านั้นอยู่ด้วยกันในลูกด้วย แต่หากพิจารณาจากแต่ละบุคคลในประชากรที่ไม่มีบรรพบุรุษร่วมกันที่ทราบแน่ชัด การหาความสัมพันธ์ใดๆ จะทำได้ยากกว่ามาก

เพื่อให้เห็นภาพตัวอย่างที่เป็นรูปธรรม แม้จะเป็นตัวอย่างสมมติ ในแง่ของความถี่ของลักษณะต่างๆ ลองพิจารณากรณีที่ "ยีนสำหรับผมสีแดง" มีความเชื่อมโยงอย่างใกล้ชิดกับ "ยีนสำหรับดวงตาสีฟ้า" สิ่งนี้บอกอะไรเราเกี่ยวกับความถี่ของประชากรที่คาดหวังของบุคคลที่มีผมสีแดงและดวงตาสีฟ้า? คนผมแดงทุกคนจะต้องมีดวงตาสีฟ้าหรือไม่ เพียงเพราะยีนที่ควบคุมลักษณะเหล่านี้มีความเชื่อมโยงกันอย่างใกล้ชิด?

คำจำกัดความอย่างเป็นทางการ

พิจารณาอัลลีลAที่ ตำแหน่ง Aซึ่งมีความถี่pAในประชากรกลุ่มหนึ่ง ที่ ตำแหน่ง B _ที่ เชื่อมโยงกัน ความถี่ของอัลลีลBคือpBคำถามคือ ความถี่ที่คาดหวังpAB _ของคู่แอลลีลหรือแฮพลอไทป์_ABคือเท่าใด (ดูหมายเหตุเกี่ยวกับศัพท์ทางพันธุกรรมด้านล่าง)

ถ้า แอลลีล AและBเป็นอิสระต่อกันในประชากรแล้ว ตามนิยามแล้วp _ABก็คือผลคูณของp _Ap _Bนั่นเอง ความแตกต่างระหว่างสองค่านี้แสดงด้วยDซึ่งเป็นสัมประสิทธิ์ของความไม่สมดุลของการเชื่อมโยง:

D = p _AB - p _A p _B

การที่ค่าD เบี่ยง เบนจากศูนย์ แสดงว่าค่าเป็น LD

หมายเหตุเกี่ยวกับศัพท์เฉพาะทางพันธุกรรม

คำอธิบาย "อัลลีลAที่ ตำแหน่ง A " และ "อัลลีลBที่ ตำแหน่ง B " ดูเหมือนจะซับซ้อนโดยไม่จำเป็น ทำไมไม่ใช้แค่ " ยีน A " และ " ยีน B " ล่ะ? ปัญหาคือคำว่า "ยีน" ถูกใช้มาตั้งแต่เริ่มก่อตั้งพันธุศาสตร์โดยที่ไม่มีความเข้าใจที่ชัดเจนว่ายีนคืออะไรกันแน่ ดังนั้น แม้ว่าจะมีการใช้กันอย่างแพร่หลาย แต่ปัจจุบันวารสารพันธุศาสตร์กลับหลีกเลี่ยงการใช้คำนี้ (ดู^{[ 3 ]}สำหรับการอภิปรายเกี่ยวกับการเปลี่ยนแปลงนิยามของยีน) ซึ่งน่าเสียดายสำหรับการอภิปรายเกี่ยวกับความถี่ของประชากรที่ธรรมชาติของยีนไม่สำคัญ

การใช้คำว่า " อัลลีล " แทนคำว่า "ยีน" ช่วยหลีกเลี่ยงปัญหานี้ได้ แต่ก็ไม่ใช่วิธีที่น่าพอใจนัก เดิมทีคำว่าอัลลีลถูกนิยามและยังคงเข้าใจว่าหมายถึง "ทางเลือก" และอัลลีลAกับอัลลีลBไม่ใช่อัลลีลของกันและกัน วิธีที่ง่ายที่สุดในการพูดถึง "สิ่ง" ที่เชื่อมโยงกันเหล่านี้คือการใช้คำว่า "ยีน"

ประวัติศาสตร์

ความคาดหวังที่มีมาตั้งแต่ปี พ.ศ. 2461 คือ LD ไม่น่าจะเกิดขึ้นได้ แม้แต่กับตำแหน่งยีนที่เชื่อมโยงกันอย่างใกล้ชิด Robbins ^{[ 4 ]}แสดงให้เห็นว่าการรวมตัวใหม่คาดว่าจะลดค่าDในแต่ละรุ่นลงด้วยปัจจัย (1 - c ) โดยที่cคือความถี่ของการรวมตัวใหม่

ถ้าค่า Dระหว่างแอลลีลที่สองตำแหน่งในรุ่นที่ 0 ถูกกำหนดให้เป็นD ₀แล้วในรุ่นถัดไป:

D ₁ = D ₀ (1 - c )

และในรุ่นที่t :

D _t = D ₀ (1 - c ) ^t

หากมีการเกิดการรวมตัวใหม่ค่า cจะมากกว่าศูนย์ และ_ค่า Dtจะเข้าใกล้ศูนย์เมื่อค่า tมีขนาดใหญ่ขึ้น

จากตัวอย่างที่ยกมาข้างต้น ไม่คาดว่าจะมีความสัมพันธ์ระหว่างสีผมและสีตา ความถี่ของบุคคลที่มีทั้งผมสีแดงและตาสีฟ้าคาดว่าจะเท่ากับผลคูณของความถี่ของบุคคลผมสีแดงกับความถี่ของบุคคลตาสีฟ้า แม้ว่าลักษณะทั้งสองจะถูกควบคุมโดยยีนที่เชื่อมโยงกันอย่างใกล้ชิดก็ตาม

การคัดเลือกให้วิธีหนึ่งที่เป็นไปได้ที่ LD อาจเกิดขึ้นได้ แม้จะมีข้อโต้แย้งข้างต้นก็ตาม หากยีนคู่ใดคู่หนึ่งได้รับความโปรดปราน การคัดเลือกสามารถทำให้เกิด LD ขึ้นในประชากร โดยรักษาความถี่ของยีนคู่ที่ได้รับความโปรดปรานไว้^{[ 5 ]} “แบบจำลองสมดุล” ดังกล่าวต้องการระดับการคัดเลือกที่ค่อนข้างสูง โดยเฉพาะอย่างยิ่ง “ปฏิสัมพันธ์แบบคัดเลือก” ซึ่งเป็นไปได้เฉพาะกับยีนคู่ส่วนน้อยเท่านั้น

คำว่า LD ยังคงเป็นมรดกจากช่วงเวลานี้ มีการนำมาใช้ในกรณีที่ทราบการเกิดการรวมตัวใหม่ แต่ประชากรยังไม่ถึงจุดสมดุลสำหรับคู่ยีนที่เกี่ยวข้อง^{[ 6 ]}แต่การใช้ LD ที่โดดเด่นที่สุดในปัจจุบันเกี่ยวข้องกับเบส DNA ที่เชื่อมโยงกันอย่างใกล้ชิด (ดูด้านล่าง) ไม่สามารถคาดหวังความเป็นอิสระได้ในกรณีเช่นนี้ คำอธิบาย 'ความไม่สมดุล' ดูเหมือนจะไม่เหมาะสม เนื่องจากมีนัยว่าสถานการณ์นี้เป็นเพียงชั่วคราวและ/หรือคาดไม่ถึง

ยุคโมเลกุล

อาจกล่าวได้ว่ายุคโมเลกุลของพันธุศาสตร์ประชากรเริ่มต้นขึ้นในปี พ.ศ. 2509 ^{[ 7 ]}ตามการศึกษาของ Lewontin และ Hubby ใน Drosophila ^{[ 8 ]}และ Harris ^{[ 9 ]}ในมนุษย์ โดยใช้การแยกโปรตีนด้วยไฟฟ้า ผู้เขียนเหล่านี้แสดงให้เห็นว่าประมาณหนึ่งในสามของตำแหน่งต้องเป็น 'โพลีมอร์ฟิก' ซึ่งมีความแตกต่างทางพันธุกรรมระหว่างบุคคลในประชากร เมื่อพิจารณาจากจำนวนตำแหน่งจำนวนมากในจีโนมและปริมาณการรวมตัวใหม่ที่จำกัด จึงสรุปได้ว่าต้องมีตำแหน่งโพลีมอร์ฟิกที่เชื่อมโยงกันอย่างใกล้ชิดจำนวนมาก

การลำดับดีเอ็นเอในภายหลังเช่นโครงการ International HapMap Projectแสดงให้เห็นว่าการศึกษาโปรตีนนั้นประเมินปริมาณความหลากหลายทางพันธุกรรมต่ำกว่าความเป็นจริงมาก โดยปกติแล้วจะมีจุดแตกต่างทางพันธุกรรมหลายพันจุด ซึ่งเรียกว่าSingle Nucleotide PolymorphismหรือSNPsอยู่ในบริเวณสั้นๆ ของจีโนม กรณีที่มีการเกิดการรวมตัวใหม่เป็นศูนย์หรือต่ำมากจึงพบได้ทั่วไป

ข้อค้นพบสำคัญประการที่สองที่เกี่ยวข้องกับ LD คือการตระหนักว่า LD สามารถเกิดขึ้นได้เพียงเพราะโครงสร้างประชากร^{[ 10 ]}^{[ 11 ]}^{[ 12 ]}การศึกษาเช่นของ Robbins ^{[ 4 ]}ที่กล่าวถึงข้างต้นนั้นโดยพื้นฐานแล้วถือว่าขนาดประชากรเป็นอนันต์ ขนาดประชากรที่เล็กโดยเฉพาะอย่างยิ่งสามารถนำไปสู่ LD ได้อย่างอิสระจากการคัดเลือกใดๆ เป็นที่ชัดเจนว่า LD ไม่ใช่สิ่งที่หายากและมีความสำคัญรอง แต่ต้องแพร่หลาย

สิ่งนี้มีความสำคัญอย่างยิ่งในสาขาพันธุศาสตร์ของมนุษย์และการผสมพันธุ์สัตว์ที่หลากหลาย^{[ 1 ]}^{[ 2 ]}หมายความว่ายีนที่สำคัญใดๆ มีแนวโน้มที่จะถูกล้อมรอบด้วย DNA SNP ที่มี LD สูงกับยีนที่สนใจ ตำแหน่งของยีนอาจไม่เป็นที่รู้จัก แต่ตำแหน่งของ DNA SNP ทั้งหมดเป็นที่รู้จักอย่างแม่นยำ สิ่งนี้ทำให้สามารถทำแผนที่ยีนที่เป็นสาเหตุในพันธุศาสตร์ของมนุษย์ได้โดยใช้การศึกษาการเชื่อมโยงทั่วทั้งจีโนม ( GWAS ) และทำให้สามารถใช้ 'ค่าการผสมพันธุ์' ของ DNA เป็นตัวทำนาย ซึ่งนำไปสู่ความก้าวหน้าในการผสมพันธุ์สัตว์และพืช^{[ 13 ]}

LD คือค่าความแปรปรวนร่วมหรือความสัมพันธ์ของความถี่

ความถี่ของแฮพลโลไทป์สามารถแสดงได้ในรูปตารางที่มีคอลัมน์xและyโดยกำหนดค่า '1' ให้กับ อัลลีล A และค่า '0' ให้กับอัลลีล a ในคอลัมน์ x และ ค่า '0' ให้กับอัลลีล Bในคอลัมน์yเช่นเดียวกัน ความถี่ ของแกมีตจะมีรูปแบบg _iโดยผลรวมเท่ากับ 1


แฮพลโลไทป์	ค่า x	ค่า y	ความถี่ ( f )
เอบี	1	1	จี₁
อาบ	1	0	จี₂
เอบี	0	1	จี₃
ab	0	0	จี₄

จากนั้นจึงรวมผลลัพธ์จากทั้งสี่คลาส:

Σ fxy = 1. ก. ₁ + 0. ก. ₂ + 0. ก. ₃ + 0. ก. ₄ = ก_{. 1}

Σ fx = g ₁ + g ₂ = p _A

Σ fy = g ₁ + g ₃ = p _B

ค่า ความแปรปรวนร่วมระหว่าง ค่า xและyคือ

Σ fxy - Σ fx Σ fy = g ₁ - p _A p _B

ซึ่งเทียบเท่ากับค่าสัมประสิทธิ์ LD, D , ตามที่นิยามไว้ข้างต้น

โดยทั่วไปแล้ว การคำนวณค่าสัมประสิทธิ์สหสัมพันธ์จะสะดวกกว่าการคำนวณค่าความแปรปรวนร่วม โดยปรับค่าให้เป็นมาตรฐานตามค่าความแปรปรวน:

V(x) = Σ fx ² - (Σ fx) ² = p _A - p _A² = p _A ( 1 - p _A )

V(y) = Σ fy ² - (Σ fy) ² = p _B - p _B² = p _B ( 1 - p _B )

เมื่อแทนค่าจะได้ค่าสัมประสิทธิ์สหสัมพันธ์ ซึ่งสามารถกำหนดให้เป็นr _ABได้ดังนี้:

_{$r_{AB}={\frac {D}{\sqrt {p_{A}(1-p_{A})p_{B}(1-p_{B})}}}$}

หรือ

$r_{AB}^{2}={\frac {D^{2}}{p_{A}(1-p_{A})p_{B}(1-p_{B})}}$

มาตรการ LD นี้ได้รับการแนะนำโดย Sewall Wright ^{[ 14 ]}และการใช้งานได้รับความนิยมโดย Hill และ Robertson ^{[ 10 ]}

LD สำหรับความถี่แบบดิพลอยด์

ทฤษฎี LD ข้างต้นนั้นอิงตามความถี่ของแฮพลอยด์ ในทางปฏิบัติ การสังเกตความถี่ดังกล่าวโดยตรงนั้นทำได้ยาก เนื่องจากในสิ่งมีชีวิตส่วนใหญ่ที่สนใจนั้นสามารถสังเกตได้เฉพาะจีโนไทป์แบบดิพลอยด์เท่านั้น จึงจำเป็นต้องมีการตั้งสมมติฐานเพื่ออนุมานความถี่ของแฮพลอยด์

แนวทางที่แตกต่างในการประมาณค่า LD จากความถี่แบบดิพลอยด์คือการคำนวณค่าความแปรปรวนร่วมและความสัมพันธ์ของความถี่ เช่นเดียวกับความถี่แบบแฮพลอยด์^{[ 15 ]} Gao et al ^{[ 16 ]}แสดงให้เห็นว่าค่าความแปรปรวนร่วมแบบดิพลอยด์นั้นเหมือนกับ "การวัด LD แบบผสมของ Burrows" ^{[ 17 ]}ตารางด้านล่างแสดง ค่า xและyสำหรับจีโนไทป์แบบดิพลอยด์ นอกจากนี้ยังแสดงความถี่ที่คาดหวังโดยสมมติว่ามีการผสมพันธุ์แบบสุ่ม


จีโนไทป์	ค่า x	ค่า y	ความถี่(f )
เอเอบีบี	1	1	กรัม₁²
เอเอบีบี	1	1/2	2 กรัม₁กรัม₂
เอเอบีบี	1	0	จี₂²
เอบีบี	1/2	1	2 กรัม₁กรัม₃
เอบีบี	1/2	1/2	2 กรัม₁กรัม₄ +2 กรัม₂กรัม₃
อับบ์	1/2	0	2 กรัม₂กรัม₄
อะบีบี	0	1	จี₃²
อะบีบี	0	1/2	2 กรัม₃กรัม₄
เอบีบี	0	0	จี₄²

การคำนวณค่าความแปรปรวนร่วมและค่าสหสัมพันธ์สำหรับความถี่เหล่านี้มีดังต่อไปนี้:

Σ fxy = ก. ₁² + ก. ₁ก. ₂ + ก. ₁ก. ₃ + ก. ₁ก. ₄ /2 + ก. ₂ก. ₃ /2

เมื่อพิจารณานิยามทางเลือกของD = g ₁g ₄ - g ₂g ₃แล้ว จะได้ว่าสมการนี้ลดรูปเหลือดังนี้

Σ fxy = g ₁ - D/2.

Σ fx = ก. ₁² + 2 ก. _{1 ก.}₂ + ก. ₂² + ก. ₁ก. ₃ + ก. ₁ก. ₄ + ก. ₂ก. ₃ + ก. ₃ก. ₄

ซึ่งทำให้ง่ายขึ้น เหมือนกับการคำนวณแบบแฮพลอยด์ ดังนี้

Σ fx = g ₁ + g ₂ = p _A

ในทำนองเดียวกัน Σ fy = g ₁ + g ₃ = p _B

ค่า ความแปรปรวนร่วมระหว่าง ค่า xและyคือ

Σ fxy - Σ fx Σ fy = g ₁ - D /2 - p _A p _B

ซึ่งก็คือD /2 นั่นเอง

V( x ) = Σ fx ² - (Σ fx) ² ซึ่งสามารถแสดงได้ว่าเป็น p _A ( 1 - p _A )/2

V( y ) = Σ fy ² - (Σ fy) ² = p _B ( 1 - p _B )/2

เมื่อปรับค่าให้เป็นมาตรฐานโดยใช้ค่าความแปรปรวน ปัจจัยที่ 2 จะหักล้างกันไป ความสัมพันธ์แบบดิพลอยด์ซึ่งสามารถกำหนดได้เป็นR _ABมีค่าคาดหวังดังนี้:

$E(R_{AB})={\frac {D}{\sqrt {p_{A}(1-p_{A})p_{B}(1-p_{B})}}}$

ที่น่าประหลาดใจคือ ผลลัพธ์นี้เหมือนกับค่าสหสัมพันธ์ LD ของแฮพลอยด์r _ABผลลัพธ์ที่ได้นั้น เป็นไปตามที่กล่าวไว้ข้างต้น เป็นไปตามความคาดหวังโดยอาศัยสมมติฐานของการผสมพันธุ์แบบสุ่ม แต่สมมติฐานนี้สามารถผ่อนปรนได้

หากความเบี่ยงเบนจากการผสมพันธุ์แบบสุ่มแสดงในรูปของสัมประสิทธิ์การผสมพันธุ์ในสายเลือดFความถี่ที่คาดหวังของ โฮโมไซโกต AABBจะเท่ากับ (1- F ) g ₁² + Fg ₁ความถี่ที่คาดหวังของไม่ใช่โฮโมไซโกต เช่นAABbจะเท่ากับ (1- F ) g ₁g ₂เป็นต้น เมื่อใช้ความถี่เหล่านี้ สถิติความแปรปรวนร่วมและความแปรปรวนจะลดรูปเหลือดังนี้:

Cov( x , y ) = (1+ F ) D /2

V( x ) = (1+ F ) p _A (1- p _A )/2 [เทียบเท่ากับ ( p _A (1- p _A ) + D _A )/2โดยที่D _Aคือความไม่สมดุลของตำแหน่งA ^{[ 15 ]} ]

V(y) = (1+ F ) p _B (1- p _B )/2

เงื่อนไขใน (1+ F ) ตัดกัน ดังนั้นความสัมพันธ์แบบดิพลอยด์จึงยังคงประมาณความสัมพันธ์แบบแฮพลอยด์ได้:

E( R _AB ) = r _AB

การคำนวณเพิ่มเติมที่เกี่ยวข้องกับ D

สำหรับตำแหน่งไบอัลลีลิกสองตำแหน่ง โดยที่aและbเป็นอัลลีลอื่น ๆ ที่ตำแหน่งทั้งสองนี้ ข้อจำกัดนั้นเข้มงวดมากจนค่าD เพียงค่าเดียว ก็เพียงพอที่จะแสดงความสัมพันธ์ความไม่สมดุลของการเชื่อมโยงทั้งหมดระหว่างอัลลีลเหล่านี้ ในกรณีนี้ความสัมพันธ์ของพวกมันสามารถอธิบายได้ดังนี้^[¹^] $D_{AB}=-D_{Ab}=-D_{aB}=D_{ab}$

$D=P_{AB}-P_{A}P_{B}$

$-D=P_{Ab}-P_{A}P_{b}$

$-D=P_{aB}-P_{a}P_{B}$

$D=P_{ab}-P_{a}P_{b}$

ในกรณีนี้ เครื่องหมายของDถูกเลือกโดยพลการ ขนาดของDมีความสำคัญมากกว่าเครื่องหมายของDเพราะขนาดของDเป็นตัวแทนของระดับความไม่สมดุลของการเชื่อมโยง^{[ 18 ]}อย่างไรก็ตาม ค่า D ที่เป็นบวก หมายความว่าแกมีตมีความถี่มากกว่าที่คาดไว้ ในขณะที่ค่าลบหมายความว่าการรวมกันของอัลลีลทั้งสองนี้มีความถี่น้อยกว่าที่คาดไว้

ภาวะไม่สมดุลของการเชื่อมโยงใน ประชากร ที่สืพันธุ์แบบไม่อาศัยเพศสามารถกำหนดได้ในลักษณะเดียวกันโดยพิจารณาจากความถี่ของอัลลีลในประชากร นอกจากนี้ ยังสามารถกำหนดภาวะไม่สมดุลของการเชื่อมโยงระหว่างอัลลีลสามตัวขึ้นไปได้อีกด้วย อย่างไรก็ตาม การเชื่อมโยงลำดับสูงเหล่านี้ไม่ได้ถูกนำมาใช้ในทางปฏิบัติโดยทั่วไป^{[ 1 ]}

การทำให้เป็นมาตรฐาน

ภาวะไม่สมดุลของการเชื่อมโยงยีนสะท้อนให้เห็นถึงการเปลี่ยนแปลงทั้งความเข้มข้นของความสัมพันธ์ในการเชื่อมโยงยีนและการเปลี่ยนแปลงความถี่ของยีน ซึ่งก่อให้เกิดปัญหาเมื่อเปรียบเทียบภาวะไม่สมดุลของการเชื่อมโยงยีนระหว่างอัลลีลที่มีความถี่แตกต่างกัน การปรับค่าภาวะไม่สมดุลของการเชื่อมโยงยีนให้เป็นมาตรฐานจะช่วยให้สามารถเปรียบเทียบอัลลีลเหล่านี้ได้ง่ายขึ้น $D$

วิธี D

Lewontin ^{[ 5 ]}แนะนำให้คำนวณความไม่สมดุลของการเชื่อมโยงแบบปกติ (เรียกอีกอย่างว่าความไม่สมดุลของการเชื่อมโยงแบบสัมพัทธ์) โดยการหารด้วยความแตกต่างสูงสุดทางทฤษฎีระหว่างความถี่ของอัลลีลที่สังเกตได้และที่คาดหวัง ดังนี้: $D'$ $D$

D'={\frac {D}{D_{\max }}}

ที่ไหน

D_{\max }={\begin{cases}\min\{p_{A}p_{B},\,(1-p_{A})(1-p_{B})\}&{\text{when }}D<0\\\min\{p_{A}(1-p_{B}),\,p_{B}(1-p_{A})\}&{\text{when }}D>0\end{cases}}

ค่าของจะอยู่ในช่วงเมื่อตำแหน่งยีนจะเป็นอิสระต่อกัน เมื่ออัลลีลจะพบได้น้อยกว่าที่คาดไว้ เมื่ออัลลีลจะพบได้บ่อยกว่าที่คาดไว้ $D'$ $-1\leq D'\leq 1$ $D'=0$ $-1\leq D'<0$ $0<D'\leq 1$

โปรดทราบว่าอาจใช้แทนเมื่อวัดว่าอัลลีลสองตัวอยู่ใกล้สมดุลการเชื่อมโยงกันมากน้อยเพียงใด $|D'|$ $D'$

วิธีr ²

อีกทางเลือกหนึ่งคือสัมประสิทธิ์สหสัมพันธ์ระหว่างคู่ของตำแหน่งทางพันธุกรรม ซึ่งโดยปกติจะแสดงเป็นค่ากำลังสองของสัมประสิทธิ์นั้น $D'$ $r^{2}$

r^{2}={\frac {D^{2}}{p_{A}(1-p_{A})p_{B}(1-p_{B})}}

ค่าของจะอยู่ในช่วงเมื่อจะไม่มีความสัมพันธ์ระหว่างคู่ดังกล่าว เมื่อความสัมพันธ์จะเป็นบวกอย่างสมบูรณ์หรือลบอย่างสมบูรณ์ ขึ้นอยู่กับเครื่องหมายของ $r^{2}$ $0\leq r^{2}\leq 1$ $r^{2}=0$ $r^{2}=1$ $r$

d วิธีการ

อีกทางเลือกหนึ่งคือการทำให้เป็นมาตรฐานโดยใช้ผลคูณของความถี่อัลลีลสองในสี่ความถี่ เมื่อความถี่ทั้งสองแสดงถึงอัลลีลจากโลคัสเดียวกัน วิธีนี้ช่วยให้สามารถเปรียบเทียบความไม่สมมาตรระหว่างคู่ของโลคัสได้ วิธีนี้มักใช้ในการศึกษากรณีควบคุมโดยที่โลคัสนั้นมีอัลลีลของโรคอยู่^[¹⁹^] $D$ $B$

$d={\frac {D}{p_{B}(1-p_{B})}}$

วิธี ρ

เช่นเดียวกับวิธี d ทางเลือกนี้จะทำให้เป็นมาตรฐานโดยใช้ผลคูณของความถี่อัลลีลสองในสี่ความถี่เมื่อความถี่ทั้งสองแสดงถึงอัลลีลจากตำแหน่งที่แตกต่างกัน^[¹⁹^] $D$

$\rho ={\frac {D}{(1-p_{A})p_{B}}}$

ขีดจำกัดสำหรับช่วงของการวัดความไม่สมดุลของการเชื่อมโยง

มาตรการเหล่านี้ มีขีดจำกัดในช่วง และไม่ครอบคลุมค่าทั้งหมดตั้งแต่ศูนย์ถึงหนึ่งสำหรับโลคัสทุกคู่ ค่าสูงสุดของขึ้นอยู่กับความถี่ของอัลลีลที่โลคัสทั้งสองที่กำลังเปรียบเทียบกัน และสามารถอยู่ในช่วงตั้งแต่ศูนย์ถึงหนึ่งได้อย่างสมบูรณ์ก็ต่อเมื่อความถี่ของอัลลีลที่โลคัสทั้งสองเท่ากันซึ่งก็คือหรือเมื่อความถี่ของอัลลีลมีความสัมพันธ์กันเมื่อ[ ²⁰^]ในขณะที่ สามารถมีค่าสูงสุดเป็น 1 ได้เสมอ ค่าต่ำสุดสำหรับ ^โลคัสสองโลคัสจะเท่ากับสำหรับโลคัสเหล่านั้น^[²¹^] $r^{2}$ $D'$ $r^{2}$ $P_{A}=P_{B}$ $D>0$ $P_{A}=1-P_{B}$ $D<0$ $D'$ $|r|$

ตัวอย่าง: สองตำแหน่งยีนและสองอัลลีล

พิจารณาแฮพลอไทป์สำหรับสองตำแหน่ง A และ B ซึ่งแต่ละตำแหน่งมีสองอัลลีล—แบบจำลองสองตำแหน่ง สองอัลลีล จากนั้นตารางต่อไปนี้จะกำหนดความถี่ของแต่ละชุดค่าผสม:

แฮพลโลไทป์	ความถี่
$A_{1}B_{1}$	$x_{11}$
$A_{1}B_{2}$	$x_{12}$
$A_{2}B_{1}$	$x_{21}$
$A_{2}B_{2}$	$x_{22}$

โปรดทราบว่านี่คือความถี่สัมพัทธ์เราสามารถใช้ความถี่ข้างต้นเพื่อกำหนดความถี่ของแต่ละอัลลีลได้:

อัลลีล	ความถี่
$A_{1}$	$p_{1}=x_{11}+x_{12}$
$A_{2}$	$p_{2}=x_{21}+x_{22}$
$B_{1}$	$q_{1}=x_{11}+x_{21}$
$B_{2}$	$q_{2}=x_{12}+x_{22}$

หากตำแหน่งทางพันธุกรรมทั้งสองและอัลลีลเป็นอิสระต่อกัน เราก็คาดหวังว่าความถี่ของแต่ละแฮพลอไทป์จะเท่ากับผลคูณของความถี่ของอัลลีลที่สอดคล้องกัน (เช่น) $x_{11}=p_{1}q_{1}$

การเบี่ยงเบนของความถี่ที่สังเกตได้ของแฮพลอไทป์จากที่คาดไว้คือปริมาณ^{[ 4 ]} ที่เรียกว่าความไม่สมดุลของการเชื่อมโยง^{[ 6 ]}และโดยทั่วไปจะใช้ตัวอักษรD ตัวใหญ่ แทน

D=x_{11}-p_{1}q_{1}

ดังนั้น หากตำแหน่งยีนถูกถ่ายทอดอย่างอิสระ แล้ว ดังนั้นและจะเกิดภาวะสมดุลของการเชื่อมโยงยีน อย่างไรก็ตาม หากความถี่ของแฮพลอไทป์ที่สังเกตได้สูงกว่าที่คาดการณ์ไว้จากความถี่ของแต่ละตัวแล้วดังนั้น และจะเกิดภาวะไม่สมดุลของการเชื่อมโยงยีนในเชิง บวกในทางกลับกัน หากความถี่ที่สังเกตได้ต่ำกว่า แล้วและจะเกิดภาวะไม่สมดุลของการเชื่อมโยงยีนในเชิงลบ $x_{11}=p_{1}q_{1}$ $D=0$ $A_{1}B_{1}$ $A_{1}$ $B_{1}$ $x_{11}>p_{1}q_{1}$ $D>0$ $x_{11}<p_{1}q_{1}$ $D<0$

ตารางต่อไปนี้แสดงความสัมพันธ์ระหว่างความถี่ของแฮพลอไทป์และความถี่ของอัลลีลกับค่า D

	$A_{1}$	$A_{2}$	ทั้งหมด
$B_{1}$	$x_{11}=p_{1}q_{1}+D$	$x_{21}=p_{2}q_{1}-D$	$q_{1}$
$B_{2}$	$x_{12}=p_{1}q_{2}-D$	$x_{22}=p_{2}q_{2}+D$	$q_{2}$
ทั้งหมด	$p_{1}$	$p_{2}$	$1$

นอกจากนี้ เราสามารถปรับข้อมูลของเราให้เป็นมาตรฐานตามสิ่งที่เราพยายามจะทำให้สำเร็จ ตัวอย่างเช่น หากเราตั้งเป้าที่จะสร้างแผนที่ความสัมพันธ์ในการศึกษากรณีควบคุมเราอาจใช้วิธี d เนื่องจากความไม่สมมาตร หากเราพยายามหาความน่าจะเป็นที่แฮพลอไทป์ที่กำหนดจะสืบทอดในประชากรโดยไม่ถูกรวมเข้ากับแฮพลอไทป์อื่น ๆ การใช้วิธี ρ อาจจะดีกว่า แต่สำหรับสถานการณ์ส่วนใหญ่มักจะเป็นวิธีที่ได้รับความนิยมมากที่สุดเนื่องจากประโยชน์ของสัมประสิทธิ์สหสัมพันธ์ในทางสถิติ ตัวอย่างบางส่วนที่อาจมีประโยชน์มาก ได้แก่ การวัดอัตราการรวมตัวใหม่ในประชากรที่กำลังวิวัฒนาการ หรือการตรวจหาความสัมพันธ์ของโรค^[¹⁹^] $r^{2}$ $r^{2}$

บทบาทของการรวมตัวใหม่

ในกรณีที่ไม่มีแรงผลักดันเชิงวิวัฒนาการอื่นใดนอกจากการ ผสมพันธุ์แบบสุ่ม การแยกตัวแบบ เมนเดล การจัดเรียง โครโมโซมแบบสุ่มและการไขว้กันของโครโมโซม (กล่าวคือ ในกรณีที่ไม่มีการคัดเลือกโดยธรรมชาติการผสมพันธุ์ในสายเลือดเดียวกันและการลอยตัวทางพันธุกรรม ) ค่าความไม่สมดุลของการเชื่อมโยงจะลู่เข้าสู่ศูนย์ตามแกนเวลาในอัตราที่ขึ้นอยู่กับขนาดของอัตราการรวมตัวใหม่ระหว่างสองตำแหน่งทาง พันธุกรรม $D$ $c$

โดยใช้สัญลักษณ์ข้างต้นเราสามารถแสดงการลู่เข้าสู่ศูนย์ได้ดังนี้ ในรุ่นถัดไปความถี่ของแฮพลอไทป์จะกลายเป็น $D=x_{11}-p_{1}q_{1}$ $x_{11}'$ $A_{1}B_{1}$

x_{11}'=(1-c)\,x_{11}+c\,p_{1}q_{1}

เนื่องจากแฮพลอไทป์ส่วนหนึ่งในลูกหลานไม่ได้เกิดการรวมตัวกันใหม่ ดังนั้นจึงเป็นสำเนาของแฮพลอไทป์แบบสุ่มในพ่อแม่ ส่วนหนึ่งของแฮพลอไทป์เหล่านั้นคือ และ อีกส่วนหนึ่ง ได้เกิดการรวมตัวกันใหม่ของสองตำแหน่งนี้แล้ว หากพ่อแม่เกิดจากการผสมพันธุ์แบบสุ่ม ความน่าจะเป็นที่สำเนาที่ตำแหน่งจะมีอัลลีลคือและความน่าจะเป็นที่สำเนาที่ตำแหน่งจะมีอัลลีลคือและเนื่องจากสำเนาเหล่านี้อยู่ในแกมีตสองชนิดที่แตกต่างกันซึ่งก่อให้เกิดจีโนไทป์แบบดิพลอยด์ เหตุการณ์เหล่านี้จึงเป็นอิสระต่อกัน ดังนั้นจึงสามารถคูณความน่าจะเป็นได้ $(1-c)$ $x_{11}$ $A_{1}B_{1}$ $c$ $A$ $A_{1}$ $p_{1}$ $B$ $B_{1}$ $q_{1}$

สูตรนี้สามารถเขียนใหม่ได้ดังนี้

x_{11}'-p_{1}q_{1}=(1-c)\,(x_{11}-p_{1}q_{1})

ดังนั้น

D_{1}=(1-c)\;D_{0}

โดย ที่ รุ่น ที่-th ถูกกำหนดให้เป็นดังนั้นเราจึงมี $D$ $n$ $D_{n}$

D_{n}=(1-c)^{n}\;D_{0}.

ถ้าเช่นนั้นจะทำให้ลู่เข้าสู่ศูนย์ $n\to \infty$ $(1-c)^{n}\to 0$ $D_{n}$

หากในบางช่วงเวลาเราสังเกตเห็นภาวะไม่สมดุลของการเชื่อมโยงยีน มันจะหายไปในอนาคตเนื่องจากการเกิดการรวมตัวใหม่ อย่างไรก็ตาม ยิ่งระยะห่างระหว่างตำแหน่งยีนทั้งสองน้อยลงเท่าใด อัตราการลู่เข้าสู่ศูนย์ ก็จะยิ่งน้อยลงเท่านั้น $D$

การแสดงภาพ

เมื่อคำนวณค่าความไม่สมดุลของการเชื่อมโยงยีนสำหรับชุดข้อมูลแล้ว มักจะเลือกวิธีการแสดงผลด้วยภาพเพื่อแสดงค่าความไม่สมดุลของการเชื่อมโยงยีนนั้นให้เข้าใจได้ง่ายขึ้น

วิธีที่พบได้บ่อยที่สุดคือการใช้ฮีทแมป (heatmap ) โดยใช้สีเพื่อระบุตำแหน่งยีนที่มีภาวะไม่สมดุลของการเชื่อมโยง (linkage disequilibrium) และภาวะสมดุลของการเชื่อมโยง (linkage equilibrium) ตัวอย่างนี้แสดงฮีทแมปแบบเต็ม แต่เนื่องจากฮีทแมปมีความสมมาตรตามแนวทแยงมุม (กล่าวคือ ภาวะไม่สมดุลของการเชื่อมโยงระหว่างตำแหน่งยีน A และ B เท่ากับระหว่าง B และ A) จึงมักใช้ฮีทแมปแบบสามเหลี่ยมที่แสดงคู่ยีนเพียงครั้งเดียว วิธีนี้มีข้อดีคือตีความได้ง่าย แต่ก็ไม่สามารถแสดงข้อมูลเกี่ยวกับตัวแปรอื่นๆ ที่อาจน่าสนใจได้

นอกจากนี้ยังมีตัวเลือกการแสดงภาพข้อมูลที่มีประสิทธิภาพมากขึ้น เช่น แผนภาพสิ่งทอ ในแผนภาพสิ่งทอ การรวมกันของอัลลีลที่ตำแหน่งหนึ่งสามารถเชื่อมโยงกับการรวมกันของอัลลีลที่ตำแหน่งอื่นได้ แต่ละจีโนไทป์ (การรวมกันของอัลลีล) จะถูกแทนด้วยวงกลมที่มีพื้นที่เป็นสัดส่วนกับความถี่ของจีโนไทป์นั้น โดยมีคอลัมน์สำหรับแต่ละตำแหน่ง เส้นจะถูกลากจากแต่ละวงกลมไปยังวงกลมในคอลัมน์อื่น ๆ และความหนาของเส้นเชื่อมจะเป็นสัดส่วนกับความถี่ที่จีโนไทป์ทั้งสองเกิดขึ้นร่วมกัน ภาวะไม่สมดุลของการเชื่อมโยงจะเห็นได้จากจำนวนจุดตัดของเส้นในแผนภาพ โดยจำนวนจุดตัดของเส้นที่มากขึ้นแสดงถึงภาวะไม่สมดุลของการเชื่อมโยงต่ำ และจำนวนจุดตัดที่น้อยลงแสดงถึงภาวะไม่สมดุลของการเชื่อมโยงสูง ข้อดีของวิธีนี้คือแสดงความถี่ของจีโนไทป์แต่ละบุคคลและรวมถึงความแตกต่างทางภาพระหว่างความไม่สมดุลของการเชื่อมโยงแบบสัมบูรณ์ (ซึ่งอัลลีลที่ตำแหน่งทั้งสองปรากฏร่วมกันเสมอ) และแบบสมบูรณ์ (ซึ่งอัลลีลที่ตำแหน่งทั้งสองแสดงการเชื่อมต่อที่แข็งแกร่งแต่มีความเป็นไปได้ของการรวมตัวใหม่) โดยรูปร่างของกราฟ^{[ 22 ]}

ตัวเลือกการแสดงภาพอีกอย่างหนึ่งคือป่าของแบบจำลองชั้นแฝงแบบลำดับชั้น (FHLCM) ตำแหน่งทั้งหมดจะถูกพล็อตตามชั้นบนสุดของกราฟ และด้านล่างชั้นบนสุดนี้ จะมีการเพิ่มกล่องที่แสดงถึงตัวแปรแฝงพร้อมลิงก์ไปยังระดับบนสุด เส้นจะเชื่อมต่อตำแหน่งที่ระดับบนสุดกับตัวแปรแฝงด้านล่าง และยิ่งระดับของกล่องที่เชื่อมต่อตำแหน่งต่ำลงเท่าใด ความไม่สมดุลของการเชื่อมโยงก็จะยิ่งมากขึ้น และระยะห่างระหว่างตำแหน่งก็จะยิ่งน้อยลงเท่านั้น แม้ว่าวิธีนี้จะไม่มีข้อดีเช่นเดียวกับพล็อตสิ่งทอ แต่ก็ช่วยให้สามารถแสดงภาพตำแหน่งที่อยู่ห่างกันได้โดยไม่ต้องจัดเรียงลำดับใหม่ เช่นเดียวกับกรณีของพล็อตสิ่งทอ^{[ 23 ]}

นี่ไม่ใช่รายการวิธีการแสดงภาพข้อมูลทั้งหมด และอาจใช้วิธีการหลายวิธีในการแสดงชุดข้อมูลเพื่อให้ได้ภาพรวมของข้อมูลที่ดีขึ้น โดยอิงจากข้อมูลที่นักวิจัยต้องการเน้นย้ำ

ทรัพยากร

^{Devlin & Risch [}²⁴^]ได้ทำการเปรียบเทียบมาตรวัด LD ที่แตกต่างกัน

โครงการInternational HapMapช่วยให้สามารถศึกษาภาวะความไม่สมดุลของการเชื่อมโยงยีน (LD) ในประชากรมนุษย์ทางออนไลน์ได้โครงการEnsemblผสานรวมข้อมูล HapMap กับข้อมูลทางพันธุกรรมอื่นๆจาก dbSNP

ซอฟต์แวร์วิเคราะห์

PLINK – ชุดเครื่องมือวิเคราะห์ความสัมพันธ์ของจีโนมทั้งหมด ซึ่งสามารถคำนวณค่า LD และอื่นๆ ได้
LDHat ถูกเก็บถาวรเมื่อวันที่ 13 พฤษภาคม 2016 ที่Wayback Machine
ฮาปโลวิว
LdCompare ^{[ 25 ]} — ซอฟต์แวร์โอเพนซอร์สสำหรับการคำนวณ LD
SNP and Variation Suite – ซอฟต์แวร์เชิงพาณิชย์พร้อมแผนภาพ LD แบบโต้ตอบ
GOLD ถูกเก็บถาวรเมื่อวันที่ 21 กันยายน 2014 ที่Wayback Machine – ภาพรวมเชิงกราฟิกของภาวะไม่สมดุลของการเชื่อมโยง
TASSEL – ซอฟต์แวร์สำหรับประเมินภาวะไม่สมดุลของการเชื่อมโยงยีน ความสัมพันธ์ของลักษณะต่างๆ และรูปแบบวิวัฒนาการ
rAggr – ค้นหาตัวบ่งชี้แทน (SNP และ indel) ที่อยู่ในภาวะสมดุลการเชื่อมโยงกับชุดของตัวบ่งชี้ที่ต้องการค้นหา โดยใช้ฐานข้อมูลจีโนไทป์ของโครงการ 1000 Genomes ProjectและHapMap
SNeP – การคำนวณ LD และ Ne อย่างรวดเร็วสำหรับชุดข้อมูลจีโนไทป์ขนาดใหญ่ในรูปแบบ PLINK
LDlink – ชุดแอปพลิเคชันบนเว็บที่ช่วยให้สำรวจภาวะไม่สมดุลของการเชื่อมโยงทางพันธุกรรมในกลุ่มประชากรย่อยได้อย่างง่ายดายและมีประสิทธิภาพ ข้อมูลจีโนไทป์ของประชากรทั้งหมดมาจากเฟส 3 ของโครงการ 1000 Genomes Project และหมายเลข RS ของตัวแปรต่างๆ ได้รับการจัดทำดัชนีโดยอิงจาก dbSNP build 151
Bcftools – เครื่องมือสำหรับระบุและจัดการไฟล์ VCF และ BCF ที่เกี่ยวข้องกับความแปรผันทางพันธุกรรม

ซอฟต์แวร์จำลอง

Haploid — ไลบรารีภาษา Cสำหรับการจำลองทางพันธุศาสตร์ของประชากร ( GPL )

ดูเพิ่มเติม

อ่านเพิ่มเติม

เฮดริก, ฟิลิป ดับเบิลยู. (2005). พันธุศาสตร์ของประชากร (ฉบับที่ 3). ซัดเบอรี, บอสตัน, โทรอนโต, ลอนดอน, สิงคโปร์: สำนักพิมพ์โจนส์ แอนด์ บาร์ตเลตต์ ISBN 978-0-7637-4772-5.
บรรณานุกรม: การวิเคราะห์ภาวะไม่สมดุลของการเชื่อมโยงยีน : บรรณานุกรมบทความมากกว่าหนึ่งพันบทความเกี่ยวกับภาวะไม่สมดุลของการเชื่อมโยงยีนที่ตีพิมพ์ตั้งแต่ปี 1918

[ 1 ]

[ 3 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 16 ]

[ 17 ]

[ 18 ]

20

โล

[ 22 ]

[ 23 ]

Devlin & Risch [

[ 25 ]