การวิเคราะห์การเชื่อมโยงทางสถิติ

การวิเคราะห์การเชื่อมโยงทางสถิติ (Statistical Coupling Analysis: SCA)เป็นวิธีการที่ใช้ในชีวสารสนเทศเพื่อศึกษาว่ากรดอะมิโน คู่หนึ่ง ในลำดับโปรตีนมีการวิวัฒนาการร่วมกัน อย่างไร โดยจะวิเคราะห์ การจัดเรียงลำดับหลายลำดับ ( Multiple Sequence Alignment : MSA) ซึ่งเป็นการแสดงลำดับของโปรตีนที่เกี่ยวข้องจำนวนมากที่จัดเรียงเพื่อเน้นความคล้ายคลึงและความแตกต่าง SCA จะวัดว่าองค์ประกอบของกรดอะมิโนในตำแหน่งหนึ่งของโปรตีนเปลี่ยนแปลงไปมากน้อยเพียงใดเมื่อองค์ประกอบของกรดอะมิโนในอีกตำแหน่งหนึ่งเปลี่ยนแปลงไป ความสัมพันธ์นี้จะถูกวัดเป็นพลังงานการเชื่อมโยงทางสถิติพลังงานการเชื่อมโยงที่สูงขึ้นบ่งชี้ว่ากรดอะมิโนในทั้งสองตำแหน่งมีแนวโน้มที่จะมีการวิวัฒนาการร่วมกันมากขึ้น และดังนั้นจึงเชื่อมโยงกันในเชิงหน้าที่หรือโครงสร้าง กล่าวโดยง่ายคือ ช่วยให้นักวิทยาศาสตร์เข้าใจว่าส่วนใดของโปรตีนทำงานร่วมกันและมีการเปลี่ยนแปลงอย่างไรในช่วงเวลาวิวัฒนาการ^{[ 1 ]}

นิยามของพลังงานการเชื่อมโยงทางสถิติ

พลังงานการเชื่อมโยงทางสถิติวัดว่าการรบกวนการกระจายตัวของกรดอะมิโนที่ไซต์หนึ่งใน MSA ส่งผลต่อการกระจายตัวของกรดอะมิโนที่ไซต์อื่นอย่างไร ตัวอย่างเช่น พิจารณาการจัดเรียงลำดับหลายลำดับที่มีไซต์ (หรือคอลัมน์) aถึงzโดยแต่ละไซต์มีการกระจายตัวของกรดอะมิโนบางอย่าง ที่ตำแหน่งi 60% ของลำดับมีวาลีนและอีก 40% ที่เหลือมีลิวซีนที่ตำแหน่งjการกระจายตัวคือ 40% ไอโซลิวซีน 40% ฮิสติดีนและ 20% เมไทโอ นีน ตำแหน่ง kมีการกระจายตัวเฉลี่ย (กรดอะมิโน 20 ชนิดมีอยู่ในความถี่ที่ใกล้เคียงกันในโปรตีนทั้งหมด) และตำแหน่งlมีฮิสติดีน 80% และวาลีน 20% เนื่องจากตำแหน่งi , jและl มีการกระจายตัวของกรดอะมิโนที่แตกต่างจากการกระจายตัวเฉลี่ยที่พบในโปรตีนทั้งหมด จึงกล่าวได้ว่าตำแหน่งเหล่านี้มี การอนุรักษ์ใน ระดับหนึ่ง

ในการวิเคราะห์การเชื่อมโยงทางสถิติ การอนุรักษ์ (ΔG ^stat ) ที่แต่ละไซต์ ( i ) ถูกกำหนดดังนี้: ^[²^] $\Delta G_{i}^{stat}={\sqrt {\sum _{x}(\ln P_{i}^{x})^{2}}}$

ในที่นี้ P _i^xอธิบายถึงความน่าจะเป็นที่จะพบกรดอะมิโนxที่ตำแหน่งiและถูกกำหนดโดยฟังก์ชันในรูปแบบทวินามดังต่อไปนี้:

P_{i}^{x}={\frac {N!}{n_{x}!(N-n_{x})!}}p_{x}^{n_{x}}(1-p_{x})^{N-n_{x}}

,

โดยที่ N คือ 100, n _xคือเปอร์เซ็นต์ของลำดับที่มีกรดอะมิโนx (เช่น เมไทโอนีน) ที่ตำแหน่งiและ p _xสอดคล้องกับการกระจายโดยประมาณของกรดอะมิโนxในทุกตำแหน่งในโปรตีนทั้งหมดที่มีลำดับ การรวมผลจะครอบคลุมกรดอะมิโนทั้ง 20 ชนิด หลังจากคำนวณ ΔG _i^{stat แล้ว จะนำค่าการอนุรักษ์สำหรับตำแหน่ง}iในการจัดเรียงลำดับย่อยที่เกิดขึ้นหลังจากการรบกวนการกระจายของกรดอะมิโนที่j (ΔG _{i | δj}^stat ) มาใช้ พลังงานการเชื่อมโยงทางสถิติ ซึ่งแสดงด้วย ΔΔG _{i, j}^statคือผลต่างระหว่างค่าทั้งสองนี้ นั่นคือ:

\Delta \Delta G_{i,j}^{stat}=\Delta G_{i|\delta j}^{stat}-\Delta G_{i}^{stat}

หรือที่พบได้บ่อยกว่านั้น

\Delta \Delta G_{i,j}^{stat}={\sqrt {\sum _{x}(\ln P_{i|\delta j}^{x}-\ln P_{i}^{x})^{2}}}

พลังงานการเชื่อมโยงทางสถิติมักถูกคำนวณอย่างเป็นระบบระหว่างตำแหน่งที่ถูกรบกวนคงที่กับตำแหน่งอื่นๆ ทั้งหมดใน MSA โดยอ้างอิงจากตัวอย่าง MSA ในตอนต้นของหัวข้อนี้ พิจารณาการรบกวนที่ตำแหน่งjซึ่งการกระจายตัวของกรดอะมิโนเปลี่ยนจาก 40% I, 40% H, 20% M เป็น 100% I หากในการจัดเรียงย่อยครั้งต่อไป การเปลี่ยนแปลงนี้ทำให้การกระจายตัวที่ตำแหน่งi เปลี่ยน จาก 60% V, 40% L เป็น 90% V, 10% L แต่ไม่เปลี่ยนแปลงการกระจายตัวที่ตำแหน่งlดังนั้นจะมีพลังงานการเชื่อมโยงทางสถิติระหว่างiและjแต่ ไม่มีระหว่างlและj

แอปพลิเคชัน

เดิมที Ranganathan และ Lockless พัฒนา SCA เพื่อตรวจสอบการเชื่อมโยงทางอุณหพลศาสตร์ (พลังงาน) ของคู่สารตกค้างในโปรตีน^{[ 3 ]} โดยใช้ ตระกูล โดเมน PDZพวกเขาสามารถระบุเครือข่ายขนาดเล็กของสารตกค้างที่เชื่อมโยงทางพลังงานกับสารตกค้างในตำแหน่งการจับ เครือข่ายประกอบด้วยทั้งสารตกค้างที่อยู่ใกล้กับตำแหน่งการจับในโครงสร้างสามมิติ เรียกว่าคู่สัมผัส และสารตกค้างที่อยู่ห่างออกไปซึ่งมีส่วนร่วมในปฏิสัมพันธ์ทางพลังงานระยะไกล การประยุกต์ใช้ SCA ในภายหลังโดยกลุ่มของ Ranganathanกับ ตระกูล GPCR , เซรีนโปรตีเอสและฮีโมโกลบินยังแสดงให้เห็นถึงการเชื่อมโยงทางพลังงานในเครือข่ายที่เบาบางของสารตกค้างที่ร่วมมือกันในการสื่อสารแบบอัลโลสเต อริก ^{[ 4 ]}

การวิเคราะห์การเชื่อมโยงทางสถิติยังถูกใช้เป็นพื้นฐานสำหรับการออกแบบโปรตีนด้วยคอมพิวเตอร์ ในปี 2548 Socolich และคณะ^{[ 5 ]}ใช้ SCA สำหรับโดเมน WWเพื่อสร้างโปรตีนเทียมที่มีเสถียรภาพทางอุณหพลศาสตร์และโครงสร้าง ที่คล้ายคลึง กับโดเมน WW ตามธรรมชาติ ข้อเท็จจริงที่ว่าโปรตีนที่ออกแบบ 12 จาก 43 ตัวที่มีโปรไฟล์ SCA เดียวกันกับโดเมน WW ตามธรรมชาติมีการพับตัวอย่างถูกต้องนั้น เป็นหลักฐานที่ชัดเจนว่าต้องการข้อมูลเพียงเล็กน้อย—เฉพาะข้อมูลการเชื่อมโยงเท่านั้น—เพื่อระบุการพับตัวของโปรตีน การสนับสนุนสมมติฐาน SCA นี้มีความน่าเชื่อถือมากขึ้นเมื่อพิจารณาว่า ก) โปรตีนที่พับตัวได้สำเร็จมีลำดับความเหมือน เฉลี่ยเพียง 36% กับโครงสร้าง WW ตามธรรมชาติ และ ข) ไม่มีโปรตีนเทียมใดที่ออกแบบโดยไม่มีข้อมูลการเชื่อมโยงพับตัวได้อย่างถูกต้อง การศึกษาที่เกี่ยวข้องแสดงให้เห็นว่าโดเมน WW เทียมมีฟังก์ชันการทำงานคล้ายกับโดเมน WW ตามธรรมชาติในด้านความสัมพันธ์และความจำเพาะในการจับกับลิแกนด์^{[ 6 ]}

ในการทำนายโครงสร้างโปรตีน แบบ de novoพบว่า เมื่อรวมกับเมตริกระยะห่างระหว่างสารตกค้างแบบง่าย การให้คะแนนตาม SCA สามารถแยกแยะโครงสร้างโปรตีนดั้งเดิมออกจากโครงสร้างโปรตีนที่ไม่ใช่ดั้งเดิมได้อย่างแม่นยำพอสมควร^{[ 7 ]}

ดูเพิ่มเติม

ข้อมูลร่วมกัน

ลิงก์ภายนอก

โดเมน WW คืออะไร?
การบรรยายของรังกานาธานเกี่ยวกับการวิเคราะห์การเชื่อมโยงทางสถิติ (มีไฟล์เสียงประกอบ)
การพับตัวของโปรตีน — ใกล้ความเป็นจริงมากขึ้นอีกขั้น? - บทสรุปของการออกแบบโดเมน WW เทียมแต่ใช้งานได้จริงโดยใช้ SCA จากห้องปฏิบัติการของรังกานาธาน

[ 1 ]

[

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

การวิเคราะห์การเชื่อมโยงทางสถิติ

นิยามของพลังงานการเชื่อมโยงทางสถิติ

แอปพลิเคชัน

ดูเพิ่มเติม

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ