การร้อยเรียง (ลำดับโปรตีน)

ในชีววิทยาระดับโมเลกุล การสร้าง แบบจำลองโปรตีน (Protein threading ) หรือที่รู้จักกันในชื่อการจดจำโครงสร้างพับ (Fold recognition ) เป็นวิธีการสร้างแบบจำลองโปรตีนที่ใช้สร้างแบบจำลองโปรตีนที่มีโครงสร้าง พับเหมือนกับโปรตีนที่มีโครงสร้างที่ทราบแล้วแต่ไม่มี โปรตีน ที่คล้ายคลึงกัน (homologous proteins) ที่มีโครงสร้างที่ทราบแล้ว วิธีนี้แตกต่างจาก วิธี การสร้างแบบจำลองโครงสร้างโดยใช้ความคล้ายคลึง (Homology modeling) ตรงที่การสร้างแบบจำลองโปรตีนใช้กับโปรตีนที่ไม่มีโครงสร้างโปรตีนที่คล้ายคลึงกันอยู่ในฐานข้อมูลโปรตีน (Protein Data Bank หรือ PDB) ในขณะที่การสร้างแบบจำลองโครงสร้างโดยใช้ความคล้ายคลึงใช้กับโปรตีนที่มีโครงสร้างดังกล่าว การสร้างแบบจำลองโปรตีนทำงานโดยใช้ความรู้ทางสถิติเกี่ยวกับความสัมพันธ์ระหว่างโครงสร้างที่เก็บไว้ใน PDB กับลำดับของโปรตีนที่ต้องการสร้างแบบจำลอง

การทำนายจะทำโดยการ "เชื่อมโยง" (เช่น การวาง การจัดเรียง) กรดอะมิโน แต่ละตัว ในลำดับเป้าหมายไปยังตำแหน่งในโครงสร้างแม่แบบ และประเมินว่าเป้าหมายนั้นเข้ากับแม่แบบได้ดีเพียงใด หลังจากเลือกแม่แบบที่เหมาะสมที่สุดแล้ว จะสร้างแบบจำลองโครงสร้างของลำดับนั้นโดยอิงจากการจัดเรียงกับแม่แบบที่เลือก การเชื่อมโยงโปรตีนนั้นอิงจากข้อสังเกตพื้นฐานสองประการ คือ จำนวนโครงสร้างพับที่แตกต่างกันในธรรมชาติมีค่อนข้างน้อย (ประมาณ 1300) และ 90% ของโครงสร้างใหม่ที่ส่งไปยัง PDB ในช่วงสามปีที่ผ่านมามีโครงสร้างพับที่คล้ายคลึงกับโครงสร้างที่มีอยู่แล้วใน PDB

การจำแนกโครงสร้างโปรตีน

ฐานข้อมูลการจำแนกโครงสร้างโปรตีน (SCOP) ให้คำอธิบายโดยละเอียดและครอบคลุมเกี่ยวกับความสัมพันธ์เชิงโครงสร้างและวิวัฒนาการของโครงสร้างที่รู้จัก โปรตีนได้รับการจำแนกเพื่อสะท้อนความสัมพันธ์ทั้งเชิงโครงสร้างและวิวัฒนาการ มีหลายระดับในลำดับชั้น แต่ระดับหลักคือตระกูล (family) , กลุ่มใหญ่ (superfamily)และรูปแบบการพับ (fold):

กลุ่มโปรตีน (ความสัมพันธ์ทางวิวัฒนาการที่ชัดเจน): โปรตีนที่จัดกลุ่มอยู่ด้วยกันเป็นกลุ่มเดียวกันนั้นมีความสัมพันธ์ทางวิวัฒนาการที่ชัดเจน โดยทั่วไปหมายความว่าโปรตีนเหล่านั้นต้องมีลำดับกรดอะมิโนที่เหมือนกันอย่างน้อย 30% อย่างไรก็ตาม ในบางกรณี ฟังก์ชันและโครงสร้างที่คล้ายคลึงกันอาจเป็นหลักฐานที่แน่ชัดของการสืบเชื้อสายร่วมกัน แม้ว่าจะไม่มีความเหมือนกันของลำดับกรดอะมิโนสูงก็ตาม ตัวอย่างเช่นโกลบิน หลายชนิด จัดอยู่ในกลุ่มเดียวกัน แม้ว่าสมาชิกบางตัวจะมีลำดับกรดอะมิโนที่เหมือนกันเพียง 15% ก็ตาม
ซูเปอร์แฟมิลี (ต้นกำเนิดวิวัฒนาการร่วมกันที่น่าจะเป็นไปได้): โปรตีนที่มีลำดับกรดอะมิโนคล้ายคลึงกันน้อย แต่มีลักษณะโครงสร้างและหน้าที่ที่บ่งชี้ว่ามีต้นกำเนิดวิวัฒนาการร่วมกัน จะถูกจัดไว้ด้วยกันในซูเปอร์แฟมิลี ตัวอย่างเช่นแอคตินโดเมนATPaseของโปรตีนฮีทช็อกและเฮกโซไคเนส รวมกันเป็นซูเปอร์แฟมิลีเดียวกัน
โครงสร้างพับ (ความคล้ายคลึงทางโครงสร้างหลัก): โปรตีนจะถูกนิยามว่ามีโครงสร้างพับร่วมกันหากมีโครงสร้างทุติยภูมิหลักเหมือนกัน จัดเรียงในลักษณะเดียวกัน และมีการเชื่อมต่อทางโทโพโลยีเหมือนกัน โปรตีนต่างชนิดกันที่มีโครงสร้างพับเดียวกัน มักจะมีองค์ประกอบรอบนอกของโครงสร้างทุติยภูมิและบริเวณส่วนโค้งที่แตกต่างกันในขนาดและรูปร่าง ในบางกรณี บริเวณรอบนอกที่แตกต่างกันเหล่านี้อาจประกอบกันเป็นครึ่งหนึ่งของโครงสร้าง โปรตีนที่จัดอยู่ในหมวดหมู่โครงสร้างพับเดียวกันอาจไม่ได้มีต้นกำเนิดทางวิวัฒนาการร่วมกัน ความคล้ายคลึงทางโครงสร้างอาจเกิดขึ้นจากฟิสิกส์และเคมีของโปรตีนที่เอื้อต่อการจัดเรียงตัวและการจัดเรียงสายโซ่บางอย่าง

วิธี

รูปแบบทั่วไปของการร้อยโปรตีนประกอบด้วยขั้นตอนสี่ขั้นตอนดังต่อไปนี้:

การสร้างฐานข้อมูล แม่แบบโครงสร้าง : เลือกโครงสร้างโปรตีนจากฐานข้อมูลโครงสร้างโปรตีนเพื่อใช้เป็นแม่แบบโครงสร้าง โดยทั่วไปแล้วจะเกี่ยวข้องกับการเลือกโครงสร้างโปรตีนจากฐานข้อมูลต่างๆ เช่นProtein Data Bank (PDB), Families of Structurally Similar Proteins database (FSSP), Structural Classification of Proteins database (SCOP) หรือCATH databaseหลังจากลบโครงสร้างโปรตีนที่มีความคล้ายคลึงกันของลำดับสูงออกไปแล้ว
การออกแบบฟังก์ชันการให้คะแนน: ออกแบบฟังก์ชันการให้คะแนนที่ดีเพื่อวัดความเหมาะสมระหว่างลำดับเป้าหมายและแม่แบบโดยอาศัยความรู้เกี่ยวกับความสัมพันธ์ที่ทราบระหว่างโครงสร้างและลำดับ ฟังก์ชันการให้คะแนนที่ดีควรประกอบด้วยศักยภาพการกลายพันธุ์ ศักยภาพความเหมาะสมของสภาพแวดล้อม ศักยภาพแบบคู่ ความเข้ากันได้ของโครงสร้างทุติยภูมิ และค่าปรับสำหรับช่องว่าง คุณภาพของฟังก์ชันพลังงานมีความเกี่ยวข้องอย่างใกล้ชิดกับความแม่นยำในการทำนาย โดยเฉพาะอย่างยิ่งความแม่นยำในการจัดเรียงลำดับ
การจัดเรียงลำดับ: จัดเรียงลำดับเป้าหมายให้ตรงกับแม่แบบโครงสร้างแต่ละอันโดยปรับฟังก์ชันการให้คะแนนที่ออกแบบไว้ให้เหมาะสม ขั้นตอนนี้เป็นหนึ่งในงานหลักของโปรแกรมทำนายโครงสร้างแบบใช้การจัดเรียงลำดับทั้งหมดที่คำนึงถึงศักยภาพการสัมผัสแบบคู่ มิเช่นนั้นอัลกอริทึมการเขียนโปรแกรมแบบไดนามิกก็สามารถดำเนินการได้
การทำนายการเรียงตัวของลำดับ: เลือกการเรียงตัวของลำดับที่มีความน่าจะเป็นทางสถิติสูงสุดเป็นการทำนาย จากนั้นสร้างแบบจำลองโครงสร้างสำหรับเป้าหมายโดยการวางอะตอมหลักของลำดับเป้าหมายไว้ที่ตำแหน่งหลักที่เรียงตัวกันของแม่แบบโครงสร้างที่เลือกไว้

การเปรียบเทียบกับการสร้างแบบจำลองความคล้ายคลึงกัน

การสร้างแบบจำลองความคล้ายคลึงทาง โครงสร้าง (Homology modeling)และการร้อยเรียงโปรตีน (Protein threading) ต่างก็เป็นวิธีการที่ใช้แม่แบบ และไม่มีขอบเขตที่ชัดเจนระหว่างสองวิธีนี้ในแง่ของเทคนิคการทำนาย แต่โครงสร้างโปรตีนของเป้าหมายนั้นแตกต่างกัน การสร้างแบบจำลองความคล้ายคลึงทางโครงสร้างเหมาะสำหรับเป้าหมายที่มีโปรตีนที่คล้ายคลึงกันและมีโครงสร้างที่ทราบแล้ว (โดยปกติ/อาจจะเป็นโปรตีนในตระกูลเดียวกัน) ในขณะที่การร้อยเรียงโปรตีนเหมาะสำหรับเป้าหมายที่มีความคล้ายคลึงกันในระดับการพับตัว (fold-level homology) เท่านั้น กล่าวอีกนัยหนึ่ง การสร้างแบบจำลองความคล้ายคลึงทางโครงสร้างเหมาะสำหรับเป้าหมายที่ "ง่ายกว่า" และการร้อยเรียงโปรตีนเหมาะสำหรับเป้าหมายที่ "ยากกว่า"

การสร้างแบบจำลองโดยใช้ความคล้ายคลึงกันทางลำดับ (Homology modeling) จะมองแม่แบบในการจัดเรียงลำดับเป็นลำดับของกรดอะมิโน และใช้เฉพาะความคล้ายคลึงกันทางลำดับของกรดอะมิโนในการทำนาย ในขณะที่การสร้างโครงร่างโปรตีน (Protein threading) จะมองแม่แบบในการจัดเรียงลำดับเป็นโครงสร้าง และใช้ทั้งข้อมูลลำดับและโครงสร้างที่สกัดได้จากการจัดเรียงลำดับในการทำนาย เมื่อไม่พบความคล้ายคลึงกันอย่างมีนัยสำคัญ การสร้างโครงร่างโปรตีนสามารถทำการทำนายโดยอาศัยข้อมูลโครงสร้างได้ ซึ่งนั่นก็เป็นเหตุผลว่าทำไมการสร้างโครงร่างโปรตีนจึงอาจมีประสิทธิภาพมากกว่าการสร้างแบบจำลองโดยใช้ความคล้ายคลึงกันทางลำดับในหลายกรณี

ในทางปฏิบัติ เมื่อความเหมือนของลำดับในการจัดเรียงลำดับต่ำ (เช่น น้อยกว่า 25%) การสร้างแบบจำลองความคล้ายคลึงอาจไม่ให้ผลการทำนายที่มีนัยสำคัญ ในกรณีนี้ หากพบความคล้ายคลึงในระยะไกลสำหรับเป้าหมาย การสร้างแบบจำลองโปรตีนแบบเรียงลำดับ (Protein threading) สามารถสร้างผลการทำนายที่ดีได้

เพิ่มเติมเกี่ยวกับเกลียว

วิธีการระบุโครงสร้างพับของโปรตีนสามารถแบ่งออกได้เป็นสองประเภทใหญ่ๆ คือ ประเภทที่สร้างโปรไฟล์ 1 มิติสำหรับแต่ละโครงสร้างในคลังโครงสร้างพับ และจัดเรียงลำดับเป้าหมายให้ตรงกับโปรไฟล์เหล่านี้ และประเภทที่พิจารณาโครงสร้าง 3 มิติทั้งหมดของแม่แบบโปรตีน ตัวอย่างง่ายๆ ของการแสดงโปรไฟล์คือการนำกรดอะมิโนแต่ละตัวในโครงสร้างมาติดป้ายกำกับตามว่ามันฝังอยู่ในแกนกลางของโปรตีนหรืออยู่บนพื้นผิว โปรไฟล์ที่ซับซ้อนกว่าอาจพิจารณาโครงสร้างทุติยภูมิ เฉพาะที่ (เช่น กรดอะมิโนเป็นส่วนหนึ่งของเกลียวอัลฟา หรือไม่ ) หรือแม้แต่ข้อมูลวิวัฒนาการ (กรดอะมิโนนั้นได้รับการอนุรักษ์ไว้มากน้อยเพียงใด) ในการแสดงแบบ 3 มิติ โครงสร้างจะถูกจำลองเป็นชุดของระยะห่างระหว่างอะตอม กล่าวคือ ระยะห่างจะถูกคำนวณระหว่างคู่ของอะตอมบางส่วนหรือทั้งหมดในโครงสร้าง นี่เป็นการอธิบายโครงสร้างที่สมบูรณ์และยืดหยุ่นกว่ามาก แต่ยากต่อการนำไปใช้ในการคำนวณการจัดเรียงลำดับมากกว่า วิธีการจดจำโครงสร้างพับตามโปรไฟล์ได้รับการอธิบายครั้งแรกโดย Bowie, Lüthy และDavid Eisenbergในปี 1991 ^{[ 1 ]}คำว่าthreadingได้รับการบัญญัติขึ้นครั้งแรกโดยDavid Jones , William R. Taylor และJanet Thorntonในปี 1992 ^{[ 2 ]}และเดิมทีหมายถึงการใช้การแสดงโครงสร้างอะตอมแบบ 3 มิติเต็มรูปแบบของแม่แบบโปรตีนในการจดจำโครงสร้างพับโดยเฉพาะ ปัจจุบัน คำว่า threading และการจดจำโครงสร้างพับมักถูกใช้สลับกัน (แม้ว่าจะไม่ถูกต้องนัก)

วิธีการจำแนกโครงสร้างพับของโปรตีนนั้นใช้กันอย่างแพร่หลายและมีประสิทธิภาพ เนื่องจากเชื่อกันว่าในธรรมชาติมีโครงสร้างพับของโปรตีนที่แตกต่างกันอยู่จำนวนจำกัด ซึ่งส่วนใหญ่เป็นผลมาจากการวิวัฒนาการ แต่ก็เนื่องมาจากข้อจำกัดที่เกิดจากหลักฟิสิกส์และเคมีพื้นฐานของสายโซ่โพลีเปปไทด์ด้วย ดังนั้นจึงมีโอกาสสูง (ปัจจุบันอยู่ที่ 70-80%) ที่โปรตีนที่มีโครงสร้างพับคล้ายกับโปรตีนเป้าหมายนั้นได้รับการศึกษามาแล้วด้วยวิธี การ เอกซเรย์คริสตัลโลกราฟีหรือสเปกโทรสโกปีนิวเคลียร์แมกเนติกเรโซแนนซ์ (NMR)และสามารถพบได้ในฐานข้อมูล PDB ปัจจุบันมีโครงสร้างพับของโปรตีนที่รู้จักกันเกือบ 1300 แบบ แต่ก็ยังมีการค้นพบโครงสร้างพับใหม่ๆ ทุกปี ซึ่งส่วนสำคัญมาจากการดำเนินโครงการ จีโนมิกส์เชิงโครงสร้าง อย่างต่อเนื่อง

มีการเสนออัลกอริทึมที่แตกต่างกันมากมายสำหรับการหาลำดับการเรียงตัวที่ถูกต้องของลำดับลงบนโครงสร้าง แม้ว่าหลายๆ อัลกอริทึมจะใช้การเขียนโปรแกรมเชิงพลวัตในรูปแบบใดรูปแบบหนึ่งก็ตาม สำหรับการเรียงตัวแบบ 3 มิติอย่างสมบูรณ์ ปัญหาในการระบุการจัดเรียงที่ดีที่สุดนั้นยากมาก (เป็น ปัญหา NP-hardสำหรับแบบจำลองการเรียงตัวบางแบบ) นักวิจัยได้ใช้หลายวิธีในการเพิ่มประสิทธิภาพเชิงการจัดเรียง เช่นฟิลด์สุ่มแบบมีเงื่อนไขการอบชุบแบบจำลอง การ แยกสาขา และขอบเขตและการเขียนโปรแกรมเชิงเส้นเพื่อค้นหาคำตอบแบบฮิวริสติก เป็นเรื่องน่าสนใจที่จะเปรียบเทียบวิธีการเรียงตัวกับวิธีการที่พยายามจัดเรียงโครงสร้างโปรตีนสองโครงสร้าง ( การจัดเรียงโครงสร้างโปรตีน ) และในความเป็นจริงแล้ว อัลกอริทึมเดียวกันหลายๆ ตัวได้ถูกนำไปใช้กับทั้งสองปัญหา

ซอฟต์แวร์สร้างเส้นใยโปรตีน

HHpredเป็นเซิร์ฟเวอร์สำหรับการสร้างลำดับดีเอ็นเอแบบมัลติเธรดที่ได้รับความนิยม ซึ่งใช้HHsearchซอฟต์แวร์ที่ใช้กันอย่างแพร่หลายสำหรับการตรวจจับความคล้ายคลึงกันระยะไกลโดยอาศัยการเปรียบเทียบแบบคู่ของแบบจำลองมาร์คอฟที่ซ่อนอยู่
RAPTORเป็นซอฟต์แวร์จัดเรียงโปรตีนโดยใช้การเขียนโปรแกรมเชิงจำนวนเต็ม ปัจจุบันได้ถูกแทนที่ด้วยโปรแกรมจัดเรียงโปรตีนตัวใหม่ชื่อRaptorXซึ่งใช้แบบจำลองกราฟิกเชิงความน่าจะเป็นและการอนุมานทางสถิติในการจัดเรียงโปรตีนทั้งแบบใช้แม่แบบเดียวและหลายแม่แบบ^{[ 3 ]}^{[ 4 ]}^{[ 5 ]}^{[ 6 ]} RaptorX มีประสิทธิภาพเหนือกว่า RAPTOR อย่างมาก และโดยเฉพาะอย่างยิ่งมีประสิทธิภาพในการจัดเรียงโปรตีนที่มีโปรไฟล์ลำดับที่กระจัดกระจาย เซิร์ฟเวอร์ RaptorX เปิดให้ใช้งานฟรีสำหรับบุคคลทั่วไป
Phyreเป็นเซิร์ฟเวอร์มัลติเธรดที่ได้รับความนิยม ซึ่งผสานรวมHHsearchเข้ากับ การสร้างแบบจำลอง ab initioและการสร้างแบบจำลองหลายเทมเพลต
MUSTER เป็นอัลกอริธึมการร้อยด้ายมาตรฐานที่ใช้การเขียนโปรแกรมแบบไดนามิกและการจัดเรียงโปรไฟล์ลำดับ-โปรไฟล์ นอกจากนี้ยังรวมทรัพยากรโครงสร้างหลายอย่างเพื่อช่วยในการจัดเรียงโปรไฟล์ลำดับ^{[ 7 ]}
SPARKS X เป็นการจับคู่ลำดับกับโครงสร้างตามความน่าจะเป็นระหว่างคุณสมบัติเชิงโครงสร้างหนึ่งมิติที่คาดการณ์ไว้ของแบบสอบถามและคุณสมบัติดั้งเดิมที่สอดคล้องกันของแม่แบบ^{[ 8 ]}
BioShell เป็นอัลกอริทึมการร้อยด้ายโดยใช้อัลกอริทึมการเขียนโปรแกรมแบบไดนามิกโปรไฟล์ต่อโปรไฟล์ที่ปรับให้เหมาะสมร่วมกับโครงสร้างรองที่คาดการณ์ไว้^{[ 9 ]}

ดูเพิ่มเติม

อ่านเพิ่มเติม

Finkelstein, AV; Reva, BA (มิถุนายน 1991). "การค้นหาโครงสร้างพับที่เสถียรที่สุดของสายโซ่โปรตีน" Nature . 351 (6326): 497– 9. Bibcode : 1991Natur.351..497F . doi : 10.1038/351497a0 . PMID 2046752 . S2CID 4319142 .
Lathrop RH (1994). "ปัญหาการร้อยโปรตีนที่มีลำดับความชอบปฏิสัมพันธ์ของกรดอะมิโนคือ NP-complete" Protein Eng . 7 (9): 1059– 1068. CiteSeerX 10.1.1.367.9081 . doi : 10.1093/protein/7.9.1059 . PMID 7831276 .
Jones DT, Hadley C (2000). "วิธีการเรียงลำดับสำหรับการทำนายโครงสร้างโปรตีน" ใน Higgins D, Taylor WR (บรรณาธิการ). ชีวสารสนเทศ: ลำดับ โครงสร้าง และฐานข้อมูล . ไฮเดลเบิร์ก: Springer-Verlag. หน้า 1–13 .
Xu J, Li M, Kim D, Xu Y (2003). "RAPTOR: การร้อยโปรตีนที่เหมาะสมที่สุดด้วยการเขียนโปรแกรมเชิงเส้น ฉบับปฐมฤกษ์". J Bioinform Comput Biol . 1 (1): 95– 117. CiteSeerX 10.1.1.5.4844 . doi : 10.1142/S0219720003000186 . PMID 15290783 .
Xu J, Li M, Lin G, Kim D, Xu Y (2003). "การร้อยเรียงโปรตีนด้วยการเขียนโปรแกรมเชิงเส้น" Pac Symp Biocomput : 264– 275. PMID 12603034 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]