การทำนายโครงสร้างโปรตีน

Q: โครงสร้างโปรตีนและศัพท์เฉพาะ

โปรตีนเป็นสายโซ่ของ กรดอะมิโน ที่เชื่อมต่อกันด้วย พันธะเปปไทด์ โครงสร้างหลายรูปแบบสามารถเกิดขึ้นได้เนื่องจากการหมุนของสายโซ่หลักรอบมุมบิดสองมุม φ และ ψ ที่อะตอม Cα ความยืดหยุ่นทางโครงสร้าง นี้ เป็นสาเหตุของความแตกต่างในโครงสร้างสามมิติของโปรตีน

สามารถวิเคราะห์กรดอะมิโนที่เป็นส่วนประกอบเพื่อทำนายโครงสร้างโปรตีนระดับทุติยภูมิ ตติยภูมิ และจตุรภูมิได้

การทำนายโครงสร้างโปรตีนคือการอนุมานโครงสร้างสามมิติของโปรตีนจาก ลำดับ กรดอะมิโนกล่าวคือ การทำนาย โครงสร้าง ทุติยภูมิและตติยภูมิจากโครงสร้างปฐมภูมิการทำนายโครงสร้างแตกต่างจากปัญหาผกผันของ การ ออกแบบ โปรตีน

การทำนายโครงสร้างโปรตีนเป็นหนึ่งในเป้าหมายที่สำคัญที่สุดของชีววิทยาเชิงคำนวณและเป็นการแก้ปัญหาความขัดแย้งของเลวินธัลการทำนายโครงสร้างที่แม่นยำมีประโยชน์อย่างมากในทางการแพทย์ (เช่น ในการออกแบบยา ) และเทคโนโลยีชีวภาพ (เช่น ใน การออกแบบ เอนไซม์ ใหม่ )

นับตั้งแต่ปี 1994 ประสิทธิภาพของวิธีการปัจจุบันจะได้รับการประเมินทุกสองปีใน การทดลอง Critical Assessment of Structure Prediction ( CASP ) ส่วนการประเมินอย่างต่อเนื่องของเว็บเซิร์ฟเวอร์ทำนายโครงสร้างโปรตีนนั้น ดำเนินการโดยโครงการชุมชนContinuous Automated Model EvaluatiOn ( CAMEO3D )

โครงสร้างโปรตีนและศัพท์เฉพาะ

โปรตีนเป็นสายโซ่ของกรดอะมิโนที่เชื่อมต่อกันด้วยพันธะเปปไทด์โครงสร้างหลายรูปแบบสามารถเกิดขึ้นได้เนื่องจากการหมุนของสายโซ่หลักรอบมุมบิดสองมุม φ และ ψ ที่อะตอม Cα ความยืดหยุ่นทางโครงสร้าง นี้ เป็นสาเหตุของความแตกต่างในโครงสร้างสามมิติของโปรตีน

ความยืดหยุ่นในการเปลี่ยนแปลงโครงสร้างนำไปสู่การเคลื่อนที่ของโปรตีน ดังที่เห็นได้ในไรโบโซมที่กำลังแปลรหัสดีเอ็นเอราวกับเครื่องจักรทางชีวภาพ พลวัตของโดเมนโปรตีนดังกล่าวสามารถสังเกตได้ด้วยสเปกโทรสโกปีแบบนิวตรอนสปิน เอคโค

พันธะเปปไทด์ในสายโซ่เป็นพันธะมีขั้ว กล่าวคือ มีประจุบวกและประจุลบแยกกัน (ประจุบางส่วน) ในหมู่คาร์บอนิลซึ่งสามารถทำหน้าที่เป็นตัวรับพันธะไฮโดรเจน และในหมู่ NH ซึ่งสามารถทำหน้าที่เป็นตัวให้พันธะไฮโดรเจน ดังนั้นหมู่เหล่านี้จึงสามารถมีปฏิสัมพันธ์กันในโครงสร้างโปรตีนได้ โปรตีนส่วนใหญ่ประกอบด้วยกรดอะมิโน L-α- ประมาณ 20 ชนิด ( กรดอะมิโนที่สร้างโปรตีน ) ซึ่งสามารถจำแนกได้ตามเคมีของหมู่ข้างเคียง ซึ่งมีบทบาทสำคัญในโครงสร้างเช่นกัน ไกลซีนมีตำแหน่งพิเศษ เนื่องจากมีหมู่ข้างเคียงที่เล็กที่สุด มีเพียงอะตอมไฮโดรเจนเดียว จึงสามารถเพิ่มความยืดหยุ่นเฉพาะที่ในโครงสร้างโปรตีนได้ ในทางตรงกันข้าม ซิสเทอีนสามารถทำปฏิกิริยากับซิสเทอีนอีกตัวเพื่อสร้างซิสทีน หนึ่งตัว และทำให้เกิดพันธะเชื่อมโยงที่ช่วยให้โครงสร้างทั้งหมดมีความเสถียร

โครงสร้างโปรตีนเกิดขึ้นจากลำดับขององค์ประกอบโครงสร้างทุติยภูมิ เช่นα-เฮลิกซ์และβ-ชีทในโครงสร้างทุติยภูมิ รูปแบบปกติของพันธะไฮโดรเจนจะเกิดขึ้นระหว่างกลุ่ม NH และ CO ของสายหลักของกรดอะมิโนที่อยู่ใกล้เคียงกันในเชิงพื้นที่ และกรดอะมิโนจะมีมุม Φ และ ψที่ คล้ายกัน ^{[ 1 ]}

การก่อตัวของโครงสร้างทุติยภูมิเหล่านี้ตอบสนองความสามารถในการสร้างพันธะไฮโดรเจนของพันธะเปปไทด์ได้อย่างมีประสิทธิภาพ โครงสร้างทุติยภูมิสามารถบรรจุแน่นในแกนกลางของโปรตีนในสภาพแวดล้อมที่ไม่ชอบน้ำ แต่ก็สามารถปรากฏอยู่บนพื้นผิวของโปรตีนที่มีขั้วได้เช่นกัน โซ่ข้างของกรดอะมิโนแต่ละตัวมีปริมาตรจำกัดที่จะครอบครองและมีจำนวนปฏิสัมพันธ์ที่เป็นไปได้กับโซ่ข้างอื่นๆ ที่อยู่ใกล้เคียงอย่างจำกัด ซึ่งเป็นสถานการณ์ที่ต้องนำมาพิจารณาในการสร้างแบบจำลองโมเลกุลและการจัดเรียง^{[ 2 ]}^{[ 3 ]}

แอลฟาเฮลิกซ์

โครงสร้างเกลียวอัลฟา (α-helix) เป็นโครงสร้างทุติยภูมิที่พบมากที่สุดในโปรตีน โครงสร้างเกลียวอัลฟาประกอบด้วยกรดอะมิโน 3.6 ตัวต่อหนึ่งรอบ โดยมีพันธะไฮโดรเจนเกิดขึ้นระหว่างกรดอะมิโนทุกๆ สี่ตัว ความยาวเฉลี่ยอยู่ที่ 10 กรดอะมิโน (3 รอบ) หรือ 10 อังสตรอมแต่มีความยาวแตกต่างกันไปตั้งแต่ 5 ถึง 40 กรดอะมิโน (1.5 ถึง 11 รอบ) การเรียงตัวของพันธะไฮโดรเจนทำให้เกิดโมเมนต์ไดโพลสำหรับเกลียวอัลฟา ส่งผลให้มีประจุบวกบางส่วนที่ปลายด้านอะมิโนของเกลียว เนื่องจากบริเวณนี้มีหมู่ NH₂ อิสระจึงสามารถทำปฏิกิริยากับหมู่ที่มีประจุลบ เช่น ฟอสเฟตได้ ตำแหน่งที่พบโครงสร้างเกลียวอัลฟาได้บ่อยที่สุดคือที่พื้นผิวของแกนกลางโปรตีน ซึ่งเป็นส่วนที่เชื่อมต่อกับสภาพแวดล้อมที่เป็นน้ำ ด้านในของเกลียวมักจะมีกรดอะมิโนที่ไม่ชอบน้ำ และด้านนอกมักจะมีกรดอะมิโนที่ชอบน้ำ ดังนั้น กรดอะมิโนทุกๆ หนึ่งในสามของสี่ตัวตามสายโซ่จะมีแนวโน้มที่จะเป็นแบบไม่ชอบน้ำ ซึ่งเป็นรูปแบบที่สามารถตรวจจับได้ค่อนข้างง่าย ในลวดลายลิวซีนซิปเปอร์ รูปแบบที่ซ้ำกันของลิวซีนบนด้านตรงข้ามของเกลียวอัลฟาที่อยู่ติดกันสองเกลียวเป็นตัวบ่งชี้ที่ดีของลวดลายนี้ แผนภาพวงล้อเกลียวสามารถใช้แสดงรูปแบบที่ซ้ำกันได้ เกลียวอัลฟาอื่นๆ ที่ฝังอยู่ในแกนกลางของโปรตีนหรือในเยื่อหุ้มเซลล์มีการกระจายตัวของกรดอะมิโนที่ไม่ชอบน้ำที่สูงกว่าและสม่ำเสมอกว่า และเป็นตัวบ่งชี้ที่ดีของโครงสร้างดังกล่าว เกลียวที่เปิดเผยอยู่บนพื้นผิวมีสัดส่วนของกรดอะมิโนที่ไม่ชอบน้ำต่ำกว่า ปริมาณกรดอะมิโนสามารถใช้ทำนายบริเวณเกลียวอัลฟาได้ บริเวณที่อุดมไปด้วยอะลานีน (A) กรดกลูตามิก (E) ลิวซีน (L) และเมไทโอนีน (M) และมี โพรลีน (P) ไกลซีน (G) ไทโรซีน (Y) และเซริน (S) น้อยกว่ามีแนวโน้มที่จะก่อตัวเป็นเกลียวอัลฟา โพรลีนทำให้โครงสร้างอัลฟาเฮลิกซ์ไม่เสถียรหรือแตกหักได้ แต่สามารถพบได้ในเฮลิกซ์ที่ยาวกว่า ทำให้เกิดการโค้งงอ

เบต้าชีท

โครงสร้างเบต้าชีทเกิดจากพันธะไฮโดรเจนระหว่างกรดอะมิโนที่อยู่ติดกันโดยเฉลี่ย 5-10 ตัวในส่วนหนึ่งของสายโซ่กับกรดอะมิโนอีก 5-10 ตัวที่อยู่ถัดไปในสายโซ่ บริเวณที่เกิดปฏิกิริยาอาจอยู่ติดกันโดยมีห่วงสั้นๆ คั่นอยู่ หรืออาจอยู่ห่างกันโดยมีโครงสร้างอื่นๆ คั่นอยู่ สายโซ่แต่ละสายอาจวิ่งไปในทิศทางเดียวกันเพื่อสร้างแผ่นขนาน หรือวิ่งในทิศทางตรงกันข้ามเพื่อสร้างแผ่นตรงข้าม หรือสายโซ่อาจสร้างแผ่นผสมก็ได้ รูปแบบของพันธะไฮโดรเจนจะแตกต่างกันในโครงสร้างขนานและแผ่นตรงข้าม กรดอะมิโนแต่ละตัวในสายโซ่ด้านในของแผ่นจะสร้างพันธะไฮโดรเจนสองพันธะกับกรดอะมิโนข้างเคียง ในขณะที่กรดอะมิโนแต่ละตัวในสายโซ่ด้านนอกจะสร้างพันธะเพียงหนึ่งพันธะกับสายโซ่ด้านใน เมื่อมองข้ามแผ่นในมุมฉากกับสายโซ่ สายโซ่ที่อยู่ไกลออกไปจะหมุนทวนเข็มนาฬิกาเล็กน้อยเพื่อสร้างการบิดแบบมือซ้าย อะตอม Cα สลับกันอยู่ด้านบนและด้านล่างของแผ่นในโครงสร้างแบบพับ และหมู่ R ของกรดอะมิโนสลับกันอยู่ด้านบนและด้านล่างของรอยพับ มุม Φ และ Ψ ของกรดอะมิโนในแผ่นจะแตกต่างกันอย่างมากในบริเวณหนึ่งของแผนภาพ Ramachandranการทำนายตำแหน่งของแผ่น β นั้นยากกว่าการทำนายตำแหน่งของเกลียว α สถานการณ์จะดีขึ้นบ้างเมื่อพิจารณาถึงความแปรผันของกรดอะมิโนในการจัดเรียงลำดับหลายลำดับ

เดลต้า

ส่วนต่างๆ ของโปรตีนอาจมีโครงสร้างสามมิติที่คงที่โดยไม่มีโครงสร้างที่เป็นระเบียบ ไม่ควรสับสนกับส่วนของโปรตีนที่ไม่มีระเบียบหรือคลี่ออก หรือขดแบบสุ่มซึ่งเป็นสายโซ่โพลีเปปไทด์ที่คลี่ออกโดยไม่มีโครงสร้างสามมิติที่คงที่ ส่วนเหล่านี้มักเรียกว่า " เดลต้า " ( Δ ) เพราะมันเชื่อมต่อแผ่นเบต้าและเกลียวอัลฟา เดลต้ามักจะอยู่ที่ผิวของโปรตีน ดังนั้นการกลายพันธุ์ของกรดอะมิโนในบริเวณเหล่านี้จึงทนได้ง่ายกว่า การมีการแทนที่ การแทรก และการลบในบริเวณใดบริเวณหนึ่งของการจัดเรียงลำดับอาจบ่งชี้ถึงเดลต้าบางส่วน ตำแหน่งของอินทรอนในดีเอ็นเอจีโนมอาจสัมพันธ์กับตำแหน่งของลูปในโปรตีนที่เข้ารหัส เดลต้ายังมีแนวโน้มที่จะมีกรดอะมิโนที่มีประจุและมีขั้ว และมักเป็นส่วนประกอบของบริเวณที่ออกฤทธิ์

การจำแนกประเภทโปรตีน

โปรตีนสามารถจำแนกได้ทั้งตามความคล้ายคลึงทางโครงสร้างและความคล้ายคลึงทางลำดับ สำหรับการจำแนกทางโครงสร้าง จะเปรียบเทียบขนาดและการจัดเรียงเชิงพื้นที่ของโครงสร้างทุติยภูมิที่อธิบายไว้ในย่อหน้าข้างต้นกับโครงสร้างสามมิติที่ทราบแล้ว การจำแนกตามความคล้ายคลึงทางลำดับเป็นวิธีแรกที่ใช้กันมาในอดีต ในระยะแรก จะทำการเปรียบเทียบความคล้ายคลึงโดยการจัดเรียงลำดับทั้งหมด ต่อมา โปรตีนถูกจำแนกตามการปรากฏของรูปแบบกรดอะมิโนที่อนุรักษ์ไว้ มี ฐานข้อมูลที่จำแนกโปรตีนตามแผนการจำแนกเหล่านี้อย่างน้อยหนึ่งแผน ในการพิจารณาแผนการจำแนกโปรตีน จำเป็นต้องคำนึงถึงข้อสังเกตหลายประการ ประการแรก ลำดับโปรตีนที่แตกต่างกันอย่างสิ้นเชิงสองลำดับจากแหล่งกำเนิดวิวัฒนาการที่ต่างกันอาจพับตัวเป็นโครงสร้างที่คล้ายคลึงกัน ในทางกลับกัน ลำดับของยีนโบราณสำหรับโครงสร้างที่กำหนดอาจแตกต่างกันอย่างมากในสปีชีส์ต่างๆ ในขณะที่ยังคงรักษาคุณลักษณะโครงสร้างพื้นฐานเดียวกัน การระบุความคล้ายคลึงของลำดับที่เหลืออยู่ในกรณีดังกล่าวอาจเป็นงานที่ยากมาก ประการที่สอง โปรตีนสองชนิดที่มีความคล้ายคลึงกันของลำดับอย่างมีนัยสำคัญ ไม่ว่าจะเป็นกับกันและกันหรือกับลำดับที่สาม ก็มีแหล่งกำเนิดวิวัฒนาการเดียวกันและควรมีคุณสมบัติโครงสร้างบางอย่างร่วมกันด้วย อย่างไรก็ตาม การจำลองยีนและการจัดเรียงยีนใหม่ในระหว่างวิวัฒนาการอาจทำให้เกิดสำเนายีนใหม่ ซึ่งสามารถวิวัฒนาการไปเป็นโปรตีนที่มีฟังก์ชันและโครงสร้างใหม่ได้^{[ 2 ]}

คำศัพท์ที่ใช้ในการจำแนกโครงสร้างและลำดับของโปรตีน

คำศัพท์ที่ใช้กันทั่วไปสำหรับความสัมพันธ์เชิงวิวัฒนาการและโครงสร้างระหว่างโปรตีนมีดังต่อไปนี้ นอกจากนี้ยังมีคำศัพท์เพิ่มเติมอีกมากมายที่ใช้สำหรับลักษณะโครงสร้างประเภทต่างๆ ที่พบในโปรตีน คำอธิบายของคำศัพท์เหล่านั้นสามารถพบได้ในเว็บไซต์ CATH เว็บไซต์การจำแนกโครงสร้างโปรตีน (SCOP) และ บทช่วยสอนของ Glaxo Wellcomeบนเว็บไซต์ Expasy ซึ่งเป็นเว็บไซต์ด้านชีวสารสนเทศของสวิตเซอร์แลนด์

เว็บไซต์ที่ใช้งานอยู่: การรวมตัวกันเฉพาะที่ของหมู่ข้างเคียงของกรดอะมิโนภายในโครงสร้างตติยภูมิ (สามมิติ) หรือจตุรภูมิ (หน่วยย่อยของโปรตีน) ที่สามารถทำปฏิกิริยากับสารตั้งต้นที่มีความจำเพาะทางเคมี และทำให้โปรตีนมีฤทธิ์ทางชีวภาพ โปรตีนที่มีลำดับกรดอะมิโนแตกต่างกันมากอาจพับตัวเป็นโครงสร้างที่สร้างบริเวณออกฤทธิ์เดียวกันได้
สถาปัตยกรรม: คือการวางแนวสัมพัทธ์ของโครงสร้างทุติยภูมิในโครงสร้างสามมิติ โดยไม่คำนึงว่าโครงสร้างเหล่านั้นจะมีโครงสร้างแบบห่วงที่คล้ายกันหรือไม่
การพับ (โทโพโลยี): รูปแบบสถาปัตยกรรมประเภทหนึ่งที่มีโครงสร้างแบบวงวนที่คงที่
บล็อก: รูปแบบลำดับกรดอะมิโนที่คงที่ในตระกูลโปรตีน รูปแบบนี้ประกอบด้วยชุดของการจับคู่ที่เป็นไปได้ในแต่ละตำแหน่งของลำดับที่แสดง แต่ไม่มีการแทรกหรือลบตำแหน่งใด ๆ ในรูปแบบหรือในลำดับ ในทางตรงกันข้าม โปรไฟล์ลำดับเป็นเมทริกซ์การให้คะแนนประเภทหนึ่งที่แสดงชุดรูปแบบที่คล้ายกันซึ่งรวมถึงการแทรกและการลบด้วย
ระดับ: เป็นคำที่ใช้ในการจำแนกโดเมนของโปรตีนตามเนื้อหาและองค์ประกอบของโครงสร้างทุติยภูมิ เดิมที Levitt และ Chothia (1976) ได้จำแนกไว้ 4 กลุ่มและต่อมาได้มีการเพิ่มกลุ่มอื่นๆ อีกหลายกลุ่มในฐานข้อมูล SCOP ส่วนในฐานข้อมูล CATH นั้นได้จำแนกไว้ 3 กลุ่ม ได้แก่ ส่วนใหญ่เป็น α, ส่วนใหญ่เป็น β และ α–β โดยกลุ่ม α–β นั้นรวมทั้งโครงสร้างสลับ α/β และ α+β ด้วย
แกนกลาง: ส่วนของโมเลกุลโปรตีนที่พับตัวแล้วซึ่งประกอบด้วยส่วนภายในที่ชอบน้ำของเกลียวอัลฟาและแผ่นเบตา โครงสร้างที่กะทัดรัดนี้ทำให้หมู่ข้างเคียงของกรดอะมิโนอยู่ใกล้กันมากพอที่จะสามารถมีปฏิสัมพันธ์กันได้ เมื่อเปรียบเทียบโครงสร้างโปรตีน เช่นในฐานข้อมูล SCOP แกนกลางคือบริเวณที่พบได้ทั่วไปในโครงสร้างส่วนใหญ่ที่ใช้รูปแบบการพับตัวร่วมกันหรืออยู่ในซูเปอร์แฟมิลีเดียวกัน ในการทำนายโครงสร้าง บางครั้งแกนกลางถูกนิยามว่าเป็นการจัดเรียงโครงสร้างทุติยภูมิที่น่าจะได้รับการอนุรักษ์ไว้ในระหว่างการเปลี่ยนแปลงทางวิวัฒนาการ
โดเมน (บริบทลำดับ): ส่วนหนึ่งของสายโพลีเปปไทด์ที่สามารถพับตัวเป็นโครงสร้างสามมิติได้โดยไม่ขึ้นอยู่กับการมีอยู่ของส่วนอื่นๆ ในสายนั้น โดเมนที่แยกจากกันของโปรตีนหนึ่งๆ อาจมีปฏิสัมพันธ์กันอย่างกว้างขวาง หรืออาจเชื่อมต่อกันด้วยสายโพลีเปปไทด์เพียงบางส่วนเท่านั้น โปรตีนที่มีหลายโดเมนอาจใช้โดเมนเหล่านี้เพื่อการมีปฏิสัมพันธ์เชิงหน้าที่กับโมเลกุลต่างๆ
ครอบครัว (บริบทลำดับ): กลุ่มโปรตีนที่มีหน้าที่ทางชีวเคมีคล้ายคลึงกัน โดยมีลำดับกรดอะมิโนที่เหมือนกันมากกว่า 50% เมื่อนำมาจัดเรียงลำดับ เกณฑ์นี้ยังคงถูกใช้โดยฐานข้อมูล Protein Information Resource (PIR) ตระกูลโปรตีนประกอบด้วยโปรตีนที่มีหน้าที่เดียวกันในสิ่งมีชีวิตต่างชนิดกัน (ลำดับออร์โธล็อกัส) แต่ก็อาจรวมถึงโปรตีนในสิ่งมีชีวิตชนิดเดียวกัน (ลำดับพาราล็อกัส) ที่ได้มาจากการเพิ่มจำนวนยีนและการจัดเรียงยีนใหม่ หากการจัดเรียงลำดับหลายลำดับของตระกูลโปรตีนแสดงให้เห็นถึงระดับความคล้ายคลึงกันตลอดความยาวของโปรตีน PIR จะเรียกตระกูลนั้นว่าตระกูลโฮมีโอเมอร์ฟิก บริเวณที่จัดเรียงลำดับเรียกว่าโดเมนโฮมีโอเมอร์ฟิก และบริเวณนี้อาจประกอบด้วยโดเมนโฮโมโลจีขนาดเล็กหลายโดเมนที่ใช้ร่วมกับตระกูลอื่น ๆ ตระกูลอาจถูกแบ่งย่อยออกเป็นตระกูลย่อยหรือจัดกลุ่มเป็นตระกูลใหญ่ตามระดับความคล้ายคลึงของลำดับที่สูงหรือต่ำกว่า ฐานข้อมูล SCOP รายงานว่ามี 1296 ตระกูล และฐานข้อมูล CATH (เวอร์ชัน 1.7 เบต้า) รายงานว่ามี 1846 ตระกูล; เมื่อตรวจสอบลำดับของโปรตีนที่มีหน้าที่เดียวกันอย่างละเอียด จะพบว่าบางโปรตีนมีความคล้ายคลึงกันสูง เห็นได้ชัดว่าพวกมันเป็นสมาชิกของตระกูลเดียวกันตามเกณฑ์ข้างต้น อย่างไรก็ตาม อาจพบว่าบางโปรตีนมีความคล้ายคลึงกันน้อยมาก หรือแทบไม่มีนัยสำคัญกับสมาชิกในตระกูลเดียวกัน ในกรณีเช่นนี้ ความสัมพันธ์ทางตระกูลระหว่างสมาชิกในตระกูลที่อยู่ห่างไกลกันสองตัว คือ A และ C มักจะสามารถแสดงให้เห็นได้โดยการค้นหาสมาชิกในตระกูลเพิ่มเติม คือ B ที่มีความคล้ายคลึงกันอย่างมีนัยสำคัญกับทั้ง A และ C ดังนั้น B จึงเป็นตัวเชื่อมระหว่าง A และ C อีกแนวทางหนึ่งคือการตรวจสอบการจัดเรียงลำดับที่อยู่ห่างไกลกันเพื่อหาคู่ที่อนุรักษ์ไว้อย่างสูง; ที่ระดับความเหมือน 50% โปรตีนมีแนวโน้มที่จะมีโครงสร้างสามมิติที่เหมือนกัน และอะตอมที่เหมือนกันในการจัดเรียงลำดับจะซ้อนทับกันภายในระยะประมาณ 1 อังสตรอมในแบบจำลองโครงสร้าง ดังนั้น หากทราบโครงสร้างของสมาชิกตัวหนึ่งในตระกูลแล้ว ก็สามารถทำนายโครงสร้างของสมาชิกตัวที่สองในตระกูลได้อย่างน่าเชื่อถือ และยิ่งระดับความเหมือนสูงเท่าไร การทำนายก็จะยิ่งน่าเชื่อถือมากขึ้นเท่านั้น การสร้างแบบจำลองโครงสร้างโปรตีนสามารถทำได้โดยการตรวจสอบว่าการแทนที่กรดอะมิโนนั้นเข้ากับแกนกลางของโครงสร้างสามมิติได้ดีเพียงใด
ครอบครัว (บริบทเชิงโครงสร้าง): ตามที่ใช้ในฐานข้อมูล FSSP ( Families of structurally similar proteins ) และเว็บไซต์ DALI/FSSP โครงสร้างสองแบบที่มีความคล้ายคลึงกันทางโครงสร้างในระดับที่สำคัญ แต่ไม่จำเป็นต้องมีความคล้ายคลึงกันทางลำดับของกรดอะมิโนในระดับที่สำคัญ
พับ: คล้ายกับโครงสร้างโมทีฟ ซึ่งรวมถึงการรวมกันของหน่วยโครงสร้างทุติยภูมิขนาดใหญ่ในรูปแบบเดียวกัน ดังนั้น โปรตีนที่มีโครงสร้างพับแบบเดียวกันจะมีโครงสร้างทุติยภูมิที่เชื่อมต่อกันด้วยลูปที่คล้ายกัน ตัวอย่างเช่น โครงสร้างพับแบบรอสส์แมน (Rossman fold) ซึ่งประกอบด้วยเกลียวอัลฟา (α helices) สลับกับสายเบต้า (β strands) ขนานกันหลายเส้น ในฐานข้อมูล SCOP, CATH และ FSSP โครงสร้างโปรตีนที่รู้จักได้รับการจำแนกออกเป็นระดับความซับซ้อนของโครงสร้างตามลำดับชั้น โดยมีโครงสร้างพับเป็นระดับพื้นฐานของการจำแนก
โดเมนที่คล้ายคลึงกัน (บริบทของลำดับ): รูปแบบลำดับที่ขยายออกไป ซึ่งโดยทั่วไปพบได้จากวิธีการจัดเรียงลำดับ บ่งชี้ถึงต้นกำเนิดวิวัฒนาการร่วมกันในลำดับที่จัดเรียงกัน โดเมนความเหมือน (Homology Domain) โดยทั่วไปจะยาวกว่าโมทีฟ โดเมนอาจรวมถึงลำดับโปรตีนทั้งหมดหรือเพียงบางส่วนของลำดับเท่านั้น บางโดเมนมีความซับซ้อนและประกอบด้วยโดเมนความเหมือนขนาดเล็กหลายโดเมนที่รวมกันเป็นโดเมนขนาดใหญ่ขึ้นในระหว่างวิวัฒนาการ โดเมนที่ครอบคลุมลำดับทั้งหมดเรียกว่าโดเมนโฮมีโอเมอร์ฟิก (Homeomorphic Domain) ตาม PIR ( Protein Information Resource )
โมดูล: บริเวณที่มีรูปแบบกรดอะมิโนคงที่ซึ่งประกอบด้วยโมทีฟหนึ่งหรือมากกว่า และถือเป็นหน่วยพื้นฐานของโครงสร้างหรือหน้าที่ การมีอยู่ของโมดูลยังถูกนำมาใช้ในการจำแนกโปรตีนออกเป็นกลุ่มต่างๆ อีกด้วย
ลวดลาย (บริบทของลำดับ): รูปแบบกรดอะมิโนที่อนุรักษ์ไว้ซึ่งพบในโปรตีนสองชนิดขึ้นไป ใน แคตตาล็อก Prositeโมทีฟคือรูปแบบกรดอะมิโนที่พบในกลุ่มโปรตีนที่มีกิจกรรมทางชีวเคมีที่คล้ายคลึงกัน และมักจะอยู่ใกล้กับตำแหน่งออกฤทธิ์ของโปรตีน ตัวอย่างของฐานข้อมูลลำดับโมทีฟ ได้แก่ แคตตาล็อก Prosite และฐานข้อมูลโมทีฟ Stanford ^{[ 4 ]}
ลวดลาย (บริบทเชิงโครงสร้าง): โครงสร้างทุติยภูมิที่เกิดจากการรวมกันขององค์ประกอบโครงสร้างทุติยภูมิหลายอย่าง ซึ่งเกิดจากการพับส่วนที่อยู่ติดกันของสายโซ่โพลีเปปไทด์เข้าเป็นโครงสร้างสามมิติเฉพาะ ตัวอย่างเช่น ลวดลายเกลียว-ห่วง-เกลียว (helix-loop-helix motif) ลวดลายโครงสร้างเหล่านี้ยังถูกเรียกว่าโครงสร้างทุติยภูมิขั้นสูง (supersecondary structures) และรอยพับ (folds) อีกด้วย
เมทริกซ์การให้คะแนนเฉพาะตำแหน่ง (บริบทลำดับ หรือที่เรียกว่าเมทริกซ์น้ำหนักหรือเมทริกซ์การให้คะแนน): แสดงถึงบริเวณที่อนุรักษ์ไว้ในการจัดเรียงลำดับหลายลำดับโดยไม่มีช่องว่าง แต่ละคอลัมน์ของเมทริกซ์แสดงถึงความแปรผันที่พบในคอลัมน์หนึ่งของการจัดเรียงลำดับหลายลำดับ
เมทริกซ์การให้คะแนนเฉพาะตำแหน่ง —3 มิติ (บริบทเชิงโครงสร้าง): ตารางนี้แสดงถึงความแปรผันของกรดอะมิโนที่พบในการจัดเรียงโปรตีนที่อยู่ในกลุ่มโครงสร้างเดียวกัน คอลัมน์ของตารางแสดงถึงความแปรผันของกรดอะมิโนที่พบในตำแหน่งกรดอะมิโนหนึ่งๆ ในโครงสร้างที่จัดเรียงแล้ว
โครงสร้างหลัก: ลำดับกรดอะมิโนเชิงเส้นของโปรตีน ซึ่งในทางเคมีเป็นสายโซ่พอลิเปปไทด์ที่ประกอบด้วยกรดอะมิโนที่เชื่อมต่อกันด้วยพันธะเปปไทด์
โปรไฟล์ (บริบทลำดับ): เมทริกซ์การให้คะแนนที่แสดงถึงการจัดเรียงลำดับหลายลำดับของตระกูลโปรตีน โปรไฟล์มักได้มาจากบริเวณที่มีการอนุรักษ์ไว้อย่างดีในการจัดเรียงลำดับหลายลำดับ โปรไฟล์อยู่ในรูปแบบของเมทริกซ์ โดยแต่ละคอลัมน์แสดงตำแหน่งในการจัดเรียง และแต่ละแถวแสดงกรดอะมิโนหนึ่งตัว ค่าในเมทริกซ์แสดงความน่าจะเป็นของกรดอะมิโนแต่ละตัว ณ ตำแหน่งที่สอดคล้องกันในการจัดเรียง โปรไฟล์จะถูกเลื่อนไปตามลำดับเป้าหมายเพื่อค้นหาบริเวณที่มีคะแนนดีที่สุดโดยใช้อัลกอริธึมการเขียนโปรแกรมแบบไดนามิก อนุญาตให้มีช่องว่างระหว่างการจับคู่ และจะมีการลงโทษช่องว่างในกรณีนี้โดยให้คะแนนติดลบเมื่อไม่มีกรดอะมิโนใดตรงกัน โปรไฟล์ลำดับอาจแสดงด้วยแบบจำลองมาร์คอฟที่ซ่อนอยู่ซึ่งเรียกว่าโปรไฟล์ HMM
โปรไฟล์ (บริบทเชิงโครงสร้าง): เมทริกซ์การให้คะแนนที่แสดงว่ากรดอะมิโนใดควรเข้ากันได้ดีและกรดอะมิโนใดควรเข้ากันได้ไม่ดีในตำแหน่งลำดับต่างๆ ในโครงสร้างโปรตีนที่ทราบแล้ว คอลัมน์ของโปรไฟล์แสดงถึงตำแหน่งลำดับในโครงสร้าง และแถวของโปรไฟล์แสดงถึงกรดอะมิโน 20 ตัว เช่นเดียวกับโปรไฟล์ลำดับ โปรไฟล์โครงสร้างจะถูกเลื่อนไปตามลำดับเป้าหมายเพื่อค้นหาคะแนนการจัดเรียงที่สูงที่สุดที่เป็นไปได้โดยใช้อัลกอริธึมการเขียนโปรแกรมแบบไดนามิก ช่องว่างอาจถูกรวมไว้และจะได้รับค่าปรับ คะแนนที่ได้จะบ่งชี้ว่าโปรตีนเป้าหมายอาจมีโครงสร้างดังกล่าวหรือไม่
โครงสร้างควอเทอร์นารี: โครงสร้างสามมิติของโมเลกุลโปรตีนซึ่งประกอบด้วยสายโพลีเปปไทด์อิสระหลายสาย
โครงสร้างทุติยภูมิ: ปฏิสัมพันธ์ที่เกิดขึ้นระหว่างหมู่ C, O และ NH บนกรดอะมิโนในสายโพลีเปปไทด์เพื่อสร้างโครงสร้างอัลฟาเฮลิกซ์ เบต้าชีท ส่วนโค้ง ส่วนวน และรูปแบบอื่นๆ รวมถึงช่วยให้เกิดการพับตัวเป็นโครงสร้างสามมิติ
ซูเปอร์แฟมิลี่: กลุ่มของตระกูลโปรตีนที่มีความยาวเท่ากันหรือต่างกัน แต่มีความสัมพันธ์กันโดยความคล้ายคลึงกันของลำดับที่ห่างไกลแต่ยังสามารถตรวจจับได้ สมาชิกของซูเปอร์แฟมิลี เดียวกัน จึงมีต้นกำเนิดทางวิวัฒนาการร่วมกัน เดิมที Dayhoff กำหนดเกณฑ์สำหรับสถานะซูเปอร์แฟมิลีไว้ที่โอกาสที่ลำดับจะไม่เกี่ยวข้องกัน 10⁶ โดยพิจารณาจากคะแนนการจัดเรียงลำดับ (Dayhoff et al. 1978) โปรตีนที่มีความเหมือนกันน้อยในการจัดเรียงลำดับ แต่มีลักษณะโครงสร้างและหน้าที่ร่วมกันอย่างน่าเชื่อถือ จะถูกจัดอยู่ในซูเปอร์แฟมิลีเดียวกัน ในระดับโครงสร้างสามมิติ โปรตีนในซูเปอร์แฟมิลีจะแบ่งปันลักษณะโครงสร้างร่วมกัน เช่น การพับตัวที่เหมือนกัน แต่ก็อาจมีความแตกต่างกันในจำนวนและการจัดเรียงของโครงสร้างทุติยภูมิได้เช่นกัน แหล่งข้อมูล PIR ใช้คำว่า โฮมีโอเมอ ร์ฟิก ซูเปอร์แฟมิ ลี เพื่ออ้างถึงซูเปอร์แฟมิลีที่ประกอบด้วยลำดับที่สามารถจัดเรียงจากต้นจนจบได้ ซึ่งแสดงถึงการแบ่งปันโดเมนความเหมือนของลำดับเดียว ซึ่งเป็นบริเวณที่มีความคล้ายคลึงกันที่ขยายไปตลอดการจัดเรียงลำดับ โดเมนนี้อาจประกอบด้วยโดเมนที่มีความคล้ายคลึงกันขนาดเล็กกว่า ซึ่งใช้ร่วมกับตระกูลโปรตีนและซูเปอร์แฟมิลีอื่นๆ แม้ว่าลำดับโปรตีนที่กำหนดอาจมีโดเมนที่พบในหลายซูเปอร์แฟมิลี ซึ่งบ่งชี้ถึงประวัติวิวัฒนาการที่ซับซ้อน แต่ลำดับจะถูกกำหนดให้เป็นซูเปอร์แฟมิลีโฮมีโอเมอร์ฟิกเพียงซูเปอร์แฟมิลีเดียวเท่านั้น โดยพิจารณาจากความคล้ายคลึงกันตลอดการจัดเรียงลำดับหลายลำดับ การจัดเรียงซูเปอร์แฟมิลีอาจรวมถึงบริเวณที่ไม่ตรงกันทั้งภายในหรือที่ปลายของการจัดเรียง ในทางตรงกันข้าม ลำดับในตระกูลเดียวกันจะตรงกันได้ดีตลอดการจัดเรียง
โครงสร้างซูเปอร์เซคันดารี: คำที่มีความหมายคล้ายกับรูปแบบโครงสร้าง โครงสร้างตติยภูมิคือโครงสร้างสามมิติหรือทรงกลมที่เกิดจากการเรียงตัวหรือการพับของโครงสร้างทุติยภูมิของสายโซ่โพลีเปปไทด์^{[ 2 ]}

โครงสร้างทุติยภูมิ

การทำนายโครงสร้างทุติยภูมิเป็นชุดของเทคนิคในชีวสารสนเทศที่มุ่งทำนายโครงสร้างทุติยภูมิ เฉพาะที่ ของโปรตีนโดยอาศัยเพียงความรู้เกี่ยวกับ ลำดับ กรดอะมิโน เท่านั้น สำหรับโปรตีน การทำนายประกอบด้วยการกำหนดบริเวณของลำดับกรดอะมิโนว่าเป็นเกลียวอัลฟาที่น่าจะเป็นไปได้สายเบต้า (มักเรียกว่า โครงสร้าง แบบขยาย ) หรือส่วนโค้งความสำเร็จของการทำนายจะถูกกำหนดโดยการเปรียบเทียบกับผลลัพธ์ของ อัลกอริทึม DSSP (หรือที่คล้ายกัน เช่นSTRIDE ) ที่ใช้กับโครงสร้างผลึกของโปรตีน อัลกอริทึมเฉพาะได้รับการพัฒนาขึ้นเพื่อตรวจจับรูปแบบที่กำหนดไว้อย่างดี เช่นเกลียวทรานส์เมมเบรนและเกลียวขดในโปรตีน^{[ 2 ]}

วิธีการที่ทันสมัยที่สุดในการทำนายโครงสร้างทุติยภูมิในโปรตีนได้รับการอ้างว่ามีความแม่นยำถึง 80% หลังจากใช้การเรียนรู้ของเครื่องและการจัดเรียงลำดับ [ ⁵^]ความแม่นยำสูงนี้ทำให้สามารถใช้การทำนายเป็นคุณลักษณะในการปรับปรุงการจดจำการพับและ การ ^{ทำนาย} โครงสร้างโปรตีน แบบ ab initioการจำแนกโมทีฟโครงสร้างและการปรับปรุงการจัดเรียงลำดับ ความแม่นยำของวิธีการ ทำนาย โครงสร้างทุติยภูมิของโปรตีนในปัจจุบันได้รับการประเมินในเกณฑ์มาตรฐาน รายสัปดาห์ เช่นLiveBenchและEVA

พื้นหลัง

วิธีการทำนายโครงสร้างทุติยภูมิในยุคแรกๆ ซึ่งเริ่มใช้ในช่วงทศวรรษ 1960 และต้นทศวรรษ 1970 ^{[ 6 ]}^{[ 7 ]}^{[ 8 ]}^{[ 9 ]}^{[ 10 ]}มุ่งเน้นไปที่การระบุอัลฟาเฮลิกซ์ที่มีแนวโน้ม และส่วนใหญ่ใช้แบบจำลองการเปลี่ยนผ่านเฮลิกซ์-คอยล์เป็น หลัก ^{[ 11 ]}การทำนายที่แม่นยำกว่ามากซึ่งรวมถึงเบต้าชีทได้รับการแนะนำในช่วงทศวรรษ 1970 และอาศัยการประเมินทางสถิติโดยอิงจากพารามิเตอร์ความน่าจะเป็นที่ได้มาจากโครงสร้างที่แก้ไขแล้ว วิธีการเหล่านี้ เมื่อนำไปใช้กับลำดับเดียว มักจะมีความแม่นยำสูงสุดประมาณ 60–65% และมักจะทำนายเบต้าชีทต่ำกว่าความเป็นจริง^{[ 2 ]}ตั้งแต่ทศวรรษ 1980 เครือข่ายประสาทเทียมได้ถูกนำมาใช้ในการทำนายโครงสร้างโปรตีน^{[ 12 ]}^{[ 13 ]} การอนุรักษ์ โครงสร้างทุติยภูมิ เชิงวิวัฒนาการ สามารถใช้ประโยชน์ได้โดยการประเมินลำดับโฮโมล็อก จำนวนมากพร้อมกัน ในการจัดเรียงลำดับหลายลำดับโดยการคำนวณแนวโน้มโครงสร้างทุติยภูมิสุทธิของคอลัมน์กรดอะมิโนที่จัดเรียง เมื่อรวมกับฐานข้อมูลขนาดใหญ่ของโครงสร้างโปรตีนที่รู้จักและวิธีการเรียนรู้ของเครื่องจักรสมัยใหม่เช่นโครงข่ายประสาทเทียมและเครื่องเวกเตอร์สนับสนุนวิธีการเหล่านี้สามารถบรรลุความแม่นยำโดยรวมได้ถึง 80% ในโปรตีนทรงกลม^[¹⁴^]ขีดจำกัดสูงสุดทางทฤษฎีของความแม่นยำอยู่ที่ประมาณ 90% ^[¹⁴^]ส่วนหนึ่งเนื่องมาจากลักษณะเฉพาะในการกำหนด DSSP ใกล้ปลายของโครงสร้างทุติยภูมิ ซึ่งโครงสร้างเฉพาะที่แตกต่างกันภายใต้สภาวะดั้งเดิม แต่อาจถูกบังคับให้มีโครงสร้างเดียวในผลึกเนื่องจากข้อจำกัดในการบรรจุ นอกจากนี้ วิธีการทำนายโครงสร้างทุติยภูมิทั่วไปไม่ได้คำนึงถึงอิทธิพลของโครงสร้างตติยภูมิ ที่มี ต่อการก่อตัวของโครงสร้างทุติยภูมิ ตัวอย่างเช่น ลำดับที่คาดการณ์ว่าเป็นเกลียวเฮลิกซ์อาจยังสามารถอยู่ในรูปทรงเบต้าสแตรนด์ได้ หากลำดับนั้นอยู่ในบริเวณเบต้าชีทของโปรตีนและหมู่ข้างเคียงของมันเรียงตัวได้ดีกับหมู่ข้างเคียง การเปลี่ยนแปลงโครงสร้างอย่างมากที่เกี่ยวข้องกับหน้าที่หรือสภาพแวดล้อมของโปรตีนยังสามารถเปลี่ยนแปลงโครงสร้างทุติยภูมิเฉพาะที่ได้อีกด้วย

มุมมองทางประวัติศาสตร์

จนถึงปัจจุบัน มีการพัฒนาวิธีการทำนายโครงสร้างทุติยภูมิที่แตกต่างกันมากกว่า 20 วิธี หนึ่งในอัลกอริทึมแรกๆ คือวิธี Chou–Fasmanซึ่งอาศัยพารามิเตอร์ความน่าจะเป็นที่กำหนดจากความถี่สัมพัทธ์ของการปรากฏตัวของกรดอะมิโนแต่ละชนิดในโครงสร้างทุติยภูมิแต่ละประเภทเป็นหลัก^{[ 15 ]}พารามิเตอร์ Chou-Fasman ดั้งเดิม ซึ่งกำหนดจากตัวอย่างโครงสร้างขนาดเล็กที่ได้รับการแก้ไขในช่วงกลางทศวรรษ 1970 ให้ผลลัพธ์ที่ไม่ดีเมื่อเทียบกับวิธีการสมัยใหม่ แม้ว่าการกำหนดพารามิเตอร์จะได้รับการปรับปรุงตั้งแต่ตีพิมพ์ครั้งแรก วิธี Chou-Fasman มีความแม่นยำในการทำนายโครงสร้างทุติยภูมิประมาณ 50–60% ^{[ 2 ]}

โปรแกรมที่น่าสนใจถัดไปคือวิธี GORซึ่งเป็น วิธีการที่ใช้ ทฤษฎีสารสนเทศเป็นพื้นฐาน โดยใช้เทคนิคความน่าจะเป็นที่มีประสิทธิภาพมากกว่าอย่างการอนุมานแบบเบย์เซียน [ ^{16 ] วิธี} GOR ไม่เพียงแต่คำนึงถึงความน่าจะเป็นที่กรดอะมิโนแต่ละตัวจะมีโครงสร้างทุติยภูมิที่เฉพาะเจาะจงเท่านั้น แต่ยังคำนึงถึงความน่าจะเป็นแบบมีเงื่อนไขที่กรดอะมิโนจะสมมติโครงสร้างแต่ละแบบโดยพิจารณาจากส่วนประกอบของกรดอะมิโนข้างเคียง (โดยไม่ได้สมมติว่ากรดอะมิโนข้างเคียงมีโครงสร้างเดียวกัน) วิธีการนี้มีความไวและแม่นยำกว่าวิธีของ Chou และ Fasman เนื่องจากแนวโน้มโครงสร้างของกรดอะมิโนจะแข็งแกร่งเฉพาะกับกรดอะมิโนจำนวนน้อย เช่นโพรลีนและไกลซีนส่วนประกอบที่อ่อนแอจากกรดอะมิโนข้างเคียงจำนวนมากสามารถรวมกันเป็นผลกระทบที่แข็งแกร่งโดยรวมได้ วิธี GOR ดั้งเดิมมีความแม่นยำประมาณ 65% และประสบความสำเร็จในการทำนายเกลียวอัลฟามากกว่าแผ่นเบต้า ซึ่งมักจะทำนายผิดพลาดว่าเป็นลูปหรือบริเวณที่ไม่เป็นระเบียบ^{[ 2 ]}

อีกก้าวสำคัญคือการใช้วิธีการเรียนรู้ของเครื่องจักร ขั้นแรก ใช้วิธีโครงข่ายประสาทเทียม โดยใช้โครงสร้างที่แก้ไขแล้วเป็นชุดฝึกเพื่อระบุรูปแบบลำดับทั่วไปที่เกี่ยวข้องกับการจัดเรียงโครงสร้างทุติยภูมิที่เฉพาะเจาะจง วิธีการเหล่านี้มีความแม่นยำในการทำนายมากกว่า 70% แม้ว่าสายเบต้าจะยังคงถูกทำนายต่ำกว่าความเป็นจริงบ่อยครั้งเนื่องจากขาดข้อมูลโครงสร้างสามมิติที่จะช่วยให้สามารถประเมินรูปแบบ พันธะไฮโดรเจนที่สามารถส่งเสริมการก่อตัวของโครงสร้างแบบยืดออกที่จำเป็นสำหรับการมีแผ่นเบต้าที่สมบูรณ์^{[ 2 ]} PSIPREDและJPREDเป็นโปรแกรมที่รู้จักกันดีที่สุดบางส่วนที่ใช้โครงข่ายประสาทเทียมสำหรับการทำนายโครงสร้างทุติยภูมิของโปรตีน ต่อมาเครื่องสนับสนุนเวกเตอร์ได้รับการพิสูจน์แล้วว่ามีประโยชน์อย่างยิ่งสำหรับการทำนายตำแหน่งของการหักงอซึ่งยากที่จะระบุด้วยวิธีการทางสถิติ^{[ 17 ]}^{[ 18 ]}

การขยายเทคนิคการเรียนรู้ของเครื่องพยายามที่จะทำนายคุณสมบัติเฉพาะที่ละเอียดกว่าของโปรตีน เช่นมุมไดเฮดรัล ของกระดูกสันหลัง ในบริเวณที่ไม่ได้กำหนดไว้ ทั้ง SVM ^[¹⁹^]และโครงข่ายประสาทเทียม^[²⁰^]ได้ถูกนำมาใช้กับปัญหานี้^[¹⁷^]เมื่อไม่นานมานี้ มุมบิดค่าจริงสามารถทำนายได้อย่างแม่นยำโดย SPINE-X และนำไปใช้ในการทำนายโครงสร้างแบบ ab initio ได้สำเร็จ^[²¹^]

การปรับปรุงอื่นๆ

มีรายงานว่านอกเหนือจากลำดับโปรตีนแล้ว การก่อตัวของโครงสร้างทุติยภูมิยังขึ้นอยู่กับปัจจัยอื่นๆ อีกด้วย ตัวอย่างเช่น มีรายงานว่าแนวโน้มของโครงสร้างทุติยภูมิยังขึ้นอยู่กับสภาพแวดล้อมเฉพาะที่^{[ 22 ]}การเข้าถึงตัวทำละลายของสารตกค้าง^{[ 23 ]}ประเภทโครงสร้างของโปรตีน^{[ 24 ]}และแม้กระทั่งสิ่งมีชีวิตที่ได้โปรตีนมา^{[ 25 ]}จากการสังเกตดังกล่าว การศึกษาบางชิ้นแสดงให้เห็นว่าการทำนายโครงสร้างทุติยภูมิสามารถปรับปรุงได้โดยการเพิ่มข้อมูลเกี่ยวกับประเภทโครงสร้างของโปรตีน^{[ 26 ]}พื้นที่ผิวที่เข้าถึงได้ของสารตกค้าง^{[ 27 ]}^{[ 28 ]}และข้อมูลจำนวนการสัมผัส^{[ 29 ]}

โครงสร้างตติยภูมิ

บทบาทเชิงปฏิบัติของการทำนายโครงสร้างโปรตีนมีความสำคัญมากขึ้นกว่าเดิม^{[ 30 ]} ข้อมูลลำดับโปรตีนจำนวนมหาศาลถูกสร้างขึ้นโดยความพยายามในการจัดลำดับ ดีเอ็นเอขนาดใหญ่ในปัจจุบันเช่นโครงการจีโนมมนุษย์แม้จะมีความพยายามอย่างกว้างขวางในด้านจีโนมิกส์เชิงโครงสร้าง แต่ผลลัพธ์ของโครงสร้างโปรตีนที่กำหนดโดยการทดลอง ซึ่งโดยทั่วไปแล้วใช้วิธีการตกผลึก ด้วยรังสีเอกซ์หรือสเปกโทรสโกปี NMRที่ใช้เวลานานและค่อนข้างแพงยังคงล้าหลังผลลัพธ์ของลำดับโปรตีนอยู่มาก

การทำนายโครงสร้างโปรตีนยังคงเป็นงานที่ยากมากและยังไม่ได้รับการแก้ไข ปัญหาหลักสองประการคือการคำนวณพลังงานอิสระของโปรตีนและการค้นหาค่าต่ำสุดทั่วโลกของพลังงานนี้ วิธีการทำนายโครงสร้างโปรตีนต้องสำรวจพื้นที่ของโครงสร้างโปรตีนที่เป็นไปได้ซึ่งมีขนาดใหญ่มากปัญหาเหล่านี้สามารถหลีกเลี่ยงได้บางส่วนในวิธีการ "เปรียบเทียบ" หรือการสร้างแบบจำลองความคล้ายคลึงกันและการจดจำการพับซึ่งพื้นที่การค้นหาจะถูกตัดทอนโดยการสมมติว่าโปรตีนที่เกี่ยวข้องมีโครงสร้างที่ใกล้เคียงกับโครงสร้างที่กำหนดโดยการทดลองของโปรตีนที่คล้ายคลึงกันอีกตัวหนึ่ง ในทางตรงกันข้าม วิธี การทำนายโครงสร้างโปรตีนแบบ de novoต้องแก้ไขปัญหาเหล่านี้อย่างชัดเจน ความก้าวหน้าและความท้าทายในการทำนายโครงสร้างโปรตีนได้รับการทบทวนโดย Zhang ^{[ 31 ]}

ก่อนการสร้างแบบจำลอง

วิธีการสร้างแบบจำลองโครงสร้างตติยภูมิส่วนใหญ่ เช่น Rosetta ได้รับการปรับให้เหมาะสมสำหรับการสร้างแบบจำลองโครงสร้างตติยภูมิของโดเมนโปรตีนเดี่ยว ขั้นตอนที่เรียกว่าการแยกโดเมนหรือการทำนายขอบเขตโดเมนมักจะทำก่อนเพื่อแบ่งโปรตีนออกเป็นโดเมนโครงสร้างที่เป็นไปได้ เช่นเดียวกับการทำนายโครงสร้างตติยภูมิส่วนที่เหลือ สามารถทำได้โดยการเปรียบเทียบจากโครงสร้างที่ทราบ^{[ 32 ]}หรือ แบบ ab initioโดยใช้ลำดับเท่านั้น (โดยปกติโดยการเรียนรู้ของเครื่องจักรโดยได้รับความช่วยเหลือจากความแปรผันร่วม) ^{[ 33 ]}โครงสร้างสำหรับแต่ละโดเมนจะถูกเชื่อมต่อเข้าด้วยกันในกระบวนการที่เรียกว่าการประกอบโดเมนเพื่อสร้างโครงสร้างตติยภูมิขั้นสุดท้าย^{[ 34 ]}^{[ 35 ]}

การสร้างแบบจำลองโปรตีนแบบ Ab initio

วิธีการที่ใช้พลังงานและส่วนประกอบ

วิธีการสร้างแบบจำลองโปรตีน แบบ ab initioหรือde novoมุ่งสร้างแบบจำลองโปรตีนสามมิติ "จากศูนย์" กล่าวคือ อิงตามหลักการทางฟิสิกส์แทนที่จะอิงตามโครงสร้างที่ได้รับการแก้ไขก่อนหน้านี้โดยตรง มีขั้นตอนที่เป็นไปได้มากมายที่พยายามเลียนแบบการพับตัวของโปรตีนหรือใช้ วิธี การสุ่มเพื่อค้นหาวิธีแก้ปัญหาที่เป็นไปได้ (เช่นการเพิ่มประสิทธิภาพโดยรวมของฟังก์ชันพลังงานที่เหมาะสม) ขั้นตอนเหล่านี้มักต้องการทรัพยากรการคำนวณจำนวนมหาศาล ดังนั้นจึงดำเนินการเฉพาะกับโปรตีนขนาดเล็กเท่านั้น การทำนายโครงสร้างโปรตีนแบบ de novoสำหรับโปรตีนขนาดใหญ่จะต้องใช้อัลกอริทึมที่ดีกว่าและทรัพยากรการคำนวณที่มากขึ้น เช่น ทรัพยากรที่ได้จากซูเปอร์คอมพิวเตอร์ที่ทรงพลัง (เช่นBlue GeneหรือMDGRAPE-3 ) หรือการคำนวณแบบกระจาย (เช่นFolding@home , Human Proteome Folding ProjectและRosetta@Home ) แม้ว่าอุปสรรคในการคำนวณเหล่านี้จะมากมาย แต่ประโยชน์ที่เป็นไปได้ของจีโนมิกส์เชิงโครงสร้าง (โดยวิธีการทำนายหรือการทดลอง) ทำให้ การทำนายโครงสร้าง แบบ ab initioเป็นสาขาการวิจัยที่กระตือรือร้น^{[ 31 ]}

ณ ปี 2009 โปรตีนที่มีกรดอะมิโน 50 ตัวสามารถจำลองได้ทีละอะตอมบนซูเปอร์คอมพิวเตอร์เป็นเวลา 1 มิลลิวินาที^{[ 36 ]}ณ ปี 2012 การสุ่มตัวอย่างสถานะเสถียรที่เทียบเท่ากันสามารถทำได้บนเดสก์ท็อปมาตรฐานที่มีการ์ดกราฟิกใหม่และอัลกอริทึมที่ซับซ้อนกว่า^{[ 37 ]}ช่วงเวลาการจำลองที่ยาวนานกว่ามากสามารถทำได้โดยใช้ การสร้างแบบจำลอง แบบหยาบ^{[ 38 ]}^{[ 39 ]}

ความแปรผันร่วมเชิงวิวัฒนาการเพื่อทำนายการสัมผัสแบบ 3 มิติ

เมื่อการจัดลำดับกลายเป็นเรื่องปกติมากขึ้นในช่วงทศวรรษ 1990 กลุ่มวิจัยหลายกลุ่มได้ใช้การจัดเรียงลำดับโปรตีนเพื่อทำนายการกลายพันธุ์ ที่สัมพันธ์กัน และหวังว่าสารตกค้างที่วิวัฒนาการร่วมกันเหล่านี้จะสามารถใช้ในการทำนายโครงสร้างตติยภูมิได้ (โดยใช้การเปรียบเทียบกับข้อจำกัดระยะทางจากกระบวนการทดลอง เช่นNMR ) สมมติฐานคือ เมื่อการกลายพันธุ์ของสารตกค้างเดี่ยวมีผลเสียเล็กน้อย การกลายพันธุ์ชดเชยอาจเกิดขึ้นเพื่อทำให้ปฏิสัมพันธ์ระหว่างสารตกค้างมีเสถียรภาพมากขึ้น งานวิจัยในช่วงแรกนี้ใช้วิธีการที่เรียกว่า วิธีการ เฉพาะที่ในการคำนวณการกลายพันธุ์ที่สัมพันธ์กันจากลำดับโปรตีน แต่ประสบปัญหาจากความสัมพันธ์ที่ผิดพลาดทางอ้อมซึ่งเป็นผลมาจากการถือว่าสารตกค้างแต่ละคู่เป็นอิสระจากคู่อื่นๆ ทั้งหมด^{[ 40 ]}^{[ 41 ]}^{[ 42 ]}

ในปี 2011 วิธีการทางสถิติที่แตกต่างออกไป และในครั้งนี้ เป็นวิธีการ ระดับโลกได้แสดงให้เห็นว่าสารตกค้างที่คาดการณ์ว่ามีการวิวัฒนาการร่วมกันนั้นเพียงพอที่จะคาดการณ์โครงสร้าง 3 มิติของโปรตีนได้ โดยมีเงื่อนไขว่ามีลำดับที่เพียงพอ (ต้องมีลำดับที่คล้ายคลึงกันมากกว่า 1,000 ลำดับ) ^{[ 43 ]}วิธีการEVfoldไม่ใช้การสร้างแบบจำลองความคล้ายคลึงกัน การร้อยเรียง หรือชิ้นส่วนโครงสร้าง 3 มิติ และสามารถทำงานบนคอมพิวเตอร์ส่วนบุคคลมาตรฐานได้ แม้แต่กับโปรตีนที่มีสารตกค้างหลายร้อยตัว ความแม่นยำของการสัมผัสที่คาดการณ์โดยใช้วิธีนี้และวิธีการที่เกี่ยวข้องได้รับการพิสูจน์แล้วในโครงสร้างและแผนที่การสัมผัสที่รู้จักจำนวนมาก^{[ 44 ]}^{[ 45 ]}^{[ 46 ]}รวมถึงการคาดการณ์โปรตีนทรานส์เมมเบรนที่ยังไม่ได้รับการแก้ไขจากการทดลอง^{[ 47 ]}

การสร้างแบบจำลองโปรตีนเชิงเปรียบเทียบ

การสร้างแบบจำลองโปรตีนเชิงเปรียบเทียบใช้โครงสร้างที่ได้รับการแก้ไขก่อนหน้านี้เป็นจุดเริ่มต้นหรือแม่แบบ วิธีนี้มีประสิทธิภาพเพราะดูเหมือนว่าแม้จำนวนโปรตีนจริงจะมีมากมาย แต่ก็มีชุดของ โมที ฟ โครงสร้างตติย ภูมิที่จำกัด ซึ่งโปรตีนส่วนใหญ่เป็นส่วนหนึ่ง มีการเสนอแนะว่ามีโครงสร้างโปรตีนที่แตกต่างกันเพียงประมาณ 2,000 แบบในธรรมชาติ แม้ว่าจะมีโปรตีนที่แตกต่างกันหลายล้านชนิดก็ตาม การสร้างแบบจำลองโปรตีนเชิงเปรียบเทียบสามารถรวมเข้ากับการแปรผันร่วมเชิงวิวัฒนาการในการทำนายโครงสร้างได้^{[ 48 ]}

วิธีการเหล่านี้อาจแบ่งออกเป็นสองกลุ่มได้เช่นกัน: ^{[ 31 ]}

การสร้างแบบจำลองโฮโมโลยีนั้นตั้งอยู่บนสมมติฐานที่สมเหตุสมผลว่าโปรตีนโฮโมล็อก สองตัวจะมีโครงสร้างที่คล้ายคลึงกันมาก เนื่องจากโครงสร้างพับของโปรตีนได้รับการอนุรักษ์ทางวิวัฒนาการมากกว่าลำดับกรดอะมิโน ลำดับเป้าหมายจึงสามารถสร้างแบบจำลองได้อย่างแม่นยำพอสมควรบนแม่แบบที่เกี่ยวข้องห่างไกลกันมาก โดยมีเงื่อนไขว่าความสัมพันธ์ระหว่างเป้าหมายและแม่แบบสามารถแยกแยะได้ผ่าน การจัดเรียงลำดับมีการเสนอแนะว่าอุปสรรคสำคัญในการสร้างแบบจำลองเชิงเปรียบเทียบเกิดจากความยากลำบากในการจัดเรียงลำดับมากกว่าข้อผิดพลาดในการทำนายโครงสร้างเมื่อมีการจัดเรียงลำดับที่ดีอยู่แล้ว^{[ 49 ]}ไม่น่าแปลกใจที่การสร้างแบบจำลองโฮโมโลยีจะมีความแม่นยำที่สุดเมื่อเป้าหมายและแม่แบบมีลำดับที่คล้ายคลึงกัน
การร้อยโปรตีน^{[ 50 ]}สแกนลำดับกรดอะมิโนของโครงสร้างที่ไม่รู้จักเทียบกับฐานข้อมูลของโครงสร้างที่แก้ไขแล้ว ในแต่ละกรณี จะใช้ ฟังก์ชันการให้คะแนนเพื่อประเมินความเข้ากันได้ของลำดับกับโครงสร้าง ทำให้ได้แบบจำลองสามมิติที่เป็นไปได้ วิธีการประเภทนี้ยังเป็นที่รู้จักในชื่อการจดจำการพับแบบ 3D-1Dเนื่องจากการวิเคราะห์ความเข้ากันได้ระหว่างโครงสร้างสามมิติและลำดับโปรตีนเชิงเส้น วิธีนี้ยังก่อให้เกิดวิธีการค้นหาการพับแบบย้อนกลับโดยการประเมินความเข้ากันได้ของโครงสร้างที่กำหนดกับฐานข้อมูลลำดับขนาดใหญ่ จึงทำนายว่าลำดับใดมีศักยภาพที่จะสร้างการพับที่กำหนด

การสร้างแบบจำลองโครงสร้างด้านข้างของโซ่

การจัดเรียง หมู่ข้างเคียงของกรดอะมิโนอย่างแม่นยำเป็นปัญหาที่แยกต่างหากในการทำนายโครงสร้างโปรตีน วิธีการที่แก้ไขปัญหาการทำนายรูปทรงเรขาคณิตของหมู่ข้างเคียงโดยเฉพาะ ได้แก่ วิธีการกำจัดทางตัน ( dead-end elimination)และ วิธีการสนามเฉลี่ยที่สอดคล้อง กันเอง (self-consistent mean field methods) โดยปกติแล้วจะกำหนดรูปทรงของหมู่ข้างเคียงที่มีพลังงานต่ำบนโครงสร้างหลักของพอลิเปปไทด์ที่แข็งตัว และใช้ชุดของรูปทรงหมู่ข้างเคียงที่ไม่ต่อเนื่องที่เรียกว่า " โรตาเมอร์ " (rotamers) วิธีการเหล่านี้พยายามระบุชุดของโรตาเมอร์ที่ลดพลังงานโดยรวมของแบบจำลองให้เหลือน้อยที่สุด

วิธีการเหล่านี้ใช้ไลบรารีโรตาเมอร์ ซึ่งเป็นชุดของโครงสร้างที่เหมาะสมสำหรับแต่ละประเภทของสารตกค้างในโปรตีน ไลบรารีโรตาเมอร์อาจมีข้อมูลเกี่ยวกับโครงสร้าง ความถี่ และค่าเบี่ยงเบนมาตรฐานเกี่ยวกับมุมไดเฮดรัลเฉลี่ย ซึ่งสามารถใช้ในการสุ่มตัวอย่างได้^{[ 51 ]}ไลบรารีโรตาเมอร์ได้มาจาก การวิเคราะห์ ข้อมูลชีวโครงสร้างหรือการวิเคราะห์ทางสถิติอื่นๆ ของโครงสร้างด้านข้างของสายโซ่ในโครงสร้างเชิงทดลองที่ทราบของโปรตีน เช่น โดยการจัดกลุ่มโครงสร้างที่สังเกตได้สำหรับคาร์บอนเตตระเฮดรัลใกล้ค่าสลับ (60°, 180°, −60°)

ไลบรารีโรตาเมอร์สามารถเป็นอิสระจากโครงสร้างหลัก เป็นอิสระจากโครงสร้างรอง หรือเป็นอิสระจากโครงสร้างหลักได้ ไลบรารีโรตาเมอร์ที่เป็นอิสระจากโครงสร้างหลักจะไม่อ้างอิงถึงการจัดเรียงตัวของโครงสร้างหลัก และคำนวณจากโซ่ข้างที่มีอยู่ทั้งหมดของประเภทใดประเภทหนึ่ง (ตัวอย่างเช่น ตัวอย่างแรกของไลบรารีโรตาเมอร์ ซึ่งทำโดย Ponder และRichardsที่ Yale ในปี 1987) ^{[ 52 ]}ไลบรารีที่เป็นอิสระจากโครงสร้างรองจะนำเสนอมุมไดเฮดรัลและ/หรือความถี่โรตาเมอร์ที่แตกต่างกันสำหรับ โครงสร้างรองแบบ -helix, -sheet หรือ coil ^[⁵³^]ไลบรารีโรตาเมอร์ที่เป็นอิสระจาก โครงสร้างหลัก จะนำเสนอการจัดเรียงตัวและ/หรือความถี่ที่ขึ้นอยู่กับการจัดเรียงตัวของโครงสร้างหลักในระดับท้องถิ่นตามที่กำหนดโดยมุมไดเฮดรัลของ โครงสร้างหลัก และ โดยไม่คำนึงถึงโครงสร้างรอง^[⁵⁴^] $\alpha$ $\beta$ $\phi$ $\psi$

ไลบรารีเวอร์ชันสมัยใหม่ที่ใช้ในซอฟต์แวร์ส่วนใหญ่จะแสดงเป็นการกระจายความน่าจะเป็นหรือความถี่แบบหลายมิติ โดยจุดสูงสุดจะสอดคล้องกับการจัดเรียงมุมไดเฮดรัลที่ถือว่าเป็นโรตาเมอร์แต่ละตัวในรายการ บางเวอร์ชันใช้ข้อมูลที่คัดสรรมาอย่างดีและใช้เป็นหลักในการตรวจสอบโครงสร้าง^{[ 55 ]}ในขณะที่บางเวอร์ชันเน้นความถี่สัมพัทธ์ในชุดข้อมูลขนาดใหญ่กว่ามากและเป็นรูปแบบที่ใช้เป็นหลักในการทำนายโครงสร้าง เช่นไลบรารีโรตาเมอร์ของ Dunbrack ^{[ 56 ]}

วิธีการบรรจุโซ่ข้างมีประโยชน์มากที่สุดสำหรับการวิเคราะห์แกน ไฮโดรโฟบิกของโปรตีนซึ่งโซ่ข้างจะบรรจุกันอย่างหนาแน่นกว่า วิธีนี้ใช้ได้ยากกว่าในการจัดการกับข้อจำกัดที่หลวมกว่าและความยืดหยุ่นที่สูงกว่าของสารตกค้างบนพื้นผิว ซึ่งมักจะอยู่ในคอนฟอร์เมชันโรตาเมอร์หลายแบบมากกว่าแบบเดียว^{[ 57 ]}^{[ 58 ]}

โครงสร้างควอเทอร์นารี

ในกรณีของสารประกอบเชิงซ้อนที่ประกอบด้วยโปรตีนสองชนิดขึ้นไปซึ่งโครงสร้างของโปรตีนเหล่านั้นเป็นที่ทราบหรือสามารถทำนายได้อย่างแม่นยำสูง สามารถใช้วิธี การด็อกกิ้งโปรตีนเพื่อทำนายโครงสร้างของสารประกอบเชิงซ้อนได้ ข้อมูลเกี่ยวกับผลกระทบของการกลายพันธุ์ในตำแหน่งเฉพาะต่อความสัมพันธ์ของสารประกอบเชิงซ้อนจะช่วยให้เข้าใจโครงสร้างของสารประกอบเชิงซ้อนและเป็นแนวทางในการใช้วิธีด็อกกิ้ง

ซอฟต์แวร์

มีเครื่องมือซอฟต์แวร์จำนวนมากสำหรับการทำนายโครงสร้างโปรตีน แนวทางต่างๆ ได้แก่การสร้างแบบจำลองความคล้ายคลึงกัน การร้อยเรียงโปรตีนวิธีการแบบab initio การทำนายโครงสร้างทุติยภูมิและการทำนายเกลียวทรานส์เมมเบรนและเปปไทด์สัญญาณ โดยเฉพาะอย่างยิ่งการเรียนรู้เชิงลึกที่ใช้หน่วยความจำระยะสั้นแบบยาวได้ถูกนำมาใช้เพื่อจุดประสงค์นี้ตั้งแต่ปี 2007 เมื่อถูกนำไปใช้ในการตรวจจับความคล้ายคลึงกันของโปรตีนได้สำเร็จ^{[ 59 ]}และเพื่อทำนายตำแหน่งย่อยของโปรตีน^{[ 60 ]} วิธีการที่ประสบความสำเร็จเมื่อเร็วๆ นี้โดยอิงจาก การทดลอง CASPได้แก่I-TASSER , HHpredและAlphaFoldในปี 2021 มีรายงานว่า AlphaFold มีประสิทธิภาพดีที่สุด^{[ 61 ]}

การทราบโครงสร้างของโปรตีนมักช่วยให้สามารถทำนายหน้าที่การทำงานของโปรตีนได้ด้วย ตัวอย่างเช่น คอลลาเจนจะพับตัวเป็นสายยาวคล้ายเส้นใย ทำให้มันเป็นโปรตีนเส้นใย ในปัจจุบัน มีการพัฒนาเทคนิคหลายอย่างเพื่อทำนายการพับตัวของโปรตีนและโครงสร้างของโปรตีน เช่น Itasser และ AlphaFold

วิธีการ AI

AlphaFoldเป็นหนึ่งใน AI ตัวแรกๆ ที่ใช้ในการทำนายโครงสร้างโปรตีน โดยได้รับการแนะนำโดย DeepMind ของ Google ในการแข่งขัน CASP ครั้งที่ 13 ซึ่งจัดขึ้นในปี 2018 ^{[ 61 ]} AlphaFold อาศัย วิธี การเครือข่ายประสาทเทียมซึ่งทำนายพิกัด 3 มิติของอะตอมที่ไม่ใช่ไฮโดรเจนทั้งหมดสำหรับโปรตีนที่กำหนดโดยตรง โดยใช้ลำดับกรดอะมิโนและลำดับโฮโมล็อก ที่จัดเรียงแล้ว เครือข่าย AlphaFold ประกอบด้วยส่วนลำต้นที่ประมวลผลอินพุตผ่านเลเยอร์ที่ซ้ำกัน และโมดูลโครงสร้างที่นำเสนอโครงสร้าง 3 มิติที่ชัดเจน^{[ 61 ]}เครือข่ายประสาทเทียมรุ่นก่อนๆ สำหรับการทำนายโครงสร้างโปรตีนใช้LSTM ^{[ 59 ]}^{[ 60 ]}

เนื่องจาก AlphaFold ส่งออกพิกัดโปรตีนโดยตรง AlphaFold จึงสร้างการคาดการณ์ในหน่วยประมวลผลกราฟิก (GPU) เป็นนาทีถึงหลายชั่วโมง ขึ้นอยู่กับความยาวของลำดับโปรตีน^{[ 61 ]}

สถาบันชีวสารสนเทศแห่งยุโรปร่วมกับDeepMindได้สร้างฐานข้อมูล AlphaFold – EBI ^{[ 62 ]}สำหรับโครงสร้างโปรตีนที่คาดการณ์ไว้^{[ 63 ]}

วิธีการ AI ในปัจจุบันและฐานข้อมูลโครงสร้างโปรตีนที่คาดการณ์ไว้

AlphaFold2 ได้รับการแนะนำใน CASP14 และสามารถทำนายโครงสร้างโปรตีนได้ใกล้เคียงกับความแม่นยำในการทดลอง^{[ 64 ]} AlphaFold ตามมาด้วย RoseTTAFold อย่างรวดเร็ว^{[ 65 ]}และต่อมาด้วย OmegaFold และ ESM Metagenomic Atlas ^{[ 66 ]}

ในการศึกษา Sommer et al. 2022 ได้แสดงให้เห็นถึงการประยุกต์ใช้การทำนายโครงสร้างโปรตีนในการระบุจีโนม โดยเฉพาะอย่างยิ่งในการระบุไอโซฟอร์มโปรตีนที่มีฟังก์ชันโดยใช้โครงสร้างที่ทำนายด้วยคอมพิวเตอร์ ซึ่งมีอยู่ที่https://www.isoform.io [ ^{67 ] การ}ศึกษานี้เน้นย้ำถึงศักยภาพของการทำนายโครงสร้างโปรตีนในฐานะเครื่องมือในการระบุจีโนม และนำเสนอแนวทางปฏิบัติที่นำโดยโครงสร้าง ซึ่งสามารถนำมาใช้เพื่อเพิ่มประสิทธิภาพการระบุจีโนมใดๆ ก็ได้

ในปี 2024 David BakerและDemis Hassabis (พร้อมด้วย John M. Jumper ) ได้รับรางวัลโนเบลสาขาเคมี^{[ 68 ]}จากการมีส่วนร่วมในการสร้างแบบจำลองโปรตีนด้วยคอมพิวเตอร์ ซึ่งรวมถึงการพัฒนา AlphaFold2 ซึ่งเป็นแบบจำลอง AI สำหรับการทำนายโครงสร้างโปรตีน ความแม่นยำของ AlphaFold2 ได้รับการประเมินเทียบกับโครงสร้างโปรตีนที่กำหนดโดยการทดลองโดยใช้เมตริก เช่น ค่าเบี่ยงเบนมาตรฐานรากกำลังสอง (RMSD) ^{[ 69 ]}ค่า RMSD มัธยฐานระหว่างโครงสร้างทดลองที่แตกต่างกันของโปรตีนเดียวกันอยู่ที่ประมาณ 0.6 Å ในขณะที่ค่า RMSD มัธยฐานระหว่างการทำนายของ AlphaFold2 และโครงสร้างทดลองอยู่ที่ประมาณ 1 Å สำหรับบริเวณที่ AlphaFold2 กำหนดความมั่นใจสูง ค่า RMSD มัธยฐานจะอยู่ที่ประมาณ 0.6 Å ซึ่งเทียบได้กับความแปรปรวนที่สังเกตได้ระหว่างโครงสร้างทดลองที่แตกต่างกัน อย่างไรก็ตาม ในบริเวณที่มีความมั่นใจต่ำ ค่า RMSD อาจเกิน 2 Å ซึ่งบ่งชี้ถึงความเบี่ยงเบนที่มากขึ้น ในโปรตีนที่มีโดเมนหลายโดเมนที่เชื่อมต่อกันด้วยตัวเชื่อมที่ยืดหยุ่น AlphaFold2 ทำนายโครงสร้างโดเมนแต่ละโดเมนได้อย่างแม่นยำ แต่อาจกำหนดตำแหน่งสัมพัทธ์แบบสุ่มให้กับโดเมนเหล่านี้ นอกจากนี้ AlphaFold2 ยังไม่คำนึงถึงข้อจำกัดเชิงโครงสร้าง เช่น ระนาบของเยื่อหุ้มเซลล์ ซึ่งบางครั้งอาจวางโดเมนโปรตีนในตำแหน่งที่อาจชนกับเยื่อหุ้มเซลล์ได้^{[ 70 ]}

การประเมินเซิร์ฟเวอร์ทำนายโครงสร้างอัตโนมัติ

CASPซึ่งย่อมาจาก Critical Assessment of Techniques for Protein Structure Prediction เป็นการทดลองระดับชุมชนสำหรับการทำนายโครงสร้างโปรตีนที่จัดขึ้นทุกสองปีตั้งแต่ปี 1994 CASP เปิดโอกาสให้ประเมินคุณภาพของวิธีการทำนายโครงสร้างโปรตีนแบบไม่ใช้ระบบอัตโนมัติของมนุษย์ (หมวดหมู่มนุษย์) และเซิร์ฟเวอร์อัตโนมัติ (หมวดหมู่เซิร์ฟเวอร์ ซึ่งนำเสนอใน CASP7) ^{[ 71 ]}

เซิร์ฟเวอร์CAMEO3D Continuous Automated Model EvaluatiOn จะประเมินเซิร์ฟเวอร์ทำนายโครงสร้างโปรตีนอัตโนมัติเป็นรายสัปดาห์ โดยใช้การทำนายแบบไม่เปิดเผยข้อมูลสำหรับโครงสร้างโปรตีนที่เพิ่งเผยแพร่ใหม่ CAMEO จะเผยแพร่ผลลัพธ์บนเว็บไซต์ของตน

ดูเพิ่มเติม

ลิงก์ภายนอก

เว็บไซต์อย่างเป็นทางการศูนย์ทำนายโครงสร้างโปรตีน การทดลอง CASP
เครื่องมือ ExPASy Proteomics – รายชื่อเครื่องมือและเซิร์ฟเวอร์สำหรับการทำนายผล

[ 1 ]

[ 2 ]

[ 4 ]

5

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[

[ 15 ]

16 ] วิธี

[ 17 ]

[ 18 ]

[

[

[

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[

[

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]

[ 60 ]

[ 62 ]

[ 63 ]

[ 64 ]

[ 65 ]

[ 66 ]

67 ] การ

[ 68 ]

[ 69 ]

[ 70 ]

[ 71 ]