อ่าน 12 นาที
คำอธิบายประกอบ SNP
การระบุตำแหน่งโพลีมอร์ฟิซึมของนิวคลีโอไทด์เดี่ยว ( การระบุตำแหน่ง SNP ) คือกระบวนการทำนายผลหรือหน้าที่ของ SNP แต่ละตัวโดยใช้เครื่องมือการระบุตำแหน่ง SNP ในการระบุตำแหน่ง SNP...
คำอธิบายประกอบ SNP
| การจำแนกประเภท | ชีวสารสนเทศ |
|---|---|
| การจำแนกประเภทย่อย | โพลีมอร์ฟิซึมของนิวคลีโอไทด์เดี่ยว |
| ประเภทของเครื่องมือที่ใช้ | เครื่องมือการระบุฟังก์ชัน |
| หัวข้ออื่นๆ ที่เกี่ยวข้อง | โครงการจีโนม , จีโนมิกส์ |
การระบุตำแหน่งโพลีมอร์ฟิซึมของนิวคลีโอไทด์เดี่ยว ( การระบุตำแหน่ง SNP ) คือกระบวนการทำนายผลหรือหน้าที่ของ SNP แต่ละตัวโดยใช้เครื่องมือการระบุตำแหน่ง SNP ในการระบุตำแหน่ง SNP ข้อมูลทางชีววิทยาจะถูกสกัด รวบรวม และแสดงในรูปแบบที่ชัดเจนซึ่งสามารถสอบถามได้ การระบุตำแหน่งหน้าที่ของ SNP มักจะดำเนินการโดยอาศัยข้อมูลที่มีอยู่เกี่ยวกับลำดับกรดนิวคลีอิกและโปรตีน[ 1 ]
การแนะนำ

โพลีมอร์ฟิซึมของนิวคลีโอไทด์เดี่ยว (SNPs) มีบทบาทสำคัญใน การศึกษา การเชื่อมโยงทั่วทั้งจีโนมเนื่องจากทำหน้าที่เป็นตัวบ่งชี้ทางชีวภาพ หลัก ปัจจุบัน SNPs เป็นตัวบ่งชี้ที่ได้รับความนิยมเนื่องจากมีจำนวนมากในประชากรเกือบทุกกลุ่มตำแหน่งของตัวบ่งชี้ทางชีวภาพเหล่านี้มีความสำคัญอย่างยิ่งในการทำนายความสำคัญเชิงหน้าที่การทำแผนที่ทางพันธุกรรมและ พันธุ ศาสตร์ประชากร[ 3 ] SNP แต่ละตัวแสดงถึงการเปลี่ยนแปลงของนิวคลีโอไทด์ระหว่างบุคคลสองคน ณ ตำแหน่งที่กำหนด SNPs เป็นตัวแปรทางพันธุกรรมที่พบได้บ่อยที่สุดในบุคคลทุกคน โดยมี SNP หนึ่งตัวทุกๆ 100–300 bpในบางชนิด[ 4 ]เนื่องจากมี SNPs จำนวนมากบนจีโนมจึงมีความจำเป็นอย่างยิ่งที่จะต้องจัดลำดับความสำคัญของ SNPs ตามผลกระทบที่อาจเกิดขึ้น เพื่อเร่งกระบวนการระบุจีโนไทป์และการวิเคราะห์ [ 5 ]
การระบุตำแหน่งของ SNP จำนวนมากเป็นกระบวนการที่ยากและซับซ้อน ซึ่งจำเป็นต้องใช้วิธีการคำนวณเพื่อจัดการกับชุดข้อมูลขนาดใหญ่ดังกล่าว เครื่องมือมากมายได้รับการพัฒนาขึ้นสำหรับการระบุตำแหน่งของ SNP ในสิ่งมีชีวิตต่างๆ บางส่วนได้รับการปรับให้เหมาะสมสำหรับการใช้งานกับสิ่งมีชีวิตที่มีการเก็บตัวอย่าง SNP อย่างหนาแน่น (เช่นมนุษย์ ) แต่ปัจจุบันมีเครื่องมือเพียงไม่กี่ชิ้นที่ไม่จำกัดชนิดของสิ่งมีชีวิตหรือรองรับข้อมูลจากสิ่งมีชีวิตที่ไม่ใช่แบบจำลอง เครื่องมือระบุตำแหน่งของ SNP ส่วนใหญ่ให้ผลการทำนายผลกระทบที่เป็นอันตรายที่อาจเกิดขึ้นจาก SNP โดยใช้การคำนวณ เครื่องมือเหล่านี้ตรวจสอบว่า SNP อยู่ในบริเวณจีโนมที่มีหน้าที่สำคัญ เช่น เอ็กซอน ตำแหน่งการเชื่อมต่อ หรือตำแหน่งควบคุมการถอดรหัสหรือไม่ และทำนายผลกระทบทางหน้าที่ที่อาจเกิดขึ้นจาก SNP โดยใช้แนวทางการเรียนรู้ของเครื่องที่หลากหลาย แต่เครื่องมือและระบบที่ให้ความสำคัญกับ SNP ที่มีความสำคัญทางหน้าที่นั้นมีข้อจำกัดอยู่บ้าง ประการแรก พวกมันตรวจสอบผลกระทบที่เป็นอันตรายที่อาจเกิดขึ้นจาก SNP โดยพิจารณาจากหน้าที่ทางชีวภาพเพียงอย่างเดียว ซึ่งให้ข้อมูลเพียงบางส่วนเกี่ยวกับความสำคัญทางหน้าที่ของ SNP เท่านั้น ประการที่สอง ระบบปัจจุบันจัดประเภท SNP เป็นกลุ่มที่เป็นอันตรายหรือเป็นกลาง[ 6 ]
ตัวแปรที่หายากถูกกำหนดให้เป็นโพลีมอร์ฟิซึมของนิวคลีโอไทด์เดี่ยว (SNP) ที่มีความถี่ของอัลลีลรอง (MAF) น้อยกว่า 0.01 [ 7 ]ด้วยเหตุนี้ ข้อมูลการฝึกอบรมสำหรับวิธีการทำนายที่เกี่ยวข้องจึงอาจแตกต่างกัน ดังนั้นควรระมัดระวังในการเลือกเครื่องมือที่เหมาะสมสำหรับวัตถุประสงค์เฉพาะ สำหรับวัตถุประสงค์ของบทความนี้ "SNP" จะหมายถึงทั้ง SNP และ SNV แต่ผู้อ่านควรคำนึงถึงความแตกต่างด้วย
คำอธิบายประกอบ SNP

ในการระบุตำแหน่ง SNP นั้น มีการใช้ข้อมูลทางพันธุกรรมและจีโนมหลายประเภท โดยพิจารณาจากคุณลักษณะที่แตกต่างกันของเครื่องมือระบุตำแหน่งแต่ละชนิด วิธีการระบุตำแหน่ง SNP สามารถแบ่งออกได้เป็นหมวดหมู่คร่าวๆ ดังต่อไปนี้:
การระบุข้อมูลตามยีน
ข้อมูลจีโนมจากองค์ประกอบจีโนมโดยรอบเป็นข้อมูลที่มีประโยชน์มากที่สุดอย่างหนึ่งสำหรับการตีความหน้าที่ทางชีวภาพของตัวแปรที่สังเกตได้ ข้อมูลจากยีน ที่รู้จัก จะถูกใช้เป็นข้อมูลอ้างอิงเพื่อระบุว่าตัวแปรที่สังเกตได้นั้นอยู่ในหรือใกล้กับยีนหรือไม่ และมีศักยภาพที่จะรบกวนลำดับโปรตีนและหน้าที่ของมันหรือไม่ การระบุคำอธิบายประกอบตามยีนนั้นขึ้นอยู่กับข้อเท็จจริงที่ว่าการกลายพันธุ์ ที่ไม่ใช่แบบเดียวกัน สามารถเปลี่ยนแปลงลำดับโปรตีนได้ และการกลายพันธุ์ของไซต์การเชื่อมต่ออาจรบกวนรูปแบบการเชื่อมต่อของทรานสคริปต์[ 8 ]
การใส่คำอธิบายประกอบตามความรู้
การระบุฐานความรู้จะทำโดยอาศัยข้อมูลคุณลักษณะของยีน หน้าที่ของโปรตีน และกระบวนการเผาผลาญในการระบุประเภทนี้จะเน้นไปที่ความแปรผันทางพันธุกรรมที่รบกวนโดเมนการทำงานของโปรตีนปฏิสัมพันธ์ระหว่างโปรตีนและวิถีทางชีวภาพบริเวณที่ไม่เข้ารหัสของจีโนมประกอบด้วยองค์ประกอบควบคุมที่สำคัญหลายอย่าง รวมถึงโปรโมเตอร์เอนแฮนเซอร์และอินซูเลเตอร์ การเปลี่ยนแปลงใดๆ ในบริเวณควบคุม นี้ สามารถเปลี่ยนแปลงการทำงานของโปรตีนนั้นได้[ 9 ]การกลายพันธุ์ใน DNA สามารถเปลี่ยนแปลงลำดับRNAและส่งผลต่อโครงสร้างทุติยภูมิของ RNAการจดจำโปรตีนที่จับกับ RNA และกิจกรรมการจับของ miRNA [ 10 ] [ 11 ]
การระบุหน้าที่การทำงาน
วิธีนี้ส่วนใหญ่จะระบุหน้าที่ของตัวแปรโดยอาศัยข้อมูลว่าตำแหน่งของตัวแปรอยู่ในบริเวณการทำงานที่ทราบซึ่งมีสัญญาณจีโนมิกหรือเอพิเจโนมิกหรือไม่ หน้าที่ของตัวแปรที่ไม่เข้ารหัสมีความกว้างขวางในแง่ของบริเวณจีโนมที่ได้รับผลกระทบ และเกี่ยวข้องกับกระบวนการควบคุมยีนเกือบทั้งหมดตั้งแต่ระดับการถอดรหัสไปจนถึงระดับหลังการแปล[ 12 ]
การควบคุมการถอดรหัสยีน
กระบวนการควบคุมการถอดรหัสยีนขึ้นอยู่กับปัจจัยเชิงพื้นที่และเวลาหลายอย่างในนิวเคลียส เช่นสถานะโครมาติน โดยรวมหรือเฉพาะที่ ตำแหน่งของนิว คลีโอ โซม การจับของ TF กิจกรรมของตัวเร่ง/ตัวส่งเสริม ตัวแปรที่เปลี่ยนแปลงการทำงานของกระบวนการทางชีวภาพเหล่านี้อาจเปลี่ยนแปลงการควบคุมยีนและทำให้เกิดความผิดปกติทางฟีโนไทป์[ 13 ]ตัวแปรทางพันธุกรรมที่อยู่ในบริเวณควบคุมระยะไกลสามารถส่งผลต่อรูปแบบการจับของ TF ตัวควบคุมโครมาติน และปัจจัยการถอดรหัสระยะไกลอื่นๆ ซึ่งรบกวนปฏิสัมพันธ์ระหว่างตัวเร่ง/ตัวยับยั้งและยีนเป้าหมาย[ 14 ]
การตัดต่อทางเลือก
การสลับการต่อเชื่อม (Alternative splicing)เป็นหนึ่งในองค์ประกอบที่สำคัญที่สุดที่แสดงให้เห็นถึงความซับซ้อนในการทำงานของจีโนม การต่อเชื่อมที่เปลี่ยนแปลงไปมีผลอย่างมากต่อฟีโนไทป์ที่เกี่ยวข้องกับโรคหรือการเผาผลาญยาการเปลี่ยนแปลงในการต่อเชื่อมอาจเกิดจากการดัดแปลงองค์ประกอบใดๆ ของกลไกการต่อเชื่อม เช่น ตำแหน่งการต่อเชื่อม หรือตัวเร่งการต่อเชื่อม หรือตัวยับยั้งการต่อเชื่อม[ 15 ]การดัดแปลงในตำแหน่งการต่อเชื่อมแบบทางเลือกอาจนำไปสู่รูปแบบโปรตีนที่แตกต่างกัน ซึ่งจะแสดงการทำงานที่แตกต่างกัน มนุษย์ใช้โปรตีนที่แตกต่างกันประมาณ 100,000 ชนิดหรือมากกว่านั้น ดังนั้นยีนบางตัวจึงต้องสามารถเข้ารหัสโปรตีนได้มากกว่าหนึ่งชนิด การต่อเชื่อมแบบทางเลือกเกิดขึ้นบ่อยกว่าที่เคยคิดไว้และอาจควบคุมได้ยาก ยีนอาจสร้างทรานสคริปต์ที่แตกต่างกันหลายหมื่นรายการ ซึ่งจำเป็นต้องมีแบบจำลองยีนใหม่สำหรับการต่อเชื่อมแบบทางเลือกแต่ละครั้ง
กระบวนการประมวลผล RNA และการควบคุมหลังการถอดรหัส
การกลายพันธุ์ในบริเวณที่ไม่ถูกแปล (UTR) ส่งผลต่อการควบคุมหลังการถอดรหัส หลายอย่าง ลักษณะโครงสร้างที่แตกต่างกันเป็นสิ่งจำเป็นสำหรับโมเลกุล RNA หลายชนิดและองค์ประกอบควบคุมแบบซิสแอคติ้งเพื่อดำเนินการฟังก์ชันที่มีประสิทธิภาพในระหว่างการควบคุมยีน SNV สามารถเปลี่ยนแปลงโครงสร้างทุติยภูมิของโมเลกุล RNA และจากนั้นขัดขวางการพับตัวที่เหมาะสมของ RNA เช่น การพับตัวของ tRNA/mRNA/lncRNA และบริเวณการรับรู้การจับของ miRNA [ 16 ]
การแปลและการแก้ไขหลังการแปล
ตัวแปรนิวคลีโอไทด์เดี่ยวยังสามารถส่งผลต่อองค์ประกอบควบคุมแบบซิสแอคติ้งใน mRNA เพื่อยับยั้ง/ส่งเสริมการเริ่มต้นการแปล การเปลี่ยนแปลงในบริเวณโคดอนที่เหมือนกันเนื่องจากการกลายพันธุ์อาจส่งผลต่อประสิทธิภาพการแปลเนื่องจากความลำเอียงในการใช้โคดอน การยืดตัวของการแปลยังสามารถชะลอลงได้ด้วยการกลายพันธุ์ตามทางลาดของการเคลื่อนที่ของไรโบโซม ในระดับหลังการแปล ตัวแปรทางพันธุกรรมสามารถมีส่วนช่วยในการรักษาสมดุลของโปรตีนและการดัดแปลงกรดอะมิโน อย่างไรก็ตาม กลไกของผลกระทบของตัวแปรในด้านนี้มีความซับซ้อน และมีเครื่องมือเพียงไม่กี่อย่างที่สามารถใช้ในการทำนายผลกระทบของตัวแปรต่อการดัดแปลงที่เกี่ยวข้องกับการแปล[ 8 ]
หน้าที่ของโปรตีน
การกลายพันธุ์แบบไม่ทำให้เกิดการเปลี่ยนแปลงของกรดอะมิโน (Non-synonymous variant) คือการกลายพันธุ์ในเอ็กซอนที่เปลี่ยนแปลงลำดับกรดอะมิโนที่เข้ารหัสโดยยีน รวมถึงการเปลี่ยนแปลงเบสเดี่ยวและการแทรก/ลบที่ไม่ทำให้เกิดการเลื่อนเฟรม (non frameshift indels) มีการศึกษาหน้าที่ของการกลายพันธุ์แบบไม่ทำให้เกิดการเปลี่ยนแปลงของกรดอะมิโนในโปรตีนอย่างละเอียด และมีการพัฒนาอัลกอริทึมมากมายเพื่อทำนายความเป็นอันตรายและพยาธิกำเนิดของการกลายพันธุ์แบบนิวคลีโอไทด์เดี่ยว (SNVs) เครื่องมือชีวสารสนเทศแบบคลาสสิก เช่น SIFT, Polyphen และMutationTasterสามารถทำนายผลการทำงานของการแทนที่แบบไม่ทำให้เกิดการเปลี่ยนแปลงของกรดอะมิโนได้อย่าง แม่นยำ [ 17 ] [ 18 ] [ 19 ] [ 20 ]เว็บเซิร์ฟเวอร์ PopViz ให้แนวทางที่เน้นยีนเป็นศูนย์กลางในการแสดงภาพคะแนนการทำนายความเสียหายจากการกลายพันธุ์ (CADD, SIFT, PolyPhen-2) หรือพันธุศาสตร์ประชากร (ความถี่ของอัลลีลรอง) เทียบกับตำแหน่งกรดอะมิโนของการกลายพันธุ์ที่เข้ารหัสทั้งหมดของยีนมนุษย์บางชนิด[ 21 ] PopViz ยังเชื่อมโยงกับฐานข้อมูล UniProt ซึ่ง สามารถค้นหาข้อมูล โดเมนโปรตีนได้ จากนั้นจึงระบุตัวแปรที่เป็นอันตรายที่คาดการณ์ไว้ซึ่งตกอยู่ในโดเมนโปรตีนเหล่านี้บนแผนภาพ PopViz [ 21 ]
การอนุรักษ์เชิงวิวัฒนาการและการคัดเลือกโดยธรรมชาติ
มีการใช้แนวทาง จีโนมิกส์เชิงเปรียบเทียบเพื่อทำนายตัวแปรที่เกี่ยวข้องกับหน้าที่ภายใต้สมมติฐานที่ว่าตำแหน่งทางพันธุกรรมที่ทำหน้าที่ควรได้รับการอนุรักษ์ไว้ในสปีชีส์ต่างๆ ในระยะวิวัฒนาการที่กว้างขวาง ในทางกลับกัน ลักษณะการปรับตัวบางอย่างและความแตกต่างของประชากรถูกขับเคลื่อนโดยการคัดเลือกเชิงบวกของตัวแปรที่เป็นประโยชน์ และการกลายพันธุ์ทางพันธุกรรมเหล่านี้มีความเกี่ยวข้องกับการทำหน้าที่ของฟีโนไทป์เฉพาะของประชากร การทำนายหน้าที่ของผลกระทบของตัวแปรในกระบวนการทางชีววิทยาต่างๆ เป็นสิ่งสำคัญในการระบุกลไกโมเลกุลของโรค/ลักษณะต่างๆ และชี้นำการตรวจสอบเชิงทดลอง[ 8 ]
รายชื่อเครื่องมือสำหรับการระบุ SNP ที่มีอยู่
เพื่อการระบุตำแหน่ง SNP จำนวนมหาศาลที่มีอยู่ในปัจจุบัน มีเครื่องมือระบุตำแหน่ง SNP จำนวนมากให้เลือกใช้ บางเครื่องมือมีความเฉพาะเจาะจงกับ SNP บางชนิด ในขณะที่บางเครื่องมือมีความทั่วไปมากกว่า เครื่องมือระบุตำแหน่ง SNP ที่มีอยู่บางส่วน ได้แก่ SNPeff, Ensembl Variant Effect Predictor (VEP), ANNOVAR, FATHMM, PhD-SNP, PolyPhen-2, SuSPect, F-SNP, AnnTools, SeattleSeq, SNPit, SCAN, Snap, SNPs&GO, LS-SNP, Snat, TREAT, TRAMS, Maviant, MutationTaster , SNPdat, Snpranker, NGS – SNP, SVA, VARIANT, SIFT, LIST-S2, PhD-SNP และ FAST-SNP ฟังก์ชันและวิธีการที่ใช้ในเครื่องมือระบุตำแหน่ง SNP เหล่านี้แสดงไว้ด้านล่าง
| เครื่องมือ | คำอธิบาย | แหล่งข้อมูลภายนอกใช้ | URL ของเว็บไซต์ | เอกสารอ้างอิง |
|---|---|---|---|---|
| ไฟร์ริสก์ | เชื่อมโยงความแปรผันทางพันธุกรรมเข้ากับโครงสร้างโปรตีนที่ได้จากการทดลองและการคาดการณ์ | ตัวทำนายผลกระทบของตัวแปร , UniProt , Protein Data Bank , SIFTS , Phyre2สำหรับโครงสร้างที่ทำนายไว้ | http://phyrerisk.bc.ic.ac.uk/home | |
| มิสเซนส์3ดี | รายงานผลกระทบเชิงโครงสร้างของการกลายพันธุ์แบบมิสเซนส์ต่อพิกัดโปรตีนในฐานข้อมูล PDB และที่ผู้ใช้ป้อนเข้ามา พัฒนาขึ้นเพื่อให้สามารถนำไปใช้กับโครงสร้างโปรตีนที่ได้จากการทดลองและการทำนาย | ฐานข้อมูลโปรตีน (Protein Data Bank)และPhyre2สำหรับโครงสร้างที่คาดการณ์ไว้ | http://www.sbg.bio.ic.ac.uk/~missense3d/ | |
| เอสเอ็นพีเอฟ | SnpEff ระบุตำแหน่งของตัวแปรทางพันธุกรรมและทำนายผลกระทบต่อรหัสพันธุกรรม โดยใช้แนวทางแบบ Interval Forest | ENSEMBL, UCSC และฐานข้อมูลที่ใช้สิ่งมีชีวิตเป็นฐาน เช่น FlyBase, WormBase และ TAIR | https://snpeff.sourceforge.net/SnpEff_manual.html | [ 24 ] |
| วงดนตรี VEP | ตรวจสอบผลกระทบของความแปรผัน (SNP, การแทรก, การลบ, CNV หรือความแปรผันเชิงโครงสร้าง) ต่อยีน, สารถอดรหัส, โปรตีน และบริเวณควบคุม | dbSNP, RefSeq, UniProt, COSMIC, PDBe, 1000 Genomes, gnomAD, PubMed | [1] [ 25 ] | [ 26 ] |
| แอนโนวาร์ | เครื่องมือนี้เหมาะสำหรับการระบุกลุ่มย่อยเล็กๆ ของตัวแปรที่มีความสำคัญต่อการทำงาน โดยใช้วิธีการทำนายการกลายพันธุ์ในการระบุลักษณะ | UCSC, RefSeq และ Ensembl | http://annovar.openbioinformatics.org/ | [ 27 ] |
| จันโนวาร์ | นี่คือเครื่องมือและคลังข้อมูลสำหรับการระบุตำแหน่งยีนในจีโนม | RefSeq, Ensembl, UCSC เป็นต้น | https://github.com/charite/jannovar | [ 28 ] |
| ปริญญาเอก-เอสเอ็นพี | วิธีการที่ใช้ SVM โดยใช้ข้อมูลลำดับที่ได้จากอัลกอริทึม BLAST | ยูนิเรฟ90 | http://snps.biofold.org/phd-snp/ | [ 29 ] |
| โพลีฟีน-2 | เหมาะสำหรับการทำนายผลเสียที่เกิดจากการกลายพันธุ์แบบมิสเซนส์ โดยใช้การอนุรักษ์ลำดับ โครงสร้างเพื่อสร้างแบบจำลองตำแหน่งการแทนที่กรดอะมิโน และคำอธิบายประกอบจาก SWISS-PROT | ยูนิโปรท | http://genetics.bwh.harvard.edu/pph2/ | [ 30 ] |
| มิวเทชั่นเทสเตอร์ | เหมาะสำหรับการทำนายผลกระทบที่เป็นอันตรายของการกลายพันธุ์ภายในยีนทั้งหมด (ระดับ DNA และโปรตีน) รวมถึง InDels ด้วย | ชุด, โครงการ 1,000 จีโนม, ExAC, UniProt, ClinVar, phyloP, pastCons, nnsplice, polyadq (...) | http://www.mutationtaster.org/ | [ 20 ] |
| สงสัย | ตัวทำนายที่ฝึกฝนด้วย SVM สำหรับผลกระทบที่เป็นอันตรายของการกลายพันธุ์แบบมิสเซนส์ ใช้ข้อมูลการอนุรักษ์ลำดับ โครงสร้าง และเครือข่าย (อินเตอร์แอคโตม) เพื่อสร้างแบบจำลองผลกระทบทางฟีโนไทป์ของการแทนที่กรดอะมิโน รองรับไฟล์ VCF | UniProt, PDB, Phyre2สำหรับการทำนายโครงสร้าง และ DOMINE กับ STRING สำหรับข้อมูลปฏิสัมพันธ์ของโปรตีน | http://www.sbg.bio.ic.ac.uk/suspect/index.html | [ 31 ] |
| เอฟ-เอสเอ็นพี | ทำนาย SNP ที่มีผลต่อการทำงานโดยใช้การคำนวณ เพื่อใช้ในการศึกษาความสัมพันธ์ของโรค | PolyPhen, SIFT, SNPeffect, SNPs3D, LS-SNP, ESEfinder, RescueESE, ESRSearch, PESX, Ensembl, TFSearch, Consite, GoldenPath, Ensembl, KinasePhos, OGPET, Sulfinator, GoldenPath | http://compbio.cs.queensu.ca/F-SNP/ เก็บถาวรเมื่อ 2017-06-16 ที่Wayback Machine | [ 32 ] |
| แอนทูลส์ | ออกแบบมาเพื่อระบุ SNP/SNV, INDEL และ SV/CNV ใหม่ๆ AnnTools ค้นหาส่วนที่ทับซ้อนกับองค์ประกอบควบคุม ตำแหน่งที่เกี่ยวข้องกับโรค/ลักษณะเฉพาะ การทำซ้ำส่วนที่รู้จัก และบริเวณที่มีแนวโน้มเกิดสิ่งแปลกปลอม | dbSNP, UCSC, GATK refGene, GAD, รายชื่อที่เผยแพร่แล้วของความแปรผันทางโครงสร้างจีโนมทั่วไป, ฐานข้อมูลความแปรผันทางจีโนม, รายชื่อ TFB ที่ได้รับการอนุรักษ์, miRNA | https://anntools.sourceforge.net/ | [ 33 ] |
| เอสเอ็นพีอิท | วิเคราะห์ความสำคัญเชิงหน้าที่ที่เป็นไปได้ของ SNP ที่ได้จากการศึกษาความสัมพันธ์ทั่วทั้งจีโนม | dbSNP, EntrezGene, UCSC Browser, HGMD, ECR Browser, Haplotter, SIFT | -/- | [ 3 ] |
| สแกน | ใช้การระบุลักษณะทางกายภาพและหน้าที่การทำงานเพื่อจัดหมวดหมู่ตามตำแหน่งที่สัมพันธ์กับยีน และตามรูปแบบภาวะไม่สมดุลของการเชื่อมโยง (LD) และผลกระทบต่อระดับการแสดงออก | -/- | http://www.scandb.org/newinterface/about.html เก็บถาวรเมื่อ 2017-06-22 ที่Wayback Machine | [ 34 ] |
| สแนป | วิธีการที่ใช้โครงข่ายประสาทเทียมในการทำนายผลกระทบเชิงหน้าที่ของ SNP ที่ไม่ใช่แบบเดียวกัน | Ensembl, UCSC, Uniprot, UniProt, Pfam, DAS-CBS, MINT, BIND, KEGG, TreeFam | http://www.rostlab.org/services/SNAP | [ 35 ] |
| SNPs&GO | วิธีการที่ใช้ SVM โดยใช้ข้อมูลลำดับดีเอ็นเอ คำอธิบายประกอบ Gene Ontology และโครงสร้างโปรตีน (ถ้ามี) | UniRef90, GO, PANTHER, PDB | http://snps.biofold.org/snps-and-go/ | [ 36 ] |
| LS-SNP | เชื่อมโยง nsSNP เข้ากับลำดับโปรตีน วิถีการทำงาน และแบบจำลองโครงสร้างโปรตีนเชิงเปรียบเทียบ | UniProtKB, Genome Browser, dbSNP, PD | http://www.salilab.org/LS-SNP | [ 37 ] |
| รักษา | TREAT เป็นเครื่องมือสำหรับการนำทางและการค้นหาความแปรผันทางพันธุกรรมได้อย่างง่ายดาย ทั้งจากการจัดลำดับดีเอ็นเอแบบกำหนดเป้าหมายและการจัดลำดับเอ็กโซมทั้งหมด | -/- | http://ndc.mayo.edu/mayo/research/biostat/stand-alone-packages.cfm | [ 38 ] |
| เอสเอ็นพีดีท | เหมาะสำหรับข้อมูลที่ไม่จำเพาะเจาะจงสายพันธุ์ หรือรองรับข้อมูลจากสิ่งมีชีวิตที่ไม่ใช่แบบจำลอง SNPdat ไม่จำเป็นต้องสร้างฐานข้อมูลเชิงสัมพันธ์ในเครื่อง หรือประมวลผลไฟล์ข้อมูลเข้าใดๆ ล่วงหน้า | -/- | https://code.google.com/p/snpdat/downloads/ | [ 39 ] |
| NGS – SNP | ระบุ SNP โดยเปรียบเทียบกรดอะมิโนอ้างอิงและกรดอะมิโนที่ไม่ใช่อ้างอิงกับออร์โธล็อกแต่ละตัว | Ensembl, NCBI และ UniProt | http://stothard.afns.ualberta.ca/downloads/NGS-SNP/ | [ 40 ] |
| เอสวีเอ | หน้าที่ทางชีวภาพที่คาดการณ์ไว้ของตัวแปรที่ระบุ | ฐานข้อมูลต่างๆ เช่น NCBI RefSeq, Ensembl, ฐานข้อมูลความแปรผันทางพันธุกรรม, UCSC, HGNC, GO, KEGG, HapMap, 1000 Genomes Project และ DG | http://www.svaproject.org/ | [ 41 ] |
| ตัวแปร | VARIANT ขยายขอบเขตข้อมูลออกไปนอกบริเวณรหัสพันธุกรรม โดยรวมข้อมูลที่มีอยู่ทั้งหมดเกี่ยวกับการควบคุม โครงสร้าง DNA การอนุรักษ์ แรงกดดันทางวิวัฒนาการ ฯลฯ ตัวแปรควบคุมถือเป็นสาเหตุของโรคที่ได้รับการยอมรับ แต่ยังไม่ได้รับการสำรวจอย่างครบถ้วน | dbSNP, 1000 genomes, ตัวแปรที่เกี่ยวข้องกับโรคจาก GWAS, OMIM, COSMIC | http://variant.bioinfo.cipf.es/ เก็บถาวรเมื่อ 2017-05-20 ที่Wayback Machine | [ 42 ] |
| ซิฟท์ | SIFT เป็นโปรแกรมที่ใช้ทำนายว่าการเปลี่ยนแปลงกรดอะมิโนจะมีผลต่อการทำงานของโปรตีนหรือไม่ SIFT ใช้หลักความคล้ายคลึงของลำดับ (sequence homology) ในการทำนายว่าการเปลี่ยนแปลงกรดอะมิโนจะส่งผลต่อการทำงานของโปรตีนหรือไม่ | PROT/TrEMBL หรือ NCBI | http://blocks.fhcrc.org/sift/SIFT.html ลิงก์นี้ถูกยกเลิกแล้วและถูกเก็บถาวรเมื่อวันที่ 8 กรกฎาคม 2013 ที่archive.today | [ 43 ] |
| ลิสต์-เอส2 | LIST-S2 (Local Identity and Shared Taxa, Species-specific) ตั้งอยู่บนสมมติฐานที่ว่า ความแปรผันที่สังเกตได้ในสายพันธุ์ที่ใกล้เคียงกันนั้นมีความสำคัญมากกว่าเมื่อประเมินการอนุรักษ์ เมื่อเทียบกับความแปรผันในสายพันธุ์ที่อยู่ห่างไกลกัน | UniProt, SwissProt/TrEMBL และ NCBI Taxonomy | https://gsponerlab.msl.ubc.ca/software/list/ | [ 44 ] [ 45 ] |
| ฟาสต์-เอสเอ็นพี | เว็บเซิร์ฟเวอร์ที่ช่วยให้ผู้ใช้สามารถระบุและจัดลำดับความสำคัญของ SNP ที่มีความเสี่ยงสูงได้อย่างมีประสิทธิภาพ โดยพิจารณาจากความเสี่ยงทางฟีโนไทป์และผลกระทบเชิงหน้าที่ที่คาดการณ์ได้ | NCBI dbSNP, Ensembl, TFSearch, PolyPhen, ESEfinder, RescueESE, FAS-ESS, SwissProt, UCSC Golden Path, NCBI Blast และ HapMap | http://fastsnp.ibms.sinica.edu.tw/ ลิงก์นี้ถูกยกเลิกแล้วและถูกเก็บถาวรเมื่อวันที่ 10 สิงหาคม 2014 ที่archive.today | [ 46 ] |
| เสือดำ | โครงการ PANTHER เชื่อมโยงวิวัฒนาการของลำดับโปรตีนเข้ากับวิวัฒนาการของหน้าที่และบทบาททางชีวภาพของโปรตีนเฉพาะ โดยใช้แหล่งข้อมูลลำดับโปรตีนที่ใช้ในการสร้างแผนผังตระกูลโปรตีน และใช้ขั้นตอนการตรวจสอบและคัดกรองด้วยตนเองโดยใช้คอมพิวเตอร์ช่วย เพื่อกำหนดกลุ่มตระกูลโปรตีนให้ชัดเจนยิ่งขึ้น | STKE, KEGG, MetaCyc, FREX และ Reactome | http://www.pantherdb.org/ | [ 47 ] |
| เมตา-เอสเอ็นพี | ตัวทำนายแบบเมตาที่ใช้ SVM ซึ่งประกอบด้วย 4 วิธีที่แตกต่างกัน | PhD-SNP, PANTHER, SIFT, SNAP | http://snps.biofold.org/meta-snp | [ 48 ] |
| ป๊อปวิซ | การแสดงผลแบบบูรณาการและโต้ตอบโดยเน้นยีนเป็นศูนย์กลาง สำหรับพันธุศาสตร์ประชากรและคะแนนการทำนายความเสียหายจากการกลายพันธุ์ของยีนในมนุษย์ | gnomAD, Ensembl, UniProt, OMIM, UCSC, CADD, EIGEN, LINSIGHT, SIFT, PolyPhen-2, | [2] [ 49 ] | [ 21 ] |
อัลกอริทึมที่ใช้ในเครื่องมือการระบุคำอธิบายประกอบ
เครื่องมือวิเคราะห์ความแปรผันทางพันธุกรรมใช้ขั้นตอนวิธีเรียนรู้ของเครื่องเพื่อทำนายคำอธิบายประกอบความแปรผัน เครื่องมือวิเคราะห์แต่ละชนิดใช้ขั้นตอนวิธีที่แตกต่างกันไป ขั้นตอนวิธีที่ใช้กันทั่วไป ได้แก่:
- การวิเคราะห์แบบ Interval/Random forest เช่น MutPred, SNPeff
- โครงข่ายประสาทเทียม - เช่น SNAP
- เครื่องมือสนับสนุนเวกเตอร์ (Support Vector Machines) - เช่น PhD-SNP, SNPs&GO
- การจำแนกประเภทแบบเบย์เซียน เช่น PolyPhen-2
การเปรียบเทียบเครื่องมือการระบุลักษณะตัวแปร
มีเครื่องมือสำหรับการระบุลักษณะทางพันธุกรรมที่แตกต่างกันอยู่มากมาย อย่างไรก็ตาม ผลลัพธ์จากการระบุลักษณะทางพันธุกรรมด้วยเครื่องมือต่างๆ อาจไม่ตรงกันเสมอไป เนื่องจากกฎเกณฑ์ในการจัดการข้อมูลแตกต่างกันไปในแต่ละแอปพลิเคชัน กล่าวได้ว่า เป็นไปไม่ได้เลยที่จะทำการเปรียบเทียบเครื่องมือที่มีอยู่ทั้งหมดอย่างสมบูรณ์แบบ เพราะเครื่องมือแต่ละตัวมีข้อมูลนำเข้าและข้อมูลส่งออกไม่เหมือนกัน รวมถึงฟังก์ชันการทำงานด้วย ตารางด้านล่างนี้แสดงเครื่องมือระบุลักษณะทางพันธุกรรมที่สำคัญและขอบเขตการทำงานของแต่ละเครื่องมือ
| เครื่องมือ | ไฟล์อินพุต | ไฟล์เอาต์พุต | เอสเอ็นพี | อินเดล | ซีเอ็นวี | เว็บหรือโปรแกรม | แหล่งที่มา | |
|---|---|---|---|---|---|---|---|---|
| แอนโนวาร์ | VCF, อุบัติเหตุรถชนกันหลายคัน, CompleteGenomics, GFF3-SOLiD, SOAPsnp, MAQ, CASAVA | TXT | ใช่ | ใช่ | ใช่ | โปรแกรม | [ 27 ] | |
| จันโนวาร์ | วีซีเอฟ | วีซีเอฟ | ใช่ | ใช่ | ใช่ | โปรแกรมจาวา | [ 50 ] | |
| เอสเอ็นพีเอฟ | VCF, กองซ้อน/TXT | VCF, TXT, HTML | ใช่ | ใช่ | เลขที่ | โปรแกรม | [ 24 ] | |
| วงดนตรี VEP | ค่าเริ่มต้นของ Ensembl (พิกัด), VCF, ตัวระบุตัวแปร, HGVS, SPDI, ภูมิภาคแบบ REST | VCF, VEP, TXT, JSON | ใช่ | ใช่ | ใช่ | เว็บ, สคริปต์ Perl, REST API | [ 26 ] | |
| แอนทูลส์ | VCF, กองซ้อน, TXT | วีซีเอฟ | ใช่ | ใช่ | เลขที่ | เลขที่ | [ 33 ] | |
| ซีแอตเทิลซีค | วีวีซีเอฟ, เอ็มเอคิว, คาซาวา, เตียง GATK | VCF, SeattleSeq | ใช่ | ใช่ | เลขที่ | เว็บ | [ 51 ] | |
| ตัวแปร | VCF, GFF2, BED | รายงานเว็บ, TXT | ใช่ | ใช่ | ใช่ | เว็บ | [ 42 ] |
แอปพลิเคชัน
คำอธิบายประกอบที่แตกต่างกันจะบันทึกแง่มุมที่หลากหลายของฟังก์ชันตัวแปร[ 53 ]การใช้คำอธิบายประกอบเชิงฟังก์ชันที่หลากหลายพร้อมกันสามารถปรับปรุงพลังการวิเคราะห์ความสัมพันธ์ของตัวแปรหายาก ของ การศึกษา ลำดับ เอ็กโซมทั้งหมดและจีโนมทั้งหมด ได้ [ 54 ]มีการพัฒนาเครื่องมือบางอย่างเพื่อให้สามารถวิเคราะห์ความสัมพันธ์ระหว่างฟีโนไทป์และจีโนไทป์ที่ได้รับข้อมูลเชิงฟังก์ชันสำหรับตัวแปรทั่วไปและตัวแปรหายากโดยการรวมคำอธิบายประกอบเชิงฟังก์ชันในกลุ่มตัวอย่างขนาดธนาคารชีวภาพ[ 55 ] [ 56 ] [ 57 ] [ 58 ]
ข้อสรุป
เว็บเซิร์ฟเวอร์การระบุ SNP รุ่นต่อไปสามารถใช้ประโยชน์จากข้อมูลจำนวนมากที่เพิ่มขึ้นในแหล่งข้อมูลชีวสารสนเทศหลัก และใช้เอเจนต์อัจฉริยะเพื่อดึงข้อมูลจากแหล่งต่างๆ ตามความจำเป็น จากมุมมองของผู้ใช้ การส่งชุด SNP และรับผลลัพธ์ในขั้นตอนเดียวจะมีประสิทธิภาพมากกว่า ทำให้เมตาเซิร์ฟเวอร์เป็นตัวเลือกที่น่าสนใจที่สุด[ 59 ]อย่างไรก็ตาม หากเครื่องมือการระบุ SNP ส่งมอบข้อมูลที่หลากหลายครอบคลุมลำดับ โครงสร้าง การควบคุม เส้นทาง ฯลฯ พวกมันจะต้องจัดเตรียมกรอบการทำงานสำหรับการบูรณาการข้อมูลเข้ากับอัลกอริธึมการตัดสินใจ และมาตรวัดความเชื่อมั่นเชิงปริมาณ เพื่อให้ผู้ใช้สามารถประเมินได้ว่าข้อมูลใดมีความเกี่ยวข้องและข้อมูลใดไม่เกี่ยวข้อง[ 59 ]
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ คำอธิบายประกอบ SNP
การระบุตำแหน่งโพลีมอร์ฟิซึมของนิวคลีโอไทด์เดี่ยว ( การระบุตำแหน่ง SNP ) คือกระบวนการทำนายผลหรือหน้าที่ของ SNP แต่ละตัวโดยใช้เครื่องมือการระบุตำแหน่ง SNP ในการระบุตำแหน่ง SNP...
การแนะนำ
โพลีมอร์ฟิซึมของนิวคลีโอไทด์เดี่ยว (SNPs) มีบทบาทสำคัญใน การศึกษา การเชื่อมโยงทั่วทั้งจีโนม เนื่องจากทำหน้าที่เป็น ตัวบ่งชี้ทางชีวภาพ หลัก ปัจจุบัน SNPs เป็นตัวบ่งชี้ที่ได้รับความนิยมเนื่องจากมีจำนวนมากในประชากรเกือบทุก กลุ่ม...
คำอธิบายประกอบ SNP
ในการระบุตำแหน่ง SNP นั้น มีการใช้ข้อมูลทางพันธุกรรมและจีโนมหลายประเภท โดยพิจารณาจากคุณลักษณะที่แตกต่างกันของเครื่องมือระบุตำแหน่งแต่ละชนิด วิธีการระบุตำแหน่ง SNP สามารถแบ่งออกได้เป็นหมวดหมู่คร่าวๆ ดังต่อไปนี้:
การระบุข้อมูลตามยีน
ข้อมูลจีโนมจากองค์ประกอบจีโนมโดยรอบเป็นข้อมูลที่มีประโยชน์มากที่สุดอย่างหนึ่งสำหรับการตีความหน้าที่ทางชีวภาพของตัวแปรที่สังเกตได้ ข้อมูลจาก ยีน ที่รู้จัก จะถูกใช้เป็นข้อมูลอ้างอิงเพื่อระบุว่าตัวแปรที่สังเกตได้นั้นอยู่ในหรือใกล้กับยีนหรือไม่...