คำอธิบายประกอบ SNP

คำอธิบายประกอบ SNP
การจำแนกประเภท	ชีวสารสนเทศ
การจำแนกประเภทย่อย	โพลีมอร์ฟิซึมของนิวคลีโอไทด์เดี่ยว
ประเภทของเครื่องมือที่ใช้	เครื่องมือการระบุฟังก์ชัน
หัวข้ออื่นๆ ที่เกี่ยวข้อง	โครงการจีโนม , จีโนมิกส์
	วี; ที; อี;

การระบุตำแหน่งโพลีมอร์ฟิซึมของนิวคลีโอไทด์เดี่ยว ( การระบุตำแหน่ง SNP ) คือกระบวนการทำนายผลหรือหน้าที่ของ SNP แต่ละตัวโดยใช้เครื่องมือการระบุตำแหน่ง SNP ในการระบุตำแหน่ง SNP ข้อมูลทางชีววิทยาจะถูกสกัด รวบรวม และแสดงในรูปแบบที่ชัดเจนซึ่งสามารถสอบถามได้ การระบุตำแหน่งหน้าที่ของ SNP มักจะดำเนินการโดยอาศัยข้อมูลที่มีอยู่เกี่ยวกับลำดับ กรดนิวคลีอิกและโปรตีน^[¹^]

การแนะนำ

โพลีมอร์ฟิซึมของนิวคลีโอไทด์เดี่ยว (SNPs) มีบทบาทสำคัญใน การศึกษา การเชื่อมโยงทั่วทั้งจีโนมเนื่องจากทำหน้าที่เป็นตัวบ่งชี้ทางชีวภาพ หลัก ปัจจุบัน SNPs เป็นตัวบ่งชี้ที่ได้รับความนิยมเนื่องจากมีจำนวนมากในประชากรเกือบทุกกลุ่มตำแหน่งของตัวบ่งชี้ทางชีวภาพเหล่านี้มีความสำคัญอย่างยิ่งในการทำนายความสำคัญเชิงหน้าที่การทำแผนที่ทางพันธุกรรมและ พันธุ ศาสตร์ประชากร^{[ 3 ]} SNP แต่ละตัวแสดงถึงการเปลี่ยนแปลงของนิวคลีโอไทด์ระหว่างบุคคลสองคน ณ ตำแหน่งที่กำหนด SNPs เป็นตัวแปรทางพันธุกรรมที่พบได้บ่อยที่สุดในบุคคลทุกคน โดยมี SNP หนึ่งตัวทุกๆ 100–300 bpในบางชนิด^{[ 4 ]}เนื่องจากมี SNPs จำนวนมากบนจีโนมจึงมีความจำเป็นอย่างยิ่งที่จะต้องจัดลำดับความสำคัญของ SNPs ตามผลกระทบที่อาจเกิดขึ้น เพื่อเร่งกระบวนการระบุจีโนไทป์และการวิเคราะห์ ^{[ 5 ]}

การระบุตำแหน่งของ SNP จำนวนมากเป็นกระบวนการที่ยากและซับซ้อน ซึ่งจำเป็นต้องใช้วิธีการคำนวณเพื่อจัดการกับชุดข้อมูลขนาดใหญ่ดังกล่าว เครื่องมือมากมายได้รับการพัฒนาขึ้นสำหรับการระบุตำแหน่งของ SNP ในสิ่งมีชีวิตต่างๆ บางส่วนได้รับการปรับให้เหมาะสมสำหรับการใช้งานกับสิ่งมีชีวิตที่มีการเก็บตัวอย่าง SNP อย่างหนาแน่น (เช่นมนุษย์ ) แต่ปัจจุบันมีเครื่องมือเพียงไม่กี่ชิ้นที่ไม่จำกัดชนิดของสิ่งมีชีวิตหรือรองรับข้อมูลจากสิ่งมีชีวิตที่ไม่ใช่แบบจำลอง เครื่องมือระบุตำแหน่งของ SNP ส่วนใหญ่ให้ผลการทำนายผลกระทบที่เป็นอันตรายที่อาจเกิดขึ้นจาก SNP โดยใช้การคำนวณ เครื่องมือเหล่านี้ตรวจสอบว่า SNP อยู่ในบริเวณจีโนมที่มีหน้าที่สำคัญ เช่น เอ็กซอน ตำแหน่งการเชื่อมต่อ หรือตำแหน่งควบคุมการถอดรหัสหรือไม่ และทำนายผลกระทบทางหน้าที่ที่อาจเกิดขึ้นจาก SNP โดยใช้แนวทางการเรียนรู้ของเครื่องที่หลากหลาย แต่เครื่องมือและระบบที่ให้ความสำคัญกับ SNP ที่มีความสำคัญทางหน้าที่นั้นมีข้อจำกัดอยู่บ้าง ประการแรก พวกมันตรวจสอบผลกระทบที่เป็นอันตรายที่อาจเกิดขึ้นจาก SNP โดยพิจารณาจากหน้าที่ทางชีวภาพเพียงอย่างเดียว ซึ่งให้ข้อมูลเพียงบางส่วนเกี่ยวกับความสำคัญทางหน้าที่ของ SNP เท่านั้น ประการที่สอง ระบบปัจจุบันจัดประเภท SNP เป็นกลุ่มที่เป็นอันตรายหรือเป็นกลาง^{[ 6 ]}

ตัวแปรที่หายากถูกกำหนดให้เป็นโพลีมอร์ฟิซึมของนิวคลีโอไทด์เดี่ยว (SNP) ที่มีความถี่ของอัลลีลรอง (MAF) น้อยกว่า 0.01 ^{[ 7 ]}ด้วยเหตุนี้ ข้อมูลการฝึกอบรมสำหรับวิธีการทำนายที่เกี่ยวข้องจึงอาจแตกต่างกัน ดังนั้นควรระมัดระวังในการเลือกเครื่องมือที่เหมาะสมสำหรับวัตถุประสงค์เฉพาะ สำหรับวัตถุประสงค์ของบทความนี้ "SNP" จะหมายถึงทั้ง SNP และ SNV แต่ผู้อ่านควรคำนึงถึงความแตกต่างด้วย

คำอธิบายประกอบ SNP

**ประเภทต่างๆ ของคำอธิบายประกอบในจีโนมิกส์**

ในการระบุตำแหน่ง SNP นั้น มีการใช้ข้อมูลทางพันธุกรรมและจีโนมหลายประเภท โดยพิจารณาจากคุณลักษณะที่แตกต่างกันของเครื่องมือระบุตำแหน่งแต่ละชนิด วิธีการระบุตำแหน่ง SNP สามารถแบ่งออกได้เป็นหมวดหมู่คร่าวๆ ดังต่อไปนี้:

การระบุข้อมูลตามยีน

ข้อมูลจีโนมจากองค์ประกอบจีโนมโดยรอบเป็นข้อมูลที่มีประโยชน์มากที่สุดอย่างหนึ่งสำหรับการตีความหน้าที่ทางชีวภาพของตัวแปรที่สังเกตได้ ข้อมูลจากยีน ที่รู้จัก จะถูกใช้เป็นข้อมูลอ้างอิงเพื่อระบุว่าตัวแปรที่สังเกตได้นั้นอยู่ในหรือใกล้กับยีนหรือไม่ และมีศักยภาพที่จะรบกวนลำดับโปรตีนและหน้าที่ของมันหรือไม่ การระบุคำอธิบายประกอบตามยีนนั้นขึ้นอยู่กับข้อเท็จจริงที่ว่าการกลายพันธุ์ ที่ไม่ใช่แบบเดียวกัน สามารถเปลี่ยนแปลงลำดับโปรตีนได้ และการกลายพันธุ์ของไซต์การเชื่อมต่ออาจรบกวนรูปแบบการเชื่อมต่อของทรานสคริปต์^{[ 8 ]}

การใส่คำอธิบายประกอบตามความรู้

การระบุฐานความรู้จะทำโดยอาศัยข้อมูลคุณลักษณะของยีน หน้าที่ของโปรตีน และกระบวนการเผาผลาญในการระบุประเภทนี้จะเน้นไปที่ความแปรผันทางพันธุกรรมที่รบกวนโดเมนการทำงานของโปรตีนปฏิสัมพันธ์ระหว่างโปรตีนและวิถีทางชีวภาพบริเวณที่ไม่เข้ารหัสของจีโนมประกอบด้วยองค์ประกอบควบคุมที่สำคัญหลายอย่าง รวมถึงโปรโมเตอร์เอนแฮนเซอร์และอินซูเลเตอร์ การเปลี่ยนแปลงใดๆ ในบริเวณควบคุม นี้ สามารถเปลี่ยนแปลงการทำงานของโปรตีนนั้นได้^{[ 9 ]}การกลายพันธุ์ใน DNA สามารถเปลี่ยนแปลงลำดับRNAและส่งผลต่อโครงสร้างทุติยภูมิของ RNAการจดจำโปรตีนที่จับกับ RNA และกิจกรรมการจับของ miRNA ^{[ 10 ]}^{[ 11 ]}

การระบุหน้าที่การทำงาน

วิธีนี้ส่วนใหญ่จะระบุหน้าที่ของตัวแปรโดยอาศัยข้อมูลว่าตำแหน่งของตัวแปรอยู่ในบริเวณการทำงานที่ทราบซึ่งมีสัญญาณจีโนมิกหรือเอพิเจโนมิกหรือไม่ หน้าที่ของตัวแปรที่ไม่เข้ารหัสมีความกว้างขวางในแง่ของบริเวณจีโนมที่ได้รับผลกระทบ และเกี่ยวข้องกับกระบวนการควบคุมยีนเกือบทั้งหมดตั้งแต่ระดับการถอดรหัสไปจนถึงระดับหลังการแปล^{[ 12 ]}

การควบคุมการถอดรหัสยีน

กระบวนการควบคุมการถอดรหัสยีนขึ้นอยู่กับปัจจัยเชิงพื้นที่และเวลาหลายอย่างในนิวเคลียส เช่นสถานะโครมาติน โดยรวมหรือเฉพาะที่ ตำแหน่งของนิว คลีโอ โซม การจับของ TF กิจกรรมของตัวเร่ง/ตัวส่งเสริม ตัวแปรที่เปลี่ยนแปลงการทำงานของกระบวนการทางชีวภาพเหล่านี้อาจเปลี่ยนแปลงการควบคุมยีนและทำให้เกิดความผิดปกติทางฟีโนไทป์^{[ 13 ]}ตัวแปรทางพันธุกรรมที่อยู่ในบริเวณควบคุมระยะไกลสามารถส่งผลต่อรูปแบบการจับของ TF ตัวควบคุมโครมาติน และปัจจัยการถอดรหัสระยะไกลอื่นๆ ซึ่งรบกวนปฏิสัมพันธ์ระหว่างตัวเร่ง/ตัวยับยั้งและยีนเป้าหมาย^{[ 14 ]}

การตัดต่อทางเลือก

การสลับการต่อเชื่อม (Alternative splicing)เป็นหนึ่งในองค์ประกอบที่สำคัญที่สุดที่แสดงให้เห็นถึงความซับซ้อนในการทำงานของจีโนม การต่อเชื่อมที่เปลี่ยนแปลงไปมีผลอย่างมากต่อฟีโนไทป์ที่เกี่ยวข้องกับโรคหรือการเผาผลาญยาการเปลี่ยนแปลงในการต่อเชื่อมอาจเกิดจากการดัดแปลงองค์ประกอบใดๆ ของกลไกการต่อเชื่อม เช่น ตำแหน่งการต่อเชื่อม หรือตัวเร่งการต่อเชื่อม หรือตัวยับยั้งการต่อเชื่อม^{[ 15 ]}การดัดแปลงในตำแหน่งการต่อเชื่อมแบบทางเลือกอาจนำไปสู่รูปแบบโปรตีนที่แตกต่างกัน ซึ่งจะแสดงการทำงานที่แตกต่างกัน มนุษย์ใช้โปรตีนที่แตกต่างกันประมาณ 100,000 ชนิดหรือมากกว่านั้น ดังนั้นยีนบางตัวจึงต้องสามารถเข้ารหัสโปรตีนได้มากกว่าหนึ่งชนิด การต่อเชื่อมแบบทางเลือกเกิดขึ้นบ่อยกว่าที่เคยคิดไว้และอาจควบคุมได้ยาก ยีนอาจสร้างทรานสคริปต์ที่แตกต่างกันหลายหมื่นรายการ ซึ่งจำเป็นต้องมีแบบจำลองยีนใหม่สำหรับการต่อเชื่อมแบบทางเลือกแต่ละครั้ง

กระบวนการประมวลผล RNA และการควบคุมหลังการถอดรหัส

การกลายพันธุ์ในบริเวณที่ไม่ถูกแปล (UTR) ส่งผลต่อการควบคุมหลังการถอดรหัส หลายอย่าง ลักษณะโครงสร้างที่แตกต่างกันเป็นสิ่งจำเป็นสำหรับโมเลกุล RNA หลายชนิดและองค์ประกอบควบคุมแบบซิสแอคติ้งเพื่อดำเนินการฟังก์ชันที่มีประสิทธิภาพในระหว่างการควบคุมยีน SNV สามารถเปลี่ยนแปลงโครงสร้างทุติยภูมิของโมเลกุล RNA และจากนั้นขัดขวางการพับตัวที่เหมาะสมของ RNA เช่น การพับตัวของ tRNA/mRNA/lncRNA และบริเวณการรับรู้การจับของ miRNA ^{[ 16 ]}

การแปลและการแก้ไขหลังการแปล

ตัวแปรนิวคลีโอไทด์เดี่ยวยังสามารถส่งผลต่อองค์ประกอบควบคุมแบบซิสแอคติ้งใน mRNA เพื่อยับยั้ง/ส่งเสริมการเริ่มต้นการแปล การเปลี่ยนแปลงในบริเวณโคดอนที่เหมือนกันเนื่องจากการกลายพันธุ์อาจส่งผลต่อประสิทธิภาพการแปลเนื่องจากความลำเอียงในการใช้โคดอน การยืดตัวของการแปลยังสามารถชะลอลงได้ด้วยการกลายพันธุ์ตามทางลาดของการเคลื่อนที่ของไรโบโซม ในระดับหลังการแปล ตัวแปรทางพันธุกรรมสามารถมีส่วนช่วยในการรักษาสมดุลของโปรตีนและการดัดแปลงกรดอะมิโน อย่างไรก็ตาม กลไกของผลกระทบของตัวแปรในด้านนี้มีความซับซ้อน และมีเครื่องมือเพียงไม่กี่อย่างที่สามารถใช้ในการทำนายผลกระทบของตัวแปรต่อการดัดแปลงที่เกี่ยวข้องกับการแปล^{[ 8 ]}

หน้าที่ของโปรตีน

การกลายพันธุ์แบบไม่ทำให้เกิดการเปลี่ยนแปลงของกรดอะมิโน (Non-synonymous variant) คือการกลายพันธุ์ในเอ็กซอนที่เปลี่ยนแปลงลำดับกรดอะมิโนที่เข้ารหัสโดยยีน รวมถึงการเปลี่ยนแปลงเบสเดี่ยวและการแทรก/ลบที่ไม่ทำให้เกิดการเลื่อนเฟรม (non frameshift indels) มีการศึกษาหน้าที่ของการกลายพันธุ์แบบไม่ทำให้เกิดการเปลี่ยนแปลงของกรดอะมิโนในโปรตีนอย่างละเอียด และมีการพัฒนาอัลกอริทึมมากมายเพื่อทำนายความเป็นอันตรายและพยาธิกำเนิดของการกลายพันธุ์แบบนิวคลีโอไทด์เดี่ยว (SNVs) เครื่องมือชีวสารสนเทศแบบคลาสสิก เช่น SIFT, Polyphen และMutationTasterสามารถทำนายผลการทำงานของการแทนที่แบบไม่ทำให้เกิดการเปลี่ยนแปลงของกรดอะมิโนได้อย่าง แม่นยำ ^{[ 17 ]}^{[ 18 ]}^{[ 19 ]}^{[ 20 ]}เว็บเซิร์ฟเวอร์ PopViz ให้แนวทางที่เน้นยีนเป็นศูนย์กลางในการแสดงภาพคะแนนการทำนายความเสียหายจากการกลายพันธุ์ (CADD, SIFT, PolyPhen-2) หรือพันธุศาสตร์ประชากร (ความถี่ของอัลลีลรอง) เทียบกับตำแหน่งกรดอะมิโนของการกลายพันธุ์ที่เข้ารหัสทั้งหมดของยีนมนุษย์บางชนิด^{[ 21 ]} PopViz ยังเชื่อมโยงกับฐานข้อมูล UniProt ซึ่ง สามารถค้นหาข้อมูล โดเมนโปรตีนได้ จากนั้นจึงระบุตัวแปรที่เป็นอันตรายที่คาดการณ์ไว้ซึ่งตกอยู่ในโดเมนโปรตีนเหล่านี้บนแผนภาพ PopViz ^{[ 21 ]}

การอนุรักษ์เชิงวิวัฒนาการและการคัดเลือกโดยธรรมชาติ

มีการใช้แนวทาง จีโนมิกส์เชิงเปรียบเทียบเพื่อทำนายตัวแปรที่เกี่ยวข้องกับหน้าที่ภายใต้สมมติฐานที่ว่าตำแหน่งทางพันธุกรรมที่ทำหน้าที่ควรได้รับการอนุรักษ์ไว้ในสปีชีส์ต่างๆ ในระยะวิวัฒนาการที่กว้างขวาง ในทางกลับกัน ลักษณะการปรับตัวบางอย่างและความแตกต่างของประชากรถูกขับเคลื่อนโดยการคัดเลือกเชิงบวกของตัวแปรที่เป็นประโยชน์ และการกลายพันธุ์ทางพันธุกรรมเหล่านี้มีความเกี่ยวข้องกับการทำหน้าที่ของฟีโนไทป์เฉพาะของประชากร การทำนายหน้าที่ของผลกระทบของตัวแปรในกระบวนการทางชีววิทยาต่างๆ เป็นสิ่งสำคัญในการระบุกลไกโมเลกุลของโรค/ลักษณะต่างๆ และชี้นำการตรวจสอบเชิงทดลอง^{[ 8 ]}

รายชื่อเครื่องมือสำหรับการระบุ SNP ที่มีอยู่

เพื่อการระบุตำแหน่ง SNP จำนวนมหาศาลที่มีอยู่ในปัจจุบัน มีเครื่องมือระบุตำแหน่ง SNP จำนวนมากให้เลือกใช้ บางเครื่องมือมีความเฉพาะเจาะจงกับ SNP บางชนิด ในขณะที่บางเครื่องมือมีความทั่วไปมากกว่า เครื่องมือระบุตำแหน่ง SNP ที่มีอยู่บางส่วน ได้แก่ SNPeff, Ensembl Variant Effect Predictor (VEP), ANNOVAR, FATHMM, PhD-SNP, PolyPhen-2, SuSPect, F-SNP, AnnTools, SeattleSeq, SNPit, SCAN, Snap, SNPs&GO, LS-SNP, Snat, TREAT, TRAMS, Maviant, MutationTaster , SNPdat, Snpranker, NGS – SNP, SVA, VARIANT, SIFT, LIST-S2, PhD-SNP และ FAST-SNP ฟังก์ชันและวิธีการที่ใช้ในเครื่องมือระบุตำแหน่ง SNP เหล่านี้แสดงไว้ด้านล่าง

เครื่องมือ	คำอธิบาย	แหล่งข้อมูลภายนอกใช้	URL ของเว็บไซต์	เอกสารอ้างอิง
ไฟร์ริสก์	เชื่อมโยงความแปรผันทางพันธุกรรมเข้ากับโครงสร้างโปรตีนที่ได้จากการทดลองและการคาดการณ์	ตัวทำนายผลกระทบของตัวแปร , UniProt , Protein Data Bank , SIFTS , Phyre2สำหรับโครงสร้างที่ทำนายไว้	http://phyrerisk.bc.ic.ac.uk/home	^{[ 22 ]}
มิสเซนส์3ดี	รายงานผลกระทบเชิงโครงสร้างของการกลายพันธุ์แบบมิสเซนส์ต่อพิกัดโปรตีนในฐานข้อมูล PDB และที่ผู้ใช้ป้อนเข้ามา พัฒนาขึ้นเพื่อให้สามารถนำไปใช้กับโครงสร้างโปรตีนที่ได้จากการทดลองและการทำนาย	ฐานข้อมูลโปรตีน (Protein Data Bank)และPhyre2สำหรับโครงสร้างที่คาดการณ์ไว้	http://www.sbg.bio.ic.ac.uk/~missense3d/	^{[ 23 ]}
เอสเอ็นพีเอฟ	SnpEff ระบุตำแหน่งของตัวแปรทางพันธุกรรมและทำนายผลกระทบต่อรหัสพันธุกรรม โดยใช้แนวทางแบบ Interval Forest	ENSEMBL, UCSC และฐานข้อมูลที่ใช้สิ่งมีชีวิตเป็นฐาน เช่น FlyBase, WormBase และ TAIR	https://snpeff.sourceforge.net/SnpEff_manual.html	^{[ 24 ]}
วงดนตรี VEP	ตรวจสอบผลกระทบของความแปรผัน (SNP, การแทรก, การลบ, CNV หรือความแปรผันเชิงโครงสร้าง) ต่อยีน, สารถอดรหัส, โปรตีน และบริเวณควบคุม	dbSNP, RefSeq, UniProt, COSMIC, PDBe, 1000 Genomes, gnomAD, PubMed	[1] ^{[ 25 ]}	^{[ 26 ]}
แอนโนวาร์	เครื่องมือนี้เหมาะสำหรับการระบุกลุ่มย่อยเล็กๆ ของตัวแปรที่มีความสำคัญต่อการทำงาน โดยใช้วิธีการทำนายการกลายพันธุ์ในการระบุลักษณะ	UCSC, RefSeq และ Ensembl	http://annovar.openbioinformatics.org/	^{[ 27 ]}
จันโนวาร์	นี่คือเครื่องมือและคลังข้อมูลสำหรับการระบุตำแหน่งยีนในจีโนม	RefSeq, Ensembl, UCSC เป็นต้น	https://github.com/charite/jannovar	^{[ 28 ]}
ปริญญาเอก-เอสเอ็นพี	วิธีการที่ใช้ SVM โดยใช้ข้อมูลลำดับที่ได้จากอัลกอริทึม BLAST	ยูนิเรฟ90	http://snps.biofold.org/phd-snp/	^{[ 29 ]}
โพลีฟีน-2	เหมาะสำหรับการทำนายผลเสียที่เกิดจากการกลายพันธุ์แบบมิสเซนส์ โดยใช้การอนุรักษ์ลำดับ โครงสร้างเพื่อสร้างแบบจำลองตำแหน่งการแทนที่กรดอะมิโน และคำอธิบายประกอบจาก SWISS-PROT	ยูนิโปรท	http://genetics.bwh.harvard.edu/pph2/	^{[ 30 ]}
มิวเทชั่นเทสเตอร์	เหมาะสำหรับการทำนายผลกระทบที่เป็นอันตรายของการกลายพันธุ์ภายในยีนทั้งหมด (ระดับ DNA และโปรตีน) รวมถึง InDels ด้วย	ชุด, โครงการ 1,000 จีโนม, ExAC, UniProt, ClinVar, phyloP, pastCons, nnsplice, polyadq (...)	http://www.mutationtaster.org/	^{[ 20 ]}
สงสัย	ตัวทำนายที่ฝึกฝนด้วย SVM สำหรับผลกระทบที่เป็นอันตรายของการกลายพันธุ์แบบมิสเซนส์ ใช้ข้อมูลการอนุรักษ์ลำดับ โครงสร้าง และเครือข่าย (อินเตอร์แอคโตม) เพื่อสร้างแบบจำลองผลกระทบทางฟีโนไทป์ของการแทนที่กรดอะมิโน รองรับไฟล์ VCF	UniProt, PDB, Phyre2สำหรับการทำนายโครงสร้าง และ DOMINE กับ STRING สำหรับข้อมูลปฏิสัมพันธ์ของโปรตีน	http://www.sbg.bio.ic.ac.uk/suspect/index.html	^{[ 31 ]}
เอฟ-เอสเอ็นพี	ทำนาย SNP ที่มีผลต่อการทำงานโดยใช้การคำนวณ เพื่อใช้ในการศึกษาความสัมพันธ์ของโรค	PolyPhen, SIFT, SNPeffect, SNPs3D, LS-SNP, ESEfinder, RescueESE, ESRSearch, PESX, Ensembl, TFSearch, Consite, GoldenPath, Ensembl, KinasePhos, OGPET, Sulfinator, GoldenPath	http://compbio.cs.queensu.ca/F-SNP/ เก็บถาวรเมื่อ 2017-06-16 ที่Wayback Machine	^{[ 32 ]}
แอนทูลส์	ออกแบบมาเพื่อระบุ SNP/SNV, INDEL และ SV/CNV ใหม่ๆ AnnTools ค้นหาส่วนที่ทับซ้อนกับองค์ประกอบควบคุม ตำแหน่งที่เกี่ยวข้องกับโรค/ลักษณะเฉพาะ การทำซ้ำส่วนที่รู้จัก และบริเวณที่มีแนวโน้มเกิดสิ่งแปลกปลอม	dbSNP, UCSC, GATK refGene, GAD, รายชื่อที่เผยแพร่แล้วของความแปรผันทางโครงสร้างจีโนมทั่วไป, ฐานข้อมูลความแปรผันทางจีโนม, รายชื่อ TFB ที่ได้รับการอนุรักษ์, miRNA	https://anntools.sourceforge.net/	^{[ 33 ]}
เอสเอ็นพีอิท	วิเคราะห์ความสำคัญเชิงหน้าที่ที่เป็นไปได้ของ SNP ที่ได้จากการศึกษาความสัมพันธ์ทั่วทั้งจีโนม	dbSNP, EntrezGene, UCSC Browser, HGMD, ECR Browser, Haplotter, SIFT	-/-	^{[ 3 ]}
สแกน	ใช้การระบุลักษณะทางกายภาพและหน้าที่การทำงานเพื่อจัดหมวดหมู่ตามตำแหน่งที่สัมพันธ์กับยีน และตามรูปแบบภาวะไม่สมดุลของการเชื่อมโยง (LD) และผลกระทบต่อระดับการแสดงออก	-/-	http://www.scandb.org/newinterface/about.html เก็บถาวรเมื่อ 2017-06-22 ที่Wayback Machine	^{[ 34 ]}
สแนป	วิธีการที่ใช้โครงข่ายประสาทเทียมในการทำนายผลกระทบเชิงหน้าที่ของ SNP ที่ไม่ใช่แบบเดียวกัน	Ensembl, UCSC, Uniprot, UniProt, Pfam, DAS-CBS, MINT, BIND, KEGG, TreeFam	http://www.rostlab.org/services/SNAP	^{[ 35 ]}
SNPs&GO	วิธีการที่ใช้ SVM โดยใช้ข้อมูลลำดับดีเอ็นเอ คำอธิบายประกอบ Gene Ontology และโครงสร้างโปรตีน (ถ้ามี)	UniRef90, GO, PANTHER, PDB	http://snps.biofold.org/snps-and-go/	^{[ 36 ]}
LS-SNP	เชื่อมโยง nsSNP เข้ากับลำดับโปรตีน วิถีการทำงาน และแบบจำลองโครงสร้างโปรตีนเชิงเปรียบเทียบ	UniProtKB, Genome Browser, dbSNP, PD	http://www.salilab.org/LS-SNP	^{[ 37 ]}
รักษา	TREAT เป็นเครื่องมือสำหรับการนำทางและการค้นหาความแปรผันทางพันธุกรรมได้อย่างง่ายดาย ทั้งจากการจัดลำดับดีเอ็นเอแบบกำหนดเป้าหมายและการจัดลำดับเอ็กโซมทั้งหมด	-/-	http://ndc.mayo.edu/mayo/research/biostat/stand-alone-packages.cfm	^{[ 38 ]}
เอสเอ็นพีดีท	เหมาะสำหรับข้อมูลที่ไม่จำเพาะเจาะจงสายพันธุ์ หรือรองรับข้อมูลจากสิ่งมีชีวิตที่ไม่ใช่แบบจำลอง SNPdat ไม่จำเป็นต้องสร้างฐานข้อมูลเชิงสัมพันธ์ในเครื่อง หรือประมวลผลไฟล์ข้อมูลเข้าใดๆ ล่วงหน้า	-/-	https://code.google.com/p/snpdat/downloads/	^{[ 39 ]}
NGS – SNP	ระบุ SNP โดยเปรียบเทียบกรดอะมิโนอ้างอิงและกรดอะมิโนที่ไม่ใช่อ้างอิงกับออร์โธล็อกแต่ละตัว	Ensembl, NCBI และ UniProt	http://stothard.afns.ualberta.ca/downloads/NGS-SNP/	^{[ 40 ]}
เอสวีเอ	หน้าที่ทางชีวภาพที่คาดการณ์ไว้ของตัวแปรที่ระบุ	ฐานข้อมูลต่างๆ เช่น NCBI RefSeq, Ensembl, ฐานข้อมูลความแปรผันทางพันธุกรรม, UCSC, HGNC, GO, KEGG, HapMap, 1000 Genomes Project และ DG	http://www.svaproject.org/	^{[ 41 ]}
ตัวแปร	VARIANT ขยายขอบเขตข้อมูลออกไปนอกบริเวณรหัสพันธุกรรม โดยรวมข้อมูลที่มีอยู่ทั้งหมดเกี่ยวกับการควบคุม โครงสร้าง DNA การอนุรักษ์ แรงกดดันทางวิวัฒนาการ ฯลฯ ตัวแปรควบคุมถือเป็นสาเหตุของโรคที่ได้รับการยอมรับ แต่ยังไม่ได้รับการสำรวจอย่างครบถ้วน	dbSNP, 1000 genomes, ตัวแปรที่เกี่ยวข้องกับโรคจาก GWAS, OMIM, COSMIC	http://variant.bioinfo.cipf.es/ เก็บถาวรเมื่อ 2017-05-20 ที่Wayback Machine	^{[ 42 ]}
ซิฟท์	SIFT เป็นโปรแกรมที่ใช้ทำนายว่าการเปลี่ยนแปลงกรดอะมิโนจะมีผลต่อการทำงานของโปรตีนหรือไม่ SIFT ใช้หลักความคล้ายคลึงของลำดับ (sequence homology) ในการทำนายว่าการเปลี่ยนแปลงกรดอะมิโนจะส่งผลต่อการทำงานของโปรตีนหรือไม่	PROT/TrEMBL หรือ NCBI	http://blocks.fhcrc.org/sift/SIFT.html ลิงก์นี้ถูกยกเลิกแล้วและถูกเก็บถาวรเมื่อวันที่ 8 กรกฎาคม 2013 ที่archive.today	^{[ 43 ]}
ลิสต์-เอส2	LIST-S2 (Local Identity and Shared Taxa, Species-specific) ตั้งอยู่บนสมมติฐานที่ว่า ความแปรผันที่สังเกตได้ในสายพันธุ์ที่ใกล้เคียงกันนั้นมีความสำคัญมากกว่าเมื่อประเมินการอนุรักษ์ เมื่อเทียบกับความแปรผันในสายพันธุ์ที่อยู่ห่างไกลกัน	UniProt, SwissProt/TrEMBL และ NCBI Taxonomy	https://gsponerlab.msl.ubc.ca/software/list/	^{[ 44 ]}^{[ 45 ]}
ฟาสต์-เอสเอ็นพี	เว็บเซิร์ฟเวอร์ที่ช่วยให้ผู้ใช้สามารถระบุและจัดลำดับความสำคัญของ SNP ที่มีความเสี่ยงสูงได้อย่างมีประสิทธิภาพ โดยพิจารณาจากความเสี่ยงทางฟีโนไทป์และผลกระทบเชิงหน้าที่ที่คาดการณ์ได้	NCBI dbSNP, Ensembl, TFSearch, PolyPhen, ESEfinder, RescueESE, FAS-ESS, SwissProt, UCSC Golden Path, NCBI Blast และ HapMap	http://fastsnp.ibms.sinica.edu.tw/ ลิงก์นี้ถูกยกเลิกแล้วและถูกเก็บถาวรเมื่อวันที่ 10 สิงหาคม 2014 ที่archive.today	^{[ 46 ]}
เสือดำ	โครงการ PANTHER เชื่อมโยงวิวัฒนาการของลำดับโปรตีนเข้ากับวิวัฒนาการของหน้าที่และบทบาททางชีวภาพของโปรตีนเฉพาะ โดยใช้แหล่งข้อมูลลำดับโปรตีนที่ใช้ในการสร้างแผนผังตระกูลโปรตีน และใช้ขั้นตอนการตรวจสอบและคัดกรองด้วยตนเองโดยใช้คอมพิวเตอร์ช่วย เพื่อกำหนดกลุ่มตระกูลโปรตีนให้ชัดเจนยิ่งขึ้น	STKE, KEGG, MetaCyc, FREX และ Reactome	http://www.pantherdb.org/	^{[ 47 ]}
เมตา-เอสเอ็นพี	ตัวทำนายแบบเมตาที่ใช้ SVM ซึ่งประกอบด้วย 4 วิธีที่แตกต่างกัน	PhD-SNP, PANTHER, SIFT, SNAP	http://snps.biofold.org/meta-snp	^{[ 48 ]}
ป๊อปวิซ	การแสดงผลแบบบูรณาการและโต้ตอบโดยเน้นยีนเป็นศูนย์กลาง สำหรับพันธุศาสตร์ประชากรและคะแนนการทำนายความเสียหายจากการกลายพันธุ์ของยีนในมนุษย์	gnomAD, Ensembl, UniProt, OMIM, UCSC, CADD, EIGEN, LINSIGHT, SIFT, PolyPhen-2,	[2] ^{[ 49 ]}	^{[ 21 ]}

อัลกอริทึมที่ใช้ในเครื่องมือการระบุคำอธิบายประกอบ

เครื่องมือวิเคราะห์ความแปรผันทางพันธุกรรมใช้ขั้นตอนวิธีเรียนรู้ของเครื่องเพื่อทำนายคำอธิบายประกอบความแปรผัน เครื่องมือวิเคราะห์แต่ละชนิดใช้ขั้นตอนวิธีที่แตกต่างกันไป ขั้นตอนวิธีที่ใช้กันทั่วไป ได้แก่:

การวิเคราะห์แบบ Interval/Random forest เช่น MutPred, SNPeff
โครงข่ายประสาทเทียม - เช่น SNAP
เครื่องมือสนับสนุนเวกเตอร์ (Support Vector Machines) - เช่น PhD-SNP, SNPs&GO
การจำแนกประเภทแบบเบย์เซียน เช่น PolyPhen-2

การเปรียบเทียบเครื่องมือการระบุลักษณะตัวแปร

มีเครื่องมือสำหรับการระบุลักษณะทางพันธุกรรมที่แตกต่างกันอยู่มากมาย อย่างไรก็ตาม ผลลัพธ์จากการระบุลักษณะทางพันธุกรรมด้วยเครื่องมือต่างๆ อาจไม่ตรงกันเสมอไป เนื่องจากกฎเกณฑ์ในการจัดการข้อมูลแตกต่างกันไปในแต่ละแอปพลิเคชัน กล่าวได้ว่า เป็นไปไม่ได้เลยที่จะทำการเปรียบเทียบเครื่องมือที่มีอยู่ทั้งหมดอย่างสมบูรณ์แบบ เพราะเครื่องมือแต่ละตัวมีข้อมูลนำเข้าและข้อมูลส่งออกไม่เหมือนกัน รวมถึงฟังก์ชันการทำงานด้วย ตารางด้านล่างนี้แสดงเครื่องมือระบุลักษณะทางพันธุกรรมที่สำคัญและขอบเขตการทำงานของแต่ละเครื่องมือ

เครื่องมือ	ไฟล์อินพุต	ไฟล์เอาต์พุต	เอสเอ็นพี	อินเดล	ซีเอ็นวี	เว็บหรือโปรแกรม	แหล่งที่มา
แอนโนวาร์	VCF, อุบัติเหตุรถชนกันหลายคัน, CompleteGenomics, GFF3-SOLiD, SOAPsnp, MAQ, CASAVA	TXT	ใช่	ใช่	ใช่	โปรแกรม	^{[ 27 ]}
จันโนวาร์	วีซีเอฟ	วีซีเอฟ	ใช่	ใช่	ใช่	โปรแกรมจาวา	^{[ 50 ]}
เอสเอ็นพีเอฟ	VCF, กองซ้อน/TXT	VCF, TXT, HTML	ใช่	ใช่	เลขที่	โปรแกรม	^{[ 24 ]}
วงดนตรี VEP	ค่าเริ่มต้นของ Ensembl (พิกัด), VCF, ตัวระบุตัวแปร, HGVS, SPDI, ภูมิภาคแบบ REST	VCF, VEP, TXT, JSON	ใช่	ใช่	ใช่	เว็บ, สคริปต์ Perl, REST API	^{[ 26 ]}
แอนทูลส์	VCF, กองซ้อน, TXT	วีซีเอฟ	ใช่	ใช่	เลขที่	เลขที่	^{[ 33 ]}
ซีแอตเทิลซีค	วีวีซีเอฟ, เอ็มเอคิว, คาซาวา, เตียง GATK	VCF, SeattleSeq	ใช่	ใช่	เลขที่	เว็บ	^{[ 51 ]}
ตัวแปร	VCF, GFF2, BED	รายงานเว็บ, TXT	ใช่	ใช่	ใช่	เว็บ	^{[ 42 ]}

^{[ 52 ]}

แอปพลิเคชัน

คำอธิบายประกอบที่แตกต่างกันจะบันทึกแง่มุมที่หลากหลายของฟังก์ชันตัวแปร^{[ 53 ]}การใช้คำอธิบายประกอบเชิงฟังก์ชันที่หลากหลายพร้อมกันสามารถปรับปรุงพลังการวิเคราะห์ความสัมพันธ์ของตัวแปรหายาก ของ การศึกษา ลำดับ เอ็กโซมทั้งหมดและจีโนมทั้งหมด ได้ ^{[ 54 ]}มีการพัฒนาเครื่องมือบางอย่างเพื่อให้สามารถวิเคราะห์ความสัมพันธ์ระหว่างฟีโนไทป์และจีโนไทป์ที่ได้รับข้อมูลเชิงฟังก์ชันสำหรับตัวแปรทั่วไปและตัวแปรหายากโดยการรวมคำอธิบายประกอบเชิงฟังก์ชันในกลุ่มตัวอย่างขนาดธนาคารชีวภาพ^{[ 55 ]}^{[ 56 ]}^{[ 57 ]}^{[ 58 ]}

ข้อสรุป

เว็บเซิร์ฟเวอร์การระบุ SNP รุ่นต่อไปสามารถใช้ประโยชน์จากข้อมูลจำนวนมากที่เพิ่มขึ้นในแหล่งข้อมูลชีวสารสนเทศหลัก และใช้เอเจนต์อัจฉริยะเพื่อดึงข้อมูลจากแหล่งต่างๆ ตามความจำเป็น จากมุมมองของผู้ใช้ การส่งชุด SNP และรับผลลัพธ์ในขั้นตอนเดียวจะมีประสิทธิภาพมากกว่า ทำให้เมตาเซิร์ฟเวอร์เป็นตัวเลือกที่น่าสนใจที่สุด^{[ 59 ]}อย่างไรก็ตาม หากเครื่องมือการระบุ SNP ส่งมอบข้อมูลที่หลากหลายครอบคลุมลำดับ โครงสร้าง การควบคุม เส้นทาง ฯลฯ พวกมันจะต้องจัดเตรียมกรอบการทำงานสำหรับการบูรณาการข้อมูลเข้ากับอัลกอริธึมการตัดสินใจ และมาตรวัดความเชื่อมั่นเชิงปริมาณ เพื่อให้ผู้ใช้สามารถประเมินได้ว่าข้อมูลใดมีความเกี่ยวข้องและข้อมูลใดไม่เกี่ยวข้อง^{[ 59 ]}

[

[ 2 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

คำอธิบายประกอบ SNP

การแนะนำ

คำอธิบายประกอบ SNP

การระบุข้อมูลตามยีน

การใส่คำอธิบายประกอบตามความรู้

การระบุหน้าที่การทำงาน

การควบคุมการถอดรหัสยีน

การตัดต่อทางเลือก

กระบวนการประมวลผล RNA และการควบคุมหลังการถอดรหัส

การแปลและการแก้ไขหลังการแปล

หน้าที่ของโปรตีน

การอนุรักษ์เชิงวิวัฒนาการและการคัดเลือกโดยธรรมชาติ

รายชื่อเครื่องมือสำหรับการระบุ SNP ที่มีอยู่

อัลกอริทึมที่ใช้ในเครื่องมือการระบุคำอธิบายประกอบ

การเปรียบเทียบเครื่องมือการระบุลักษณะตัวแปร

แอปพลิเคชัน

ข้อสรุป

ข้อมูลสำคัญจากบทความ