อ่าน 3 นาที
เคอร์เนลสตริง
อัลกอริทึมบนสตริง/Kernel methods for machine learning/การประมวลผลภาษาธรรมชาติ/String metrics
ในแมชชีนเลิร์นนิงและการทำเหมืองข้อมูลสตริงเคอร์เนลคือฟังก์ชันเคอร์เนลที่ทำงานกับสตริงซึ่งก็คือลำดับของสัญลักษณ์ที่มีความยาวไม่จำกัดและไม่จำเป็นต้องเท่ากัน...
เคอร์เนลสตริง
ในแมชชีนเลิร์นนิงและการทำเหมืองข้อมูลสตริงเคอร์เนลคือฟังก์ชันเคอร์เนลที่ทำงานกับสตริงซึ่งก็คือลำดับของสัญลักษณ์ที่มีความยาวไม่จำกัดและไม่จำเป็นต้องเท่ากัน สามารถเข้าใจสตริงเคอร์เนลได้ง่ายๆ ว่าเป็นฟังก์ชันที่วัดความคล้ายคลึงกันของสตริงสองคู่: ยิ่งสตริงaและb คล้ายคลึงกันมาก เท่าใด ค่าของสตริงเคอร์เนลK ( a , b ) ก็จะ ยิ่งสูงขึ้นเท่านั้น
การใช้เคอร์เนลสตริงกับ อัลกอริ ธึมการเรียนรู้แบบเคอร์เนลเช่นเครื่องเวกเตอร์สนับสนุนช่วยให้อัลกอริธึมเหล่านี้ทำงานกับสตริงได้โดยไม่ต้องแปลงสตริงเหล่านั้นเป็นเวกเตอร์คุณลักษณะค่าจริงที่มีความยาวคงที่[ 1 ]เคอร์เนลสตริงถูกใช้ในโดเมนที่ต้องการจัดกลุ่มหรือจำแนก ข้อมูลลำดับ เช่น ในการทำเหมืองข้อความและการวิเคราะห์ยีน[ 2 ]
การแนะนำตัวอย่างไม่เป็นทางการ
สมมติว่าต้องการเปรียบเทียบข้อความบางส่วนโดยอัตโนมัติและระบุความคล้ายคลึงกัน สำหรับแอปพลิเคชันจำนวนมาก การค้นหาคำหลักที่ตรงกันทุกประการอาจเพียงพอแล้ว ตัวอย่างหนึ่งที่การจับคู่ที่ตรงกันทุกประการอาจไม่เพียงพอเสมอไปคือการตรวจจับสแปม [ 3 ] อีก ตัวอย่างหนึ่งคือการวิเคราะห์ยีนเชิงคำนวณ ซึ่งยีนที่เหมือนกัน มีการกลายพันธุ์ส่งผลให้มีลำดับย่อยทั่วไปพร้อมกับสัญลักษณ์ที่ถูกลบ แทรก หรือแทนที่
แรงจูงใจ
เนื่องจากวิธีการจัดกลุ่มข้อมูล การจำแนกประเภท และการดึงข้อมูลที่มีประสิทธิภาพหลายวิธี (เช่น เครื่องสนับสนุนเวกเตอร์) ถูกออกแบบมาให้ทำงานกับเวกเตอร์ (กล่าวคือ ข้อมูลเป็นองค์ประกอบของปริภูมิเวกเตอร์) การใช้เคอร์เนลสตริงจึงช่วยให้สามารถขยายวิธีการเหล่านี้ไปจัดการกับข้อมูลลำดับได้
วิธีการเคอร์เนลสตริงจะแตกต่างจากวิธีการจัดประเภทข้อความแบบเดิมที่เวกเตอร์คุณลักษณะระบุเพียงการมีอยู่หรือไม่มีอยู่ของคำเท่านั้น ไม่เพียงแต่จะปรับปรุงวิธีการเหล่านี้ให้ดีขึ้นเท่านั้น แต่ยังเป็นตัวอย่างของเคอร์เนลประเภทหนึ่งที่ปรับให้เข้ากับโครงสร้างข้อมูล ซึ่งเริ่มปรากฏขึ้นในช่วงต้นศตวรรษที่ 21 การสำรวจวิธีการดังกล่าวได้รับการรวบรวมโดย Gärtner [ 4 ]
ในชีวสารสนเทศศาสตร์ มีการใช้เคอร์เนลสตริงโดยเฉพาะเพื่อแปลงลำดับทางชีวภาพ เช่น โปรตีนหรือ DNA ให้เป็นเวกเตอร์เพื่อใช้ในโมเดลการเรียนรู้ของเครื่องต่อไป ตัวอย่างของเคอร์เนลสตริงที่ใช้เพื่อจุดประสงค์ดังกล่าวคือเคอร์เนลโปรไฟล์[ 5 ]
คำนิยาม
เคอร์เนลบนโดเมนคือฟังก์ชัน ที่ตรงตามเงื่อนไขบางประการ ( สมมาตรในตัวแปรต่อเนื่องและเป็นบวกกึ่งกำหนดในแง่ใดแง่หนึ่ง)
ทฤษฎีบทของเมอร์เซอร์กล่าวว่าสามารถแสดงได้โดยการ แม ป อาร์กิวเมนต์ไปยังปริภูมิผลคูณภายใน
ขณะนี้เราสามารถสร้างคำจำกัดความของเคอร์เนลลำดับย่อยสตริง[ 1 ] บนสตริงเหนือตัวอักษรได้ แล้ว ในแง่ของพิกัด การแมปจะถูกกำหนดดังนี้:
ดัชนีหลายค่าเหล่านี้เป็นสตริงที่มีความยาว: ลำดับย่อยสามารถเกิดขึ้นได้ในลักษณะที่ไม่ต่อเนื่องกัน แต่ช่องว่างจะถูกหักคะแนน ดัชนีหลายค่าจะระบุตำแหน่งของอักขระที่ตรงกันในคือความแตกต่างระหว่างรายการแรกและรายการสุดท้ายในนั่นคือ ระยะห่างในลำดับย่อยที่ตรงกันพารามิเตอร์อาจถูกตั้งค่าเป็นค่าใดก็ได้ระหว่าง(ไม่อนุญาตให้มีช่องว่าง เนื่องจากไม่ใช่แต่เป็น) และ (แม้แต่ "การเกิดขึ้น" ที่แพร่หลายก็ได้รับการถ่วงน้ำหนักเช่นเดียวกับการปรากฏเป็นสตริงย่อยที่ต่อเนื่องกัน เช่น)
สำหรับอัลกอริธึมที่เกี่ยวข้องหลายตัว ข้อมูลจะเข้าสู่อัลกอริธึมเฉพาะในรูปแบบนิพจน์ที่เกี่ยวข้องกับผลคูณภายในของเวกเตอร์คุณลักษณะ ดังนั้นจึงเรียกว่าวิธีการเคอร์เนลผลลัพธ์ที่พึงประสงค์ของวิธีนี้คือไม่จำเป็นต้องคำนวณการแปลงอย่างชัดเจนเพียงแต่คำนวณผลคูณภายในผ่านเคอร์เนล ซึ่งอาจเร็วกว่ามาก โดยเฉพาะอย่างยิ่งเมื่อประมาณค่า[ 1 ]
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ เคอร์เนลสตริง
ในแมชชีนเลิร์นนิงและการทำเหมืองข้อมูลสตริงเคอร์เนลคือฟังก์ชันเคอร์เนลที่ทำงานกับสตริงซึ่งก็คือลำดับของสัญลักษณ์ที่มีความยาวไม่จำกัดและไม่จำเป็นต้องเท่ากัน...
การแนะนำตัวอย่างไม่เป็นทางการ
สมมติว่าต้องการเปรียบเทียบข้อความบางส่วนโดยอัตโนมัติและระบุความคล้ายคลึงกัน สำหรับแอปพลิเคชันจำนวนมาก การค้นหาคำหลักที่ตรงกันทุกประการอาจเพียงพอแล้ว ตัวอย่างหนึ่งที่การจับคู่ที่ตรงกันทุกประการอาจไม่เพียงพอเสมอไปคือ การตรวจจับสแปม [ 3 ] อีก...
แรงจูงใจ
เนื่องจากวิธีการจัดกลุ่มข้อมูล การจำแนกประเภท และการดึงข้อมูลที่มีประสิทธิภาพหลายวิธี (เช่น เครื่องสนับสนุนเวกเตอร์) ถูกออกแบบมาให้ทำงานกับเวกเตอร์ (กล่าวคือ ข้อมูลเป็นองค์ประกอบของปริภูมิเวกเตอร์)...
คำนิยาม
เคอร์เนลบนโดเมนคือฟังก์ชัน ที่ตรงตามเงื่อนไขบางประการ ( สมมาตร ในตัวแปร ต่อเนื่อง และ เป็น บวกกึ่งกำหนด ในแง่ใดแง่หนึ่ง) ดี {\displaystyle D} เค : ดี × ดี → อาร์ {\displaystyle K:D\times D\rightarrow \mathbb {R} }