การประมาณกระบวนการเกาส์เซียน

ในทางสถิติและการเรียนรู้ของเครื่องจักรการประมาณกระบวนการเกาส์เซียนเป็นวิธีการคำนวณที่ช่วยเร่งความเร็วงานอนุมานในบริบทของ แบบจำลอง กระบวนการเกาส์เซียนโดยส่วนใหญ่ จะเป็นการประเมิน ความน่าจะเป็นและการทำนาย เช่นเดียวกับการประมาณแบบจำลองอื่นๆ วิธีการเหล่านี้มักสามารถแสดงได้ในรูปของข้อสมมติเพิ่มเติมที่กำหนดให้กับแบบจำลอง ซึ่งไม่สอดคล้องกับคุณลักษณะใดๆ แต่ยังคงรักษาคุณสมบัติหลักไว้ในขณะที่ลดความซับซ้อนของการคำนวณ วิธีการประมาณเหล่านี้หลายวิธีสามารถแสดงได้ใน รูปของ พีชคณิตเชิงเส้นหรือ การวิเคราะห์ เชิงฟังก์ชันอย่างง่ายๆ ในรูปของการประมาณเมทริกซ์หรือฟังก์ชัน ส่วนวิธีอื่นๆ เป็นเพียงอัลกอริทึมและไม่สามารถเขียนใหม่เป็นการปรับเปลี่ยนแบบจำลองทางสถิติได้ง่ายๆ

แนวคิดพื้นฐาน

ในการสร้างแบบจำลองทางสถิติมักจะสะดวกที่จะสมมติว่าปรากฏการณ์ที่กำลังศึกษาเป็นกระบวนการเกาส์เซียน ที่มี ดัชนีเป็นซึ่งมีฟังก์ชันค่าเฉลี่ยและฟังก์ชันความแปรปรวนร่วมนอกจากนี้ยังสามารถสมมติได้ว่า ข้อมูลเป็นค่าของการเกิดขึ้นจริงเฉพาะอย่างของกระบวนการนี้สำหรับดัชนีต่างๆ $y\in {\คณิตศาสตร์ {Y}}$ $X\in {\mathcal {X}}={\mathcal {X}}_{1}\times {\mathcal {X}}_{2}\dots {\mathcal {X}}_{d}$ $\mu :{\mathcal {X}}\rightarrow {\mathcal {Y}}$ $K:{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R}$ $\mathbf {y} =(y_{1},\dots ,y_{n})$ $\mathbf {X} =X_{1},\dots ,X_{n}$

ดังนั้น การแจกแจงร่วมของข้อมูลจึงสามารถแสดงได้ดังนี้

\mathbf {y} \sim {\mathcal {N}}(\mathbf {\mu } ,\mathbf {\Sigma } )

,

โดยที่และคือเมทริกซ์ที่มี ค่า ฟังก์ชันความแปรปรวนร่วมและเวกเตอร์ที่มีค่าฟังก์ชันค่าเฉลี่ย ณ ดัชนีที่สอดคล้องกัน (เป็นคู่ๆ) ตามลำดับ ดังนั้นค่าลบของลอการิทึมความน่าจะเป็นของข้อมูลจะมีรูปแบบดังนี้ $\mathbf {\Sigma } =\left[K(X_{i},X_{j})\right]_{i,j=1}^{n}$ $\mathbf {\mu } =\left(\mu (X_{1}),\mu (X_{2}),\dots ,\mu (X_{d})\right)^{\top }$

-\log \ell (\mathbf {y} )={\frac {d}{2\pi }}+{\frac {1}{2}}\log \det(\mathbf {\Sigma } )+\left(\mathbf {y} -\mathbf {\mu } \right)^{\top }\mathbf {\Sigma } ^{-1}\left(\mathbf {y} -\mathbf {\mu } \right)

ในทำนองเดียวกัน ตัวทำนายที่ดีที่สุดของค่าดัชนีเมื่อพิจารณาจากข้อมูลจะมีรูปแบบดังนี้ $\mathbf {y} ^{*}$ $y$ $\mathbf {X} ^{*}=\left(X_{1}^{*},X_{2}^{*},\dots ,X_{d}^{*}\right)$ $\mathbf {y}$

\mathbf {\mu } _{\mathbf {y} }^{*}=\mathbb {E} \left[\mathbf {y} ^{*}|\mathbf {y} \right]=\mathbf {\mu } ^{*}-\mathbf {\Sigma } _{\mathbf {y} ^{*}\mathbf {y} }\mathbf {\Sigma } ^{-1}\left(\mathbf {y} -\mathbf {\mu } \right)

ในบริบทของแบบจำลองเกาส์เซียน โดยเฉพาะในภูมิสถิติ การทำนายโดยใช้ตัวทำนายที่ดีที่สุด นั่นคือ ค่าเฉลี่ยโดยมีเงื่อนไขตามข้อมูล เรียกว่าคริกิง (kriging )

ส่วนประกอบที่ใช้การคำนวณมากที่สุดในสูตรการทำนายที่ดีที่สุดคือการหาเมท ริกซ์ผกผันของเมทริกซ์ความ แปรปรวน ร่วม ซึ่งมี ความซับซ้อนระดับลูกบาศก์ ในทำนอง เดียวกัน การประเมินความน่าจะเป็นเกี่ยวข้องกับการคำนวณทั้งค่าและดีเทอ ร์มิแน นต์ ซึ่งมีความซับซ้อนระดับลูกบาศก์เช่นเดียวกัน $\mathbf {\Sigma }$ ${\mathcal {O}}(n^{3})$ $\mathbf {\Sigma } ^{-1}$ $\det(\mathbf {\Sigma } )$

การประมาณค่ากระบวนการเกาส์เซียนมักสามารถแสดงได้ในรูปของสมมติฐานเกี่ยวกับค่าต่างๆซึ่งสามารถคำนวณได้ด้วยความซับซ้อนที่ต่ำกว่ามาก เนื่องจากโดยทั่วไปแล้วเชื่อกันว่าสมมติฐานเหล่านี้ไม่ได้สะท้อนความเป็นจริง ดังนั้นค่าความน่าจะเป็นและตัวทำนายที่ดีที่สุดที่ได้มาด้วยวิธีนี้จึงไม่แม่นยำ แต่ถือว่าใกล้เคียงกับค่าดั้งเดิม $y$ $\log \ell (\mathbf {y} )$ $\mathbf {\mu } _{\mathbf {y} }^{*}$

วิธีการตามแบบจำลอง

วิธีการประมาณค่าประเภทนี้แสดงออกมาผ่านชุดของสมมติฐานที่กำหนดไว้ในกระบวนการดั้งเดิม ซึ่งโดยทั่วไปแล้วจะบ่งบอกถึงโครงสร้างพิเศษบางอย่างของเมทริกซ์ความแปรปรวนร่วม แม้ว่าวิธีการเหล่านี้ส่วนใหญ่ได้รับการพัฒนาขึ้นอย่างอิสระ แต่ส่วนใหญ่สามารถแสดงออกมาในรูปของกรณีพิเศษของการประมาณค่าแบบเวคเคีย ทั่วไปแบบเบาบาง ได้

วิธีการความแปรปรวนร่วมแบบเบาบาง

วิธีการเหล่านี้ประมาณแบบจำลองที่แท้จริงในลักษณะที่เมทริกซ์ความแปรปรวนร่วมมีความเบาบาง โดยทั่วไปแล้ว แต่ละวิธีจะเสนออัลกอริทึมของตนเองที่ใช้ประโยชน์จากรูปแบบความเบาบางในเมทริกซ์ความแปรปรวนร่วมอย่างเต็มที่ สมาชิกที่โดดเด่นสองวิธีในกลุ่มนี้คือ การลดความแปรปรวนร่วมและการแบ่งส่วนโดเมน วิธีแรกโดยทั่วไปต้องการเมตริกเหนือและสมมติว่าสำหรับเราจะมีก็ต่อเมื่อสำหรับรัศมีบางค่าวิธีที่สองสมมติว่ามีอยู่เช่นนั้นจากนั้นด้วยการกระจายดัชนีที่เหมาะสมในหมู่องค์ประกอบการแบ่งส่วนและการเรียงลำดับองค์ประกอบของเมทริกซ์ความแปรปรวนร่วมจะเป็นเมทริกซ์บล็อกแนวทแยง $d$ ${\mathcal {X}}$ $X,{\tilde {X}}\in {\mathcal {X}}$ $Cov(y(X),y({\tilde {X}}))\neq 0$ $d(X,{\tilde {X}})<r$ $r$ ${\mathcal {X}}^{(1)},\dots ,{\mathcal {X}}^{(K)}$ $\bigcup _{k=1}^{K}{\mathcal {X}}^{(k)}$ $X$

วิธีการความแม่นยำแบบเบาบาง

วิธีการกลุ่มนี้ถือว่าเมทริกซ์ความแม่นยำเป็นเมทริกซ์เบาบาง และโดยทั่วไปจะระบุว่าองค์ประกอบใดบ้างที่ไม่เป็นศูนย์ ซึ่งนำไปสู่การผกผันที่รวดเร็ว เนื่องจากจำเป็นต้องคำนวณเฉพาะองค์ประกอบเหล่านั้นเท่านั้น วิธีการประมาณค่าที่โดดเด่นบางส่วนในหมวดหมู่นี้ ได้แก่ วิธีการที่อิงตามความเท่าเทียมกันระหว่างกระบวนการเกาส์เซียนที่มีฟังก์ชันความแปรปรวนร่วมของ Matern และสมการเชิงอนุพันธ์ย่อยเชิงสุ่ม การฝังตัวแบบเป็นคาบ และกระบวนการเกาส์เซียนเพื่อนบ้านที่ใกล้ที่สุด วิธีแรกใช้ได้กับกรณีที่และเมื่อมีเมตริกที่กำหนดไว้ และใช้ประโยชน์จากข้อเท็จจริงที่ว่าคุณสมบัติของ Markov เป็นจริง ซึ่งทำให้เมทริกซ์มีความเบาบางมาก วิธีที่สองขยายโดเมนและใช้การแปลงฟูริเยร์แบบไม่ต่อเนื่องเพื่อลดความสัมพันธ์ของข้อมูล ซึ่งส่งผลให้ได้เมทริกซ์ความแม่นยำแบบทแยงมุม วิธีที่สามต้องการเมตริกบนและใช้ประโยชน์จากสิ่งที่เรียกว่าเอฟเฟกต์การคัดกรอง โดยสมมติว่าเฉพาะเมื่อสำหรับบางค่า $\mathbf {\Lambda } =\mathbf {\Sigma } ^{-1}$ $d=2$ ${\mathcal {X}}$ $\mathbf {\Lambda }$ ${\mathcal {X}}$ $\mathbf {\Lambda } _{i,j}\neq 0$ $d(x_{i},x_{j})<r$ $r>0$

วิธีการแฟกเตอร์ Cholesky แบบเบาบาง

ในการใช้งานจริงหลายๆ ครั้ง การคำนวณค่า คงที่ Cholesky factor ของเมทริกซ์จะถูกแทนที่ด้วยการคำนวณเมทริกซ์ ก่อน แล้ว จึง คำนวณเมทริกซ์ผกผัน ซึ่งเป็นที่ทราบกันดีว่าวิธีนี้มีความเสถียรมากกว่าการหาเมทริกซ์ผกผันแบบธรรมดา ด้วยเหตุนี้ ผู้เขียนบางคนจึงมุ่งเน้นไปที่การสร้างการประมาณค่าแบบเบาบางของค่าคงที่ Cholesky factor ของเมทริกซ์ความแม่นยำหรือเมทริกซ์ความแปรปรวนร่วม หนึ่งในวิธีการที่ได้รับการยอมรับมากที่สุดในกลุ่มนี้คือการประมาณค่าแบบ Vecchiaและการขยายความของมัน วิธีการเหล่านี้จะกำหนดลำดับที่เหมาะสมที่สุดของดัชนี และด้วยเหตุนี้จึงกำหนดองค์ประกอบของเมทริกซ์ จากนั้นจึงสมมติโครงสร้างการพึ่งพาที่ลดการเติมค่าคงที่ Cholesky factor ให้เหลือน้อยที่สุด นอกจากนี้ยังมีวิธีการอื่นๆ อีกหลายวิธีที่สามารถแสดงได้ในกรอบงานนี้ เช่น การประมาณค่าแบบหลายความละเอียด (Multi-resolution Approximation: MRA) กระบวนการเกาส์เซียนเพื่อนบ้านที่ใกล้ที่สุด กระบวนการทำนายแบบดัดแปลง และการประมาณค่าแบบเต็มสเกล $\mathbf {\Lambda }$ $\mathbf {L}$ $\mathbf {\Sigma }$ $\mathbf {L} ^{-1}$ $\mathbf {x}$

วิธีการลำดับต่ำ

แม้ว่าแนวทางนี้จะครอบคลุมวิธีการมากมาย แต่ข้อสมมติฐานพื้นฐานที่อยู่เบื้องหลังวิธีการเหล่านั้นทั้งหมดก็คือ ข้อสมมติฐานที่ว่ากระบวนการเกาส์เซียนที่สนใจนั้นมีอันดับต่ำอย่างมีประสิทธิภาพ กล่าวคือ สมมติว่ามีชุดดัชนีอยู่ชุดหนึ่งซึ่งทำให้ชุดดัชนีอื่นๆ ทุกชุด $y$ ${\bar {X}}=\{{\bar {x}}_{1},\dots ,{\bar {x}}_{p}\}$ $X=\{x_{1},\dots ,x_{n}\}$

$y(X)\sim {\mathcal {N}}\left(\mathbf {A} _{X}{\bar {\mathbf {\mu } }},\mathbf {A} _{X}^{\top }{\bar {\mathbf {\Sigma } }}\mathbf {A} _{X}+\mathbf {D} \right)$

โดยที่เป็นเมทริกซ์และและเป็นเมทริกซ์แนวทแยงขึ้นอยู่กับวิธีการและการใช้งานมีการเสนอวิธีการเลือก ที่หลากหลาย โดยทั่วไปแล้วจะถูกเลือกให้มีขนาดเล็กกว่า มากซึ่งหมายความว่าต้นทุนการคำนวณในการหาเมทริกซ์ผกผันนั้นสามารถจัดการได้ ( แทนที่จะเป็น) $\mathbf {A} _{X}$ $p\times k$ ${\bar {\mathbf {\mu } }}=\mu \left(y\left({\bar {X}}\right)\right)$ ${\bar {\mathbf {\Sigma } }}=K\left({\bar {X}},{\bar {X}}\right)$ $\mathbf {D}$ ${\bar {X}}$ $p$ $n$ ${\bar {\mathbf {\Sigma } }}$ ${\mathcal {O}}(p^{3})$ ${\mathcal {O}}(n^{3})$

โดยทั่วไปแล้ว นอกจากการเลือกแล้วเราอาจพบเมทริกซ์และสมมติว่าโดยที่เป็นค่าของกระบวนการเกาส์เซียนซึ่งอาจเป็นอิสระจากวิธีการเรียนรู้ของเครื่องหลายวิธีจัดอยู่ในประเภทนี้ เช่น subset-of-regressors (SoR), relevance vector machine , sparse spectrum Gaussian Process และอื่นๆ และโดยทั่วไปแล้วจะแตกต่างกันในวิธี การ หาค่าและ ${\bar {X}}$ $n\times p$ $\mathbf {A}$ $X=\mathbf {A} \mathbf {\eta }$ $\mathbf {\eta }$ $p$ $x$ $\mathbf {A}$ $\mathbf {\eta }$

วิธีการแบบลำดับชั้น

หลักการทั่วไปของการประมาณค่าแบบลำดับชั้นประกอบด้วยการประยุกต์ใช้วิธีการอื่นซ้ำๆ โดยที่การประยุกต์ใช้แต่ละครั้งจะช่วยปรับปรุงคุณภาพของการประมาณค่าให้ดียิ่งขึ้น แม้ว่าจะสามารถแสดงออกมาในรูปของสมมติฐานทางสถิติได้ แต่มักจะอธิบายในแง่ของการประมาณค่าเมทริกซ์แบบลำดับชั้น (HODLR) หรือ การขยาย ฟังก์ชันฐาน (LatticeKrig, MRA, wavelets) วิธีการเมทริกซ์แบบลำดับชั้นมักจะแสดงได้ในรูปของการประยุกต์ใช้การประมาณค่าอันดับต่ำ ซ้ำๆ กับเซตย่อยที่มีขนาดเล็กลงเรื่อยๆ ของเซตดัชนีการขยายฟังก์ชันฐานอาศัยการใช้ฟังก์ชันที่มีขอบเขตจำกัด คุณสมบัติเหล่านี้สามารถนำไปใช้ประโยชน์ได้โดยอัลกอริทึมที่ก้าวผ่านชั้นต่างๆ ของการประมาณค่าอย่างต่อเนื่อง ในการตั้งค่าที่เหมาะสมที่สุด วิธีการเหล่านี้บางวิธีสามารถบรรลุความซับซ้อนแบบกึ่งเชิงเส้น (quasi-linear complexity) ได้ $X$ ${\mathcal {O}}(n\log n)$

กรอบงานที่เป็นหนึ่งเดียว

แบบจำลองกราฟิกเชิงความน่าจะเป็นเป็นกรอบการทำงานที่สะดวกสำหรับการเปรียบเทียบการประมาณค่าตามแบบจำลอง ในบริบทนี้ ค่าของกระบวนการที่ดัชนี สามารถแทนด้วยจุดยอดในกราฟแบบมีทิศทาง และขอบจะสอดคล้องกับพจน์ในการแยกตัวประกอบของความหนาแน่นร่วมของโดยทั่วไป เมื่อไม่มีการสมมติความสัมพันธ์ที่เป็นอิสระการกระจายความน่าจะเป็นร่วมสามารถแทนด้วยกราฟแบบมีทิศทางที่ไม่มีวงจรใดๆ การใช้การประมาณค่าเฉพาะสามารถแสดงได้ด้วยวิธีการจัดลำดับจุดยอดและการเพิ่มหรือลบขอบเฉพาะ $x_{k}\in X$ $y(X)$

วิธีการที่ไม่มีแบบจำลองทางสถิติ

วิธีการในกลุ่มนี้ไม่ได้ระบุแบบจำลองทางสถิติหรือตั้งสมมติฐานใดๆ กับแบบจำลองที่มีอยู่แล้ว สมาชิกหลักสามอย่างในกลุ่มนี้ ได้แก่ อัลกอริทึมเมตาครีกิง อัลกอริทึมแกปฟิลล์ และวิธีการกระบวนการเกาส์เซียนโดยประมาณแบบเฉพาะที่ (Local Approximate Gaussian Process) วิธีแรกแบ่งชุดดัชนีออกเป็นส่วนประกอบคำนวณการแจกแจงแบบมีเงื่อนไขสำหรับแต่ละส่วนประกอบแยกกัน จากนั้นใช้ค่ามัธยฐานเรขาคณิตของฟังก์ชันความหนาแน่นความน่าจะ เป็นแบบมีเงื่อนไข เพื่อรวมเข้าด้วยกัน วิธีที่สองใช้การถดถอยควอนไทล์โดยใช้ค่าของกระบวนการที่ใกล้เคียงกับค่าที่ต้องการทำนาย โดยวัดระยะทางในแง่ของเมตริกบนชุดดัชนี วิธีการกระบวนการเกาส์เซียนโดยประมาณแบบเฉพาะที่ใช้ตรรกะที่คล้ายกัน แต่สร้างกระบวนการสุ่ม ที่ถูกต้อง โดยอิงจากค่าใกล้เคียงเหล่านี้ $K$ ${\mathcal {X}}^{(1)},\dots ,{\mathcal {X}}^{(k)}$