ฮิสโตแกรมของเกรเดียนท์เชิงทิศทาง

ฮิสโตแกรมของทิศทางเกรเดียนต์ (HOG)เป็นตัวอธิบายคุณลักษณะที่ใช้ในคอมพิวเตอร์วิชั่นและการประมวลผลภาพเพื่อวัตถุประสงค์ในการตรวจจับวัตถุเทคนิคนี้จะนับจำนวนการเกิดของทิศทางเกรเดียนต์ในส่วนต่างๆ ของภาพ วิธีนี้คล้ายกับฮิสโตแกรมทิศทางขอบตัว อธิบาย การแปลงคุณลักษณะที่ไม่ขึ้นกับมาตราส่วนและบริบทรูปร่างแต่แตกต่างตรงที่คำนวณบนตารางหนาแน่นของเซลล์ที่มีระยะห่างสม่ำเสมอ และใช้การปรับค่าความคมชัดเฉพาะที่แบบทับซ้อนกันเพื่อเพิ่มความแม่นยำ

ภาพคนเดินเท้า (ซ้าย) และค่าความลาดชันของภาพ (ขวา)

Robert K. McConnellจากWayland Research Inc.อธิบายแนวคิดเบื้องหลัง HOG เป็นครั้งแรกโดยไม่ได้ใช้คำว่า HOG ในคำขอสิทธิบัตรในปี 1986 ^{[ 1 ]}ในปี 1994 แนวคิดดังกล่าวถูกนำไปใช้โดยMitsubishi Electric Research Laboratories ^{[ 2 ]} อย่างไรก็ตาม การใช้งานแพร่หลายมากขึ้นในปี 2005 เมื่อNavneet DalalและBill Triggsนักวิจัยจากสถาบันวิจัยวิทยาศาสตร์คอมพิวเตอร์และระบบอัตโนมัติแห่งชาติฝรั่งเศส ( INRIA ) นำเสนอผลงานเพิ่มเติมเกี่ยวกับตัวอธิบาย HOG ในการประชุม Computer Vision and Pattern Recognition (CVPR) ในงานนี้ พวกเขามุ่งเน้นไปที่การตรวจจับคนเดินเท้าในภาพนิ่ง แม้ว่าหลังจากนั้นพวกเขาจะขยายการทดสอบเพื่อรวมการตรวจจับมนุษย์ในวิดีโอ รวมถึงสัตว์และยานพาหนะทั่วไปหลากหลายชนิดในภาพนิ่งด้วย

ทฤษฎี

แนวคิดสำคัญเบื้องหลังตัวอธิบายฮิสโตแกรมของทิศทางการไล่ระดับความเข้มคือ การปรากฏและรูปร่างของวัตถุในระดับท้องถิ่นภายในภาพสามารถอธิบายได้ด้วยการกระจายของการไล่ระดับความเข้มหรือทิศทางของขอบ ภาพจะถูกแบ่งออกเป็นบริเวณเล็กๆ ที่เชื่อมต่อกันเรียกว่าเซลล์ และสำหรับพิกเซลภายในแต่ละเซลล์ จะมีการสร้างฮิสโตแกรมของทิศทางการไล่ระดับความเข้มขึ้น ตัวอธิบายคือการรวมกันของฮิสโตแกรมเหล่านี้ เพื่อเพิ่มความแม่นยำ ฮิสโตแกรมในระดับท้องถิ่นสามารถปรับค่าความคมชัดได้โดยการคำนวณค่าความเข้มในบริเวณที่ใหญ่กว่าของภาพ เรียกว่าบล็อก จากนั้นใช้ค่านี้ในการปรับค่าเซลล์ทั้งหมดภายในบล็อก การปรับค่านี้ส่งผลให้มีความคงที่มากขึ้นต่อการเปลี่ยนแปลงของแสงและเงา

ตัวอธิบาย HOG มีข้อได้เปรียบที่สำคัญบางประการเหนือตัวอธิบายอื่นๆ เนื่องจากทำงานบนเซลล์ท้องถิ่น จึงไม่เปลี่ยนแปลงตามการแปลงทางเรขาคณิตและโฟโตเมตริก ยกเว้นการวางแนวของวัตถุ การเปลี่ยนแปลงดังกล่าวจะปรากฏเฉพาะในบริเวณพื้นที่ขนาดใหญ่เท่านั้น ยิ่งไปกว่านั้น ดังที่ Dalal และ Triggs ค้นพบ การสุ่มตัวอย่างเชิงพื้นที่หยาบ การสุ่มตัวอย่างการวางแนวละเอียด และการปรับค่าโฟโตเมตริกท้องถิ่นที่แข็งแกร่ง ช่วยให้สามารถละเลยการเคลื่อนไหวของร่างกายแต่ละบุคคลของคนเดินเท้าได้ ตราบใดที่พวกเขายังคงอยู่ในตำแหน่งที่ค่อนข้างตั้งตรง ดังนั้น ตัวอธิบาย HOG จึงเหมาะอย่างยิ่งสำหรับการตรวจจับมนุษย์ในภาพ^{[ 3 ]}

การนำอัลกอริทึมไปใช้

การคำนวณเกรเดียนต์

ขั้นตอนแรกของการคำนวณในตัวตรวจจับคุณลักษณะหลายตัวในการประมวลผลภาพเบื้องต้นคือการทำให้แน่ใจว่าค่าสีและค่าแกมมาได้รับการทำให้เป็นมาตรฐาน อย่างไรก็ตาม ดังที่ Dalal และ Triggs ชี้ให้เห็น ขั้นตอนนี้สามารถละเว้นได้ในการคำนวณตัวอธิบาย HOG เนื่องจากการทำให้ตัวอธิบายเป็นมาตรฐานที่ตามมานั้นให้ผลลัพธ์ที่เหมือนกัน ดังนั้น การประมวลผลภาพเบื้องต้นจึงมีผลกระทบต่อประสิทธิภาพเพียงเล็กน้อย แทนที่จะเป็นเช่นนั้น ขั้นตอนแรกของการคำนวณคือการคำนวณค่าเกรเดียนต์ วิธีที่พบได้บ่อยที่สุดคือการใช้มาสก์อนุพันธ์แบบ ไม่ต่อเนื่องแบบจุดศูนย์กลาง 1 มิติ ในทิศทางแนวนอนหรือแนวตั้งอย่างใดอย่างหนึ่งหรือทั้งสองทิศทาง โดยเฉพาะอย่างยิ่ง วิธีนี้จำเป็นต้องกรองข้อมูลสีหรือความเข้มของภาพด้วยเคอร์เนลตัวกรองต่อไปนี้:

[-1,0,1]{\text{ และ }}[-1,0,1]^{\top }.\,

Dalal และ Triggs ได้ทดสอบหน้ากากที่ซับซ้อนกว่า เช่นหน้ากาก Sobel 3x3 หรือหน้ากากแนวทแยง แต่โดยทั่วไปแล้วหน้ากากเหล่านี้มีประสิทธิภาพในการตรวจจับมนุษย์ในภาพได้แย่กว่า พวกเขายังได้ทดลองกับการปรับให้เรียบแบบ Gaussianก่อนที่จะใช้หน้ากากอนุพันธ์ แต่ก็พบว่าการละเว้นการปรับให้เรียบใดๆ จะให้ผลลัพธ์ที่ดีกว่าในทางปฏิบัติ^{[ 4 ]}

การจัดกลุ่มตามทิศทาง

ขั้นตอนที่สองของการคำนวณคือการสร้างฮิสโตแกรมของเซลล์ แต่ละพิกเซลภายในเซลล์จะลงคะแนนแบบถ่วงน้ำหนักให้กับช่องฮิสโตแกรมตามทิศทางโดยอิงจากค่าที่พบในการคำนวณเกรเดียนต์ เซลล์เองอาจมีรูปร่างเป็นสี่เหลี่ยมผืนผ้าหรือรัศมี และช่องฮิสโตแกรมจะกระจายอย่างสม่ำเสมอในช่วง 0 ถึง 180 องศาหรือ 0 ถึง 360 องศา ขึ้นอยู่กับว่าเกรเดียนต์เป็น "ไม่มีเครื่องหมาย" หรือ "มีเครื่องหมาย" Dalal และ Triggs พบว่าเกรเดียนต์ที่ไม่มีเครื่องหมายที่ใช้ร่วมกับช่องฮิสโตแกรม 9 ช่องให้ผลลัพธ์ที่ดีที่สุดในการทดลองตรวจจับมนุษย์ ในขณะที่สังเกตว่าเกรเดียนต์ที่มีเครื่องหมายนำไปสู่การปรับปรุงอย่างมีนัยสำคัญในการจดจำวัตถุประเภทอื่น ๆ เช่น รถยนต์หรือรถจักรยานยนต์ สำหรับน้ำหนักการลงคะแนน การมีส่วนร่วมของพิกเซลอาจเป็นขนาดของเกรเดียนต์เองหรือฟังก์ชันบางอย่างของขนาด ในการทดสอบ ขนาดของเกรเดียนต์เองโดยทั่วไปจะให้ผลลัพธ์ที่ดีที่สุด ตัวเลือกอื่น ๆ สำหรับน้ำหนักการลงคะแนนอาจรวมถึงรากที่สองหรือกำลังสองของขนาดเกรเดียนต์ หรือเวอร์ชันที่ตัดแล้วของขนาด^{[ 5 ]}

บล็อกคำอธิบาย

เพื่อชดเชยการเปลี่ยนแปลงของแสงและความคมชัด ความเข้มของเกรเดียนต์จะต้องได้รับการปรับให้เป็นมาตรฐานในระดับท้องถิ่น ซึ่งจำเป็นต้องจัดกลุ่มเซลล์เข้าด้วยกันเป็นบล็อกขนาดใหญ่ที่เชื่อมต่อกันในเชิงพื้นที่ จากนั้นตัวอธิบาย HOG จะเป็นเวกเตอร์ที่ต่อกันของส่วนประกอบของฮิสโตแกรมเซลล์ที่ปรับให้เป็นมาตรฐานจากทุกบริเวณของบล็อก โดยทั่วไปบล็อกเหล่านี้จะทับซ้อนกัน ซึ่งหมายความว่าแต่ละเซลล์มีส่วนร่วมมากกว่าหนึ่งครั้งในตัวอธิบายสุดท้าย มีรูปทรงเรขาคณิตของบล็อกหลักสองแบบ ได้แก่ บล็อก R-HOG รูปสี่เหลี่ยมผืนผ้าและบล็อก C-HOG รูปวงกลม บล็อก R-HOG โดยทั่วไปเป็นตารางสี่เหลี่ยมจัตุรัส ซึ่งแสดงด้วยพารามิเตอร์สามตัว ได้แก่ จำนวนเซลล์ต่อบล็อก จำนวนพิกเซลต่อเซลล์ และจำนวนช่องสัญญาณต่อฮิสโตแกรมของเซลล์ ในการทดลองตรวจจับมนุษย์ของ Dalal และ Triggs พบว่าพารามิเตอร์ที่เหมาะสมที่สุดคือเซลล์ขนาด 8x8 พิกเซลจำนวนสี่เซลล์ต่อบล็อก (16x16 พิกเซลต่อบล็อก) พร้อมช่องสัญญาณฮิสโตแกรม 9 ช่อง นอกจากนี้ พวกเขายังพบว่าสามารถปรับปรุงประสิทธิภาพเล็กน้อยได้โดยการใช้หน้าต่างเชิงพื้นที่แบบเกาส์เซียนภายในแต่ละบล็อกก่อนที่จะคำนวณคะแนนโหวตฮิสโตแกรม เพื่อลดน้ำหนักของพิกเซลรอบขอบบล็อก บล็อก R-HOG ดูคล้ายกับ ตัวอธิบาย การแปลงคุณลักษณะที่ไม่ขึ้นกับมาตราส่วน (SIFT) มาก อย่างไรก็ตาม แม้จะมีโครงสร้างที่คล้ายกัน บล็อก R-HOG จะถูกคำนวณในกริดหนาแน่นที่มาตราส่วนเดียวโดยไม่มีการจัดแนวทิศทาง ในขณะที่ตัวอธิบาย SIFT มักจะถูกคำนวณที่จุดภาพหลักที่กระจัดกระจายและไม่ขึ้นกับมาตราส่วน และจะถูกหมุนเพื่อจัดแนวทิศทาง นอกจากนี้ บล็อก R-HOG ยังถูกใช้ร่วมกันเพื่อเข้ารหัสข้อมูลรูปแบบเชิงพื้นที่ ในขณะที่ตัวอธิบาย SIFT ถูกใช้เพียงอย่างเดียว

บล็อก HOG แบบวงกลม (C-HOG) สามารถพบได้ในสองรูปแบบ ได้แก่ แบบที่มีเซลล์กลางเพียงเซลล์เดียว และแบบที่มีเซลล์กลางแบ่งตามมุม นอกจากนี้ บล็อก C-HOG เหล่านี้ยังสามารถอธิบายได้ด้วยพารามิเตอร์สี่ตัว ได้แก่ จำนวนช่องเชิงมุมและเชิงรัศมี รัศมีของช่องกลาง และปัจจัยการขยายสำหรับรัศมีของช่องเชิงรัศมีเพิ่มเติม Dalal และ Triggs พบว่ารูปแบบหลักทั้งสองให้ประสิทธิภาพเท่ากัน และช่องเชิงรัศมีสองช่องพร้อมช่องเชิงมุมสี่ช่อง รัศมีตรงกลาง 4 พิกเซล และปัจจัยการขยาย 2 ให้ประสิทธิภาพที่ดีที่สุดในการทดลองของพวกเขา (เพื่อให้ได้ประสิทธิภาพที่ดี ควรใช้การกำหนดค่านี้ในที่สุด) นอกจากนี้ การถ่วงน้ำหนักแบบเกาส์เซียนไม่ได้ให้ประโยชน์ใดๆ เมื่อใช้ร่วมกับบล็อก C-HOG บล็อก C-HOG ดูคล้ายกับ ตัวอธิบาย บริบทรูปร่างแต่แตกต่างกันอย่างมากตรงที่บล็อก C-HOG มีเซลล์ที่มีช่องการวางแนวหลายช่อง ในขณะที่บริบทรูปร่างใช้เพียงการนับการปรากฏของขอบเพียงครั้งเดียวในการกำหนดสูตร^{[ 6 ]}

การทำให้เป็นมาตรฐานของบล็อก

Dalal และ Triggs ได้สำรวจวิธีการปรับค่ามาตรฐานของบล็อกสี่วิธีที่แตกต่างกัน ให้เป็นเวกเตอร์ที่ไม่ได้รับการปรับค่ามาตรฐานซึ่งประกอบด้วยฮิสโตแกรมทั้งหมดในบล็อกที่กำหนดเป็น ค่า k -norm ของเวกเตอร์นั้นสำหรับและเป็นค่าคงที่ขนาดเล็กบางค่า (ค่าที่แน่นอนนั้นไม่สำคัญนัก) จากนั้นตัวประกอบการปรับค่ามาตรฐานสามารถเป็นหนึ่งในค่าต่อไปนี้: $v$ $\|v\|_{k}$ $k={1,2}$ $e$

มาตรฐาน L2:

f={v \over {\sqrt {\|v\|_{2}^{2}+e^{2}}}}

L2-hys: L2-norm ตามด้วยการตัด (จำกัดค่าสูงสุดของ v ไว้ที่ 0.2) และการปรับค่าใหม่ ดังเช่นใน^{[ 7 ]}

มาตรฐาน L1:

f={v \over (\|v\|_{1}+e)}

ล1-รากที่สอง:

f={\sqrt {v \over (\|v\|_{1}+e)}}

ในการทดลองของพวกเขา Dalal และ Triggs พบว่าแผนการ L2-hys, L2-norm และ L1-sqrt ให้ประสิทธิภาพที่คล้ายคลึงกัน ในขณะที่ L1-norm ให้ประสิทธิภาพที่เชื่อถือได้น้อยกว่าเล็กน้อย อย่างไรก็ตาม วิธีการทั้งสี่วิธีแสดงให้เห็นถึงการปรับปรุงที่สำคัญมากเมื่อเทียบกับข้อมูลที่ไม่ได้รับการทำให้เป็นมาตรฐาน^{[ 8 ]}

การจดจำวัตถุ

ตัวอธิบาย HOG อาจใช้สำหรับการจดจำวัตถุโดยการให้คุณสมบัติแก่ อัลกอริธึม การเรียนรู้ของเครื่อง Dalal และ Triggs ใช้ตัวอธิบาย HOG เป็นคุณสมบัติในเครื่องเวกเตอร์สนับสนุน (SVM) ^{[ 9 ]}อย่างไรก็ตาม ตัวอธิบาย HOG ไม่ได้ผูกติดกับอัลกอริธึมการเรียนรู้ของเครื่องเฉพาะ

ผลงาน

ในการทดลองตรวจจับมนุษย์ครั้งแรก Dalal และ Triggs ได้เปรียบเทียบบล็อกตัวอธิบาย R-HOG และ C-HOG ของพวกเขากับเวฟเล็ต Haar แบบทั่วไป ตัวอธิบาย PCA -SIFTและ ตัวอธิบาย บริบทรูปร่าง เวฟเล็ต Haarแบบทั่วไปเป็นเวฟเล็ต Haar ที่มีทิศทาง และถูกใช้ในปี 2001 โดย Mohan, Papageorgiou และ Poggio ในการทดลองตรวจจับวัตถุของพวกเขาเอง ตัวอธิบาย PCA-SIFT คล้ายกับตัวอธิบาย SIFT แต่แตกต่างตรงที่ ใช้ การวิเคราะห์ส่วนประกอบหลักกับแพทช์เกรเดียนต์ที่ทำให้เป็นมาตรฐาน ตัวอธิบาย PCA-SIFT ถูกใช้ครั้งแรกในปี 2004 โดย Ke และ Sukthankar และอ้างว่ามีประสิทธิภาพเหนือกว่าตัวอธิบาย SIFT ทั่วไป สุดท้าย บริบทรูปร่างใช้ถังวงกลม คล้ายกับที่ใช้ในบล็อก C-HOG แต่จะนับคะแนนโหวตตามการมีอยู่ของขอบเท่านั้น โดยไม่แยกความแตกต่างเกี่ยวกับทิศทาง บริบทรูปร่างถูกใช้ครั้งแรกในปี 2001 โดย Belongie, Malik และ Puzicha

การทดสอบเริ่มต้นด้วยชุดข้อมูลสองชุดที่แตกต่างกัน ชุดข้อมูลแรกคือฐานข้อมูลคนเดินเท้า ของสถาบันเทคโนโลยีแมสซาชูเซตส์ (MIT) ซึ่งประกอบด้วยภาพฝึกฝน 509 ภาพ และภาพทดสอบ 200 ภาพ ของคนเดินเท้าบนถนนในเมือง ชุดข้อมูลนี้มีเฉพาะภาพด้านหน้าหรือด้านหลังของบุคคล และมีความหลากหลายของท่าทางของมนุษย์น้อยมาก ชุดข้อมูลนี้เป็นที่รู้จักกันดีและถูกนำไปใช้ในการทดลองตรวจจับมนุษย์หลายครั้ง เช่น การทดลองที่ดำเนินการโดย Papageorgiou และ Poggio ในปี 2000 ปัจจุบันฐานข้อมูล MIT เปิดให้ใช้งานสำหรับการวิจัยได้ที่https://web.archive.org/web/20041118152354/http://cbcl.mit.edu/cbcl/software-datasets/PedestrianData.htmlชุดข้อมูลที่สองได้รับการพัฒนาโดย Dalal และ Triggs โดยเฉพาะสำหรับการทดลองตรวจจับมนุษย์ของพวกเขา เนื่องจากตัวบ่งชี้ HOG ทำงานได้อย่างสมบูรณ์แบบบนชุดข้อมูล MIT ชุดข้อมูลของพวกเขาซึ่งรู้จักกันในชื่อ INRIA ประกอบด้วยภาพมนุษย์ 1805 ภาพที่ถ่ายจากภาพถ่ายส่วนตัว ชุดข้อมูลนี้ประกอบด้วยภาพบุคคลในท่าทางที่หลากหลาย และมีฉากหลังที่ซับซ้อน เช่น ฉากฝูงชน ทำให้มีความซับซ้อนมากกว่าชุดข้อมูลของ MIT ปัจจุบันฐานข้อมูล INRIA เปิดให้ใช้งานสำหรับการวิจัยได้ที่ http://lear.inrialpes.fr/data

เว็บไซต์ข้างต้นมีภาพแสดงตัวอย่างจากฐานข้อมูลการตรวจจับมนุษย์ของ INRIA

สำหรับผลลัพธ์นั้น ตัวอธิบายบล็อก C-HOG และ R-HOG ทำงานได้ใกล้เคียงกัน โดยตัวอธิบาย C-HOG ยังคงมีข้อได้เปรียบเล็กน้อยในอัตราการตรวจจับผิดพลาดที่อัตราผลบวกเท็จ คงที่ ในชุดข้อมูลทั้งสองชุด ในชุดข้อมูล MIT ตัวอธิบาย C-HOG และ R-HOG ให้ผลลัพธ์อัตราการตรวจจับผิดพลาดเป็นศูนย์โดยพื้นฐานที่อัตราผลบวกเท็จ 10⁻⁴ ^ในชุดข้อมูล INRIA ตัวอธิบาย C-HOG และ R-HOG ให้ผลลัพธ์อัตราการตรวจจับผิดพลาดประมาณ 0.1 ที่อัตราผลบวกเท็จ 10⁻⁴ ^เวฟเล็ต Haar แบบทั่วไปเป็นวิธีการที่มีประสิทธิภาพรองลงมา โดยให้ผลลัพธ์อัตราการตรวจจับผิดพลาดประมาณ 0.01 ที่อัตราผลบวกเท็จ 10⁻⁴ ^ในชุดข้อมูล MIT และประมาณ 0.3 ในชุดข้อมูล INRIA ตัวอธิบาย PCA-SIFT และตัวอธิบายบริบทรูปร่างทำงานได้ค่อนข้างแย่ในชุดข้อมูลทั้งสองชุด ทั้งสองวิธีให้ผลลัพธ์อัตราความผิดพลาด 0.1 ที่อัตราผลบวกเท็จ 10⁻⁴ ^บนชุดข้อมูล MIT และอัตราความผิดพลาดเกือบ 0.5 ที่อัตราผลบวกเท็จ 10⁻⁴ ^บนชุดข้อมูล INRIA

การพัฒนาเพิ่มเติม

ในส่วนหนึ่งของการประชุมเชิงปฏิบัติการ Pascal Visual Object Classes 2006 Dalal และ Triggs ได้นำเสนอผลลัพธ์เกี่ยวกับการประยุกต์ใช้ตัวอธิบายฮิสโตแกรมของเกรเดียนต์เชิงทิศทางกับวัตถุภาพอื่นที่ไม่ใช่มนุษย์ เช่น รถยนต์ รถบัส และจักรยาน รวมถึงสัตว์ทั่วไป เช่น สุนัข แมว และวัว พวกเขารวมพารามิเตอร์ที่เหมาะสมที่สุดสำหรับการกำหนดบล็อกและการทำให้เป็นมาตรฐานในแต่ละกรณีไว้ในผลลัพธ์ของพวกเขาด้วย ภาพในเอกสารอ้างอิงด้านล่างแสดงตัวอย่างการตรวจจับรถจักรยานยนต์บางส่วนของพวกเขา^{[ 10 ]}

ในฐานะส่วนหนึ่งของการประชุม European Conference on Computer Vision (ECCV) ปี 2006 Dalal และ Triggs ได้ร่วมมือกับCordelia Schmidเพื่อประยุกต์ใช้ตัวตรวจจับ HOG กับปัญหาการตรวจจับมนุษย์ในภาพยนตร์และวิดีโอ พวกเขารวมตัวอธิบาย HOG บนเฟรมวิดีโอแต่ละเฟรมเข้ากับฮิสโตแกรมการเคลื่อนไหวภายใน (IMH) ที่เพิ่งนำเสนอใหม่บนคู่เฟรมวิดีโอที่ต่อเนื่องกัน ฮิสโตแกรมการเคลื่อนไหวภายในเหล่านี้ใช้ขนาดของเกรเดียนต์จาก ฟิลด์ การไหลของแสงที่ได้จากสองเฟรมที่ต่อเนื่องกัน จากนั้นขนาดเกรเดียนต์เหล่านี้จะถูกนำมาใช้ในลักษณะเดียวกับที่สร้างขึ้นจากข้อมูลภาพนิ่งภายในวิธีการอธิบาย HOG เมื่อทดสอบกับชุดข้อมูลขนาดใหญ่สองชุดที่นำมาจากภาพยนตร์หลายเรื่อง วิธีการ HOG-IMH แบบผสมผสานให้ผลลัพธ์อัตราการพลาดประมาณ 0.1 ที่อัตราผลบวกเท็จ^[¹¹^] $10^{-4}$

ในงานประชุมสัมมนา Intelligent Vehicles Symposiumปี 2549 F. Suard , A. RakotomamonjyและA. Bensrhairได้นำเสนอระบบตรวจจับคนเดินเท้าแบบครบวงจรโดยใช้ตัวอธิบาย HOG ระบบของพวกเขาทำงานโดยใช้กล้องอินฟราเรดสองตัว เนื่องจากมนุษย์ปรากฏสว่างกว่าสภาพแวดล้อมในภาพอินฟราเรด ระบบจึงค้นหาตำแหน่งที่น่าสนใจภายในขอบเขตการมองเห็นที่กว้างขึ้นก่อน ซึ่งมนุษย์อาจอยู่ จากนั้นตัวจำแนกประเภทเครื่องสนับสนุนเวกเตอร์จะทำงานกับตัวอธิบาย HOG ที่ได้จากตำแหน่งที่น่าสนใจขนาดเล็กเหล่านี้เพื่อกำหนดการตัดสินใจเกี่ยวกับการมีอยู่ของคนเดินเท้า เมื่อพบคนเดินเท้าภายในขอบเขตการมองเห็นแล้ว ตำแหน่งจริงของคนเดินเท้าจะถูกประมาณโดยใช้การมองเห็นแบบสเตอริโอ^{[ 12 ]}

ในการ ประชุม IEEE Conference on Computer Vision and Pattern Recognitionในปี 2549 Qiang Zhu , Shai Avidan , Mei-Chen YehและKwang-Ting Chengได้นำเสนออัลกอริทึมเพื่อเร่งความเร็วในการตรวจจับมนุษย์อย่างมีนัยสำคัญโดยใช้วิธี HOG descriptor วิธีการของพวกเขาใช้ HOG descriptor ร่วมกับ อัลกอริทึม cascading classifiersซึ่งโดยปกติแล้วใช้ได้ผลดีในการตรวจจับใบหน้า นอกจากนี้ แทนที่จะใช้บล็อกที่มีขนาดเท่ากัน พวกเขาได้แนะนำบล็อกที่มีขนาด ตำแหน่ง และอัตราส่วนภาพที่แตกต่างกัน เพื่อแยกบล็อกที่เหมาะสมที่สุดสำหรับการตรวจจับมนุษย์ พวกเขาได้ใช้ อัลกอริทึม AdaBoostเพื่อเลือกบล็อกเหล่านั้นที่จะรวมอยู่ใน cascading ในการทดลองของพวกเขา อัลกอริทึมของพวกเขาได้ประสิทธิภาพที่เทียบเคียงได้กับอัลกอริทึม Dalal และ Triggs ดั้งเดิม แต่ทำงานได้เร็วขึ้นถึง 70 เท่า ในปี 2549 ห้องปฏิบัติการวิจัย Mitsubishi Electricได้ยื่นขอสิทธิบัตรของสหรัฐอเมริกาสำหรับอัลกอริทึมนี้ภายใต้หมายเลขการสมัคร 20070237387 ^{[ 13 ]}

ใน การประชุมนานาชาติ IEEE ว่าด้วยการประมวลผลภาพในปี 2010 Rui Hu , Mark BanardและJohn Collomosseได้ขยายตัวอธิบาย HOG สำหรับการใช้งานในการค้นหารูปภาพตามภาพร่าง (SBIR) ฟิลด์การวางแนวที่หนาแน่นถูกขยายจากผลตอบสนองที่โดดเด่นในตัวตรวจจับขอบ Cannyภายใต้ ข้อจำกัดความเรียบ ของ Laplacianและ HOG ถูกคำนวณบนฟิลด์นี้ ตัวอธิบาย HOG ฟิลด์เกรเดียนต์ที่ได้ (GF-HOG) จับโครงสร้างเชิงพื้นที่ในท้องถิ่นในภาพร่างหรือแผนที่ขอบภาพ ทำให้สามารถใช้ตัวอธิบายนี้ภายใน ระบบ ค้นหารูปภาพตามเนื้อหาที่ค้นหาได้ด้วยรูปร่างที่วาดด้วยมือเปล่า^{[ 14 ]}การปรับปรุง GF-HOG แสดงให้เห็นว่ามีประสิทธิภาพเหนือกว่าตัวอธิบายฮิสโตแกรมเกรเดียนต์ที่มีอยู่ เช่นSIFT , SURFและ HOG ประมาณ 15 เปอร์เซ็นต์ในงาน SBIR ^{[ 15 ]}

ในปี 2010 Martin Krückhansได้นำเสนอการปรับปรุงตัวอธิบาย HOG สำหรับจุดเมฆ 3 มิติ^{[ 16 ]}แทนที่จะใช้การไล่ระดับภาพ เขาใช้ระยะห่างระหว่างจุด (พิกเซล) และระนาบ ซึ่งเรียกว่าค่าตกค้าง เพื่อกำหนดลักษณะของบริเวณท้องถิ่นในจุดเมฆ ตัวอธิบายฮิสโตแกรมของค่าตกค้างแบบมีทิศทาง (HOR) ของเขาถูกนำไปใช้อย่างประสบความสำเร็จในงานตรวจจับวัตถุของจุดเมฆ 3 มิติ^{[ 17 ]}

ดูเพิ่มเติม

ลิงก์ภายนอก

http://www.mathworks.com/matlabcentral/fileexchange/33863การใช้งานสำหรับ Matlab (ไฟล์ mex)
https://www.cs.cmu.edu/~yke/pcasift/ - โค้ดสำหรับการตรวจจับวัตถุด้วย PCA-SIFT
http://lear.inrialpes.fr/software/ เก็บถาวรเมื่อ 2009-09-19 ที่Wayback Machine - ชุดเครื่องมือซอฟต์แวร์สำหรับการตรวจจับวัตถุ HOG (หน้าแรกของทีมวิจัย)
https://web.archive.org/web/20100502032344/http://www.navneetdalal.com/software - ชุดเครื่องมือซอฟต์แวร์สำหรับการตรวจจับวัตถุ HOG (โฮมเพจของ Navneet Dalal)
http://dlib.net/imaging.html#scan_fhog_pyramid - ชุดเครื่องมือซอฟต์แวร์ C++ และ Python สำหรับการตรวจจับวัตถุ HOG
http://pascal.inrialpes.fr/data/human/ เก็บถาวรเมื่อ 2010-05-05 ที่Wayback Machine - ชุดข้อมูลภาพมนุษย์ INRIA
http://cbcl.mit.edu/software-datasets/PedestrianData.html - ชุดข้อมูลรูปภาพคนเดินเท้า MIT

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]