การจัดหมวดหมู่ภาพจากผลการค้นหารูปภาพ

ในด้านคอมพิวเตอร์วิชั่นการจัดหมวดหมู่ของวัตถุจากการค้นหารูปภาพคือปัญหาของการฝึกฝนตัวจำแนกประเภทให้รู้จักหมวดหมู่ของวัตถุโดยใช้เพียงการค้นหารูปภาพ เท่านั้น กล่าวคือ รูปภาพที่ดึงมาโดยอัตโนมัติจาก เครื่องมือค้นหาทางอินเทอร์เน็ตในอุดมคติแล้ว การรวบรวมรูปภาพโดยอัตโนมัติจะช่วยให้สามารถฝึกฝนตัวจำแนกประเภทได้โดยใช้เพียงชื่อหมวดหมู่เป็นข้อมูลป้อนเข้า ปัญหานี้มีความเกี่ยวข้องอย่างใกล้ชิดกับปัญหาการค้นหารูปภาพตามเนื้อหา (CBIR) ซึ่งเป้าหมายคือการส่งคืนผลการค้นหารูปภาพที่ดีขึ้น แทนที่จะฝึกฝนตัวจำแนกประเภทสำหรับการจดจำรูปภาพ

โดยทั่วไปแล้ว ตัวจำแนกประเภทจะได้รับการฝึกฝนโดยใช้ชุดรูปภาพที่ติดป้ายกำกับด้วยมือ การรวบรวมชุดรูปภาพดังกล่าวเป็นกระบวนการที่ใช้เวลานานและยุ่งยากมาก การใช้เครื่องมือค้นหาทางอินเทอร์เน็ตเพื่อทำให้กระบวนการได้มาซึ่งชุดรูปภาพที่ติดป้ายกำกับจำนวนมากเป็นไปโดยอัตโนมัติ ได้รับการอธิบายว่าเป็นแนวทางที่มีศักยภาพในการอำนวยความสะดวกอย่างมากต่อการวิจัยด้านคอมพิวเตอร์วิชั่น^{[ 1 ]}

ความท้าทาย

ภาพที่ไม่เกี่ยวข้อง

ปัญหาหนึ่งของการใช้ผลการค้นหารูปภาพทางอินเทอร์เน็ตเป็นชุดฝึกสำหรับตัวจำแนกประเภทคือเปอร์เซ็นต์รูปภาพที่ไม่เกี่ยวข้องในผลลัพธ์มีสูง มีการประมาณการว่าเมื่อค้นหาในเครื่องมือค้นหาเช่น Google Images ด้วยชื่อของหมวดหมู่วัตถุ (เช่นเครื่องบิน ) รูปภาพที่ส่งคืนมากถึง 85% จะไม่เกี่ยวข้องกับหมวดหมู่นั้น^{[ 1 ]}

ความแปรปรวนภายในชั้นเรียน

ความท้าทายอีกประการหนึ่งของการใช้ผลการค้นหารูปภาพทางอินเทอร์เน็ตเป็นชุดข้อมูลฝึกฝนสำหรับตัวจำแนกประเภทคือ ความแปรปรวนที่สูงมากภายในหมวดหมู่ของวัตถุ เมื่อเปรียบเทียบกับหมวดหมู่ที่พบในชุดข้อมูลที่ติดป้ายกำกับด้วยมือ เช่นCaltech 101และPascalภาพของวัตถุอาจแตกต่างกันอย่างมากในปัจจัยสำคัญหลายประการ เช่น ขนาด ท่าทาง แสง จำนวนวัตถุ และปริมาณการบดบัง

วิธีการ pLSA

ในบทความปี 2548 โดย Fergus et al. ^{[ 1 ]} pLSA (การวิเคราะห์ความหมายแฝงเชิงความน่าจะเป็น) และส่วนขยายของแบบจำลองนี้ถูกนำไปใช้กับปัญหาการจัดหมวดหมู่วัตถุจากการค้นหารูปภาพ pLSA เดิมพัฒนาขึ้นเพื่อการจำแนกเอกสารแต่ต่อมาได้ถูกนำไปใช้กับคอมพิวเตอร์วิชั่นโดยตั้งสมมติฐานว่ารูปภาพเป็นเอกสารที่เข้ากับแบบจำลองถุงคำ

แบบอย่าง

เช่นเดียวกับเอกสารข้อความที่ประกอบด้วยคำต่างๆ ซึ่งแต่ละคำอาจมีการซ้ำกันภายในเอกสารเดียวกันและระหว่างเอกสารต่างๆ รูปภาพก็สามารถจำลองได้โดยใช้การรวมกันของคำภาพและเช่นเดียวกับที่ชุดคำข้อความทั้งหมดถูกกำหนดโดยพจนานุกรม ชุดคำภาพทั้งหมดก็ถูกกำหนดโดยพจนานุกรมรหัสคำเช่นกัน

pLSA แบ่งเอกสารออกเป็นหัวข้อเช่นกัน เช่นเดียวกับการที่การรู้หัวข้อของบทความช่วยให้คุณคาดเดาประเภทของคำที่จะปรากฏในบทความนั้นได้ การกระจายตัวของคำในภาพก็ขึ้นอยู่กับหัวข้อพื้นฐานเช่นกัน แบบจำลอง pLSA บอกเราถึงความน่าจะเป็นที่จะเห็นแต่ละคำเมื่อพิจารณาจากหมวดหมู่ในแง่ของหัวข้อ: $w$ $\displaystyle d$ $\displaystyle z$

$\displaystyle P(w|d)=\sum _{z=1}^{Z}P(w|z)P(z|d)$

ข้อสมมติฐานสำคัญในแบบจำลองนี้คือและเป็นอิสระต่อกันโดยมีเงื่อนไขเมื่อกำหนดเมื่อกำหนดหัวข้อแล้ว ความน่าจะเป็นที่คำบางคำจะปรากฏเป็นส่วนหนึ่งของหัวข้อนั้นจะเป็นอิสระจากส่วนที่เหลือของภาพ^[²^] $\displaystyle w$ $\displaystyle d$ $\displaystyle z$

การฝึกฝนโมเดลนี้เกี่ยวข้องกับการค้นหาค่าที่เพิ่มความน่าจะเป็นสูงสุดของคำที่สังเกตได้ในแต่ละเอกสาร ในการทำเช่นนี้จะใช้อัลกอริธึมการ หาค่าสูงสุดโดยการคาดการณ์ ( Expectation Maximization Algorithm) โดยมี ฟังก์ชันวัตถุประสงค์ ดังต่อไปนี้ : $\displaystyle P(w|z)$ $\displaystyle P(z|d)$

$\displaystyle L=\prod _{d=1}^{D}\prod _{w=1}^{W}P(w|d)^{n(w|d)}$

แอปพลิเคชัน

ABS-pLSA

pLSA แบบกำหนดตำแหน่งสัมบูรณ์ (ABS-pLSA) จะแนบข้อมูลตำแหน่งเข้ากับคำศัพท์ภาพแต่ละคำ โดยระบุตำแหน่งไปยังหนึ่งใน X ช่องในภาพ โดยที่แทนช่องที่คำศัพท์ภาพนั้นตกอยู่ สมการใหม่คือ: $\displaystyle x$

$\displaystyle P(w|d)=\sum _{z=1}^{Z}P(w,x|z)P(z|d)$

$\displaystyle P(w,x|z)$ และสามารถแก้ไขได้ในลักษณะเดียวกับปัญหา pLSA ดั้งเดิม โดยใช้อัลกอริธึม EM $\displaystyle P(d)$

ปัญหาของแบบจำลองนี้คือ มันไม่คงที่เมื่อมีการเลื่อนหรือปรับขนาดเนื่องจากตำแหน่งของคำศัพท์ภาพนั้นเป็นค่าสัมบูรณ์ การเปลี่ยนขนาดของวัตถุในภาพหรือการเคลื่อนย้ายวัตถุจะส่งผลกระทบอย่างมากต่อการกระจายตัวเชิงพื้นที่ของคำศัพท์ภาพไปยังช่องต่างๆ

ทีเอสไอ-พีแอลเอสเอ

pLSA ที่ไม่ขึ้นกับการแปลและการปรับขนาด (TSI-pLSA) โมเดลนี้ต่อยอดจาก pLSA โดยเพิ่มตัวแปรแฝงอีกตัวหนึ่ง ซึ่งอธิบายตำแหน่งเชิงพื้นที่ของวัตถุเป้าหมายในภาพ ตอนนี้ ตำแหน่งของคำศัพท์ภาพจะถูกกำหนดโดยสัมพันธ์กับตำแหน่งของวัตถุนี้ แทนที่จะเป็นตำแหน่งสัมบูรณ์ในภาพ สมการใหม่คือ: $\displaystyle x$

$\displaystyle P(w,x|d)=\sum _{z=1}^{Z}\sum _{c=1}^{C}P(w,x|c,z)P(c)P(z|d)$

อีกครั้ง พารามิเตอร์และสามารถหาคำตอบได้โดยใช้อัลกอริธึม EMโดยสามารถถือว่ามีการกระจายแบบสม่ำเสมอ $\displaystyle P(w,x|c,z)$ $\displaystyle P(d)$ $\displaystyle P(c)$

การดำเนินการ

การเลือกคำ

คำในภาพถูกเลือกโดยใช้ตัวตรวจจับคุณลักษณะ 4 แบบที่แตกต่างกัน: ^{[ 1 ]}

ตัวตรวจจับความโดดเด่นของ Kadir–Brady
เครื่องตรวจจับ Harris แบบหลายสเกล
ความแตกต่างของเกาส์เซียน
ตัวดำเนินการแบบ Edge-based ที่อธิบายไว้ในงานวิจัย

โดยใช้ตัวตรวจจับทั้ง 4 ตัวนี้ สามารถตรวจจับคุณลักษณะได้ประมาณ 700 รายการต่อภาพ จากนั้นคุณลักษณะเหล่านี้จะถูกเข้ารหัสเป็นตัวอธิบาย การแปลงคุณลักษณะที่ไม่ขึ้นกับ มาตราส่วน (Scale-invariant feature transform descriptors) และทำการควอนไทซ์เวกเตอร์เพื่อให้ตรงกับคำ 1 ใน 350 คำที่อยู่ในสมุดรหัส สมุดรหัสนี้ได้รับการคำนวณล่วงหน้าจากคุณลักษณะที่สกัดจากภาพจำนวนมากซึ่งครอบคลุมหมวดหมู่ของวัตถุหลายประเภท

ตำแหน่งที่เป็นไปได้ของวัตถุ

คำถามสำคัญข้อหนึ่งในแบบจำลอง TSI-pLSA คือวิธีการกำหนดค่าที่ตัวแปรสุ่มสามารถรับได้ ตัวแปรสุ่มนี้เป็นเวกเตอร์ 4 มิติ ซึ่งส่วนประกอบต่างๆ อธิบายถึงจุดศูนย์กลางของวัตถุ รวมถึงมาตราส่วน x และ y ที่กำหนดกรอบล้อมรอบวัตถุ ดังนั้นพื้นที่ของค่าที่เป็นไปได้จึงมหาศาล เพื่อจำกัดจำนวนตำแหน่งของวัตถุที่เป็นไปได้ให้อยู่ในจำนวนที่เหมาะสม ขั้นตอนแรกคือการดำเนินการ pLSA แบบปกติกับชุดรูปภาพ และสำหรับแต่ละหัวข้อ จะมีการปรับ แบบจำลองส่วนผสมเกาส์เซียนให้เข้ากับคำศัพท์ภาพ โดยถ่วงน้ำหนักด้วย ค่าคงที่ มีการลองใช้เกาส์เซียน มากถึง(โดยอนุญาตให้มีวัตถุหลายชิ้นในภาพเดียว) โดยที่เป็นค่าคงที่ $\displaystyle C$ $\displaystyle P(w|z)$ $\displaystyle K$ $\displaystyle K$

ผลงาน

ผู้เขียนบทความของ Fergus et al. ได้เปรียบเทียบประสิทธิภาพของอัลกอริธึม pLSA ทั้งสามแบบ (pLSA, ABS-pLSA และ TSI-pLSA) บนชุดข้อมูลที่คัดเลือกมาและรูปภาพที่ได้จากการค้นหาใน Google โดยวัดประสิทธิภาพจากอัตราความผิดพลาดในการจำแนกรูปภาพในชุดทดสอบว่าเป็นภาพที่มีรูปภาพนั้นอยู่หรือมีเพียงพื้นหลัง

ตามที่คาดไว้ การฝึกอบรมโดยตรงบนข้อมูลของ Google ทำให้เกิดอัตราข้อผิดพลาดที่สูงกว่าการฝึกอบรมบนข้อมูลที่เตรียมไว้^{[ 1 ]}ในหมวดหมู่ของวัตถุที่ทดสอบประมาณครึ่งหนึ่ง ABS-pLSA และ TSI-pLSA ทำงานได้ดีกว่า pLSA ปกติอย่างมีนัยสำคัญ และในเพียง 2 หมวดหมู่จาก 7 หมวดหมู่เท่านั้นที่ TSI-pLSA ทำงานได้ดีกว่าโมเดลอีกสองแบบ

ออปติมอล

OPTIMOL (automatic Online Picture collection via Incremental Model Learning) แก้ปัญหาการเรียนรู้หมวดหมู่ของวัตถุจากการค้นหารูปภาพออนไลน์โดยจัดการกับการเรียนรู้โมเดลและการค้นหาไปพร้อมกัน OPTIMOL เป็นโมเดลแบบวนซ้ำที่อัปเดตโมเดลของหมวดหมู่ของวัตถุเป้าหมายในขณะที่ดึงรูปภาพที่เกี่ยวข้องมากขึ้นไปพร้อมกัน^{[ 3 ]}

กรอบทั่วไป

OPTIMOL ถูกนำเสนอในฐานะกรอบการทำงานแบบวนซ้ำทั่วไปที่ไม่ขึ้นอยู่กับแบบจำลองเฉพาะที่ใช้สำหรับการเรียนรู้หมวดหมู่ โดยมีอัลกอริทึมดังต่อไปนี้:

ดาวน์โหลดชุดรูปภาพจำนวนมากจากอินเทอร์เน็ตโดยการค้นหาคำหลัก
เริ่มต้นชุดข้อมูลด้วยภาพต้นแบบ
แม้ว่าชุดข้อมูลยังต้องการรูปภาพเพิ่มเติม:
- เรียนรู้โมเดลด้วยภาพชุดข้อมูลที่เพิ่มเข้ามาล่าสุด
- จำแนกประเภทภาพที่ดาวน์โหลดโดยใช้โมเดลที่อัปเดตแล้ว
- เพิ่มรูปภาพที่ยอมรับแล้วลงในชุดข้อมูล

โปรดทราบว่าในแต่ละรอบการเรียนรู้ จะใช้เฉพาะภาพที่เพิ่มเข้ามาล่าสุดเท่านั้น ซึ่งช่วยให้อัลกอริธึมสามารถทำงานกับภาพอินพุตจำนวนมากได้อย่างไม่จำกัด

แบบอย่าง

สองหมวดหมู่ (วัตถุเป้าหมายและพื้นหลัง) ถูกจำลองเป็นกระบวนการ Dirichlet แบบลำดับชั้น (HDP) เช่นเดียวกับในแนวทาง pLSA ถือว่าภาพสามารถอธิบายได้ด้วยแบบจำลองถุงคำ (bag of words model ) HDP จำลองการกระจายของหัวข้อจำนวนไม่ระบุในภาพต่างๆ ในหมวดหมู่เดียวกัน และระหว่างหมวดหมู่ต่างๆ การกระจายของหัวข้อในภาพในหมวดหมู่เดียวถูกจำลองเป็นกระบวนการ Dirichlet (ซึ่งเป็นประเภทของการกระจายความน่าจะเป็นแบบ ไม่พาราเมตริก ) เพื่อให้สามารถแบ่งปันหัวข้อระหว่างคลาสได้ แต่ละกระบวนการ Dirichlet เหล่านี้จะถูกจำลองเป็นตัวอย่างจากกระบวนการ Dirichlet ต้นแบบอื่น HDP ได้รับการอธิบายครั้งแรกโดย Teh et al. ในปี 2005 ^[⁴^]

การดำเนินการ

การเริ่มต้น

ชุดข้อมูลต้องได้รับการเริ่มต้นหรือเติมข้อมูลเบื้องต้นด้วยชุดรูปภาพดั้งเดิมที่ทำหน้าที่เป็นตัวอย่างที่ดีของหมวดหมู่ของวัตถุที่จะเรียนรู้ สามารถรวบรวมรูปภาพเหล่านี้ได้โดยอัตโนมัติ โดยใช้รูปภาพหน้าแรกๆ ที่ได้จากเครื่องมือค้นหา (ซึ่งมักจะดีกว่ารูปภาพในหน้าถัดไป) หรืออาจรวบรวมรูปภาพเริ่มต้นด้วยตนเองก็ได้

การเรียนรู้แบบจำลอง

เพื่อเรียนรู้พารามิเตอร์ต่างๆ ของ HDP อย่างค่อยเป็นค่อยไป จึง ใช้ การสุ่มตัวอย่างแบบ Gibbsกับตัวแปรแฝง โดยจะดำเนินการหลังจากเพิ่มชุดภาพใหม่แต่ละชุดเข้าไปในชุดข้อมูล การสุ่มตัวอย่างแบบ Gibbs เกี่ยวข้องกับการสุ่มตัวอย่างซ้ำๆ จากชุดตัวแปรสุ่มเพื่อประมาณการแจกแจงของตัวแปรเหล่านั้น การสุ่มตัวอย่างเกี่ยวข้องกับการสร้างค่าสำหรับตัวแปรสุ่มที่ต้องการ โดยอิงจากสถานะของตัวแปรสุ่มอื่นๆ ที่ตัวแปรสุ่มนั้นขึ้นอยู่ด้วย หากมีตัวอย่างเพียงพอ ก็สามารถประมาณค่าได้อย่างเหมาะสม

การจำแนกประเภท

ในแต่ละรอบการทำซ้ำ ค่าและสามารถได้มาจากแบบจำลองที่เรียนรู้หลังจากการสุ่มตัวอย่างแบบ Gibbs รอบก่อนหน้า โดยที่คือหัวข้อคือหมวดหมู่ และคือคำศัพท์ภาพเดี่ยวๆ ดังนั้น ความน่าจะเป็นที่ภาพจะอยู่ในคลาสใดคลาสหนึ่งคือ: $\displaystyle P(z|c)$ $\displaystyle P(x|z,c)$ $\displaystyle z$ $\displaystyle c$ $\displaystyle x$

$\displaystyle P(I|c)=\prod _{i}\sum _{j}P(x_{i}|z_{j},c)P(z_{j}|c)$

ค่านี้จะถูกคำนวณสำหรับภาพผู้สมัครใหม่แต่ละภาพในแต่ละรอบการทำซ้ำ ภาพจะถูกจัดประเภทให้อยู่ในหมวดหมู่ที่มีความน่าจะเป็นสูงสุด

เพิ่มข้อมูลลงในชุดข้อมูลและ "ชุดแคช"

อย่างไรก็ตาม เพื่อให้ภาพนั้นมีคุณสมบัติเหมาะสมที่จะถูกรวมเข้าไปในชุดข้อมูล ภาพนั้นจะต้องตรงตามเงื่อนไขที่เข้มงวดกว่านี้:

$\displaystyle {\frac {P(I|c_{f})}{P(I|c_{b})}}>{\frac {\lambda _{Ac_{b}}-\lambda _{Rc_{b}}}{\lambda _{Rc_{f}}-\lambda _{Ac_{f}}}}{\frac {P(c_{b})}{P(c_{f})}}$

โดยที่และคือหมวดหมู่ของวัตถุ (พื้นหน้า) และพื้นหลัง ตามลำดับ และอัตราส่วนของค่าคงที่อธิบายถึงความเสี่ยงของการยอมรับผลบวกเท็จและผลลบเท็จ ค่าเหล่านี้จะถูกปรับโดยอัตโนมัติในทุกรอบการทำงาน โดยต้นทุนของชุดผลบวกเท็จจะสูงกว่าต้นทุนของชุดผลลบเท็จ ซึ่งช่วยให้มั่นใจได้ว่ามีการรวบรวมชุดข้อมูลที่ดีขึ้น $\displaystyle c_{f}$ $\displaystyle c_{b}$

Once an image is accepted by meeting the above criterion and incorporated into the dataset, however, it needs to meet another criterion before it is incorporated into the 揷ache set敆the set of images to be used for training. This set is intended to be a diverse subset of the set of accepted images. If the model were trained on all accepted images, it might become more and more highly specialized, only accepting images very similar to previous ones.

Performance

Performance of the OPTIMOL method is defined by three factors:

Ability to collect images: OPTIMOL, it is found, can automatically collect large numbers of good images from the web. The size of the OPTIMOL-retrieved image sets surpass that of large human-labeled image sets for the same categories, such as those found in Caltech 101.
Classification accuracy: Classification accuracy was compared to the accuracy displayed by the classifier yielded by the pLSA methods discussed earlier. It was discovered that OPTIMOL achieved slightly higher accuracy, obtaining 74.8% accuracy on 7 object categories, as compared to 72.0%.
Comparison with batch learning: An important question to address is whether OPTIMOL's incremental learning gives it an advantage over traditional batch learning methods, when everything else about the model is held constant. When the classifier learns incrementally, by selecting the next images based on what it learned from the previous ones, three important results are observed:
- Incremental learning allows OPTIMOL to collect a better dataset
- Incremental learning allows OPTIMOL to learn faster (by discarding irrelevant images)
- Incremental learning does not negatively affect the ROC curve of the classifier; in fact, incremental learning yielded an improvement

Object categorization in content-based image retrieval

Typically, image searches only make use of text associated with images. The problem of content-based image retrieval is that of improving search results by taking into account visual information contained in the images themselves. Several CBIR methods make use of classifiers trained on image search results, to refine the search. In other words, object categorization from image search is one component of the system. OPTIMOL, for example, uses a classifier trained on images collected during previous iterations to select additional images for the returned dataset.

Examples of CBIR methods that model object categories from image search are:

Fergus et al., 2004 ^[5]
Berg and Forsyth, 2006 ^[6]
Yanai and Barnard, 2006 ^[7]

การจัดหมวดหมู่ภาพจากผลการค้นหารูปภาพ

การจัดหมวดหมู่ภาพจากผลการค้นหารูปภาพ

ความท้าทาย

ภาพที่ไม่เกี่ยวข้อง

ความแปรปรวนภายในชั้นเรียน

วิธีการ pLSA

แบบอย่าง

แอปพลิเคชัน

ABS-pLSA

ทีเอสไอ-พีแอลเอสเอ

การดำเนินการ

การเลือกคำ

ตำแหน่งที่เป็นไปได้ของวัตถุ

ผลงาน

ออปติมอล

กรอบทั่วไป

แบบอย่าง

การดำเนินการ

การเริ่มต้น

การเรียนรู้แบบจำลอง

การจำแนกประเภท

เพิ่มข้อมูลลงในชุดข้อมูลและ "ชุดแคช"

Performance

Object categorization in content-based image retrieval

See also

ข้อมูลสำคัญจากบทความ