ยก (การขุดข้อมูล)

Q: ตัวอย่าง

สมมติว่า ชุดข้อมูล ที่กำลังถูกขุดค้นมีดังนี้:

Q: ดูเพิ่มเติม

ความสัมพันธ์และการพึ่งพา การสร้างแบบจำลองการยกตัว ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Lift_(data_mining)&oldid=1310091368 "

ในการทำเหมืองข้อมูลและการเรียนรู้กฎความสัมพันธ์Liftคือมาตรวัดประสิทธิภาพของแบบ จำลองการกำหนดเป้าหมาย (กฎความสัมพันธ์) ในการทำนายหรือจำแนกกรณีที่มีการตอบสนองที่ดีขึ้น (เมื่อเทียบกับประชากรโดยรวม) โดยวัดเทียบกับแบบจำลองการกำหนดเป้าหมายแบบสุ่ม แบบจำลองการกำหนดเป้าหมายจะทำงานได้ดีหากการตอบสนองภายในเป้าหมาย ( ) ดีกว่าค่าเฉลี่ยของเส้นฐาน ( ) สำหรับประชากรโดยรวมมาก Lift คืออัตราส่วนของค่าเหล่านี้: การตอบสนองของเป้าหมายหารด้วยการตอบสนองเฉลี่ย ในทางคณิตศาสตร์ $T$ $B$

\operatorname {lift} ={\frac {P(T\mid B)}{P(T)}}={\frac {P(T\wedge B)}{P(T)P(B)}}

ตัวอย่างเช่น สมมติว่าประชากรกลุ่มหนึ่งมีอัตราการตอบสนองเฉลี่ย 5% แต่แบบจำลอง (หรือกฎ) บางอย่างระบุกลุ่มที่มีอัตราการตอบสนอง 20% ดังนั้นกลุ่มนั้นจะมีค่าเพิ่มขึ้น (lift) เท่ากับ 4.0 (20%/5%)

แอปพลิเคชัน

โดยทั่วไป นักสร้างแบบจำลองจะพยายามแบ่งประชากรออกเป็นกลุ่มย่อย (quantiles ) และจัดอันดับกลุ่มย่อยเหล่านั้นตามผลลัพธ์ที่ได้ จากนั้นองค์กรต่างๆ สามารถพิจารณากลุ่มย่อยแต่ละกลุ่ม และโดยการชั่งน้ำหนักอัตราการตอบสนองที่คาดการณ์ไว้ (และผลประโยชน์ทางการเงินที่เกี่ยวข้อง) เทียบกับต้นทุน พวกเขาสามารถตัดสินใจได้ว่าจะทำการตลาดกับกลุ่มย่อยนั้นหรือไม่

เส้นโค้งยกสามารถถือได้ว่าเป็นรูปแบบหนึ่งของ เส้นโค้ง ลักษณะการทำงานของผู้รับ (ROC) และยังเป็นที่รู้จักในทางเศรษฐศาสตร์ในชื่อเส้นโค้งลอเรนซ์หรือเส้นโค้งกำลัง^{[ 1 ]}

ตัวอย่าง

สมมติว่าชุดข้อมูลที่กำลังถูกขุดค้นมีดังนี้:

ที่มา	ผลที่ตามมา
เอ	0
เอ	0
เอ	1
เอ	0
บี	1
บี	0
บี	1

โดยที่ตัวแปรต้นคือตัวแปรนำเข้าที่เราสามารถควบคุมได้ และตัวแปรตามคือตัวแปรที่เราพยายามทำนาย ปัญหาการทำเหมืองข้อมูลในโลกแห่งความเป็นจริงมักจะมีตัวแปรต้นที่ซับซ้อนกว่า แต่โดยทั่วไปจะเน้นที่ตัวแปรตามที่มีค่าเดียว

อัลกอริทึมการขุดส่วนใหญ่จะกำหนดกฎต่อไปนี้ (สำหรับโมเดลเป้าหมาย):

กฎข้อที่ 1: A ย่อมหมายถึง 0
กฎข้อที่ 2: B หมายถึง 1

เนื่องจากนี่เป็นเพียงรูปแบบที่พบได้บ่อยที่สุดในข้อมูล การตรวจสอบตารางข้างต้นอย่างง่ายๆ ก็จะทำให้เห็นกฎเหล่านี้ได้อย่างชัดเจน

ค่าสนับสนุนสำหรับกฎข้อที่ 1 คือ 3/7 เนื่องจากนั่นคือจำนวนรายการในชุดข้อมูลที่เงื่อนไขก่อนหน้าคือ A และเงื่อนไขถัดไปคือ 0 ค่าสนับสนุนสำหรับกฎข้อที่ 2 คือ 2/7 เนื่องจากมีสองรายการจากเจ็ดรายการที่ตรงตามเงื่อนไขก่อนหน้าคือ B และเงื่อนไขถัดไปคือ 1 ค่าสนับสนุนสามารถเขียนได้ดังนี้:

\operatorname {supp} (A\Rightarrow 0)=P(A\land 0)=P(A)P(0\mid A)=P(0)P(A\mid 0)

\operatorname {supp} (B\Rightarrow 1)=P(B\land 1)=P(B)P(1\mid B)=P(1)P(B\mid 1)

ความเชื่อมั่นสำหรับกฎข้อที่ 1 คือ 3/4 เนื่องจากบันทึกสามในสี่รายการที่ตรงตามเงื่อนไขเบื้องต้น A ตรงกับเงื่อนไขภายหลัง 0 ความเชื่อมั่นสำหรับกฎข้อที่ 2 คือ 2/3 เนื่องจากบันทึกสองในสามรายการที่ตรงตามเงื่อนไขเบื้องต้น B ตรงกับเงื่อนไขภายหลัง 1 สามารถเขียนความเชื่อมั่นได้ดังนี้:

\operatorname {conf} (A\Rightarrow 0)=P(0\mid A)

\operatorname {conf} (B\Rightarrow 1)=P(1\mid B)

ค่า Lift สามารถหาได้โดยการหารค่าความเชื่อมั่นด้วยความน่าจะเป็นแบบไม่มีเงื่อนไขของผลลัพธ์ หรือโดยการหารค่า Support ด้วยความน่าจะเป็นของเหตุการณ์ก่อนหน้าคูณด้วยความน่าจะเป็นของผลลัพธ์ ดังนี้:

ค่ายกสำหรับกฎข้อที่ 1 คือ (3/4)/(4/7) = (3*7)/(4 * 4) = 21/16 ≈ 1.31
ค่ายกสำหรับกฎข้อที่ 2 คือ (2/3)/(3/7) = (2*7)/(3 * 3) = 14/9 ≈ 1.56

\operatorname {lift} (A\Rightarrow 0)={\frac {P(0\mid A)}{P(0)}}={\frac {P(A\land 0)}{P(A)P(0)}}

\operatorname {lift} (B\Rightarrow 1)={\frac {P(1\mid B)}{P(1)}}={\frac {P(B\land 1)}{P(B)P(1)}}

หากกฎใดมีค่ายกกำลังเท่ากับ 1 นั่นหมายความว่าความน่าจะเป็นของการเกิดเหตุการณ์ก่อนหน้าและความน่าจะเป็นของการเกิดเหตุการณ์ที่ตามมาเป็นอิสระต่อกัน เมื่อเหตุการณ์สองเหตุการณ์เป็นอิสระต่อกัน จะไม่สามารถกำหนดกฎใด ๆ ที่เกี่ยวข้องกับเหตุการณ์ทั้งสองนั้นได้

ถ้าค่าลิฟต์มากกว่า 1 ดังเช่นในกรณีของกฎข้อที่ 1 และ 2 นั่นจะทำให้เรารู้ถึงระดับความสัมพันธ์ระหว่างเหตุการณ์ทั้งสอง และทำให้กฎเหล่านั้นมีประโยชน์ในการทำนายผลลัพธ์ในชุดข้อมูลในอนาคตได้

สังเกตว่าถึงแม้กฎข้อที่ 1 จะมีความมั่นใจสูงกว่า แต่ค่าลิฟต์กลับต่ำกว่า โดยสัญชาตญาณแล้ว ดูเหมือนว่ากฎข้อที่ 1 จะมีค่ามากกว่าเพราะมีความมั่นใจสูงกว่า—ดูเหมือนว่าจะมีความแม่นยำมากกว่า (ได้รับการสนับสนุนที่ดีกว่า) แต่ความแม่นยำของกฎโดยไม่คำนึงถึงชุดข้อมูลอาจทำให้เข้าใจผิดได้ คุณค่าของค่าลิฟต์อยู่ที่การพิจารณาทั้งความมั่นใจของกฎและชุดข้อมูลโดยรวม

ดูเพิ่มเติม

[ 1 ]

ยก (การขุดข้อมูล)

แอปพลิเคชัน

ตัวอย่าง

ดูเพิ่มเติม

ข้อมูลสำคัญจากบทความ