กลับไปหน้าบทความ

อ่าน 6 นาที

การวิเคราะห์ข้อมูลเชิงสำรวจ

ใน ทางสถิติ การ วิเคราะห์ข้อมูลเชิงสำรวจ (EDA) หรือ การวิเคราะห์เชิงสำรวจ เป็นวิธี การวิเคราะห์ ชุดข้อมูล เพื่อสรุปคุณลักษณะหลัก โดยมักใช้ กราฟทางสถิติ และวิธี การแสดงภาพข้อมูล...

การวิเคราะห์ข้อมูลเชิงสำรวจ

ในทางสถิติการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) หรือการวิเคราะห์เชิงสำรวจเป็นวิธีการวิเคราะห์ชุดข้อมูลเพื่อสรุปคุณลักษณะหลัก โดยมักใช้กราฟทางสถิติและวิธีการแสดงภาพข้อมูล อื่นๆ อาจใช้หรือไม่ใช้ แบบจำลองทางสถิติก็ได้ แต่โดยหลักแล้ว EDA มีไว้เพื่อดูว่าข้อมูลสามารถบอกอะไรได้บ้างนอกเหนือจากการสร้างแบบจำลองอย่างเป็นทางการ ซึ่งแตกต่างจากการทดสอบสมมติฐานแบบดั้งเดิมที่ต้องเลือกแบบจำลองก่อนที่จะเห็นข้อมูล การวิเคราะห์ข้อมูลเชิงสำรวจได้รับการส่งเสริมโดยJohn Tukeyตั้งแต่ปี 1970 เพื่อกระตุ้นให้นักสถิติสำรวจข้อมูล และอาจกำหนดสมมติฐานที่อาจนำไปสู่การรวบรวมข้อมูลและการทดลองใหม่ๆ EDA แตกต่างจากการวิเคราะห์ข้อมูลเบื้องต้น (IDA) [ 1 ] [ 2 ] ซึ่งเน้นเฉพาะการตรวจสอบสมมติฐาน ที่จำเป็นสำหรับการสร้างแบบจำลองและการทดสอบสมมติฐาน การจัดการค่าที่หายไป และการแปลงตัวแปรตามความจำเป็น EDA ครอบคลุม IDA

ภาพรวม

Tukey นิยามการวิเคราะห์ข้อมูลในปี พ.ศ. 2504 ว่า: "ขั้นตอนสำหรับการวิเคราะห์ข้อมูล เทคนิคสำหรับการตีความผลลัพธ์ของขั้นตอนดังกล่าว วิธีการวางแผนการรวบรวมข้อมูลเพื่อให้การวิเคราะห์ง่ายขึ้น แม่นยำขึ้น หรือถูกต้องมากขึ้น และเครื่องมือและผลลัพธ์ทั้งหมดของสถิติ (ทางคณิตศาสตร์) ที่ใช้ในการวิเคราะห์ข้อมูล" [ 3 ]

การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) เป็นเทคนิคที่ใช้ในการวิเคราะห์และตรวจสอบชุดข้อมูล และสรุปคุณลักษณะหลักของชุดข้อมูลนั้น ข้อดีหลักอย่างหนึ่งของ EDA คือการแสดงภาพข้อมูลหลังจากทำการวิเคราะห์แล้ว

การสนับสนุน EDA ของ Tukey กระตุ้นให้เกิดการพัฒนา แพ็กเกจ การคำนวณทางสถิติโดยเฉพาะSที่Bell Labs [ 4 ] ภาษาโปรแกรม S เป็นแรงบันดาลใจให้กับระบบS-PLUSและRตระกูลสภาพแวดล้อมการคำนวณทางสถิตินี้มีคุณสมบัติการแสดงภาพแบบไดนามิกที่ได้รับการปรับปรุงอย่างมาก ซึ่งช่วยให้นักสถิติสามารถระบุค่าผิดปกติแนวโน้มและรูปแบบในข้อมูลที่ควรค่าแก่การศึกษาเพิ่มเติมได้

EDA ของ Tukey เกี่ยวข้องกับการพัฒนาอีกสองด้านในทฤษฎีทางสถิติได้แก่สถิติที่แข็งแกร่ง (robust statistics)และสถิติที่ไม่ใช้พารามิเตอร์ (nonparametric statistics)ซึ่งทั้งสองอย่างพยายามลดความไวของการอนุมานทางสถิติต่อข้อผิดพลาดในการสร้างแบบจำลองทางสถิติ Tukey สนับสนุนการใช้ค่าสรุปห้าค่าของข้อมูลเชิงตัวเลข ได้แก่ค่าสุดขั้ว สองค่า ( ค่าสูงสุดและค่าต่ำสุด ) ค่ามัธยฐานและควาร์ไทล์เนื่องจากค่ามัธยฐานและควาร์ไทล์เหล่านี้เป็นฟังก์ชันของการกระจายเชิงประจักษ์และถูกกำหนดไว้สำหรับการกระจายทุกแบบ ซึ่งแตกต่างจากค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานนอกจากนี้ ควาร์ไทล์และค่ามัธยฐานยังมีความแข็งแกร่งต่อ การ กระจายแบบเบ้หรือแบบหางหนักมากกว่าค่าสรุปแบบดั้งเดิม (ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน) แพ็กเกจS , S-PLUSและRมีรูทีนที่ใช้สถิติการสุ่มตัวอย่างซ้ำเช่นแจ็กไนฟ์ ของ Quenouille และ Tukey และบูตสแตรปของEfronซึ่งเป็นสถิติที่ไม่ใช้พารามิเตอร์และแข็งแกร่ง (สำหรับปัญหาหลายอย่าง)

การวิเคราะห์ข้อมูลเชิงสำรวจ สถิติที่แข็งแกร่ง สถิติแบบไม่ใช้พารามิเตอร์ และการพัฒนาภาษาการเขียนโปรแกรมทางสถิติ ช่วยให้นักสถิติสามารถทำงานเกี่ยวกับปัญหาทางวิทยาศาสตร์และวิศวกรรมได้ ปัญหาเหล่านี้รวมถึงการผลิตเซมิคอนดักเตอร์และความเข้าใจเกี่ยวกับเครือข่ายการสื่อสาร ซึ่งทั้งสองอย่างนี้เป็นสิ่งที่ Bell Labs สนใจ การพัฒนาทางสถิติเหล่านี้ ซึ่ง Tukey เป็นผู้ริเริ่มทั้งหมด ได้รับการออกแบบมาเพื่อเสริม ทฤษฎี การวิเคราะห์ของการทดสอบสมมติฐานทางสถิติโดยเฉพาะอย่างยิ่งการเน้นย้ำของประเพณีLaplacian เกี่ยว กับ ตระกูลเลขชี้กำลัง[ 5 ]

นอกจากนี้ ยังมีข้อโต้แย้งว่าควรแสดงภาพข้อมูลในระหว่างการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) ก่อนที่จะสร้างแบบจำลอง เพื่อหลีกเลี่ยงข้อสรุปที่ผิดพลาด ดังเช่นในงานวิจัย Quartet ของ Anscombe

การพัฒนา

ผังกระบวนการวิทยาศาสตร์ข้อมูล

John W. TukeyเขียนหนังสือExploratory Data Analysisในปี 1977 [ 6 ] Tukey เห็นว่าในสถิติมีการเน้นมากเกินไปในเรื่องการทดสอบสมมติฐานทางสถิติ (การวิเคราะห์ข้อมูลเชิงยืนยัน) ควรเน้นมากขึ้นในเรื่องการใช้ข้อมูลเพื่อเสนอสมมติฐานที่จะทดสอบ โดยเฉพาะอย่างยิ่ง เขาเห็นว่าการสับสนระหว่างการวิเคราะห์ทั้งสองประเภทและการนำไปใช้กับชุดข้อมูลเดียวกันอาจนำไปสู่ความลำเอียงอย่างเป็นระบบเนื่องจากปัญหาที่เกิดขึ้นใน การทดสอบสมมติฐานที่ เสนอ โดยข้อมูล

วัตถุประสงค์ของ EDA คือ:

เทคนิค EDA หลายอย่างได้รับการนำมาใช้ในการทำเหมืองข้อมูลนอกจากนี้ยังมีการสอนเทคนิคเหล่านี้ให้กับนักเรียนรุ่นเยาว์เพื่อแนะนำให้พวกเขารู้จักกับการคิดเชิงสถิติ[ 8 ]

เทคนิคและเครื่องมือ

มีเครื่องมือหลายอย่างที่เป็นประโยชน์สำหรับ EDA แต่ EDA นั้นมีลักษณะเฉพาะอยู่ที่ทัศนคติมากกว่าเทคนิคเฉพาะ[ 9 ]

เทคนิคกราฟิกทั่วไปที่ใช้ใน EDA ได้แก่:

การลดมิติ :

เทคนิค เชิงปริมาณทั่วไปได้แก่:

ประวัติศาสตร์

แนวคิด EDA หลายอย่างสามารถสืบย้อนกลับไปถึงผู้เขียนรุ่นก่อนๆ ได้ ตัวอย่างเช่น:

หลักสูตรสถิติในสังคม (MDST 242) ของมหาวิทยาลัยเปิดได้นำแนวคิดข้างต้นมาผสานรวมกับงานของGottfried Noether ซึ่งได้แนะนำ การอนุมานทางสถิติผ่านการโยนเหรียญและการทดสอบค่ามัธยฐาน

ตัวอย่าง

ผลการค้นพบจาก EDA นั้นเป็นอิสระจากงานวิเคราะห์หลัก ตัวอย่างเช่น ลองพิจารณาตัวอย่างจาก Cook et al. ซึ่งงานวิเคราะห์คือการหาตัวแปรที่ทำนายจำนวนเงินทิปที่กลุ่มลูกค้าจะให้แก่พนักงานเสิร์ฟได้ดีที่สุด[ 12 ]ตัวแปรที่มีอยู่ในข้อมูลที่รวบรวมไว้สำหรับงานนี้ ได้แก่ จำนวนเงินทิป บิลทั้งหมด เพศของผู้จ่ายเงิน โซนสูบบุหรี่/ไม่สูบบุหรี่ เวลาของวัน วันในสัปดาห์ และขนาดของกลุ่มลูกค้า งานวิเคราะห์หลักดำเนินการโดยการสร้างแบบจำลองการถดถอยโดยที่อัตราทิปเป็นตัวแปรตอบสนอง แบบจำลองที่สร้างขึ้นคือ

( อัตราทิป ) = 0.18 - 0.01 × (จำนวนคนในกลุ่ม)

ซึ่งหมายความว่า เมื่อจำนวนคนในกลุ่มรับประทานอาหารเพิ่มขึ้นหนึ่งคน (ซึ่งส่งผลให้ค่าใช้จ่ายสูงขึ้น) อัตราการให้ทิปจะลดลงโดยเฉลี่ย 1%

อย่างไรก็ตาม การสำรวจข้อมูลเพิ่มเติมเผยให้เห็นคุณลักษณะที่น่าสนใจอื่นๆ ที่แบบจำลองนี้ไม่ได้อธิบายไว้

สิ่งที่ได้เรียนรู้จากกราฟนั้นแตกต่างจากสิ่งที่แสดงโดยแบบจำลองการถดถอย แม้ว่าการทดลองจะไม่ได้ออกแบบมาเพื่อตรวจสอบแนวโน้มอื่นๆ เหล่านั้นก็ตาม รูปแบบที่พบจากการสำรวจข้อมูลชี้ให้เห็นถึงสมมติฐานเกี่ยวกับการพลิกผันที่อาจไม่ได้คาดการณ์ไว้ล่วงหน้า และอาจนำไปสู่การทดลองติดตามผลที่น่าสนใจ ซึ่งสมมติฐานเหล่านั้นจะได้รับการระบุและทดสอบอย่างเป็นทางการโดยการรวบรวมข้อมูลใหม่

ซอฟต์แวร์

  • JMPคือแพ็กเกจ EDA จากSAS Institute
  • KNIME , Konstanz Information Miner – แพลตฟอร์มสำรวจข้อมูลแบบโอเพนซอร์สบนพื้นฐานของ Eclipse
  • Minitabเป็นโปรแกรมวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) และสถิติทั่วไปที่ใช้กันอย่างแพร่หลายในภาคอุตสาหกรรมและองค์กรธุรกิจ
  • Orangeคือชุดซอฟต์แวร์โอเพนซอร์สสำหรับการทำเหมืองข้อมูลและการเรียนรู้ของเครื่องจักร
  • Pythonเป็นภาษาโปรแกรมแบบโอเพนซอร์สที่ใช้กันอย่างแพร่หลายในด้านการทำเหมืองข้อมูลและการเรียนรู้ของเครื่อง
  • Matplotlib และ Seaborn เป็นไลบรารี Python ที่ใช้กันอย่างแพร่หลายในปัจจุบันสำหรับ EDA และการสร้างกราฟ/การแสดงภาพข้อมูล (อัปเดต: 2025)
  • Rเป็นภาษาโปรแกรมโอเพนซอร์สสำหรับการคำนวณทางสถิติและกราฟิกส์ ร่วมกับ Python เป็นหนึ่งในภาษาที่ได้รับความนิยมมากที่สุดสำหรับวิทยาศาสตร์ข้อมูล
  • TinkerPlotsคือซอฟต์แวร์ EDA สำหรับนักเรียนระดับประถมศึกษาตอนปลายและมัธยมต้น
  • Wekaเป็นแพ็กเกจโอเพนซอร์สสำหรับการทำเหมืองข้อมูล ซึ่งรวมถึงเครื่องมือสำหรับการแสดงภาพข้อมูลและการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) เช่นการค้นหาการฉายภาพเป้าหมาย (targeted projection pursuit )

ดูเพิ่มเติม

บรรณานุกรม

  • Andrienko, N & Andrienko, G (2005) การวิเคราะห์เชิงสำรวจข้อมูลเชิงพื้นที่และเวลา แนวทางที่เป็นระบบ Springer. ISBN 3-540-25994-5
  • Cook, D.และSwayne, DF (ร่วมกับ A. Buja, D. Temple Lang, H. Hofmann, H. Wickham, M. Lawrence) (12 ธันวาคม 2550). กราฟิกเชิงโต้ตอบและไดนามิกสำหรับการวิเคราะห์ข้อมูล: ด้วย R และ GGobi . Springer. ISBN 978-0-387-71761-6.{{cite book}}: CS1 maint: multiple names: authors list ( link )
  • Cook, D. และ Swayne, DF (ร่วมกับ A. Buja, D. Temple Lang, H. Hofmann, H. Wickham, M. Lawrence) (12 ธันวาคม 2550). กราฟิกเชิงโต้ตอบและไดนามิกสำหรับการวิเคราะห์ข้อมูล: ด้วย R และ GGobi. Springer. ISBN 9780387717616.
  • Hoaglin, DC; Mosteller, F & Tukey, John Wilder (บรรณาธิการ) (1985). การสำรวจตารางข้อมูล แนวโน้ม และรูปร่าง ISBN 978-0-471-09776-1
  • Hoaglin, DC; Mosteller, F & Tukey, John Wilder (บรรณาธิการ) (1983). ทำความเข้าใจการวิเคราะห์ข้อมูลที่แข็งแกร่งและเชิงสำรวจ ISBN 978-0-471-09777-8
  • Young, FW Valero-Mora, P. และ Friendly M. (2006) สถิติเชิงภาพ: การมองเห็นข้อมูลของคุณด้วยกราฟิกเชิงโต้ตอบแบบไดนามิก Wiley ISBN 978-0-471-68160-1 Jambu M. (1991) การวิเคราะห์ข้อมูลเชิงสำรวจและหลายตัวแปร Academic Press ISBN 0123800900
  • SHC DuToit, AGW Steyn, RH Stumpf (1986) การวิเคราะห์ข้อมูลเชิงสำรวจด้วยภาพกราฟิก Springer ISBN 978-1-4612-9371-2
  • Hoaglin, DC; Mosteller, F & Tukey, John Wilder (บรรณาธิการ) (1985). การสำรวจตารางข้อมูล แนวโน้ม และรูปร่าง . ไวลีย์. ISBN 978-0-471-09776-1.{{cite book}}: CS1 maint: multiple names: authors list ( link )
  • Hoaglin, DC; Mosteller, F & Tukey, John Wilder (บรรณาธิการ) (1983). ทำความเข้าใจการวิเคราะห์ข้อมูลที่แข็งแกร่งและเชิงสำรวจ . Wiley. ISBN 978-0-471-09777-8.{{cite book}}: CS1 maint: multiple names: authors list ( link )
  • อินเซลเบิร์ก, อัลเฟรด (2009). พิกัดขนาน: เรขาคณิตหลายมิติเชิงภาพและการประยุกต์ใช้ . ลอนดอน นิวยอร์ก: สปริงเกอร์. ISBN 978-0-387-68628-8.
  • Leinhardt, G., Leinhardt, S., การวิเคราะห์ข้อมูลเชิงสำรวจ: เครื่องมือใหม่สำหรับการวิเคราะห์ข้อมูลเชิงประจักษ์ , วารสารวิจัยทางการศึกษา, เล่มที่ 8, 1980 (1980), หน้า 85–157
  • Martinez, WL ; Martinez, AR & Solka, J. (2010). การวิเคราะห์ข้อมูลเชิงสำรวจด้วย MATLAB ฉบับพิมพ์ครั้งที่สอง . Chapman & Hall/CRC. ISBN 978-1-4398-1220-4.
  • Theus, M., Urbanek, S. (2008), กราฟิกเชิงโต้ตอบสำหรับการวิเคราะห์ข้อมูล: หลักการและตัวอย่าง, CRC Press, Boca Raton, FL, ISBN 978-1-58488-594-8
  • Tucker, L; MacCallum, R. (1993). การวิเคราะห์ปัจจัยเชิงสำรวจ
  • ทูคีย์, จอห์น ไวลเดอร์ (1977). การวิเคราะห์ข้อมูลเชิงสำรวจ . แอดดิสัน-เวสลีย์. ISBN 978-0-201-07616-5.
  • Velleman, PF; Hoaglin, DC (1981). การประยุกต์ใช้ พื้นฐาน และการคำนวณของการวิเคราะห์ข้อมูลเชิงสำรวจ . สำนักพิมพ์ Duxbury. ISBN 978-0-87150-409-8.
  • Young, FW Valero-Mora, P. และ Friendly M. (2006) สถิติเชิงภาพ: การมองเห็นข้อมูลของคุณด้วยกราฟิกเชิงโต้ตอบแบบไดนามิก Wiley ISBN 978-0-471-68160-1
  • Jambu M. (1991) การวิเคราะห์ข้อมูลเชิงสำรวจและหลายตัวแปรสำนักพิมพ์ Academic Press ISBN 0123800900
  • SHC DuToit, AGW Steyn, RH Stumpf (1986) การวิเคราะห์ข้อมูลเชิงสำรวจด้วยภาพกราฟิกสปริงเกอร์ISBN 978-1-4612-9371-2

  • มหาวิทยาลัยคาร์เนกีเมลลอน – หลักสูตรออนไลน์ฟรีเกี่ยวกับความน่าจะเป็นและสถิติ พร้อมโมดูลเกี่ยวกับการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA)
  • • บทวิเคราะห์ข้อมูลเชิงสำรวจ: คู่มือสถิติทางวิศวกรรม
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Exploratory_data_analysis&oldid=1351606903 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การวิเคราะห์ข้อมูลเชิงสำรวจ

ใน ทางสถิติ การ วิเคราะห์ข้อมูลเชิงสำรวจ (EDA) หรือ การวิเคราะห์เชิงสำรวจ เป็นวิธี การวิเคราะห์ ชุดข้อมูล เพื่อสรุปคุณลักษณะหลัก โดยมักใช้ กราฟทางสถิติ และวิธี การแสดงภาพข้อมูล...

ภาพรวม

Tukey นิยามการวิเคราะห์ข้อมูลในปี พ.ศ. 2504 ว่า: "ขั้นตอนสำหรับการวิเคราะห์ข้อมูล เทคนิคสำหรับการตีความผลลัพธ์ของขั้นตอนดังกล่าว วิธีการวางแผนการรวบรวมข้อมูลเพื่อให้การวิเคราะห์ง่ายขึ้น แม่นยำขึ้น หรือถูกต้องมากขึ้น และเครื่องมือและผลลัพธ์ทั้งหมดของสถิติ...

การพัฒนา

John W. Tukey เขียนหนังสือ Exploratory Data Analysis ในปี 1977 [ 6 ] Tukey เห็นว่าในสถิติมีการเน้นมากเกินไปในเรื่อง การทดสอบสมมติฐานทางสถิติ (การวิเคราะห์ข้อมูลเชิงยืนยัน) ควรเน้นมากขึ้นในเรื่องการใช้ ข้อมูล เพื่อเสนอสมมติฐานที่จะทดสอบ โดยเฉพาะอย่างยิ่ง...

เทคนิคและเครื่องมือ

มีเครื่องมือหลายอย่างที่เป็นประโยชน์สำหรับ EDA แต่ EDA นั้นมีลักษณะเฉพาะอยู่ที่ทัศนคติมากกว่าเทคนิคเฉพาะ [ 9 ]