จิตวิทยาการวัดผล

จิตวิทยาการวัด (Psychometrics)เป็นสาขาหนึ่งของจิตวิทยาที่เกี่ยวข้องกับทฤษฎีและเทคนิคการวัดโดยทั่วไปแล้ว จิตวิทยาการวัดครอบคลุมสาขาเฉพาะทางในจิตวิทยาและการศึกษาที่อุทิศให้กับการทดสอบ การวัด การประเมิน และกิจกรรมที่เกี่ยวข้อง^{[ 1 ]}จิตวิทยาการวัดเกี่ยวข้องกับการวัดเชิงวัตถุวิสัยของตัวแปรแฝงที่ไม่สามารถสังเกตได้โดยตรง ตัวอย่างของตัวแปรแฝง ได้แก่สติปัญญา ปัจจัย บุคลิกภาพ ( เช่นการเก็บตัว ) ความผิดปกติทางจิตและผลสัมฤทธิ์ทางการศึกษา [ ^{2 ] ระดับ}ของบุคคลในตัวแปรแฝงที่ไม่สามารถสังเกตได้จะถูกอนุมานผ่านแบบจำลองทางคณิตศาสตร์โดยอิงจากสิ่งที่สังเกตได้จากการตอบสนองของบุคคลต่อรายการในแบบทดสอบและมาตรวัด^{[ 2 ]}

ผู้ปฏิบัติงานจะถูกเรียกว่านักจิตวิทยาการวัดแม้ว่าไม่ใช่ทุกคนที่เกี่ยวข้องกับการวิจัยด้านจิตวิทยาการวัดจะใช้ชื่อนี้ก็ตาม นักจิตวิทยาการวัดส่วนใหญ่เป็น นักจิตวิทยา ที่มีการฝึกอบรมระดับบัณฑิตศึกษาขั้นสูงในด้านจิตวิทยาการวัดและทฤษฎีการวัด ตาม พจนานุกรมจิตวิทยานักจิตวิทยาการวัดคือ "บุคคลที่มีความรู้เชิงทฤษฎีเกี่ยวกับเทคนิคการวัดซึ่งมีคุณสมบัติในการพัฒนา ประเมิน และปรับปรุงแบบทดสอบทางจิตวิทยา" ^{[ 3 ]}นอกเหนือจากสถาบันการศึกษาแบบดั้งเดิมแล้ว นักจิตวิทยาการวัดยังทำงานให้กับองค์กรต่างๆ เช่นPearsonและEducational Testing Serviceรวมถึงเป็นที่ปรึกษาอิสระด้วย นักวิจัยด้านจิตวิทยาการวัดบางคนมุ่งเน้นไปที่การสร้างและการตรวจสอบความถูกต้องของเครื่องมือประเมิน รวมถึงแบบสำรวจมาตราส่วนและแบบสอบถาม แบบ เปิดหรือแบบปิด บางคนมุ่งเน้นไปที่การวิจัยที่เกี่ยวข้องกับทฤษฎีการวัด (เช่นทฤษฎีการตอบสนองต่อรายการความสัมพันธ์ภายในกลุ่ม ) หรือเชี่ยวชาญในฐานะผู้เชี่ยวชาญด้าน การเรียนรู้และการพัฒนา

นิรุกติศาสตร์

คำว่า "psychometry" มาจากภาษากรีก : ψυχή (psukhē)ซึ่งแปลว่า "จิตวิญญาณ" และ μέτρον (metron ) ซึ่งแปลว่า "การวัด" นักวิชาการชาวอเมริกันโจเซฟ โรดส์ บูคานันได้รับการยกย่องว่าเป็นผู้บัญญัติศัพท์ "psychometry" เป็นคนแรกในปี 1842 ในการศึกษา ปรากฏการณ์ เหนือธรรมชาติมากกว่าการวัดเชิงปริมาณอย่างมีเหตุผลของเกณฑ์ ทางจิตวิทยา

รากฐานทางประวัติศาสตร์

การทดสอบทางจิตวิทยาเชิงเหตุผลเกิดขึ้นจากแนวคิดสองกระแส: กระแสแรกมาจากDarwin , GaltonและCattellเกี่ยวกับการวัดความแตกต่างระหว่างบุคคล และกระแสที่สองมาจากHerbart , Weber , FechnerและWundtและการวัดทางจิตกายภาพของพวกเขาเกี่ยวกับโครงสร้างที่คล้ายคลึงกัน กลุ่มบุคคลชุดที่สองและการวิจัยของพวกเขาเป็นสิ่งที่นำไปสู่การพัฒนาจิตวิทยาเชิงทดลองและการทดสอบมาตรฐาน^{[ 4 ]}

ลำธารวิคตอเรียน

ชาร์ลส์ ดาร์วิน เป็นแรงบันดาลใจให้ฟรานซิส กัลตัน นักวิทยาศาสตร์ผู้พัฒนาศาสตร์ด้านจิตวิทยาการวัด (psychometrics) ในปี 1859 ดาร์วินได้ตีพิมพ์หนังสือชื่อ " ว่าด้วยกำเนิดของสิ่งมีชีวิต" (On the Origin of Species ) ดาร์วินอธิบายบทบาทของการคัดเลือกโดยธรรมชาติในการกำเนิดของประชากรสายพันธุ์ต่างๆ ของพืชและสัตว์ในช่วงเวลาต่างๆ หนังสือเล่มนี้แสดงให้เห็นว่าสมาชิกแต่ละตัวในสายพันธุ์เดียวกันมีความแตกต่างกันอย่างไร และมีลักษณะเฉพาะที่ปรับตัวเข้ากับสภาพแวดล้อมได้มากหรือน้อยเพียงใด ผู้ที่มีลักษณะที่ปรับตัวได้ดีกว่ามีโอกาสรอดชีวิตเพื่อสืบพันธุ์และให้กำเนิดรุ่นต่อไปมากกว่า ส่วนผู้ที่มีลักษณะที่ปรับตัวได้น้อยกว่าก็มีโอกาสน้อยกว่า แนวคิดเหล่านี้กระตุ้นความสนใจของกัลตันในการศึกษาเกี่ยวกับมนุษย์ ความแตกต่างระหว่างแต่ละคน และวิธีการวัดความแตกต่างเหล่านั้น

กัลตันเขียนหนังสือชื่อHereditary Geniusซึ่งตีพิมพ์ครั้งแรกในปี 1869 หนังสือเล่มนี้อธิบายถึงลักษณะต่างๆ ที่ผู้คนมี และลักษณะเหล่านั้นทำให้บางคน "เหมาะสม" มากกว่าคนอื่นๆ ปัจจุบัน ความแตกต่างเหล่านี้ เช่น การทำงานของประสาทสัมผัสและการเคลื่อนไหว (เวลาตอบสนอง ความคมชัดของการมองเห็น และความแข็งแรงทางกายภาพ) เป็นขอบเขตที่สำคัญของจิตวิทยาเชิงวิทยาศาสตร์ งานทางทฤษฎีและการประยุกต์ใช้ในยุคแรกๆ ของจิตวิทยาการวัดส่วนใหญ่ดำเนินการเพื่อพยายามวัดสติปัญญากัลตัน ซึ่งมักถูกเรียกว่า "บิดาแห่งจิตวิทยาการวัด" ได้คิดค้นและรวมการทดสอบทางจิตไว้ในการวัดทางมานุษยวิทยา ของเขา เจมส์ แมคคีน แคทเทลล์ผู้บุกเบิกในสาขาจิตวิทยาการวัด ได้ขยายงานของกัลตัน แคทเทลล์เป็นผู้บัญญัติศัพท์คำว่าการทดสอบทางจิตและเป็นผู้รับผิดชอบงานวิจัยและความรู้ที่นำไปสู่การพัฒนาการทดสอบสมัยใหม่ในที่สุด^{[ 4 ]}

กระแสเยอรมัน

ต้นกำเนิดของจิตวิทยาการวัดยังเชื่อมโยงกับสาขาจิตวิทยาฟิสิกส์ ที่เกี่ยวข้อง อีกด้วย ในช่วงเวลาเดียวกันกับที่ดาร์วิน กัลตัน และแคทเทลล์กำลังค้นพบสิ่งต่างๆ เฮอร์บาร์ตก็สนใจที่จะ "ไขปริศนาของจิตสำนึกของมนุษย์" ผ่านวิธีการทางวิทยาศาสตร์เช่นกัน^{[ 4 ]}เฮอร์บาร์ตเป็นผู้รับผิดชอบในการสร้างแบบจำลองทางคณิตศาสตร์ของจิตใจ ซึ่งมีอิทธิพลต่อแนวทางการศึกษาในอีกหลายปีข้างหน้า

อีเอช เวเบอร์ได้ต่อยอดจากงานของเฮอร์บาร์ตและพยายามพิสูจน์การมีอยู่ของเกณฑ์ทางจิตวิทยา โดยกล่าวว่าจำเป็นต้องมีสิ่งเร้าขั้นต่ำเพื่อกระตุ้นระบบประสาทสัมผัสหลังจากเวเบอร์จีที เฟคเนอร์ได้ขยายความรู้ที่เขาได้รับจากเฮอร์บาร์ตและเวเบอร์เพื่อคิดค้นกฎที่ว่าความแรงของความรู้สึกจะเพิ่มขึ้นตามลอการิทึมของความเข้มของสิ่งเร้าวิลเฮล์ม วุนด์ท ผู้สืบทอดจากเวเบอร์และเฟคเนอร์ ได้รับการยกย่องว่าเป็นผู้ก่อตั้งวิทยาศาสตร์จิตวิทยา อิทธิพลของวุนด์ทเป็นสิ่งที่ปูทางให้ผู้อื่นพัฒนาการทดสอบทางจิตวิทยา^{[ 4 ]}

ศตวรรษที่ 20

ในปี พ.ศ. 2479 LL Thurstoneนักจิตวิทยาการวัดซึ่งเป็นผู้ร่วมก่อตั้งและประธานคนแรกของสมาคมจิตวิทยาการวัด ได้พัฒนาและประยุกต์ใช้แนวทางเชิงทฤษฎีในการวัดที่เรียกว่ากฎแห่งการตัดสินเชิงเปรียบเทียบซึ่งเป็นแนวทางที่มีความเชื่อมโยงอย่างใกล้ชิดกับทฤษฎีจิตกายภาพของErnst Heinrich WeberและGustav Fechnerนอกจากนี้ Spearman และ Thurstone ต่างก็มีส่วนสำคัญต่อทฤษฎีและการประยุกต์ใช้การวิเคราะห์ปัจจัยซึ่งเป็นวิธีการทางสถิติที่พัฒนาและใช้กันอย่างแพร่หลายในด้านจิตวิทยาการวัด^{[ 5 ]}ในช่วงปลายทศวรรษ พ.ศ. 2493 Leopold Szondiได้ทำการประเมินทางประวัติศาสตร์และญาณวิทยาเกี่ยวกับผลกระทบของความคิดเชิงสถิติต่อจิตวิทยาในช่วงไม่กี่ทศวรรษที่ผ่านมาว่า "ในช่วงหลายทศวรรษที่ผ่านมา ความคิดเชิงจิตวิทยาโดยเฉพาะถูกกดดันและกำจัดออกไปเกือบหมด และถูกแทนที่ด้วยความคิดเชิงสถิติ ตรงจุดนี้เองที่เราเห็นมะเร็งของการทดสอบวิทยาและโรคคลั่งการทดสอบในปัจจุบัน" ^{[ 6 ]}

เมื่อไม่นานมานี้ ทฤษฎีจิตวิทยาการวัดได้ถูกนำมาประยุกต์ใช้ในการวัดบุคลิกภาพทัศนคติและความ เชื่อและผลสัมฤทธิ์ทางการเรียนโครงสร้างแฝงเหล่านี้ไม่สามารถวัดได้อย่างแท้จริง และงานวิจัยและวิทยาศาสตร์ส่วนใหญ่ในสาขานี้ได้รับการพัฒนาขึ้นเพื่อพยายามวัดโครงสร้างเหล่านี้ให้ใกล้เคียงกับคะแนนที่แท้จริงมากที่สุดเท่าที่จะเป็นไปได้

บุคคลสำคัญที่สร้างคุณูปการอย่างมากต่อวิชาจิตวิทยาการวัด ได้แก่ Paul Horst, Karl Pearson , Henry F. Kaiser, Carl Brigham , LL Thurstone , EL Thorndike , Georg Rasch , Eugene Galanter , Johnson O'Connor , Frederic M. Lord , Ledyard R Tucker , Louis GuttmanและJane Loevinger

นิยามของการวัดในสังคมศาสตร์

นิยามของการวัดในสังคมศาสตร์มีประวัติมายาวนาน นิยามที่แพร่หลายในปัจจุบันซึ่งเสนอโดยStanley Smith Stevensคือ การวัดคือ "การกำหนดตัวเลขให้กับวัตถุหรือเหตุการณ์ตามกฎบางอย่าง" นิยามนี้ถูกนำเสนอใน บทความ Science ปี 1946 ซึ่ง Stevens เสนอระดับการวัดสี่ ระดับ ^{[ 7 ]}แม้ว่าจะได้รับการยอมรับอย่างกว้างขวาง แต่นิยามนี้ก็แตกต่างจากนิยามการวัดแบบคลาสสิกที่ใช้ในวิทยาศาสตร์กายภาพในประเด็นสำคัญหลายประการ กล่าวคือ การวัดทางวิทยาศาสตร์เกี่ยวข้องกับ "การประมาณหรือการค้นพบอัตราส่วนของขนาดบางอย่างของคุณลักษณะเชิงปริมาณต่อหน่วยของคุณลักษณะเดียวกัน" (หน้า 358) ^{[ 8 ]}

อันที่จริง นิยามของการวัดที่สตีเวนส์เสนอขึ้นนั้น เกิดขึ้นเพื่อตอบสนองต่อคณะกรรมการเฟอร์กูสันของอังกฤษ ซึ่งมีเอ. เฟอร์กูสัน นักฟิสิกส์เป็นประธาน คณะกรรมการชุดนี้ได้รับการแต่งตั้งในปี 1932 โดยสมาคมเพื่อความก้าวหน้าทางวิทยาศาสตร์ของอังกฤษ เพื่อตรวจสอบความเป็นไปได้ในการประเมินเหตุการณ์ทางประสาทสัมผัสในเชิงปริมาณ แม้ว่าประธานและสมาชิกคนอื่นๆ จะเป็นนักฟิสิกส์ แต่คณะกรรมการก็ยังมีนักจิตวิทยาหลายคนรวมอยู่ด้วย รายงานของคณะกรรมการเน้นย้ำถึงความสำคัญของนิยามของการวัด ในขณะที่การตอบสนองของสตีเวนส์คือการเสนอนิยามใหม่ ซึ่งมีอิทธิพลอย่างมากในสาขานี้ แต่นี่ไม่ใช่การตอบสนองเพียงอย่างเดียวต่อรายงานดังกล่าว การตอบสนองอีกอย่างหนึ่งที่แตกต่างอย่างเห็นได้ชัดคือการยอมรับนิยามแบบดั้งเดิม ดังที่สะท้อนให้เห็นในข้อความต่อไปนี้:

การวัดในจิตวิทยาและฟิสิกส์ไม่ได้แตกต่างกันในแง่ใดๆ นักฟิสิกส์สามารถวัดได้เมื่อพวกเขาสามารถหาวิธีดำเนินการที่ตรงตามเกณฑ์ที่จำเป็นได้ นักจิตวิทยาก็ต้องทำเช่นเดียวกัน พวกเขาไม่จำเป็นต้องกังวลเกี่ยวกับความแตกต่างที่ลึกลับระหว่างความหมายของการวัดในสองวิทยาศาสตร์นี้ (Reese, 1943, หน้า 49) ^{[ 9 ]}

การตอบสนองที่แตกต่างกันเหล่านี้สะท้อนให้เห็นในแนวทางการวัดทางเลือก ตัวอย่างเช่น วิธีการที่อิงตามเมทริกซ์ความแปรปรวนร่วมมักถูกนำมาใช้บนสมมติฐานที่ว่าตัวเลข เช่น คะแนนดิบที่ได้จากการประเมิน เป็นการวัด แนวทางดังกล่าวโดยปริยายเกี่ยวข้องกับคำจำกัดความของการวัดของ Stevens ซึ่งต้องการเพียงแค่ให้มีการกำหนด ตัวเลข ตามกฎบางอย่าง ดังนั้น งานวิจัยหลักโดยทั่วไปจึงถือเป็นการค้นพบความสัมพันธ์ระหว่างคะแนน และปัจจัยที่คาดว่าจะอยู่เบื้องหลังความสัมพันธ์ดังกล่าว^{[ 10 ]}

ในทางกลับกัน เมื่อใช้แบบจำลองการวัด เช่นแบบจำลอง Raschตัวเลขจะไม่ถูกกำหนดตามกฎเกณฑ์ตายตัว แต่ตามคำกล่าวของ Reese ข้างต้น จะมีการระบุเกณฑ์เฉพาะสำหรับการวัด และเป้าหมายคือการสร้างขั้นตอนหรือการดำเนินงานที่ให้ข้อมูลที่ตรงตามเกณฑ์ที่เกี่ยวข้อง การวัดจะถูกประมาณค่าโดยใช้แบบจำลอง และจะมีการทดสอบเพื่อตรวจสอบว่าตรงตามเกณฑ์ที่เกี่ยวข้องหรือไม่

เครื่องมือและขั้นตอนต่างๆ

เครื่องมือวัดทางจิตวิทยาชุดแรกได้รับการออกแบบมาเพื่อวัดสติปัญญา[ ^{11 ] แนวทาง}แรกๆ ในการวัดสติปัญญาคือการทดสอบที่พัฒนาขึ้นในฝรั่งเศสโดยAlfred BinetและTheodore Simonการทดสอบนั้นเป็นที่รู้จักในชื่อการทดสอบ Binet-Simonการทดสอบของฝรั่งเศสได้รับการดัดแปลงเพื่อใช้ในสหรัฐอเมริกาโดยLewis Termanจากมหาวิทยาลัยสแตนฟอร์ด และตั้งชื่อว่า การ ทดสอบ IQ Stanford-Binet

อีกหนึ่งประเด็นสำคัญในด้านจิตวิทยาการวัดผลคือการทดสอบบุคลิกภาพมีแนวทางเชิงทฤษฎีมากมายในการกำหนดแนวคิดและวัดบุคลิกภาพ แม้ว่าจะไม่มีทฤษฎีใดที่ได้รับการยอมรับอย่างกว้างขวาง เครื่องมือที่เป็นที่รู้จักกันดี ได้แก่แบบสำรวจบุคลิกภาพ Minnesota Multiphasic Personality Inventory , แบบจำลองปัจจัยห้าประการ (หรือ "Big 5") และเครื่องมือต่างๆ เช่น แบบสำรวจบุคลิกภาพและความชอบ ( Personality and Preference Inventory ) และตัว บ่ง ชี้ประเภท Myers–Briggs (Myers–Briggs Type Indicator ) ทัศนคติก็ได้รับการศึกษาอย่างกว้างขวางโดยใช้แนวทางจิตวิทยาการวัดผลเช่นกัน^{[ 12 ]}วิธีการทางเลือกอีกวิธีหนึ่งเกี่ยวข้องกับการประยุกต์ใช้แบบจำลองการวัดแบบคลี่คลาย ซึ่งแบบจำลองทั่วไปที่สุดคือแบบจำลอง Hyperbolic Cosine (Andrich & Luo, 1993) ^{[ 13 ]}

แนวทางเชิงทฤษฎี

นักจิตวิทยาการวัดได้พัฒนาทฤษฎีการวัดที่แตกต่างกันหลายทฤษฎี ซึ่งรวมถึงทฤษฎีการทดสอบแบบคลาสสิก (CTT) และทฤษฎีการตอบสนองต่อข้อสอบ (IRT) ^{[ 14 ]}^{[ 15 ]}แนวทางที่ดูเหมือนจะคล้ายกับ IRT ในทางคณิตศาสตร์ แต่ก็มีความโดดเด่นในแง่ของที่มาและคุณลักษณะ คือแบบจำลอง Raschสำหรับการวัด การพัฒนาแบบจำลอง Rasch และแบบจำลองประเภทที่กว้างกว่าที่แบบจำลองนี้เป็นส่วนหนึ่งนั้น มีพื้นฐานมาจากข้อกำหนดของการวัดในวิทยาศาสตร์กายภาพอย่างชัดเจน^{[ 16 ]}

นักจิตวิทยาการวัดผลยังได้พัฒนาวิธีการทำงานกับเมทริกซ์ขนาดใหญ่ของความสัมพันธ์และความแปรปรวนร่วม เทคนิคในประเพณีทั่วไปนี้รวมถึงการวิเคราะห์ปัจจัย^{[ 17 ]}ซึ่งเป็นวิธีการกำหนดมิติพื้นฐานของข้อมูล ความท้าทายหลักประการหนึ่งที่ผู้ใช้การวิเคราะห์ปัจจัยเผชิญคือการขาดฉันทามติเกี่ยวกับขั้นตอนที่เหมาะสมสำหรับการกำหนดจำนวนปัจจัยแฝง [ ^{18 ] ขั้น}ตอนปกติคือการหยุดการแยกปัจจัยเมื่อค่าไอเกนลดลงต่ำกว่าหนึ่งเนื่องจากทรงกลมเดิมหดตัว การขาดจุดตัดที่ชัดเจนยังเกี่ยวข้องกับวิธีการหลายตัวแปรอื่นๆ ด้วย^{[ 19 ]}

การปรับขนาดหลายมิติ^{[ 20 ]}เป็นวิธีการค้นหาการแสดงข้อมูลที่เรียบง่ายสำหรับข้อมูลที่มีมิติแฝงจำนวนมากการวิเคราะห์คลัสเตอร์เป็นแนวทางในการค้นหาวัตถุที่คล้ายคลึงกัน การวิเคราะห์ปัจจัย การปรับขนาดหลายมิติ และการวิเคราะห์คลัสเตอร์ ล้วนเป็นวิธีการพรรณนาหลายตัวแปรที่ใช้ในการกลั่นกรองโครงสร้างที่ง่ายขึ้นจากข้อมูลจำนวนมาก

เมื่อไม่นานมานี้การสร้างแบบจำลองสมการโครงสร้าง^{[ 21 ]}และการวิเคราะห์เส้นทางแสดงถึงแนวทางที่ซับซ้อนมากขึ้นในการทำงานกับเมทริกซ์ความแปรปรวนร่วม ขนาดใหญ่ วิธีการเหล่านี้ช่วยให้สามารถปรับแบบจำลองทางสถิติที่ซับซ้อนให้เข้ากับข้อมูลและทดสอบเพื่อพิจารณาว่าเหมาะสมเพียงพอหรือไม่ เนื่องจากการวิจัยด้านจิตวิทยาการวัดผลในระดับละเอียดเกี่ยวข้องกับขอบเขตและลักษณะของมิติหลายมิติในแต่ละรายการที่สนใจ ขั้นตอนใหม่ที่เรียกว่าการวิเคราะห์ปัจจัยคู่^{[ 22 ]}^{[ 23 ]}^{[ 24 ]}จึงมีประโยชน์ การวิเคราะห์ปัจจัยคู่สามารถแยกส่วน "ความแปรปรวนที่เป็นระบบของรายการในแง่ของแหล่งที่มาสองแหล่งในอุดมคติ ปัจจัยทั่วไปและแหล่งที่มาของความแปรปรวนที่เป็นระบบเพิ่มเติมหนึ่งแหล่ง" ^{[ 25 ]}

แนวคิดหลัก

แนวคิดหลักในทฤษฎีการทดสอบแบบคลาสสิกคือความน่าเชื่อถือและความถูกต้อง การวัดที่น่าเชื่อถือคือการวัดที่วัดตัวแปรได้อย่างสม่ำเสมอในทุกช่วงเวลา ทุกบุคคล และทุกสถานการณ์ การวัดที่ถูกต้องคือการวัดที่วัดสิ่งที่ตั้งใจจะวัด ความน่าเชื่อถือเป็นสิ่งจำเป็น แต่ไม่เพียงพอสำหรับความถูกต้อง

ทั้งความน่าเชื่อถือและความถูกต้องสามารถประเมินได้ทางสถิติ ความสอดคล้องในการวัดซ้ำของการทดสอบเดียวกันสามารถประเมินได้ด้วยสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน และมักเรียกว่าความน่าเชื่อถือของการทดสอบซ้ำ^{[ 26 ]}ในทำนองเดียวกัน ความเท่าเทียมกันของเวอร์ชันต่างๆ ของการวัดเดียวกันสามารถระบุได้ด้วยสหสัมพันธ์ของเพียร์สันและเรียกว่าความน่าเชื่อถือของรูปแบบที่เทียบเท่าหรือคำที่คล้ายกัน^{[ 26 ]}

ความสอดคล้องภายใน ซึ่งเกี่ยวข้องกับความเป็นเนื้อเดียวกันของแบบทดสอบเดียว อาจประเมินได้โดยการหาความสัมพันธ์ระหว่างประสิทธิภาพในการทดสอบสองส่วน ซึ่งเรียกว่าความน่าเชื่อถือแบบแบ่งครึ่งค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันสำหรับการทดสอบสองส่วนนี้จะถูกปรับด้วยสูตรการทำนายของสเปียร์แมน-บราวน์เพื่อให้สอดคล้องกับความสัมพันธ์ระหว่างการทดสอบแบบเต็มสอง ชุด ^{[ 26 ]}ดัชนีความน่าเชื่อถือที่ใช้กันทั่วไปมากที่สุดอาจเป็นค่าCronbach's αซึ่งเทียบเท่ากับค่าเฉลี่ยของสัมประสิทธิ์แบบแบ่งครึ่งที่เป็นไปได้ทั้งหมด วิธีการอื่นๆ ได้แก่สหสัมพันธ์ภายในกลุ่มซึ่งเป็นอัตราส่วนของความแปรปรวนของการวัดเป้าหมายที่กำหนดต่อความแปรปรวนของเป้าหมายทั้งหมด

ความถูกต้องมีหลายรูปแบบความถูกต้องที่เกี่ยวข้องกับเกณฑ์หมายถึงขอบเขตที่การทดสอบหรือมาตรวัดทำนายตัวอย่างพฤติกรรม กล่าวคือ เกณฑ์ ซึ่ง "อยู่นอกเหนือเครื่องมือวัดเอง" ^{[ 27 ]}ตัวอย่างพฤติกรรมภายนอกนั้นอาจเป็นหลายสิ่งหลายอย่าง รวมถึงการทดสอบอื่น คะแนนเฉลี่ยสะสมในวิทยาลัย เช่น เมื่อใช้ SAT ของโรงเรียนมัธยมปลายเพื่อทำนายผลการเรียนในวิทยาลัย และแม้แต่พฤติกรรมที่เกิดขึ้นในอดีต ตัวอย่างเช่น เมื่อใช้การทดสอบอาการทางจิตวิทยาในปัจจุบันเพื่อทำนายการเกิดการตกเป็นเหยื่อในอดีต (ซึ่งจะแสดงถึงการทำนายย้อนหลังได้อย่างแม่นยำ) เมื่อเก็บรวบรวมมาตรวัดเกณฑ์ในเวลาเดียวกันกับมาตรวัดที่กำลังตรวจสอบความถูกต้อง เป้าหมายคือการสร้างความถูกต้องพร้อมกันเมื่อเก็บรวบรวมเกณฑ์ในภายหลัง เป้าหมายคือการสร้างความถูกต้องในการทำนายมาตรวัดมี ความถูกต้อง เชิงโครงสร้างหากมีความสัมพันธ์กับมาตรวัดของโครงสร้างอื่นตามที่ทฤษฎีกำหนดความถูกต้องเชิงเนื้อหาคือการแสดงให้เห็นว่ารายการของการทดสอบทำหน้าที่ครอบคลุมโดเมนที่กำลังวัดได้อย่างเพียงพอ ในตัวอย่างการคัดเลือกบุคลากร เนื้อหาของการทดสอบจะอิงตามข้อความหรือชุดข้อความที่กำหนดไว้เกี่ยวกับความรู้ ทักษะ ความสามารถ หรือคุณลักษณะอื่น ๆ ที่ได้จากการ วิเคราะห์งาน

ทฤษฎีการตอบสนองต่อข้อสอบ (Item Response Theory หรือ IRT ) จำลองความสัมพันธ์ระหว่างคุณลักษณะแฝงและการตอบสนองต่อข้อสอบ ข้อดีอย่างหนึ่งของ IRT คือ เป็นพื้นฐานในการประมาณตำแหน่งของผู้สอบในคุณลักษณะแฝงที่กำหนด รวมถึงค่าความคลาดเคลื่อนมาตรฐานของการวัดตำแหน่งนั้นด้วย ตัวอย่างเช่น ความรู้ทางประวัติศาสตร์ของนักศึกษามหาวิทยาลัยสามารถอนุมานได้จากคะแนนสอบของมหาวิทยาลัย แล้วนำไปเปรียบเทียบกับความรู้ของนักเรียนมัธยมปลายที่ได้จากข้อสอบที่ยากน้อยกว่าได้อย่างน่าเชื่อถือ คะแนนที่ได้จากทฤษฎีการทดสอบแบบคลาสสิกไม่มีลักษณะเช่นนี้ และการประเมินความสามารถที่แท้จริง (ไม่ใช่ความสามารถเมื่อเทียบกับผู้สอบคนอื่น) ต้องประเมินโดยการเปรียบเทียบคะแนนกับคะแนนของ "กลุ่มมาตรฐาน" ที่สุ่มเลือกจากประชากร ในความเป็นจริง การวัดทั้งหมดที่ได้จากทฤษฎีการทดสอบแบบคลาสสิกขึ้นอยู่กับกลุ่มตัวอย่างที่ทดสอบ ในขณะที่โดยหลักการแล้ว การวัดที่ได้จากทฤษฎีการตอบสนองต่อข้อสอบนั้นไม่ขึ้นอยู่กับกลุ่มตัวอย่าง

มาตรฐานคุณภาพ

โดยทั่วไป การพิจารณาความถูกต้องและความน่าเชื่อถือถือเป็นองค์ประกอบสำคัญในการกำหนดคุณภาพของการทดสอบใดๆ อย่างไรก็ตาม สมาคมวิชาชีพและผู้ปฏิบัติงานมักจะวางข้อกังวลเหล่านี้ไว้ในบริบทที่กว้างขึ้นเมื่อพัฒนามาตรฐานและประเมินคุณภาพการทดสอบโดยรวมภายในบริบทที่กำหนด ข้อกังวลในการวิจัยประยุกต์หลายๆ ครั้งคือว่าตัวชี้วัดของแบบสอบถามทางจิตวิทยาที่กำหนดนั้นมีความหมายหรือเป็นเพียงการกำหนดขึ้นเอง^{[ 28 ]}

มาตรฐานการทดสอบ

ในปี 2557 สมาคมวิจัยการศึกษาแห่งอเมริกา (AERA) สมาคมจิตวิทยาแห่งอเมริกา (APA) และสภาแห่งชาติว่าด้วยการวัดผลทางการศึกษา (NCME) ได้เผยแพร่การแก้ไขมาตรฐานสำหรับการทดสอบทางการศึกษาและจิตวิทยา^{[ 29 ]}ซึ่งอธิบายมาตรฐานสำหรับการพัฒนา การประเมิน และการใช้การ ทดสอบ มาตรฐาน ครอบคลุมหัวข้อสำคัญในการทดสอบ รวมถึงความถูกต้อง ความน่าเชื่อถือ/ข้อผิดพลาดในการวัด และความ เป็นธรรมในการทดสอบ หนังสือเล่มนี้ยังกำหนดมาตรฐานที่เกี่ยวข้องกับการดำเนินงานการทดสอบ รวมถึงการออกแบบและการพัฒนาการทดสอบ คะแนน มาตราส่วน บรรทัดฐาน การเชื่อมโยงคะแนน คะแนนตัด การบริหารการทดสอบ การให้คะแนน การรายงาน การตีความคะแนน เอกสารการทดสอบ และสิทธิและความรับผิดชอบของผู้เข้ารับการทดสอบและผู้ใช้การทดสอบ สุดท้ายมาตรฐานครอบคลุมหัวข้อที่เกี่ยวข้องกับการประยุกต์ใช้การทดสอบ รวมถึงการทดสอบและการประเมินทางจิตวิทยา การ ทดสอบ และ การรับรองคุณสมบัติในที่ทำงานการทดสอบและการประเมินทางการศึกษาและการทดสอบในการประเมินโครงการและนโยบายสาธารณะ

มาตรฐานการประเมิน

ในด้านการประเมินและโดยเฉพาะอย่างยิ่งการประเมินทางการศึกษาคณะกรรมการร่วมว่าด้วยมาตรฐานการประเมินทางการศึกษา^{[ 30 ]}ได้เผยแพร่มาตรฐานการประเมินสามชุด ได้แก่มาตรฐานการประเมินบุคลากร^{[ 31 ]}ซึ่งเผยแพร่ในปี 1988 มาตรฐานการประเมินโปรแกรม (ฉบับที่ 2) ^{[ 32 ]}ซึ่งเผยแพร่ในปี 1994 และมาตรฐานการประเมินนักเรียน^{[ 33 ]}ซึ่งเผยแพร่ในปี 2003

แต่ละสิ่งพิมพ์นำเสนอและอธิบายชุดมาตรฐานสำหรับการใช้งานในบริบททางการศึกษาที่หลากหลาย มาตรฐานเหล่านี้ให้แนวทางในการออกแบบ การดำเนินการ การประเมิน และการปรับปรุงรูปแบบการประเมินที่ระบุไว้^{[ 34 ]}แต่ละมาตรฐานได้รับการจัดไว้ในหนึ่งในสี่หมวดหมู่พื้นฐานเพื่อส่งเสริมการประเมินทางการศึกษาที่เหมาะสม มีประโยชน์ เป็นไปได้ และแม่นยำ ในชุดมาตรฐานเหล่านี้ การพิจารณาความถูกต้องและความน่าเชื่อถือจะครอบคลุมอยู่ภายใต้หัวข้อความแม่นยำ ตัวอย่างเช่น มาตรฐานความแม่นยำของนักเรียนช่วยให้มั่นใจได้ว่าการประเมินนักเรียนจะให้ข้อมูลที่ถูกต้อง แม่นยำ และน่าเชื่อถือเกี่ยวกับการเรียนรู้และประสิทธิภาพของนักเรียน

ความขัดแย้งและการวิพากษ์วิจารณ์

เนื่องจากจิตวิทยาการวัดนั้นอิงตามกระบวนการทางจิตวิทยาแฝงที่วัดผ่านความสัมพันธ์และการอนุมานทางสถิติ จึงมีการถกเถียงกันมานานแล้วว่าคุณลักษณะทางจิตวิทยาสามารถวัดได้อย่างแม่นยำทางวิทยาศาสตร์มากน้อยเพียงใด^{[ 35 ]}นักวิจารณ์ รวมถึงผู้ปฏิบัติงานในสาขาวิทยาศาสตร์กายภาพโต้แย้งว่าโครงสร้างต่างๆ เช่น สติปัญญา บุคลิกภาพ ความมั่นคงทางอารมณ์ หรือการปรับตัวทางจิตวิทยา เป็นประสบการณ์ของมนุษย์ที่เป็นนามธรรมมากกว่าคุณสมบัติทางกายภาพที่สังเกตได้โดยตรง ส่งผลให้การวัดทางจิตวิทยาการวัดขึ้นอยู่กับการสร้างแบบจำลองทางสถิติ ทฤษฎีความน่าจะเป็น สมมติฐานการสุ่มตัวอย่าง ความสัมพันธ์ และกรอบการตีความมากกว่าการวัดที่แม่นยำในแง่ของวิทยาศาสตร์กายภาพ ดังนั้นข้อสรุปทางสถิติในทางจิตวิทยาจึงเป็นความน่าจะเป็นมากกว่าความแน่นอน หมายความว่าคะแนนการทดสอบแสดงถึงการตีความโดยประมาณที่ถูกกำหนดโดยทฤษฎี วิธีการ วัฒนธรรม สภาพแวดล้อม และบริบท^{[ 36 ]}นักวิจารณ์ยังโต้แย้งอีกว่ารากฐานทางประวัติศาสตร์ของจิตวิทยาการวัดทำให้การอ้างความเป็นกลางและความเป็นปรนัยมีความซับซ้อน นักทฤษฎีสติปัญญาที่มีอิทธิพล เช่นฟรานซิส กัลตัน , ชาร์ลส์ สเปียร์แมนและลูอิส เทอร์แมนต่างสนับสนุน แนวคิด ยูจีนิกส์และสมมติฐานของพวกเขามีส่วนสำคัญในการกำหนดทฤษฎีสติปัญญาและความแตกต่างของมนุษย์ในยุคแรก^{[ 37 ]}^{[ 38 ]}ดังนั้น นักวิจารณ์จึงโต้แย้งว่าการทดสอบสติปัญญาไม่สามารถแยกออกจากสมมติฐานทางเชื้อชาติและสังคมที่ฝังอยู่ในพัฒนาการทางประวัติศาสตร์ได้อย่างสมบูรณ์ แม้ว่า การทดสอบ IQจะยังคงถูกใช้อย่างแพร่หลายในด้านจิตวิทยาและการศึกษา แต่นักวิจารณ์ก็ตั้งคำถามมากขึ้นเรื่อยๆ เกี่ยวกับสมมติฐานที่ว่าสติปัญญาสามารถวัดได้ว่าเป็นลักษณะทางชีวภาพที่เป็นกลางทางวัฒนธรรมและเป็นกลางเดวิด เวชสเลอร์นิยามสติปัญญาว่าเป็น “ความสามารถโดยรวมหรือระดับโลกของแต่ละบุคคลในการกระทำอย่างมีจุดมุ่งหมาย คิดอย่างมีเหตุผล และจัดการกับสภาพแวดล้อมของตนได้อย่างมีประสิทธิภาพ” แต่นักวิจารณ์ตั้งข้อสังเกตว่าวัฒนธรรม สภาพเศรษฐกิจและสังคม ระบบการศึกษา และสภาพแวดล้อมทางสังคมที่แตกต่างกันอาจให้คุณค่ากับรูปแบบการให้เหตุผล การปรับตัว การสื่อสาร และการแก้ปัญหาที่แตกต่างกัน

มาตรฐานสำหรับการวัดทางการศึกษาและจิตวิทยาได้ระบุว่า “ความถูกต้องหมายถึงระดับที่หลักฐานและทฤษฎีสนับสนุนการตีความคะแนนการทดสอบที่เกี่ยวข้องกับการใช้งานการทดสอบที่เสนอ” ^{[ 39 ]}กล่าวโดยง่าย การทดสอบจะไม่ถูกต้องเว้นแต่จะได้รับการตีความและใช้งานในลักษณะที่ออกแบบไว้^{[ 40 ]}แม้แต่การทดสอบที่มีความน่าเชื่อถือและความถูกต้องที่ยอมรับได้ก็ยังคงขึ้นอยู่กับสมมติฐานทางทฤษฎีเกี่ยวกับสิ่งที่กำลังวัดและวิธีการตีความการวัดเหล่านั้น นักวิจารณ์โต้แย้งว่าการทดสอบทางจิตวิทยาที่พัฒนาขึ้นโดยส่วนใหญ่ในประเพณีทางวิชาการของตะวันตกและคนผิวขาวส่วนใหญ่ มักสร้างมาตรฐานของ “ความปกติ” ขึ้นจากประสบการณ์ทางวัฒนธรรมที่โดดเด่น ในขณะที่วางตำแหน่งการเบี่ยงเบนจากบรรทัดฐานเหล่านั้นว่าเป็นความบกพร่องหรือความผิดปกติ การที่ยังคงพึ่งพาการวัดดังกล่าวโดยไม่วิพากษ์วิจารณ์สมมติฐานที่ฝังอยู่ในนั้นอย่างเพียงพอ จิตวิทยาอาจทำให้ การตีความทาง เชื้อชาติเกี่ยวกับสติปัญญา ความสำเร็จ พฤติกรรม และสุขภาพจิต มีความชอบธรรมโดยไม่ตั้งใจ ข้อสันนิษฐานดังกล่าวอาจส่งผลให้เกิดความไม่เท่าเทียมกันในการจัดวางทางการศึกษา การตีความทางคลินิกที่ลำเอียง การคัดกรองอาชีพที่เลือกปฏิบัติ และความเหลื่อมล้ำในการรักษาพยาบาลลี ครอนบัคกล่าวไว้ในAmerican Psychologist (1957) ว่า “จิตวิทยาสหสัมพันธ์ แม้จะมีอายุเก่าแก่พอๆ กับการทดลอง แต่ก็พัฒนาช้ากว่า อย่างไรก็ตาม มันมีคุณสมบัติเท่าเทียมกันในฐานะสาขาวิชา เพราะมันตั้งคำถามประเภทที่แตกต่าง และมีวิธีการทางเทคนิคในการตรวจสอบว่าคำถามนั้นถูกตั้งอย่างถูกต้องและข้อมูลได้รับการตีความอย่างถูกต้องหรือไม่” เขายังโต้แย้งต่อไปอีกว่า “วิธีการสหสัมพันธ์นั้นสามารถศึกษาในสิ่งที่มนุษย์ยังไม่เรียนรู้ที่จะควบคุมหรือไม่สามารถหวังที่จะควบคุมได้ ... จำเป็นต้องมีสหพันธ์ที่แท้จริงของสาขาวิชาต่างๆ หากปล่อยให้เป็นอิสระ พวกมันจะให้คำตอบที่ผิดหรือไม่มีคำตอบเลยเกี่ยวกับปัญหาสำคัญบางประการ” ^{[ 41 ]}

เครื่องมือหลักสองประเภทที่ใช้ในการวัด^{ลักษณะ}บุคลิกภาพได้แก่การทดสอบเชิงวัตถุวิสัยและการวัดเชิงฉายภาพตัวอย่างเช่น แบบสอบถามบุคลิกภาพ Big Five Inventory (BFI), แบบสอบถามบุคลิกภาพ Minnesota Multiphasic Personality Inventory (MMPI-2), แบบทดสอบ Rorschach Inkblot , แบบสอบถามบุคลิกภาพ Neurotic Personality Questionnaire KON-2006 [ ⁴²^]และแบบสอบถามบุคลิกภาพ Eysenckการวัดทางจิตวิทยาบางอย่างแสดงให้เห็นถึงความน่าเชื่อถือและความถูกต้อง ที่ยอมรับได้ ในขณะที่บางอย่างยังคงเป็นที่ถกเถียงกัน ตัวอย่างเช่น ตัวบ่งชี้ประเภท Myers–Briggs (MBTI) ได้รับการวิพากษ์วิจารณ์ว่ามีความถูกต้องที่น่าสงสัย ผู้เชี่ยวชาญด้านจิตวิทยาRobert Hoganเขียนว่า “นักจิตวิทยาบุคลิกภาพส่วนใหญ่ถือว่า MBTI เป็นเพียงคำทำนายโชคแบบจีนที่ซับซ้อนเท่านั้น” ^[⁴³^]

สิ่งที่ไม่ใช่มนุษย์: สัตว์และเครื่องจักร

จิตวิทยาการวัดผลกล่าวถึง ความสามารถ ทัศนคติ ลักษณะนิสัย และวิวัฒนาการทางการศึกษา ของมนุษย์ที่น่าสังเกตคือ การศึกษาพฤติกรรม กระบวนการทางจิต และความสามารถของสัตว์ ที่ไม่ใช่มนุษย์ มักจะกล่าวถึงโดยจิตวิทยาเปรียบเทียบหรือโดยมีความต่อเนื่องระหว่างสัตว์ที่ไม่ใช่มนุษย์กับสัตว์อื่นๆ โดยจิตวิทยาเชิงวิวัฒนาการอย่างไรก็ตาม มีผู้สนับสนุนบางคนสำหรับการเปลี่ยนผ่านอย่างค่อยเป็นค่อยไปมากขึ้นระหว่างแนวทางที่ใช้กับมนุษย์และแนวทางที่ใช้กับสัตว์ (ที่ไม่ใช่มนุษย์) ^{[ 44 ]}^{[ 45 ]}^{[ 46 ]}^{[ 47 ]}

การประเมินความสามารถ คุณลักษณะ และวิวัฒนาการการเรียนรู้ของเครื่องจักรส่วนใหญ่ไม่ได้เกี่ยวข้องกับกรณีของมนุษย์และสัตว์ที่ไม่ใช่มนุษย์ โดยมีแนวทางเฉพาะในด้านปัญญาประดิษฐ์แนวทางแบบบูรณาการมากขึ้นภายใต้ชื่อจิตวิทยาการวัดสากลก็ได้รับการเสนอเช่นกัน^{[ 48 ]}^{[ 49 ]}

ดูเพิ่มเติม

อ่านเพิ่มเติม

Robert F. DeVellis (2016). การพัฒนามาตราส่วน: ทฤษฎีและการประยุกต์ใช้ . สำนักพิมพ์ SAGE. ISBN 978-1-5063-4158-3.
บอร์สบูม, เดนนี (2005). การวัดจิตใจ: ประเด็นเชิงแนวคิดในจิตวิทยาการวัดร่วมสมัย . เคมบริดจ์: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์ . ISBN 978-0-521-84463-5.
Leslie A. Miller; Robert L. Lovler (2015). พื้นฐานของการทดสอบทางจิตวิทยา: แนวทางปฏิบัติ . สำนักพิมพ์ SAGE. ISBN 978-1-4833-6927-3.
Roderick P. McDonald (2013). ทฤษฎีการทดสอบ: การบำบัดแบบบูรณาการ . สำนักพิมพ์จิตวิทยา. ISBN 978-1-135-67530-1.
พอล ไคลน์ (2000). คู่มือการทดสอบทางจิตวิทยา . สำนักพิมพ์จิตวิทยา. ISBN 978-0-415-21158-1.
Rush AJ Jr; First MB; Blacker D (2008). คู่มือการวัดทางจิตเวช . สำนักพิมพ์จิตเวชศาสตร์อเมริกัน. ISBN 978-1-58562-218-4. OCLC 85885343 .
แอนน์ ซี ซิลเวอร์เลค (2016). การทำความเข้าใจคู่มือการทดสอบ: คู่มือและแบบฝึกหัด . เทย์เลอร์ แอนด์ ฟรานซิส. ISBN 978-1-351-97086-0.

ลิงก์ภายนอก

แหล่งข้อมูลห้องสมุดเกี่ยวกับ จิตวิทยาการวัดผล

แหล่งข้อมูลในห้องสมุดของคุณ

มาตรฐาน APA สำหรับการทดสอบทางการศึกษาและจิตวิทยา
กลุ่มสินค้าบุคลิกภาพระดับนานาชาติ
คณะกรรมการร่วมว่าด้วยมาตรฐานการประเมินผลทางการศึกษา
ศูนย์จิตวิทยาการวัดผล มหาวิทยาลัยเคมบริดจ์
หน้าหลักของ Psychometric Society และ Psychometrika
ห้องปฏิบัติการจิตวิทยาการวัดแห่งลอนดอน

[ 1 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

11 ] แนวทาง

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

18 ] ขั้น

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

ลักษณะ

[

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]