ค่า E

Q: เนื่องจากค่า p-value มีการรับประกันความผิดพลาดประเภทที่ 1 ที่ขึ้นอยู่กับระดับข้อมูลที่แข็งแกร่งกว่า

สำหรับตัวแปร e ใดๆ และทุกสิ่งทุกอย่างจะเป็นจริงว่า E {\displaystyle E} 0 < α ≤ 1 {\displaystyle 0<\alpha \leq 1} P ∈ H 0 {\displaystyle P\in H_{0}}

ในการทดสอบสมมติฐานทางสถิติค่าe-valueจะวัดปริมาณหลักฐานในข้อมูลที่ขัดแย้งกับสมมติฐานว่าง (เช่น "เหรียญนั้นยุติธรรม" หรือ ในบริบททางการแพทย์ "การรักษาแบบใหม่นี้ไม่มีผล") ค่า e-value เป็นทางเลือกที่น่าเชื่อถือกว่าค่าp-valueและแก้ไขข้อบกพร่องบางประการของ ค่า p-value ได้

ตรงกันข้ามกับค่า p ค่า e สามารถจัดการกับการทดลองต่อเนื่องได้: ค่า e ของการทดลองที่ตามมา (เช่น การทดลองทางคลินิกเกี่ยวกับการรักษาแบบเดียวกัน) สามารถนำมาคูณกันเพื่อให้ได้ค่า e ใหม่ที่เป็น "ผลคูณ" ซึ่งแสดงถึงหลักฐานในการทดลองร่วมกัน วิธีนี้ใช้ได้ผลแม้ว่าในทางปฏิบัติ การตัดสินใจที่จะทำการทดลองในภายหลังอาจขึ้นอยู่กับข้อมูลที่สังเกตได้จากการทดลองก่อนหน้านี้ในลักษณะที่ไม่ชัดเจนและไม่ทราบแน่ชัด และไม่ทราบล่วงหน้าว่าจะมีการทดลองกี่ครั้ง: ค่า e ที่เป็นผลคูณยังคงเป็นปริมาณที่มีความหมาย ซึ่งนำไปสู่การทดสอบที่มีการควบคุมความผิดพลาดประเภทที่ 1ด้วยเหตุนี้ ค่า e และส่วนขยายตามลำดับของมัน คือ กระบวนการ eจึงเป็นองค์ประกอบพื้นฐานสำหรับวิธีการทางสถิติที่ใช้ได้ตลอดเวลา (เช่น ลำดับความเชื่อมั่น) ข้อดีอีกประการหนึ่งเหนือกว่าค่า p คือ ค่าเฉลี่ยถ่วงน้ำหนักของค่า e ใดๆ ก็ยังคงเป็นค่า e แม้ว่าค่า e แต่ละค่าจะขึ้นอยู่กันโดยพลการก็ตาม นี่เป็นหนึ่งในเหตุผลที่ค่า e กลายเป็นเครื่องมือที่มีประโยชน์ใน การ ทดสอบหลายครั้ง^{[ 1 ]}

ค่า E สามารถตีความได้หลายวิธี: ประการแรก ค่า E สามารถตีความได้ว่าเป็นการปรับขนาดการทดสอบใหม่ซึ่งนำเสนอในมาตราส่วนที่เหมาะสมกว่าซึ่งอำนวยความสะดวกในการรวมเข้าด้วยกัน^{[ 2 ]} ประการที่สอง ค่าผกผันของค่า E คือค่า P แต่ไม่ใช่ค่า P ทั่วไป: เป็นค่า P พิเศษที่การปฏิเสธ 'ที่ระดับ p' ยังคงรับประกันข้อผิดพลาดประเภทที่ 1 ทั่วไป^{[ 3 ]}ประการที่สาม ค่า E เป็นการสรุปทั่วไปของอัตราส่วนความน่าจะเป็นและยังเกี่ยวข้องกับ แต่แตกต่างจากปัจจัยเบย์ส ประการที่สี่ ค่า E มีการตีความว่าเป็นการเดิมพัน ประการที่ห้า ในบริบทแบบลำดับ ค่า E ยังสามารถตีความได้ว่าเป็นส่วนเพิ่มของซูเปอร์มาร์ติงเกล ที่ไม่เป็น ลบ ความสนใจในค่า E เพิ่มขึ้นอย่างมากตั้งแต่ปี 2019 เมื่อมีการบัญญัติคำว่า 'e-value' และกลุ่มวิจัยหลายกลุ่มได้บรรลุผลลัพธ์ที่ก้าวล้ำจำนวนมาก บทความภาพรวมฉบับแรกปรากฏในปี 2023 ^{[ 4 ]}

คำจำกัดความและพื้นฐานทางคณิตศาสตร์

ให้สมมติฐานว่าง (null hypothesis) ถูกกำหนดเป็นชุดของการแจกแจงข้อมูลโดยปกติแล้วแต่ละชุดจะมีผลลัพธ์เดียวและขนาดตัวอย่างคงที่หรือเวลาหยุดที่แน่นอน เราจะเรียกชุดข้อมูลดังกล่าว ซึ่งแสดงถึงลำดับผลลัพธ์ทั้งหมดของการทดลองทางสถิติ ว่าเป็นตัวอย่างหรือชุดผลลัพธ์แต่ในบางกรณีอาจเป็นชุดผลลัพธ์ที่ไม่เรียงลำดับหรือผลลัพธ์เดียวก็ได้ $H_{0}$ $Y$ $Y=(X_{1},\ldots ,X_{\tau })$ $X_{i}$ $\tau$ $Y$ $Y$

ตัวแปรeหรือสถิติ eคือตัวแปรสุ่มที่ไม่เป็นลบ ซึ่งภายใต้เงื่อนไขทั้งหมดค่าคาดหวังของตัวแปรนี้จะมีค่าไม่เกิน 1: $E=E(Y)$ $P\in H_{0}$

${\mathbb {E} }_{P}[E]\leq 1$ .

ค่าที่ตัวแปร e รับมาเรียกว่าค่าeในทางปฏิบัติ คำว่าค่า e (ตัวเลข) มักถูกใช้เมื่อเรากำลังพูดถึงตัวแปร e ที่อยู่เบื้องหลัง (ตัวแปรสุ่ม ซึ่งก็คือฟังก์ชันที่วัดได้ของข้อมูล) $E$

การตีความ

เนื่องจากการตีความผลการทดสอบอย่างต่อเนื่อง

โดยทั่วไปแล้ว การทดสอบสมมติฐานว่างจะถูกจำลองเป็นฟังก์ชันจากข้อมูลไปยังการทดสอบจะถือว่าถูกต้องสำหรับระดับนัยสำคัญ α ถ้า α = 0 $H_{0}$ $\phi$ $\{{\text{not reject }}H_{0},{\text{ reject }}H_{0}\}$ $\phi _{\alpha }$ $\alpha$

$P(\phi _{\alpha }={\text{reject }}H_{0})\leq \alpha ,{\text{ for every }}P\in H_{0}.$

โดยทั่วไปแล้วสามารถสรุปได้อย่างสะดวกว่า เป็นฟังก์ชันจากข้อมูลไปยังสิ่งที่ตรงตามเงื่อนไขต่อไปนี้ $\phi _{\alpha }$ $\{0,1\}$

$\mathbb {E} ^{P}[\phi _{\alpha }]\leq \alpha ,{\text{ for every }}P\in H_{0}$ .

นอกจากนี้ บางครั้งยังมีการขยายความทั่วไปเพื่อให้สามารถสุ่มจากภายนอกได้ โดยให้การทดสอบมีค่าอยู่ในช่วงโดยค่าของการทดสอบจะถูกตีความว่าเป็นความน่าจะเป็นที่ควรใช้ในการปฏิเสธสมมติฐานในภายหลัง $\phi _{\alpha }$ $[0,1]$

ปัญหาหนึ่งของการสร้างแบบจำลองการทดสอบในลักษณะนี้คือ พื้นที่การตัดสินใจแบบดั้งเดิมไม่ ได้เข้ารหัสระดับที่การทดสอบปฏิเสธ ซึ่งเป็นเรื่องแปลกอย่างยิ่ง เพราะการปฏิเสธที่ระดับ 1% ถือเป็นการยืนยันที่แข็งแกร่งกว่าการปฏิเสธที่ระดับ 10% มาก พื้นที่การตัดสินใจที่เหมาะสมกว่าดูเหมือนจะเป็น... $\{{\text{not reject }}H_{0},{\text{ reject }}H_{0}\}$ $\{0,1\}$ $\alpha$ $\phi _{\alpha }$ $\{{\text{not reject }}H_{0},{\text{ reject }}H_{0}{\text{ at level }}\alpha \}$

ค่า e สามารถตีความได้ว่าเป็นการแก้ปัญหานี้ อันที่จริง เราสามารถปรับขนาดจากเป็นและเป็น ได้โดยการปรับขนาดการทดสอบตามระดับของมัน: $\{0,1\}$ $\{0,1/\alpha \}$ $[0,1]$ $[0,1/\alpha ]$

$\varepsilon _{\alpha }=\phi _{\alpha }/\alpha$ ,

โดยเราจะใช้สัญลักษณ์ แทนการทดสอบบนมาตรวัดหลักฐาน นี้ เพื่อหลีกเลี่ยงความสับสน การทดสอบดังกล่าวจะถือว่าถูกต้องก็ต่อเมื่อ $\varepsilon _{\alpha }$

$\mathbb {E} ^{P}[\varepsilon _{\alpha }]\leq 1,{\text{ for every }}P\in H_{0}$ .

กล่าวคือ จะถือว่าถูกต้องก็ต่อเมื่อเป็นค่า e-value

ในความเป็นจริง สิ่งนี้เผยให้เห็นว่าค่า e ที่ถูกจำกัดไว้เป็นการทดสอบแบบสุ่มที่ปรับขนาดใหม่ ซึ่งตีความอย่างต่อเนื่องว่าเป็นหลักฐานที่ขัดแย้งกับสมมติฐาน ค่า e มาตรฐานที่มีค่าในปรากฏเป็นการสรุปทั่วไปของการทดสอบระดับ 0 ^[²^] $[0,1/\alpha ]$ $[0,\infty ]$

การตีความนี้แสดงให้เห็นว่าค่า e นั้นเป็นพื้นฐานสำคัญของการทดสอบอย่างแท้จริง กล่าวคือ มันเทียบเท่ากับการทดสอบ เพียงแต่ถูกปกปิดไว้ด้วยการปรับขนาด จากมุมมองนี้ อาจเป็นเรื่องน่าประหลาดใจที่ค่า e ทั่วไปดูแตกต่างจากการทดสอบแบบดั้งเดิมมาก นั่นคือ การเพิ่มค่าเป้าหมายให้สูงสุด

$\mathbb {E} ^{Q}[\varepsilon _{\alpha }]$

สำหรับสมมติฐานทางเลือกจะให้ผลลัพธ์เป็นการทดสอบแบบเนย์แมน-เพียร์สันแบบดั้งเดิม อันที่จริง วิธีนี้จะเพิ่มความน่าจะเป็นสูงสุดภายใต้สมมติฐาน นั้น $H_{1}=\{Q\}$ $Q$ $\varepsilon _{\alpha }=1/\alpha$

แต่ถ้าเราตีความค่าของการทดสอบอย่างต่อเนื่องว่าเป็นหลักฐานที่ขัดแย้งกับสมมติฐาน เราอาจสนใจที่จะเพิ่มเป้าหมายอื่นๆ ให้สูงสุดด้วยเช่นกัน เช่น $\varepsilon _{\alpha }$

$\mathbb {E} ^{Q}[\log \varepsilon _{\alpha }]$ .

การทดสอบนี้ให้ผลลัพธ์ที่แตกต่างอย่างเห็นได้ชัดจากการทดสอบ Neyman-Pearson แบบดั้งเดิม และเหมาะสมกว่าเมื่อรวมเข้าด้วยกันผ่านการคูณ เนื่องจากเป็นบวกด้วยความน่าจะเป็น 1 ภายใต้จากมุมมองนี้ นวัตกรรมหลักของค่า e เมื่อเทียบกับการทดสอบแบบดั้งเดิมคือการเพิ่มเป้าหมายกำลังที่แตกต่างกันให้สูงสุด^[²^] $Q$

เนื่องจากค่า p-value มีการรับประกันความผิดพลาดประเภทที่ 1 ที่ขึ้นอยู่กับระดับข้อมูลที่แข็งแกร่งกว่า

สำหรับตัวแปร e ใดๆ และทุกสิ่งทุกอย่างจะเป็นจริงว่า $E$ $0<\alpha \leq 1$ $P\in H_{0}$

$P\left(E\geq {\frac {1}{\alpha }}\right)=P(1/E\leq \alpha )\ {\overset {(*)}{\leq }}\ \alpha$ .

นี่หมายความว่าค่า p-value นั้นเป็นค่าที่ถูกต้อง ยิ่งไปกว่านั้นการทดสอบโดยใช้ค่า e-value ที่ระดับนัยสำคัญ ซึ่งปฏิเสธ สมมติฐานหลัก หากมีข้อผิดพลาดประเภทที่ 1ที่ถูกจำกัดด้วยแต่ในขณะที่เมื่อใช้ค่า p-value มาตรฐาน อสมการ (*) ข้างต้นมักจะเป็นความเท่าเทียมกัน (กับข้อมูลที่มีค่าต่อเนื่อง) หรือใกล้เคียงความเท่าเทียมกัน (กับข้อมูลที่มีค่าไม่ต่อเนื่อง) แต่ในกรณีของตัวแปร e-value นั้นไม่ใช่เช่นนั้น ทำให้การทดสอบโดยใช้ค่า e-value มีความอนุรักษ์นิยมมากกว่า (มีกำลังการทดสอบน้อยกว่า) การทดสอบโดยใช้ค่า p-value มาตรฐาน $p^{\prime }=1/E$ $\alpha$ $P_{0}$ $p^{\prime }\leq \alpha$ $\alpha$

เพื่อแลกกับความระมัดระวังนี้ ค่า p-value จึงมาพร้อมกับการรับประกันที่แข็งแกร่งกว่า โดยเฉพาะอย่างยิ่ง สำหรับทุกระดับนัยสำคัญที่อาจขึ้นอยู่กับข้อมูลเรามี $p^{\prime }=1/E$ ${\widetilde {\alpha }}>0$

$\mathbb {E} \left[{\frac {P(p^{\prime }\leq {\widetilde {\alpha }}\mid {\widetilde {\alpha }})}{\widetilde {\alpha }}}\right]\leq 1,$

ถ้าและเฉพาะเมื่อ. ซึ่งหมายความว่าค่า p จะตรงตามการรับประกันนี้ก็ต่อเมื่อเป็นส่วนกลับของตัวแปร e เท่านั้น^[³^] $\mathbb {E} [1/p^{\prime }]\leq 1$ $1/E$ $E$

การตีความการรับประกันนี้คือ โดยเฉลี่ยแล้ว ความคลาดเคลื่อนของข้อผิดพลาดประเภทที่ 1 ที่เกิดจากการใช้ระดับนัยสำคัญที่ขึ้นอยู่กับข้อมูลจะถูกควบคุมได้สำหรับทุกการเลือกใช้ระดับนัยสำคัญที่ขึ้นอยู่กับข้อมูล ค่า p แบบดั้งเดิมจะตรงตามการรับประกันนี้เฉพาะสำหรับระดับนัยสำคัญที่ไม่ขึ้นอยู่กับข้อมูลหรือระดับนัยสำคัญที่กำหนดไว้ล่วงหน้าเท่านั้น $P(p^{\prime }\leq {\widetilde {\alpha }}\mid {\widetilde {\alpha }})/{\widetilde {\alpha }}$ ${\widetilde {\alpha }}$

การรับประกันที่เข้มงวดกว่านี้เรียกอีกอย่างว่าความผิดพลาดประเภทที่ 1 แบบpost-hoc $\alpha$ เนื่องจากอนุญาตให้เลือกค่าระดับนัยสำคัญได้หลังจากสังเกตข้อมูลแล้ว: post-hoc ค่า p ที่ตรงตามการรับประกันนี้เรียกว่าค่า p แบบ post-hoc เช่นกัน เนื่องจากค่า p แบบ post-hoc เป็นจริงก็ต่อเมื่อสำหรับค่า e บางค่าจึงอาจมองได้ว่าเป็นนิยามทางเลือกของค่า e $p^{\prime }$ $p^{\prime }=1/E$ $E$

ภายใต้ความผิดพลาดประเภทที่ 1 แบบ post-hoc นี้ ปัญหาของการเลือกค่าระดับนัยสำคัญจะหายไป: เราสามารถเลือกค่าระดับที่เล็กที่สุดที่ขึ้นอยู่กับข้อมูลซึ่งเราจะปฏิเสธสมมติฐานได้โดยกำหนดให้เท่ากับค่า p-value แบบ post-hoc: ที่จริงแล้ว ที่ระดับที่ขึ้นอยู่กับข้อมูลนี้ เราจะมี $\alpha$ ${\widetilde {\alpha }}=p^{\prime }$

$\mathbb {E} \left[{\frac {P(p^{\prime }\leq p^{\prime }\mid p^{\prime })}{p^{\prime }}}\right]=\mathbb {E} \left[{\frac {1}{p^{\prime }}}\right]\leq 1,$

เนื่องจากเป็นตัวแปร e ดังนั้น เราจึงสามารถปฏิเสธสมมติฐานหลักที่ระดับ p ได้อย่างแท้จริงและยังคงรักษาการรับประกันอัตราความผิดพลาดประเภทที่ 1 หลังการทดสอบไว้ได้ สำหรับค่า p แบบดั้งเดิมการปฏิเสธสมมติฐานหลักที่ระดับ p นั้นไม่มีการรับประกันเช่นนั้น $1/p^{\prime }$ $p^{\prime }$ $p$

นอกจากนี้ ค่า p-value หลังการวิเคราะห์ยังสืบทอดคุณสมบัติการต่อเนื่องและการรวมแบบเลือกได้ของค่า e-value แต่แทนที่จะใช้ค่าเฉลี่ยถ่วงน้ำหนักแบบเลขคณิตค่าเฉลี่ยฮาร์มอนิก ถ่วงน้ำหนัก ของค่า p-value หลังการวิเคราะห์ก็ยังคงเป็นค่า p-value หลังการวิเคราะห์อยู่ดี

ในฐานะที่เป็นการสรุปทั่วไปของอัตราส่วนความน่าจะเป็น

ให้เป็นสมมติฐานว่างแบบง่ายๆ ให้เป็นการแจกแจงอื่นๆ บนและให้ $H_{0}=\{P_{0}\}$ $Q$ $Y$

$E:={\frac {q(Y)}{p_{0}(Y)}}$

ให้ตัวแปรe เป็นอัตราส่วนความน่าจะเป็น ดังนั้น ตัวแปร e จึงเป็นตัวแปร e ในทางกลับกัน ตัวแปร e ใดๆ ที่สัมพันธ์กับสมมติฐานว่างแบบง่ายสามารถเขียนได้ในรูปอัตราส่วนความน่าจะเป็นโดยสัมพันธ์กับการกระจายตัวบางอย่างดังนั้น เมื่อสมมติฐานว่างเป็นแบบง่าย ตัวแปร e จะตรงกับอัตราส่วนความน่าจะเป็น อย่างไรก็ตาม ตัวแปร e ยังมีอยู่สำหรับสมมติฐานว่างแบบผสมทั่วไปด้วย และอาจคิดได้ว่าเป็นการขยายความของอัตราส่วนความน่าจะเป็น วิธีการสร้างตัวแปร e สองวิธีหลัก คือ UI และ RIPr (ดูด้านล่าง) ต่างก็ให้ผลลัพธ์ที่เป็นรูปแบบต่างๆ ของอัตราส่วนความน่าจะเป็นเช่นกัน $E$ $H_{0}=\{P_{0}\}$ $Q$

การสรุปทั่วไปมาตรฐานอีกสองประการของอัตราส่วนความน่าจะเป็น ได้แก่ (ก) อัตราส่วนความน่าจะเป็นทั่วไปตามที่ใช้ในการทดสอบอัตราส่วนความน่าจะเป็นแบบคลาสสิกมาตรฐานและ (ข) ปัจจัยเบย์สที่สำคัญคือ ทั้ง (ก) และ (ข) ไม่ใช่ตัวแปร e โดยทั่วไป: อัตราส่วนความน่าจะเป็นทั่วไปในความหมาย (ก) ไม่ใช่ตัวแปร e เว้นแต่สมมติฐานทางเลือกจะเป็นแบบง่าย (ดูด้านล่างในหัวข้อ "การอนุมานแบบสากล") ปัจจัยเบย์สเป็นตัวแปร e ถ้าสมมติฐานว่างเป็นแบบง่าย เพื่อให้เห็นเช่นนี้ โปรดสังเกตว่า ถ้าแทนแบบจำลองทางสถิติ และความหนาแน่นก่อนหน้าบนแล้วเราสามารถกำหนดดังข้างต้นให้เป็นการแจกแจงแบบเบย์สที่มีความหนาแน่น ${\mathcal {Q}}=\{Q_{\theta }:\theta \in \Theta \}$ $w$ $\Theta$ $Q$

$q(Y)=\int q_{\theta }(Y)w(\theta )d\theta$

และจากนั้นก็เป็นปัจจัยเบย์สของvs. เช่นกัน หากสมมติฐานว่างเป็นแบบผสม ตัวแปร e พิเศษบางตัวสามารถเขียนเป็นปัจจัยเบย์สได้โดยใช้ไพรเออร์พิเศษบางอย่าง แต่ปัจจัยเบย์สส่วนใหญ่ที่พบในทางปฏิบัติไม่ใช่ตัวแปร e และตัวแปร e จำนวนมากที่พบในทางปฏิบัติไม่ใช่ปัจจัยเบย์ส^[⁴^] $E=q(Y)/p_{0}(Y)$ $H_{0}$ $H_{1}:={\mathcal {Q}}$

ในฐานะการเดิมพัน

สมมติว่าคุณสามารถซื้อตั๋วได้ในราคา 1 หน่วยเงิน โดยมีผลตอบแทนที่ไม่เป็นลบข้อความ " เป็นตัวแปร e" และ "หากสมมติฐานว่างเป็นจริง คุณไม่คาดหวังว่าจะได้รับเงินใดๆ หากคุณทำการเดิมพันนี้" นั้นเทียบเท่ากันในเชิงตรรกะ นี่เป็นเพราะการเป็นตัวแปร e หมายความว่ากำไรที่คาดหวังจากการซื้อตั๋วคือผลตอบแทนลบด้วยต้นทุน กล่าวคือ ซึ่งมีความคาดหวังตามการตีความนี้ ค่า e ของผลิตภัณฑ์สำหรับลำดับของการทดสอบสามารถตีความได้ว่าเป็นจำนวนเงินที่คุณได้รับจากการเดิมพันตามลำดับโดยมีผลตอบแทนที่กำหนดโดยตัวแปร e แต่ละตัว และนำกำไรทั้งหมดของคุณไปลงทุนใหม่เสมอ^[⁵^] $E=E(Y)$ $E$ $E$ $E-1$ $\leq 0$

การตีความการเดิมพันจะเห็นได้ชัดเจนเป็นพิเศษหากเราเขียนตัวแปร e ใหม่เป็น โดย ที่ มีค่าคาดหวัง ภายใต้เงื่อนไขทั้งหมด และ ถูกเลือกเพื่อให้ ตัวแปร e ใดๆ ก็สามารถเขียนใน รูปแบบได้ แม้ว่าในกรณี ค่าว่าง แบบพาราเมตริกการเขียนเป็นอัตราส่วนความน่าจะเป็นมักจะสะดวกกว่าทางคณิตศาสตร์ ในทางกลับกัน รูปแบบมักจะสะดวกกว่าใน การตั้งค่าแบบ ไม่ใช้พาราเมตริก ตัวอย่างเช่น^[⁶^]พิจารณากรณีที่ โดยที่มีค่าอยู่ในช่วงที่จำกัด ตาม ตัวแปร จะเป็น iid ตามการแจกแจงที่มีค่าเฉลี่ย; ไม่มีการสมมติอื่นๆ เกี่ยวกับจากนั้นเราอาจสร้างตระกูลของตัวแปร e สำหรับผลลัพธ์เดี่ยวสำหรับใดๆ(สิ่งเหล่านี้คือ ซึ่งรับประกันว่า ไม่เป็นลบ) จากนั้นเราอาจกำหนดตัวแปร e ใหม่สำหรับเวกเตอร์ข้อมูลทั้งหมดโดยการนำผลคูณ $E:=1+\lambda U$ $U$ $\leq 0$ $P\in H_{0}$ $\lambda \in {\mathbb {R} }$ $E\geq 0$ $1+\lambda U$ $1+\lambda U$ $Y=(X_{1},\ldots ,X_{n})$ $X_{i}$ $[0,1]$ $H_{0}$ $X_{i}$ $P$ $\mu$ $P$ $E_{i,\lambda }:=1+\lambda (X_{i}-\mu )$ $\lambda \in [-1/(1-\mu ),1/\mu ]$ $\lambda$ $E_{i,\lambda }$ $Y$

$E:=\prod _{i=1}^{n}E_{i,{\breve {\lambda }}|X^{i-1}}$ ,

โดยเป็นการประมาณค่าสำหรับโดยอาศัยข้อมูลในอดีตเท่านั้นและออกแบบมาเพื่อให้มี ขนาดใหญ่ที่สุดเท่าที่จะเป็นไปได้ในแง่ของ "e-power" หรือ "GRO" (ดูด้านล่าง) Waudby-Smith และ Ramdas ใช้แนวทางนี้ในการสร้างช่วงความเชื่อมั่นแบบ "ไม่ใช้พารามิเตอร์" สำหรับค่าเฉลี่ย ซึ่งมีแนวโน้มที่จะแคบกว่าอย่างมีนัยสำคัญเมื่อเทียบกับช่วงความเชื่อมั่นที่อิงตามวิธีการแบบคลาสสิก เช่นขอบเขตของ Chernoff, Hoeffding และ Bernstein ^[⁶^] ${\breve {\lambda }}|X^{i-1}$ ${\lambda }$ $X^{i-1}=(X_{1},\ldots ,X_{i-1})$ $E_{i,\lambda }$

คุณสมบัติพื้นฐาน: การต่อแบบไม่บังคับ

ค่า E-value เหมาะสมกว่าค่า p-value เมื่อคาดว่าจะมีการทดสอบติดตามผลที่เกี่ยวข้องกับสมมติฐานว่างเดียวกันด้วยข้อมูลหรือการตั้งค่าการทดลองที่แตกต่างกัน ซึ่งรวมถึงการรวมผลลัพธ์แต่ละรายการในการวิเคราะห์เมตา ตัวอย่างเช่น ข้อดีของค่า E-value ในบริบทนี้คือช่วยให้สามารถดำเนินการต่อได้อันที่จริง ค่า E-value ได้ถูกนำมาใช้ในสิ่งที่อาจเป็นการวิเคราะห์เมตาแบบ 'ออนไลน์' เต็มรูปแบบครั้งแรกของโลกที่มีการควบคุมข้อผิดพลาดประเภทที่ 1 อย่างชัดเจน^{[ 7 ]}

โดยทั่วไปแล้ว การดำเนินการต่อเนื่องแบบเลือกได้หมายความว่า ผลคูณของค่า e จำนวนใดๆที่กำหนดจากตัวอย่างอิสระ ก็เป็นค่า e เช่นกัน แม้ว่าคำจำกัดความของแต่ละค่า e จะขึ้นอยู่กับผลลัพธ์ก่อนหน้าทั้งหมด และไม่ว่ากฎใดจะถูกใช้ในการตัดสินใจว่าจะหยุดเก็บตัวอย่างใหม่เมื่อใด (เช่น เพื่อทำการทดลองใหม่) ดังนั้น สำหรับระดับนัยสำคัญใดๆ หากสมมติฐานว่างเป็นจริง ความน่าจะเป็นที่ผลคูณของค่า e จะมีค่ามากกว่าจะถูกจำกัดด้วยดังนั้น หากเราตัดสินใจที่จะรวมตัวอย่างที่สังเกตได้จนถึงปัจจุบันและปฏิเสธสมมติฐานว่างหากผลคูณของค่า e มีค่ามากกว่าความน่าจะเป็นของความผิดพลาดประเภทที่ 1 ของเราจะยังคงถูกจำกัดด้วยเรากล่าวว่าการทดสอบโดยใช้ค่า e ยังคงปลอดภัย (ถูกต้องตามหลักความผิดพลาดประเภทที่ 1) ภายใต้การดำเนินการต่อเนื่องแบบเลือกได้ $E_{(1)},E_{(2)},\ldots$ $Y_{(1)},Y_{(2)},\ldots$ $0<\alpha <1$ $1/\alpha$ $\alpha$ $1/\alpha$ $\alpha$

ในทางคณิตศาสตร์ สามารถแสดงให้เห็นได้โดยการแสดงให้เห็นก่อนว่าตัวแปรผลคูณ e ก่อให้เกิดมาร์ติงเกลแบบไม่เป็นลบในเวลาไม่ต่อเนื่องในฟิลเทรชันที่สร้างขึ้นโดย ( ตัวแปร e แต่ละตัวจะเป็นส่วนเพิ่มของมาร์ติงเกลนี้) จากนั้นผลลัพธ์จะตามมาเป็นผลสืบเนื่องมาจากทฤษฎีบทการหยุดแบบเลือกได้ของ Doobและอสมการของ Ville $Y_{(1)},Y_{(2)},\ldots$

เราได้ใช้ตัวแปร e-value แบบผลคูณโดยปริยายไปแล้วในตัวอย่างข้างต้น โดยที่เรากำหนดตัวแปร e-value บนผลลัพธ์แต่ละรายการและออกแบบค่า e-value ใหม่โดยการนำผลคูณมาคำนวณ ดังนั้น ในตัวอย่างนี้ ผลลัพธ์แต่ละรายการจึงทำหน้าที่เป็น 'กลุ่มตัวอย่าง' (ตัวอย่างทั้งหมด) ข้างต้น และเราจึงสามารถหยุด การวิเคราะห์ข้อมูลได้ "ภายใน" กลุ่มตัวอย่างเดิมได้ กล่าว คือ เราอาจหยุดการวิเคราะห์ข้อมูลที่ผลลัพธ์ แต่ละรายการใดก็ได้ (ไม่ใช่แค่ "กลุ่มผลลัพธ์") ตามที่เราต้องการ ด้วยเหตุผลใดก็ตาม และปฏิเสธข้อมูลหากผลคูณที่ได้เกินค่าที่กำหนดไว้ อย่างไรก็ตามตัวแปร e-value ที่กำหนดไว้สำหรับกลุ่มผลลัพธ์ทั้งหมดไม่สามารถแยกย่อยเป็นผลคูณของค่า e-value ต่อผลลัพธ์ได้ด้วยวิธีนี้ หากเป็นไปไม่ได้ เราจะไม่สามารถใช้ตัวแปรเหล่านั้นสำหรับการหยุดการวิเคราะห์แบบเลือกได้ (ภายในตัวอย่าง) แต่สามารถใช้สำหรับการดำเนินการต่อแบบเลือกได้เท่านั้น (จากตัวอย่างหนึ่งไปยังอีก ตัวอย่างหนึ่ง และอื่นๆ) $X_{i}$ $X_{i}$ $Y_{(j)}$ $Y$ $1/\alpha$ $Y$ $Y$ $Y_{(j)}$ $Y_{(j+1)}$

การก่อสร้างและความเหมาะสมที่สุด

ถ้าเรากำหนด ค่า e-value โดยไม่ขึ้นอยู่กับข้อมูล เราจะได้ค่า e-value ที่ไม่สำคัญ : มันเป็น e-variable ตามคำจำกัดความ แต่มันจะไม่มีทางทำให้เราปฏิเสธสมมติฐานว่างได้ ตัวอย่างนี้แสดงให้เห็นว่า e-variable บางตัวอาจดีกว่าตัวอื่น ๆ ในความหมายที่จะอธิบายต่อไป โดยสัญชาตญาณแล้ว e-variable ที่ดีคือ e-variable ที่มีแนวโน้มที่จะมีค่ามาก (มากกว่า 1 มาก) ถ้าสมมติฐานทางเลือกเป็นจริง นี่เป็นสิ่งที่คล้ายคลึงกับสถานการณ์ของ p-value: ทั้ง e-value และ p-value สามารถกำหนดได้โดยไม่ต้องอ้างอิงถึงสมมติฐานทางเลือก แต่ถ้ามีสมมติฐานทางเลือก เราต้องการให้ค่าเหล่านั้นมีค่าน้อย (p-value) หรือมาก (e-value) ด้วยความน่าจะเป็นสูงในการทดสอบสมมติฐานมาตรฐาน คุณภาพของการทดสอบที่ถูกต้องจะถูกกำหนดอย่างเป็นทางการโดยแนวคิดของกำลังทางสถิติ แต่แนวคิดนี้จะต้องได้รับการแก้ไขอย่างเหมาะสมในบริบทของ e-value ^[⁴^]^[⁸^] $E:=1$

แนวคิดมาตรฐานเกี่ยวกับคุณภาพของตัวแปร e เมื่อเทียบกับทางเลือกอื่นที่กำหนด ซึ่งผู้เขียนส่วนใหญ่ในสาขานี้ใช้ เป็นการสรุปทั่วไปของเกณฑ์ Kellyในทางเศรษฐศาสตร์ และ (เนื่องจากแสดงความสัมพันธ์ใกล้ชิดกับอำนาจแบบคลาสสิก) บางครั้งเรียกว่าe-power [ ⁹^]^{ตัวแปร} e ที่เหมาะสมที่สุดในแง่นี้เรียกว่าlog-optimalหรือgrowth-rate optimal (มักย่อเป็น GRO ^[⁸^] ) ในกรณีของทางเลือกแบบง่ายe-power ของตัวแปร e ที่กำหนดจะถูกกำหนดง่ายๆ ว่าเป็นค่าคาดหวัง ในกรณีของทางเลือกแบบผสม จะมี e-power และ GRO หลายเวอร์ชัน (เช่น ค่าสัมบูรณ์กรณีเลวร้ายที่สุด ค่าสัมพัทธ์กรณีเลวร้ายที่สุด) ^[⁸^] $H_{1}$ $H_{1}=\{Q\}$ $S$ ${\mathbb {E} }_{Q}[\log E]$

ทางเลือกที่ง่ายกว่า สมมติฐานว่างที่ง่ายกว่า: อัตราส่วนความน่าจะเป็น

ให้และทั้งคู่เป็นแบบง่าย จากนั้นอัตราส่วนความน่าจะเป็น e-variable จะมีกำลัง e สูงสุดในความหมายข้างต้น กล่าวคือเป็น GRO ^[⁴^] $H_{0}=\{P_{0}\}$ $H_{1}=\{Q\}$ $E=q(Y)/p_{0}(Y)$

ทางเลือกที่ง่ายกว่าและเป็นกลางแบบผสม: การฉายภาพข้อมูลย้อนกลับ (RIPr)

ให้ เป็นเซตแบบง่ายและเป็นเซตแบบผสม โดยที่สมาชิกทั้งหมดของมีความหนาแน่น (แทนด้วยตัวอักษรพิมพ์เล็ก) สัมพันธ์กับมาตรวัดพื้นฐานเดียวกัน Grünwald และคณะแสดงให้เห็นว่าภายใต้เงื่อนไขความสม่ำเสมอแบบอ่อน ตัวแปร GRO e-variable มีอยู่จริง มีเอกลักษณ์เฉพาะตัว และกำหนดโดย $H_{1}=\{Q\}$ $H_{0}=\{P_{\theta }:\theta \in \Theta _{0}\}$ $H_{0}\cup H_{1}$

$E:={\frac {q(Y)}{p_{\curvearrowleft Q}(Y)}}$

โดยที่การฉายภาพข้อมูลย้อนกลับ (RIPr)ของ ไปยังส่วนนูนของ [ ⁸^]ภายใต้เงื่อนไขความสม่ำเสมอเพิ่มเติม (และในทุกกรณีที่เกี่ยวข้องในทางปฏิบัติที่พบมาจนถึงปัจจุบัน) จะได้รับจากความหนาแน่นขอบ^ของ เบย์ส : มีการกระจายเฉพาะที่ไม่ซ้ำกันบน เช่น นั้น $p_{\curvearrowleft Q}$ $Q$ $H_{0}$ $p_{\curvearrowleft Q}$ $W$ $\Theta _{0}$ $p_{\curvearrowleft Q}(Y)=\int _{\Theta _{0}}p_{\theta }(Y)dW(\theta )$

ทางเลือกที่ง่ายกว่าและสมมติฐานว่างแบบผสม: การอนุมานสากล (UI)

ในการตั้งค่าเดียวกันกับข้างต้น^{[ 10 ]}แสดงให้เห็นว่าภายใต้เงื่อนไขความสม่ำเสมอใดๆ ก็ตาม

$E={\frac {q(Y)}{\sup _{P\in H_{0}}p(Y)}}\left(={\frac {q(Y)}{{p}_{{\hat {\theta }}\mid Y}(Y)}}\right)$

เป็นตัวแปร e (โดยความเท่าเทียมกันข้อที่สองจะเป็นจริงก็ต่อเมื่อ MLE ( ตัวประมาณค่าความน่าจะเป็นสูงสุด ) ที่อิงตามข้อมูลนั้นถูกกำหนดไว้อย่างดีเสมอ) วิธีการสร้างตัวแปร e แบบนี้เรียกว่า วิธี การอนุมานสากล (UI)โดยคำว่า "สากล" หมายถึงไม่จำเป็นต้องมีเงื่อนไขความสม่ำเสมอใดๆ ${\hat {\theta }}\mid Y$ $Y$

ทางเลือกแบบผสม, ค่าว่างแบบง่าย

ตอนนี้ให้ เป็นแบบง่ายและ เป็นแบบผสม โดยที่องค์ประกอบทั้งหมดของมีความหนาแน่นสัมพันธ์กับการวัดพื้นฐานเดียวกัน ตอนนี้มีสองวิธีทั่วไปที่เกี่ยวข้องกันอย่างใกล้ชิดในการหาตัวแปร e ที่ใกล้เคียงกับการเติบโตที่เหมาะสมที่สุด (กำหนดใหม่ให้เหมาะสม^[⁴^]สำหรับแบบผสม ): วิธีการผสมของ Robbins และวิธีการเสียบปลั๊กซึ่งเดิมเป็นผลงานของ Wald ^[¹¹^]แต่โดยพื้นฐานแล้วถูกค้นพบใหม่โดยPhilip Dawidในชื่อ "การเสียบปลั๊กแบบ prequential" ^[¹²^]และJorma Rissanenในชื่อ " MDL แบบทำนาย " ^[¹³^]วิธีการผสมโดยพื้นฐานแล้วเทียบเท่ากับ "การเป็น Bayesian เกี่ยวกับตัวเศษ" (เหตุผลที่ไม่ได้เรียกว่า "วิธีการ Bayesian" คือ เมื่อทั้งสมมติฐานว่างและสมมติฐานทางเลือกเป็นแบบผสม ตัวเศษมักจะไม่ใช่ Bayes marginal): เรากำหนดการกระจายก่อนหน้าใดๆบนและตั้งค่า $H_{0}=\{P\}$ $H_{1}=\{Q_{\theta }:\theta \in \Theta _{1}\}$ $H_{0}\cup H_{1}$ $H_{1}$ $W$ $\Theta _{1}$

${\bar {q}}_{W}(Y):=\int _{\Theta _{1}}q_{\theta }(Y)dW(\theta )$

และใช้ตัวแปรe ${\bar {q}}_{W}(Y)/p(Y)$

เพื่ออธิบายวิธีการเสียบปลั๊ก สมมติว่าโดยที่ เป็นกระบวนการสุ่ม และให้ เป็นตัวประมาณค่าของ โดยอิงจากข้อมูล สำหรับ ในทางปฏิบัติ โดยทั่วไปแล้วจะใช้ตัวประมาณค่า ความน่าจะเป็นสูงสุดแบบ "ปรับเรียบ" (เช่น สัมประสิทธิ์การถดถอยในการถดถอยแบบริดจ์ ) ซึ่งตั้งค่าเริ่มต้นไว้ที่ "ค่าเริ่มต้น" บางค่า จากนั้นสร้างความหนาแน่น ของ แบบเรียกซ้ำ โดยการตั้ง ค่า $Y=(X_{1},\ldots ,X_{n})$ $X_{1},X_{2},\ldots$ ${\breve {\theta }}\mid X^{i}$ $\theta \in \Theta _{1}$ $X^{i}=(X_{1},\ldots ,X_{i})$ $i\geq 0$ ${\breve {\theta }}\mid X^{0}:=\theta _{0}$ ${\bar {q}}_{\breve {\theta }}$ $X^{n}$ ${\bar {q}}_{\breve {\theta }}(X^{n})=\prod _{i=1}^{n}q_{{\breve {\theta }}\mid X^{i-1}}(X_{i}\mid X^{i-1})$

โดยหลักแล้ว ทั้งวิธีการผสมและวิธีการเสียบปลั๊กสามารถคิดได้ว่าเป็นการเรียนรู้ตัวอย่างเฉพาะของทางเลือกที่อธิบายข้อมูลได้ดี^{[ 4 ]}

ตัวแปรว่างและตัวแปรทางเลือกแบบผสม

ใน การตั้งค่า แบบพาราเมตริกเราสามารถรวมวิธีการหลักสำหรับทางเลือกแบบผสม (การหาค่า หรือ) เข้ากับวิธีการหลักสำหรับค่าว่างแบบผสม (UI หรือ RIPr โดยใช้การแจกแจงเดี่ยว หรือ เป็นทางเลือก) ได้อย่างง่ายดาย โดยเฉพาะอย่างยิ่ง โปรดสังเกตว่าเมื่อใช้วิธีการปลั๊กอินร่วมกับวิธีการ UI ตัวแปร e ที่ได้จะมีลักษณะดังนี้ ${\bar {q}}_{\breve {\theta }}$ ${\bar {q}}_{W}$ ${\bar {q}}_{\breve {\theta }}$ ${\bar {q}}_{W}$

${\frac {\prod _{i=1}^{n}q_{{\breve {\theta }}\mid X^{i-1}}(X_{i})}{q_{{\hat {\theta }}\mid X^{n}}(X^{n})}}$

ซึ่งมีลักษณะคล้ายคลึงกัน แต่โดยพื้นฐานแล้วยังคงแตกต่างจากอัตราส่วนความน่าจะเป็นทั่วไปที่ใช้ในการทดสอบอัตราส่วนความน่าจะเป็นแบบคลาสสิก

ข้อดีของวิธี UI เมื่อเปรียบเทียบกับ RIPr คือ (ก) สามารถนำไปใช้ได้ทุกเมื่อที่สามารถคำนวณ MLE ได้อย่างมีประสิทธิภาพ ซึ่งในหลายกรณีนั้นไม่ทราบว่าสามารถคำนวณการฉายภาพข้อมูลย้อนกลับได้หรือไม่/อย่างไร และ (ข) จะให้ผลลัพธ์โดยอัตโนมัติไม่เพียงแค่ตัวแปร e เท่านั้น แต่ยังรวมถึงกระบวนการ e ที่สมบูรณ์ด้วย (ดูด้านล่าง): หากเราแทนที่ในสูตรข้างต้นด้วยเวลาหยุดทั่วไปอัตราส่วนที่ได้ก็ยังคงเป็นตัวแปร e สำหรับการฉายภาพข้อมูลย้อนกลับ การสร้างกระบวนการ e โดยอัตโนมัตินี้จะเกิดขึ้นได้เฉพาะในกรณีพิเศษเท่านั้น $n$ $\tau$

ข้อเสียเปรียบหลักเมื่อเทียบกับ RIPr คืออาจไม่เหมาะสมอย่างมากในแง่ของเกณฑ์ e-power/GRO ซึ่งหมายความว่าจะนำไปสู่การทดสอบที่มีกำลังทางสถิติแบบคลาสสิกน้อยกว่าวิธีการที่ใช้ RIPr ดังนั้น สำหรับการตั้งค่าที่วิธีการ RIPr สามารถคำนวณได้และนำไปสู่กระบวนการ e-process จึงควรเลือกใช้ ซึ่งรวมถึงการทดสอบ z การทดสอบ t และการถดถอยเชิงเส้นที่เกี่ยวข้อง การทดสอบ k ตัวอย่างด้วยการแจกแจง Bernoulli, Gaussian และ Poisson และการทดสอบ logrank ( มี แพ็คเกจ Rสำหรับชุดย่อยของสิ่งเหล่านี้) รวมถึง การทดสอบ ความเป็นอิสระแบบมีเงื่อนไขภายใต้สมมติฐานโมเดล X ^{[ 14 ]}อย่างไรก็ตาม ในปัญหาการทดสอบทางสถิติอื่นๆ อีกมากมาย ปัจจุบัน (2023) ยังไม่เป็นที่ทราบแน่ชัดว่ามีการใช้งานการฉายภาพข้อมูลย้อนกลับที่รวดเร็วหรือไม่ และอาจไม่มีเลย (เช่น โมเดลเชิงเส้นทั่วไปโดยไม่มีสมมติฐานโมเดล X)

ใน การตั้งค่าแบบ ไม่ใช้พารามิเตอร์ (เช่น การทดสอบค่าเฉลี่ยดังตัวอย่างข้างต้น หรือการทดสอบ 2 ตัวอย่างแบบไม่ใช้พารามิเตอร์) มักจะเป็นธรรมชาติมากกว่าที่จะพิจารณาตัวแปร e ประเภทนี้ อย่างไรก็ตาม แม้ว่าโดยผิวเผินแล้วตัวแปรเหล่านี้จะดูแตกต่างจากอัตราส่วนความน่าจะเป็นมาก แต่ก็ยังสามารถตีความได้เช่นนั้น และบางครั้งก็สามารถตีความใหม่ได้ว่าเป็นการนำเวอร์ชันของการสร้าง RIPr มาใช้^[⁴^] $1+\lambda U$

สุดท้าย ในทางปฏิบัติ บางครั้งเราใช้การผสมผสานที่สะดวกทางคณิตศาสตร์หรือการคำนวณของ RIPr, UI และวิธีการอื่นๆ^{[ 4 ]}ตัวอย่างเช่น RIPr ถูกนำมาใช้เพื่อให้ได้ตัวแปร e ที่เหมาะสมที่สุดสำหรับบล็อกผลลัพธ์ขนาดเล็ก จากนั้นจึงคูณตัวแปร e เหล่านั้นเพื่อให้ได้ตัวแปร e สำหรับตัวอย่างขนาดใหญ่ขึ้น ตัวแปร e เหล่านี้ใช้งานได้ดีในทางปฏิบัติ แต่ไม่สามารถถือว่าเหมาะสมที่สุดได้อีกต่อไป

วิธีการสร้างแบบที่สาม: การสอบเทียบจาก p ไป e (และจาก e ไป p)

มีฟังก์ชันที่แปลงค่า p เป็นค่า e อยู่^{[ 15 ]}^{[ 16 ]}^{[ 17 ]}ฟังก์ชันดังกล่าวเรียกว่าตัวปรับเทียบ p-to-eในทางทฤษฎี ตัวปรับเทียบคือฟังก์ชันที่ไม่เป็นลบและลดลงซึ่งเมื่อนำไปใช้กับตัวแปร p (ตัวแปรสุ่มที่มีค่าเป็นค่า p ) จะให้ผลลัพธ์เป็นตัวแปร e ตัวปรับเทียบจะกล่าวได้ว่าครอบงำตัวปรับเทียบอื่นหากและการครอบงำนี้จะเข้มงวดหากความไม่เท่าเทียมกันนั้นเข้มงวด ตัวปรับเทียบที่ยอมรับได้คือตัวปรับเทียบที่ไม่ถูกครอบงำอย่างเข้มงวดโดยตัวปรับเทียบอื่นใด สามารถแสดงได้ว่าสำหรับฟังก์ชันที่จะเป็นตัวปรับเทียบ ฟังก์ชันนั้นจะต้องมีปริพันธ์ไม่เกิน 1 เหนือการวัดความน่าจะ เป็นแบบเอก รูป $f:[0,1]\rightarrow [0,\infty ]$ $f$ $g$ $f\geq g$

กลุ่มหนึ่งของตัวปรับเทียบที่ยอมรับได้นั้นกำหนดโดยเซตของฟังก์ชัน ที่มีอีกตัวปรับเทียบหนึ่งกำหนดโดยการอินทิเกรตออกไป: $\{f_{\kappa }:0<\kappa <1\}$ $f_{\kappa }(p):=\kappa p^{\kappa -1}$ $\kappa$

\int _{0}^{1}\kappa p^{\kappa -1}d\kappa ={\frac {1-p+p\log p}{p(-\log p)^{2}}}

ในทางกลับกัน ตัวปรับเทียบ e-to-p จะแปลงค่า e กลับไปเป็นตัวแปร p ที่น่าสนใจคือ ตัวปรับเทียบต่อไปนี้มีประสิทธิภาพเหนือกว่าตัวปรับเทียบ e-to-p อื่นๆ ทั้งหมด:

f(t):=\min(1,1/t)

.

แม้ว่าการสอบเทียบจะมีความสำคัญในเชิงทฤษฎี แต่ก็ไม่ได้ถูกนำมาใช้มากนักในการออกแบบตัวแปร e ในทางปฏิบัติ เนื่องจากตัวแปร e ที่ได้มักจะอยู่ห่างไกลจากค่าการเติบโตที่เหมาะสมที่สุดสำหรับค่าที่กำหนด^[⁸^] $H_{1}$

กระบวนการอิเล็กทรอนิกส์

คำนิยาม

ทีนี้ลองพิจารณาข้อมูลที่เข้ามาตามลำดับ ซึ่งประกอบเป็นกระบวนการสุ่มแบบเวลาไม่ต่อเนื่องให้เป็นกระบวนการแบบเวลาไม่ต่อเนื่องอีกกระบวนการหนึ่ง โดยที่สำหรับแต่ละสามารถเขียนได้เป็นฟังก์ชัน (ที่วัดได้) ของผลลัพธ์แรก เราเรียก เป็นกระบวนการeถ้าสำหรับเวลาหยุด ใดๆ เป็นตัวแปร e กล่าวคือ สำหรับทุก $X_{1},X_{2},\ldots$ $E_{1},E_{2},\ldots$ $n,E_{n}$ $(X_{1},\ldots ,X_{n})$ $E_{1},E_{2},\ldots$ $\tau ,E_{\tau }$ $P\in H_{0}:{\mathbb {E} }_{P}[E_{\tau }]\leq 1$

ในกรณีพื้นฐาน เวลาหยุดสามารถกำหนดได้ด้วยกฎใดๆ ก็ได้ที่กำหนดว่า ณ ขนาดตัวอย่างแต่ละขนาดควรหยุดเก็บข้อมูลหรือไม่ โดยพิจารณาจากข้อมูลที่สังเกตได้จนถึงปัจจุบันเท่านั้น ตัวอย่างเช่น อาจเป็น "หยุดเมื่อพบผลลัพธ์ที่มากกว่า 1 ติดต่อกันสี่ครั้ง" "หยุดที่" หรือกฎที่เข้มงวดกว่าเช่น "หยุดทันทีที่สามารถปฏิเสธสมมติฐานหลักที่ระดับ -ระดับได้ กล่าวคือ ที่ค่าต่ำสุดที่ทำให้ " เป็นต้น ด้วยกระบวนการอิเล็กทรอนิกส์ เราจะได้ตัวแปรอิเล็กทรอนิกส์ที่มีกฎดังกล่าว ที่สำคัญคือ นักวิเคราะห์ข้อมูลอาจไม่ทราบกฎที่ใช้ในการหยุด ตัวอย่างเช่น หัวหน้าอาจสั่งให้หยุดเก็บข้อมูล และเธออาจไม่ทราบสาเหตุที่แน่ชัด แต่เธอก็ยังได้ตัวแปรอิเล็กทรอนิกส์ที่ถูกต้องและควบคุมข้อผิดพลาดประเภทที่ 1 ได้ ซึ่งแตกต่างอย่างสิ้นเชิงกับการวิเคราะห์ข้อมูลโดยใช้ค่า p (ซึ่งจะไม่ถูกต้องหากไม่ได้กำหนดกฎการหยุดไว้ล่วงหน้า) หรือการวิเคราะห์เชิงลำดับ แบบ Wald แบบดั้งเดิม (ซึ่งทำงานกับข้อมูลที่มีความยาวแตกต่างกัน แต่ก็ต้องกำหนดเวลาหยุดไว้ล่วงหน้าเช่นกัน) ในกรณีที่ซับซ้อนกว่านั้น เวลาหยุดจะต้องถูกกำหนดโดยสัมพันธ์กับการกรอง ที่ลดลงเล็กน้อย แต่ในทางปฏิบัติแล้วนี่ไม่ใช่ข้อจำกัดที่สำคัญ โดยเฉพาะอย่างยิ่งกฎระดับที่ก้าวร้าวจะได้รับอนุญาตเสมอ เนื่องจากความถูกต้องภายใต้การหยุดแบบเลือกได้ กระบวนการ e จึงเป็นองค์ประกอบพื้นฐานของลำดับความเชื่อมั่น หรือที่รู้จักกันในชื่อช่วงความเชื่อมั่นที่ใช้ได้ตลอดเวลา^[¹⁸^]^[⁴^] $n$ $n=100$ $\alpha$ $\alpha$ $n$ $E_{n}\geq 1/\alpha$ $\alpha$

ในทางเทคนิคแล้ว กระบวนการ e เป็นการขยายความของซูเปอร์มาร์ติง เกลทดสอบ ซึ่งเป็นซูเปอร์มาร์ติงเกลที่ไม่เป็นลบและมีค่าเริ่มต้นเป็น 1: ซูเปอร์มาร์ติงเกลทดสอบใดๆ ก็ตามถือเป็นกระบวนการ e แต่ในทางกลับกันไม่เป็นเช่นนั้น

การก่อสร้าง

กระบวนการ E สามารถสร้างขึ้นได้หลายวิธี บ่อยครั้งที่เริ่มต้นด้วยค่า e ซึ่งคำจำกัดความของค่า e นั้นอาจขึ้นอยู่กับข้อมูลก่อนหน้า เช่น $E_{i}$ $X_{i}$

สำหรับทุกคน $P\in H_{0}:{\mathbb {E} }_{P}[E_{i}|X_{1},\ldots ,X_{i-1}]\leq 1$

(อีกครั้ง ในปัญหาการทดสอบที่ซับซ้อน คำจำกัดความนี้จำเป็นต้องได้รับการแก้ไขเล็กน้อยโดยใช้ตัวกรองที่ลดลง) จากนั้นกระบวนการผลิตภัณฑ์ที่มีจะเป็นซูเปอร์มาร์ติงเกลทดสอบ และด้วยเหตุนี้จึงเป็นกระบวนการ e ด้วย (โปรดทราบว่าเราได้ใช้โครงสร้างนี้แล้วในตัวอย่างที่อธิบายไว้ภายใต้ "ค่า e เป็นการเดิมพัน" ข้างต้น: สำหรับค่าคงที่ค่า e ไม่ได้ขึ้นอยู่กับข้อมูลในอดีต แต่โดยการใช้การขึ้นอยู่กับอดีต ค่า e จึงขึ้นอยู่กับข้อมูลในอดีต) $M_{1},M_{2},\ldots$ $M_{n}=E_{1}\times E_{2}\cdots \times E_{n}$ $\lambda$ $E_{i,\lambda }$ $\lambda ={\breve {\lambda }}|X^{i-1}$

อีกวิธีหนึ่งในการสร้างกระบวนการ e คือการใช้การสร้างการอนุมานสากลที่อธิบายไว้ข้างต้นสำหรับขนาดตัวอย่างลำดับของค่า e ที่ได้จะเป็นกระบวนการ e เสมอ^[⁴^] $1,2,\ldots$ $E_{1},E_{2},\ldots$

ประวัติศาสตร์

ในอดีต ค่า e ปรากฏโดยปริยายในฐานะองค์ประกอบพื้นฐานของซูเปอร์มาร์ติงเกลที่ไม่เป็นลบในงานบุกเบิกเกี่ยวกับวิธีความเชื่อมั่นที่ใช้ได้ตลอดเวลาโดยนักคณิตศาสตร์ชื่อดังHerbert Robbinsและลูกศิษย์ของเขา^{[ 18 ]}ครั้งแรกที่ค่า e (หรือสิ่งที่คล้ายกันมาก) ถูกมองว่าเป็นปริมาณที่น่าสนใจโดยอิสระคือโดยนักคณิตศาสตร์ชื่อดังอีกคนหนึ่งLeonid Levinในปี 1976 ภายในทฤษฎีความสุ่มของอัลกอริทึม ยกเว้นผลงานของผู้บุกเบิกV. Vovkในเอกสารต่างๆ ร่วมกับผู้ร่วมงานหลายคน (เช่น^{[ 16 ]}^{[ 15 ]} ) และการคิดค้นแนวคิดขึ้นใหม่โดยอิสระในสาขาที่แตกต่างอย่างสิ้นเชิง^{[ 19 ]}แนวคิดนี้ไม่ได้รับความนิยมเลยจนกระทั่งปี 2019 เมื่อภายในเวลาเพียงไม่กี่เดือน เอกสารบุกเบิกหลายฉบับโดยกลุ่มวิจัยหลายกลุ่มปรากฏบน arXiv (สิ่งพิมพ์วารสารที่เกี่ยวข้องที่อ้างอิงด้านล่างบางครั้งมาในอีกหลายปีต่อมา) ในเอกสารเหล่านี้ แนวคิดดังกล่าวได้รับการตั้งชื่อที่เหมาะสมในที่สุด ("ค่า S" ^{[ 8 ]}และ "ค่า E" ^{[ 17 ]}ในเวอร์ชันต่อมาของเอกสาร^{[ 8 ]}ยังได้ปรับเป็น "ค่า E" ด้วย) โดยอธิบายคุณสมบัติทั่วไป^{[ 17 ]}วิธีการสร้างทั่วไปสองวิธี^{[ 10 ]}และความสัมพันธ์ที่ใกล้ชิดกับการพนัน^{[ 5 ]} ) นับตั้งแต่นั้นมา ความสนใจของนักวิจัยทั่วโลกก็เพิ่มสูงขึ้น ในปี 2023 เอกสารภาพรวมฉบับแรกเกี่ยวกับ "วิธีการที่ปลอดภัยและถูกต้องตลอดเวลา" ซึ่งค่า E มีบทบาทสำคัญ ได้ปรากฏขึ้น^{[ 4 ]}

[ 1 ]

[ 2 ]

[ 3 ]

[ 7 ]

9

[

[

[

[ 14 ]

[ 19 ]