รูปแบบจุดลอยตัวความแม่นยำเดี่ยว

Q: มาตรฐาน IEEE 754: binary32

มาตรฐาน IEEE 754 ระบุว่า binary32 มีคุณสมบัติดังนี้:

Q: การแปลงเลขฐานสิบเป็นเลขฐานสอง 32

โดยทั่วไปแล้ว ให้ดูมาตรฐาน IEEE 754 เองสำหรับวิธีการแปลงที่เข้มงวด (รวมถึงพฤติกรรมการปัดเศษ) ของจำนวนจริงให้เป็นรูปแบบไบนารี 32 ที่เทียบเท่ากัน

รูปแบบเลขทศนิยมความแม่นยำเดี่ยว (บางครั้งเรียกว่าFP32 , float32หรือfloat ) เป็นรูปแบบตัวเลขคอมพิวเตอร์ซึ่งโดยทั่วไปจะใช้พื้นที่32 บิตใน หน่วย ความ จำคอมพิวเตอร์และสามารถแสดงค่าตัวเลขได้หลากหลายโดยใช้จุดทศนิยม

ตัวแปรจุดลอยตัวสามารถแทนค่าตัวเลขได้หลากหลายกว่า ตัวแปร จุดคงที่ที่มีความกว้างบิตเท่ากัน แต่ต้องแลกมาด้วยความแม่นยำที่ ลดลง ตัวแปรจำนวนเต็ม 32 บิตแบบมีเครื่องหมายมีค่าสูงสุดเท่ากับ^2³¹ − 1 = 2,147,483,647 ในขณะที่ตัวแปรจุดลอยตัวฐาน 2 32 บิตIEEE 754 มีค่าสูงสุดจำกัดเท่ากับ (2 − 2 ⁻²³ ) × ^2¹²⁷ ≈ 3.4028235 × ^10³⁸จำนวนเต็มทั้งหมดที่มีทศนิยมเจ็ดหลักหรือน้อยกว่า และ 2n ใดๆ^{สำหรับ}จำนวนเต็ม −149 ≤ n ≤ 127 สามารถแปลงเป็นค่าจุดลอยตัวความแม่นยำเดี่ยว IEEE 754 ได้อย่างแม่นยำ

ใน มาตรฐาน IEEE 754 รูปแบบฐาน 2 ขนาด 32 บิต ถูกเรียกอย่างเป็นทางการว่าbinary32 ; ในมาตรฐานIEEE 754-1985เรียกว่าsingleมาตรฐาน IEEE 754 ยังกำหนดประเภทจุดลอยตัวเพิ่มเติม เช่นความแม่นยำสองเท่า ฐาน 2 ขนาด 64 บิต และล่าสุดคือการแสดงผลฐาน 10

ภาษาโปรแกรม ฟอร์ แทรน (Fortran ) เป็น หนึ่งในภาษาโปรแกรมแรกๆที่รองรับชนิดข้อมูลจุดลอยตัวแบบความแม่นยำเดี่ยวและความแม่นยำคู่ก่อนที่มาตรฐาน IEEE 754-1985 จะถูกนำมาใช้กันอย่างแพร่หลาย การแสดงผลและคุณสมบัติของชนิดข้อมูลจุดลอยตัวนั้นขึ้นอยู่กับผู้ผลิตคอมพิวเตอร์และรุ่นของคอมพิวเตอร์ รวมถึงการตัดสินใจของผู้พัฒนาภาษาโปรแกรม ตัวอย่างเช่นชนิดข้อมูลความแม่นยำเดี่ยวของGW-BASIC คือ รูปแบบจุดลอยตัว MBF 32 บิต

ความแม่นยำเดี่ยวเรียกว่าSINGLE-FLOATในCommon Lisp [ ^{1 ]} float binary(p)โดยที่ p≤21, float decimal(p)โดยที่ค่าสูงสุดของ p ขึ้นอยู่กับว่าแอตทริบิวต์ DFP (IEEE 754 DFP) ใช้ได้หรือไม่ ใน PL/I; ^floatใน C ที่รองรับ IEEE 754, C++ (ถ้าอยู่ใน C), C#และJava [ ^{2 ]} floatในHaskell ^{[ 3 ]}และSwift [ ^{4 ]}และSingleในObject Pascal ( Delphi ), ^Visual BasicและMATLABอย่างไรก็ตามfloatในPython ^, Ruby , PHPและOCamlและsingle ใน Octaveเวอร์ชันก่อน 3.2 หมายถึง ตัวเลข ความแม่นยำสองเท่าในการใช้งานPostScript ส่วนใหญ่ และระบบฝังตัว บางระบบ ความแม่นยำที่รองรับเพียงอย่างเดียวคือความแม่นยำ เดี่ยว

มาตรฐาน IEEE 754: binary32

มาตรฐาน IEEE 754 ระบุว่าbinary32มีคุณสมบัติดังนี้:

บิตเครื่องหมาย : 1 บิต
ความกว้าง ของเลขชี้กำลัง : 8 บิต
ความแม่นยำของ ตัวเลขสำคัญ : 24 บิต (จัดเก็บไว้โดยชัดเจน 23 บิต)

สิ่งนี้ให้ความแม่นยำ ของตัวเลขทศนิยมที่มีนัยสำคัญตั้งแต่ 6 ถึง 9 หลักหากสตริงทศนิยมที่มีตัวเลขที่มีนัยสำคัญไม่เกิน 6 หลักถูกแปลงเป็นรูปแบบความแม่นยำเดี่ยว IEEE 754 ซึ่งให้ตัวเลขปกติแล้วแปลงกลับเป็นสตริงทศนิยมที่มีจำนวนหลักเท่าเดิม ผลลัพธ์สุดท้ายควรตรงกับสตริงเดิม หากตัวเลขความแม่นยำเดี่ยว IEEE 754 ถูกแปลงเป็นสตริงทศนิยมที่มีตัวเลขที่มีนัยสำคัญอย่างน้อย 9 หลัก แล้วแปลงกลับเป็นรูปแบบความแม่นยำเดี่ยว ผลลัพธ์สุดท้ายต้องตรงกับตัวเลขเดิม^{[ 5 ]}

บิตเครื่องหมายกำหนดเครื่องหมายของตัวเลข ซึ่งเป็นเครื่องหมายของตัวเลขสำคัญด้วย "1" หมายถึงค่าลบ ฟิลด์เลขชี้กำลังเป็นจำนวนเต็ม 8 บิตที่ไม่มีเครื่องหมาย ตั้งแต่ 0 ถึง 255 ในรูปแบบไบแอส : ค่า 127 แทนเลขชี้กำลังศูนย์จริง เลขชี้กำลังมีค่าตั้งแต่ −126 ถึง +127 (ดังนั้น 1 ถึง 254 ในฟิลด์เลขชี้กำลัง) เนื่องจากค่าเลขชี้กำลังไบแอส 0 (เป็น 0 ทั้งหมด) และ 255 (เป็น 1 ทั้งหมด) ถูกสงวนไว้สำหรับตัวเลขพิเศษ ( ตัวเลขย่อยปกติ , ศูนย์ที่มีเครื่องหมาย , อนันต์และNaN )

ส่วนสำคัญของตัวเลขปกติประกอบด้วยบิตเศษส่วน 23 บิตทางด้านขวาของจุดทศนิยม และบิตนำโดยปริยาย (ทางด้านซ้ายของจุดทศนิยม) ที่มีค่าเป็น 1 ส่วนตัวเลขซับนอร์มอลและศูนย์ (ซึ่งเป็นตัวเลขทศนิยมที่มีขนาดเล็กกว่าตัวเลขปกติที่เป็นบวกน้อยที่สุด) จะถูกแทนด้วยค่าเลขชี้กำลังแบบไบแอส 0 ทำให้บิตนำโดยปริยายมีค่าเป็น 0 ดังนั้นจึงมีเพียงบิตเศษส่วน 23 บิตของส่วนสำคัญ เท่านั้น ที่ปรากฏในรูปแบบหน่วยความจำ แต่ความแม่นยำโดยรวมคือ 24 บิต (เทียบเท่ากับ log ₁₀ (2 ²⁴ ) ≈ 7.225 หลักทศนิยม) สำหรับค่าปกติ ส่วนตัวเลขซับนอร์มอลจะมีความแม่นยำลดลงอย่างนุ่มนวลจนถึง 1 บิตสำหรับค่าที่ไม่ใช่ศูนย์ที่เล็กที่สุด

ส่วนประกอบต่างๆ ถูกจัดเรียงไว้ดังนี้:

ค่าที่แท้จริงที่ได้จากข้อมูลไบนารี 32 บิตที่กำหนด โดยมี เครื่องหมาย ที่กำหนด เลขชี้กำลังไบแอสE (จำนวนเต็มไม่ระบุเครื่องหมาย 8 บิต) และเศษส่วน 23 บิตคือ

(-1)^{b_{31}}\times 2^{(b_{30}b_{29}\dots b_{23})_{2}-127}\times (1.b_{22}b_{21}\dots b_{0})_{2}

,

ซึ่งให้ผลลัพธ์

{\text{value}}=(-1)^{\text{sign}}\times 2^{(E-127)}\times \left(1+\sum _{i=1}^{23}b_{23-i}2^{-i}\right).

ในตัวอย่างนี้:

${\text{sign}}=b_{31}=0$ ,
$(-1)^{\text{sign}}=(-1)^{0}=+1\in \{-1,+1\}$ ,
$E=(b_{30}b_{29}\dots b_{23})_{2}=\sum _{i=0}^{7}b_{23+i}2^{+i}=124\in \{1,\ldots ,(2^{8}-1)-1\}=\{1,\ldots ,254\}$ ,
$2^{(E-127)}=2^{124-127}=2^{-3}\in \{2^{-126},\ldots ,2^{127}\}$ ,
$1.b_{22}b_{21}...b_{0}=1+\sum _{i=1}^{23}b_{23-i}2^{-i}=1+1\cdot 2^{-2}=1.25\in \{1,1+2^{-23},\ldots ,2-2^{-23}\}\subset [1;2-2^{-23}]\subset [1;2)$ .

ดังนั้น:

${\text{value}}=(+1)\times 2^{-3}\times 1.25=+0.15625$ .

บันทึก:

$1+2^{-23}\approx 1.000\,000\,119$ ,
$2-2^{-23}\approx 1.999\,999\,881$ ,
$2^{-126}\approx 1.175\,494\,35\times 10^{-38}$ ,
$2^{+127}\approx 1.701\,411\,83\times 10^{+38}$ .

การเข้ารหัสเลขยกกำลัง

เลขชี้กำลังทศนิยมไบนารีความแม่นยำเดี่ยวจะถูกเข้ารหัสโดยใช้ การแสดงค่า ชดเชยไบนารีโดยค่าชดเชยศูนย์คือ 127 ซึ่งเรียกอีกอย่างว่าค่าเบี่ยงเบนเลขชี้กำลังในมาตรฐาน IEEE 754

E _min = 01 _H −7F _H = −126
E _max = FE _H −7F _H = 127
ค่าเบี่ยงเบนเลขชี้กำลัง = 7F _H = 127

ดังนั้น เพื่อให้ได้เลขชี้กำลังที่แท้จริงตามที่กำหนดโดยการแสดงผลแบบไบนารีที่มีค่าชดเชย จะต้องลบค่าชดเชย 127 ออกจากเลขชี้กำลังที่จัดเก็บไว้

เลขชี้กำลังที่จัดเก็บไว้ 00 _Hและ FF _Hจะถูกตีความเป็นพิเศษ

เลขชี้กำลัง	เศษส่วน = 0	เศษส่วน ≠ 0	สมการ
00 _H = 00000000 ₂	±ศูนย์	จำนวนต่ำกว่าปกติ	$(-1)^{\text{sign}}\times 2^{-126}\times 0.{\text{fraction}}$
01 _H , ..., FE _H = 00000001 ₂ , ..., 11111110 ₂	ค่าปกติ		$(-1)^{\text{sign}}\times 2^{{\text{exponent}}-127}\times 1.{\text{fraction}}$
FF _H = 11111111 ₂	± อนันต์	NaN (เงียบ, ส่งสัญญาณ)