О двоичном представлении вещественных чисел и как его вычислить

Хороший вопрос задал студент: если вычислить на калькуляторе 2¹⁰²⁴ получим 1,7976931348623×10³⁰⁸, что, в общем, соответствует значению константы DBL_MAX, вздумай мы таковое напечатать:

#include <iostream>
#include <cfloat>

int main() {
 std::cout.precision (18);
 std::cout << DBL_MAX; //1.79769313486231571e+308
 return 0;
}

Нет ли здесь ~~влияния иноагентов~~ связи и как вообще такое возможно, если восемью байтами или 64 битами по любимой формуле можно представить всего 2⁶⁴ или примерно 1,845×10¹⁹ различных значений?

Связь действительно есть, но не прямая.

Представление двоичных вещественных чисел описано стандартом IEEE 754.

Все мы видели популярную табличку, показывающую, как распределены биты вещественного числа (здесь показано 8-байтовое значение, соответствующее типу числовых значений double на 64-разрядной платформе):

Знак
	(11 бит) Порядок			(52 бита) Мантисса

63		56	55	48	47	40	39	32	31	24	23	16	15	8	7	0

и знаем, что вычисляется вещественное число по формуле вида (-1)^знак * 2^{порядок} * мантисса, чем обычно и ограничиваемся, а как отсюда получается конкретное значение, остаётся не слишком ясным.

Попробуем расписать немного подробней.

Знаковый бит определяет знак числа (в том числе, для значения "ноль", которое в компьютере является знаковым), нулевой бит - это знак числа "+", единичный - знак "-".

Поле порядка представляет собой 11-битное целое число без знака с возможными значениями от 0 до 2¹¹-1 = 2047 в смещённой форме: значение порядка 1023 представляет собой ноль. Показатель степени варьируется от -1022 до +1023, поскольку показатели степени -1023 (все нули) и +1024 (все единицы) зарезервированы для специальных чисел.

Порядок 001₁₆ = 1₁₀ - наименьший возможный, так как 2^1-1023 = 2^-1022;
порядок 3ff₁₆ = 1023₁₀ - это 2^1023-1023 = 2⁰, нулевой порядок;
например, 405₁₆ = 1029₁₀ соответствует порядку числа 2^1029-1023 = 2⁶;
7fe₁₆ = 2046₁₀ соответствует 2^2046-1023 = 2¹⁰²³, наибольший возможный порядок;
порядок 000₁₆ = 0₁₀ используется для представления нуля (если F = 0) и для денормализованных чисел (если F≠0);
порядок 7ff₁₆ = 0₁₀ используется для представления бесконечности (если F = 0) и значения NaN ("не число", если F≠0).

Здесь F - дробная часть мантиссы (без учёта старшего бита мантиссы, всегда равного единице).

53-битная мантисса (из которой явно сохраняется 52 бита) дает точность от 15 до 17 значащих десятичных цифр (2⁻⁵³ ≈ 1,11 × 10⁻¹⁶). Если десятичная строка, содержащая не более 15 значащих цифр, преобразуется в формат двойной точности с получением обычного числа, а затем преобразуется обратно в десятичную строку с тем же количеством цифр, конечный результат должен соответствовать исходной строке. Если число двойной точности преобразуется в десятичную строку, содержащую не менее 17 значащих цифр, а затем преобразуется обратно в представление двойной точности, окончательный результат должен совпадать с исходным числом.

В теории всё так, а на практике проблемы с точностью у double могут возникнуть уже после сложения двух чисел... Например, если их порядки отличаются на 13 и более.

Реальное значение, принимаемое 64-битным числом двойной точности с заданным смещенным показателем порядка и 52-битной мантиссой, равно (-1)^знак × (1.b₅₁b₅₀...b₀)₂ × 2^{порядок - 1023} или (-1)^знак × (1+∑_i=1⁵² {b_52-i × 2^-i)} × 2^{порядок - 1023}.

Между 2⁵² = 4 503 599 627 370 496 и 2⁵³ = 9 007 199 254 740 992 представимые числа в точности целые. Для следующего диапазона, от 2⁵³ до 2⁵⁴, всё умножается на 2, поэтому представляемые числа — четные и т. д. И наоборот, для предыдущего диапазона от 2⁵¹ до 2⁵² коэффициент равен 1/2 и т.д. Реально умножать ничего не нужно, так как есть быстрые битовые сдвиги для умножения и деления двоичного числа на два.

Коэффициент для мантиссы чисел в диапазоне от 2ⁿ до 2ⁿ⁺¹ равен 2ⁿ⁻⁵². Таким образом, максимальная относительная ошибка округления числа (машинный эпсилон) составляет 2⁻⁵³.

11-битная разрядность порядка позволяет представить числа от 10^–308 до 10³⁰⁸ с точностью до 15–17 десятичных знаков. Компрометируя точность, денормализованное представление допускает даже меньшие значения, примерно до 5 × 10⁻³²⁴.

С учётом описанных выше исключений, попробуем вычислить вещественное число как (-1)^знак×2^{порядок-1023}×1.мантисса

0 00000000001 0000000000000000000000000000000000000000000000000000₂ = 0010 0000 0000 0000₁₆ = +2⁻¹⁰²² × 1 ≈ 2.2250738585072014 × 10⁻³⁰⁸ (минимальное положительное double);
0 11111111110 1111111111111111111111111111111111111111111111111111₂ = 7FEF FFFF FFFF FFFF₁₆ = +2¹⁰²³ × (1 + (1 − 2⁻⁵²)) ≈ 1.7976931348623157 × 10³⁰⁸ (максимальное положительное double, или =2^1023*(1+(1-2^(-52))) в виде формулы для Excel);
0 00000000000 0000000000000000000000000000000000000000000000000000₂ - это плюс ноль, а если самый левый бит заменить на единицу, получим минус 0;
0 11111111111 0000000000000000000000000000000000000000000000000000₂ - это плюс бесконечность, а если самый левый бит заменить на единицу, получим минус бесконечность;
0 11111111111 0000000000000000000000000000000000000000000000000001₂ - сигнальное нечисло;
0 11111111111 1000000000000000000000000000000000000000000000000001₂ - тихое нечисло;
0 11111111111 1111111111111111111111111111111111111111111111111111₂ - просто нечисло;
0 01111111101 0101010101010101010101010101010101010101010101010101₂ = 3FD5 5555 5555 5555₁₆ = +2⁻² × (1 + 2⁻² + 2⁻⁴ + ... + 2⁻⁵²) - та самая 1/3, о которой я всегда говорю, что её "невозможно представить в компьютере точно";

Записали вещественную одну треть в файл и посмотрели, что получилось

"Обратный" порядок байт в файле связан с тем, что у нас little-endian на компе.

0 10000000000 1001001000011111101101010100010001000010110100011000₂ = 4009 21FB 5444 2D18₁₆ - число "пи";

Сделали то же самое с числом "пи"

0 01111111111 0000000000000000000000000000000000000000000000000000₂ = 3FF0 0000 0000 0000₁₆ +2⁰ × 1 = просто вещественная единица;
0 01111111111 0000000000000000000000000000000000000000000000000001₂ = 3FF0 0000 0000 0001₁₆ = +2⁰ × (1 + 2⁻⁵²) = 1.0000000000000002, число, большее единицы, минимально отличное от неё для нашего представления;
0 10000000000 0000000000000000000000000000000000000000000000000000₂ = 4000 0000 0000 0000₁₆ = +2¹ × 1 = вещественная двойка;
0 10000000011 0111000000000000000000000000000000000000000000000000₂ = 4037 0000 0000 0000₁₆ = +2⁴ × 1.0111₂ = 10111₂ = вещественное 23;
ну и так далее.

Что же до значения 2¹⁰²⁴, то это число как раз соответствует количеству всех возможных чёрно-белых картинок EMS размером 32×32 = 1024 пикселя, которых, к сожалению, наши опсосы в SMS'ках давно не поддерживают. Действительно интересно, что по общевселенскому "закону одной тысячной" примерно такая часть этих изображений показалась бы нам осмысленными.

04.03.2023, 08:44 [332 просмотра]

теги: учебное c++ числа

Для добавления комментариев нужен включённый в Вашем браузере Javascript. Как включить? Вернуться к статье