单精度浮点数存储格式.docx

资源描述

单精度浮点数存储格式.docx

《单精度浮点数存储格式.docx》由会员分享，可在线阅读，更多相关《单精度浮点数存储格式.docx（9页珍藏版）》请在冰点文库上搜索。

单精度浮点数存储格式.docx

单精度浮点数存储格式

常用的浮点数存储格式：

32-bitIEEE-754floating-pointformat

常用的浮点数存储格式：

32-bitIEEE-754floating-pointformat

对于大小为32-bit的浮点数（32-bit为单精度，64-bit浮点数为双精度，80-bit为扩展精度浮点数），

1、其第31bit为符号位，为0则表示正数，反之为负数，其读数值用s表示；

2、第30～23bit为幂数，其读数值用e表示；

3、第22～0bit共23bit作为系数，视为二进制纯小数，假定该小数的十进制值为x；

十进制转浮点数的计算方法：

则按照规定，十进制的值用浮点数表示为：

如果十进制为正，则s=0，否则s=1；将十进制数表示成二进制，然后将小数点向左移动，直到这个数变为1.x的形式即尾数，移动的个数即位指数。

为了保证指数为正，将移动的个数都加上127，由于尾数的整数位始终为1，故舍去不做记忆。

对3.141592654来说，

1、正数，s=0；

2、3.141592654的二进制形式为正数部分计算方法是除以二取整，即得11，小数部分的计算方法是乘以二取其整数，得0.0010010000111111011010101000，那么它的二进制数表示为11.0010010000111111011010101；

3、将小数点向左移一位，那么它就变为1.10010010000111111011010101，所以指数为1+127=128，e=128=10000000；

4、舍掉尾数的整数部分1，尾数写成0.10010010000111111011010101，x=921FB6

5、最后它的浮点是表示为010000000100100100001111110110101=40490FDA

浮点数转十进制的计算方法：

则按照规定，浮点数的值用十进制表示为：

＝（-1）^s *（1+x）*2^（e-127）

对于49E48E68来说，

1、其第31bit为0，即s=0

2、第30～23bit依次为10010011，读成十进制就是147，即e=147。

3、第22～0bit依次为11001001000111001101000，也就是二进制的纯小数0.11001001000111001101000，其十进制形式为（0.11001001000111001101000*2^23）/（2^23）=（0x49E48E68&0x007FFFFF）/（2^23）=（0x648E68）/（2^23）=0.78559589385986328125，即x=0.78559589385986328125。

这样，该浮点数的十进制表示

=　（-1）^s *（1+x）*2^（e-127）

=　（-1）^0 *（1+0.78559589385986328125）*2^（147-127）

= 1872333

XX全科——

单精度浮点数

　　单精度浮点数（Float）用来表示带有小数部分的实数，一般用于科学计算，用4个字节（32位）存储空间，其数值范围为3.4E-38～3.4E+38，单精度浮点数最多有7位十进制有效数字，单精度浮点数的指数用“E”或“e”表示。

　　单精度浮点数有多种表示形式：

±n.n（小数形式）±nE±m（指数形式）±n.nE±m（指数形式）

　　如果某个数的有效数字位数超过7位，当把它定义为单精度变量时，超出的部分会自动四舍五入。

IEEE754浮点数的表示精度探讨

前言

从网上看到不少程序员对浮点数精度问题有很多疑问，在论坛上发贴询问，很多热心人给予了解答，但我发现一些解答中有些许小的错误和认识不当之处。

我曾经做过数值算法程序，虽然基本可用，但是被浮点数精度问题所困扰；事情过后，我花了一点时间搜集资料，并仔细研究，有些心得体会，愿意与大家分享，希望对IEEE754标准中的二进制浮点数精度及其相关问题给予较为详尽的解释。

当然，文中任何错误由本人造成，由我承担，特此声明。

1、什么是IEEE754标准？

目前支持二进制浮点数的硬件和软件文档中，几乎都声称其浮点数实现符合IEEE754标准。

那么，什么是IEEE754标准？

最权威的解释是IEEE754标准本身ANSI/IEEEStd754-1985《IEEEStandardforBinaryFloating-PointArithmetic》，网上有PDF格式的文件，Google一下，下载即可。

标准文本是英文的，总共才23页，有耐心的话可以仔细阅读。

这里摘录前言中的一句：

Thisstandarddefinesafamilyofcommerciallyfeasiblewaysfornewsystemstoperformbinaryfloating-pointarithmetic。

其实是句废话，什么也没说。

IEEE754标准的主要起草者是加州大学伯克利分校数学系教授WilliamKahan，他帮助Intel公司设计了8087浮点处理器（FPU），并以此为基础形成了IEEE754标准，Kahan教授也因此获得了1987年的图灵奖。

赞一句：

IEEE754浮点格式确实是天才的设计。

Kahan教授的主页：

http:

//www.cs.berkeley.edu/~wkahan/。

看看其它文献怎么说。

2、IEEE754标准规定了什么？

以下内容来自Sun公司的《NumericalComputationGuide－SunStudio11》的中文版《数值计算指南》，并加上本人的一点说明。

说实话，该中文指南翻译得不太好，例如，round译成“四舍五入”。

IEEE754规定：

a）两种基本浮点格式：

单精度和双精度。

IEEE单精度格式具有24位有效数字，并总共占用32位。

IEEE双精度格式具有53位有效数字精度，并总共占用64位。

说明：

基本浮点格式是固定格式，相对应的十进制有效数字分别为7位和17位。

基本浮点格式对应的C/C++类型为float和double。

b）两种扩展浮点格式：

单精度扩展和双精度扩展。

此标准并未规定扩展格式的精度和大小，但它指定了最小精度和大小。

例如，IEEE双精度扩展格式必须至少具有64位有效数字，并总共占用至少79位。

说明：

虽然IEEE754标准没有规定具体格式，但是实现者可以选择符合该规定的格式，一旦实现，则为固定格式。

例如：

x86FPU是80位扩展精度，而Intel安腾FPU是82位扩展精度，都符合IEEE754标准的规定。

C/C++对于扩展双精度的相应类型是longdouble，但是，MicrosoftVisualC++6.0版本以上的编译器都不支持该类型，longdouble和double一样，都是64位基本双精度，只能用其它C/C++编译器或汇编语言。

c）浮点运算的准确度要求：

加、减、乘、除、平方根、余数、将浮点格式的数舍入为整数值、在不同浮点格式之间转换、在浮点和整数格式之间转换以及比较。

求余和比较运算必须精确无误。

其他的每种运算必须向其目标提供精确的结果，除非没有此类结果，或者该结果不满足目标格式。

对于后一种情况，运算必须按照下面介绍的规定舍入模式的规则对精确结果进行最低限度的修改，并将经过此类修改的结果提供给运算的目标。

说明：

IEEE754没有规定基本算术运算（＋、－、×、/等）的结果必须精确无误，因为对于IEEE754的二进制浮点数格式，由于浮点格式长度固定，基本运算的结果几乎不可能精确无误。

这里用三位精度的十进制加法来说明：

例1：

a=3.51，b=0.234，求a+b=?

a与b都是三位有效数字，但是，a＋b的精确结果为3.744，是四位有效数字，对于该浮点格式只有三位精度，a＋b的结果无法精确表示，只能近似表示，具体运算结果取决于舍入模式（见舍入模式的说明）。

同理，由于浮点格式固定，对于其他基本运算，结果也几乎无法精确表示。

d）在十进制字符串和两种基本浮点格式之一的二进制浮点数之间进行转换的准确度、单一性和一致性要求。

对于在指定范围内的操作数，这些转换必须生成精确的结果（如果可能的话），或者按照规定舍入模式的规则，对此类精确结果进行最低限度的修改。

对于不在指定范围内的操作数，这些转换生成的结果与精确结果之间的差值不得超过取决于舍入模式的指定误差。

说明：

这一条规定是针对十进制字符串表示的数据与二进制浮点数之间相互转换的规定，也是一般编程者最容易产生错觉的事情。

因为人最熟悉的是十进制，以为对于任意十进制数，二进制都应该能精确表示，其实不然。

本文主要目的就是揭密二进制浮点数所能够精确表示的十进制数，如果你以前没有想过这个问题，绝对让你吃惊。

卖个关子先！

e）五种类型的IEEE浮点异常，以及用于向用户指示发生这些类型异常的条件。

五种类型的浮点异常是：

无效运算、被零除、上溢、下溢和不精确。

说明：

关于浮点异常，见Kahan教授的《LectureNotesonIEEE754》，这里我就不浪费口水了。

f）四种舍入方向：

向最接近的可表示的值；当有两个最接近的可表示的值时首选“偶数”值；向负无穷大（向下）；向正无穷大（向上）以及向0（截断）。

说明：

舍入模式也是比较容易引起误解的地方之一。

我们最熟悉的是四舍五入模式，但是，IEEE754标准根本不支持，它的默认模式是最近舍入（RoundtoNearest），它与四舍五入只有一点不同，对.5的舍入上，采用取偶数的方式。

举例比较如下：

例2：