有关float型数据精度损失问题
1. 浮点型数据存储⽅式会导致数据精度损失,增⼤计算误差。
float fval =0.45;  // 单步调试发现其真实值为:0.449999988
double dval =0.45; // 单步调试发现其真实值为:0.45000000000000001
当很多个这样的单精度浮点型数据进⾏运算时,就会有累积误差,使得运算结果达不到理想的结果。尤其是对那种需要判断相等的情况(浮点型数据判断相等会有误差)。
因此我们可以通过把浮点型数据放⼤1e6倍,把它赋给⼀个整型变量,把得到的结果再除以1e6,就会使精度损失降到最低。
float a =0.45;    // 0.449999988
double b =0.45;   
int c =1e6* b;   // 450000
double d1 =2* a;  // 0.89999997615814209
int d =2* c;    // 900000
double d2 = d /1e6;// 0.90000000000000002, 推荐⽅式
double d3 =2*0.45;// 0.90000000000000002
下⾯是浮点型数据存储⽅式
C语⾔和 C#语⾔中,对于浮点型的数据采⽤单精度类型(float)和双精度类型(double)来存储:
float 数据占⽤ 32bit;
double 数据占⽤ 64bit;
我们在声明⼀个变量 float f = 2.25f 的时候,是如何分配内存的呢?
其实不论是 float 类型还是 double 类型,在存储⽅式上都是遵从IEEE的规范:
float 遵从的是 IEEE R32.24;
double 遵从的是 IEEE R64.53;
1. 单精度或双精度在存储中,都分为三个部分:
符号位 (Sign):0代表正数,1代表为负数;
指数位 (Exponent):⽤于存储科学计数法中的指数数据;
尾数部分 (Mantissa):采⽤移位存储尾数部分;
单精度 float 的存储⽅式如下:
双精度 double 的存储⽅式如下:
R32.24 和 R64.53 的存储⽅式都是⽤科学计数法来存储数据的,⽐如:
8.25 ⽤⼗进制表⽰为:8.25 * 100
120.5 ⽤⼗进制表⽰为:1.205 * 102
⽽计算机根本不认识⼗进制的数据,他只认识0和1。所以在计算机存储中,⾸先要将上⾯的数更改为⼆进制的科学计数法表⽰:
8.25 ⽤⼆进制表⽰为:1000.01
118.5 ⽤⼆进制表⽰为:1110110.1
⽽⽤⼆进制的科学计数法表⽰ 1000.1,可以表⽰为1.0001 * 23
⽽⽤⼆进制的科学计数法表⽰ 1110110.1,可以表⽰为1.1101101 * 26
任何⼀个数的科学计数法表⽰都为1. xxx * 2n ,尾数部分就可以表⽰为xxxx,由于第⼀位都是1嘛,⼲嘛还要表⽰呀?所以将⼩数点前⾯的1省略。
由此,23bit的尾数部分,可以表⽰的精度却变成了24bit,道理就是在这⾥。(float有效位数相应的也
会发⽣变化,⽽double则不会,因达不到)
那 24bit 能精确到⼩数点后⼏位呢?我们知道9的⼆进制表⽰为1001,所以 4bit 能精确⼗进制中的1位⼩数点,24bit就能使 float 精确到⼩数点后6位;
⽽对于指数部分,因为指数可正可负(占1位),所以8位的指数位能表⽰的指数范围就只能⽤7位,范围是:-127⾄128。所以指数部分的存储采⽤移位存储,存储的数据为元数据 +127。
注意:
元数据+127:⼤概是指“指数”从00000000开始(表⽰-127)⾄11111111(表⽰+128)
所以,10000000表⽰指数1 (127 + 1 = 128 --> 10000000 ) ;
指数为 3,则为 127 + 3 = 130,表⽰为 01111111 + 11 = 10000010 ;
下⾯就看看 8.25 和 118.5 在内存中真正的存储⽅式:
8.25 ⽤⼆进制表⽰为:1000.01
8.25 ⽤⼆进制的科学计数法表⽰为: 1.0001* 23 ,按照上⾯的存储⽅式:
符号位为:0,表⽰为正;
指数位为:3+127=130,即 10000011;
尾数部分为:0001;
故8.25的存储⽅式如下图所⽰:
⽽单精度浮点数118.5的存储⽅式如下图所⽰:
那么如果给出内存中⼀段数据,并且告诉你是单精度存储的话,你将如何知道该数据的⼗进制数值呢?
其实就是对上⾯运算的反推过程,⽐如给出如下内存数据:01000010111011010000000000000000,
⾸先我们现将该数据分段:0 10000101 11011010000000000000000,在内存中的存储就为下图所⽰:
根据我们的计算⽅式,可以计算出这样⼀组数据表⽰为:
1.1101101*2(133-127=6) = 1.1101101 * 26 = 1110110.1=118.5
⽽双精度浮点数的存储和单精度的存储⼤同⼩异,不同的是指数部分和尾数部分的位数。所以这⾥不再详细的介绍双精度的存储⽅式了,只将118.5的最后存储⽅式图给出:
下⾯就这个知识点来解决⼀个疑惑,请看下⾯⼀段程序,注意观察输出结果:
class浮点数
{
static void Main(string[] args)
{
float f =2.2f;
double d =(double)f;
Console.WriteLine(d.ToString("0.0000000000000"));
//结果:"2.2000000476837"
f =2.25f;
d =(double)f;
Console.WriteLine(d.ToString("0.0000000000000"));
//结果:"2.2500000000000"
//2.25 - 2.2 = 0.05 ( 但实际结果不是0.05 )
float f2 =2.25f-2.2f;
Console.WriteLine(f2.ToString("0.0000000000000"));
//结果:"0.0499999500000"
}
}
输出的结果可能让⼤家疑惑不解:
单精度的 2.2 转换为双精度后,精确到⼩数点后13位之后变为了2.2000000476837
⽽单精度的 2.25 转换为双精度后,变为了2.2500000000000
为何 2.2 在转换后的数值更改了,⽽ 2.25 却没有更改呢?
其实通过上⾯关于两种存储结果的介绍,我们⼤概就能到答案。
2.25 的单精度存储⽅式表⽰为:0 10000001 00100000000000000000000
2.25 的双精度存储⽅式表⽰为:0 10000000 0010010000000000000000000000000000000000000000000000000这样 2.25 在进⾏强制转换的时候,数值是不会变的。
⽽我们再看看 2.2,⽤科学计数法表⽰应该为:
将⼗进制的⼩数转换为⼆进制的⼩数的⽅法是:将⼩数*2,取整数部分。
0.2×2=0.4,所以⼆进制⼩数第⼀位为0.4的整数部分0;
0.4×2=0.8,第⼆位为0.8的整数部分0;
0.8×2=1.6,第三位为1;
0.6×2=1.2,第四位为1;
0.2×2=0.4,第五位为0;
… 这样永远也不可能乘到=1.0,得到的⼆进制是⼀个⽆限循环的排列 00110011001100110011…
对于单精度数据来说,尾数只能表⽰ 24bit 的精度,所以2.2的 float 存储为:
writeline输出数值变量
但是这种存储⽅式,换算成⼗进制的值,却不会是2.2。
因为在⼗进制转换为⼆进制的时候可能会不准确(如:2.2),这样就导致了误差问题!
并且 double 类型的数据也存在同样的问题!
所以在浮点数表⽰中,都可能会不可避免的产⽣些许误差!
在单精度转换为双精度的时候,也会存在同样的误差问题。
⽽对于有些数据(如2.25),在将⼗进制转换为⼆进制表⽰的时候恰好能够计算完毕,所以这个误差就不会存在,也就出现了上⾯⽐较奇怪的输出结果。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。