C++数据类型之halffloat
c++浮点类型只有float与double,最近⼯作需要⽤半精度浮点。
⾸先我们得搞清楚float在内存的⼆进制表⽰,详情见:
如下图:
float的内存表⽰由:1位符号为、8位指数位、23位有效数字位组成
组合公式为:
8指数位的理论取值范围为:[-128,127]或者[0,255],但此处的取值范围却是为:[-126,127],00000000和00000001都表⽰-126,11111111表⽰nan(not a number)。
我们递推⼀下:
00000000:-126
00000001:-126
00000010:-125
00000011:-124
~
~
~
11111110:127
在加上底数2,指数的取值范围就为:[2**(-126) ,2127]
有效数字位视为23位⽆符号整数就⾏了。浮点型变量float
符号位0表⽰正数
举个例⼦:
0 00000001 00000000000000000000001
(2(-126)) * 1 = 1.175********e-38
其实这就是C++float的最⼩值
再看⼀个例⼦
0 11111110 11111111111111111111111
(2**(127))*8388607 = 3.40282346639e+38
这是c++float的最⼤值。
搞清楚float了,就很好理解 half float了:
解析规则按照float的解析规则递推就⾏了。
C++ half包:
最好⽤C++11及以上版本
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论