软失效的原理和应对方案的研究
鑫  江竹轩  罗志君
浙江中控技术股份有限公司,浙江杭州,310053
本文从芯片软失效的原理出发,介绍了诱发芯片发生软失效的各类触发源(封装材料中放射性元素产生的α粒子,宇宙射线的高能中子和低能中子),并详述了由芯片软失效引起的各种常见后果(单比特错误,多比特错误和栓锁),最后从半导体芯片厂商和芯片应用商的角度提出了几种应对芯片软失效问题的方案和措施,诸如奇偶检验,纠错码和比特交织等。
关键词软失效 α粒子 高能中子 低能中子 单比特错误 栓锁 纠错码
The Soft Error Principle and Response Programs Research
ZHENG Xin, Jiang Zhuxuan,Luo Zhijun
Zhejiang SUPCON Co., Ltd., Hangzhou, Zhejiang, 310053
Abstract: From the principle of chip soft error, the article introduces the various types of trigger source induced soft error(Alpha particles from package decay, High energy neutrons from cosmic rays and Thermal neutrons), and details the common consequences caused by soft error(Single bit upset, Multi bit upset and Single event latch-up). Finally, several programs and measures to deal with chip soft error are proposed from the perspective of semiconductor chip manufactures and chip application providers, such as Parity Protection, ECC and Bit interleaving.
Keywords: Soft Error, Alpha particles, High energy neutrons, Thermal neutrons, SBU, Latch-up, ECC

1  引言
随着半导体工艺技术的发展,芯片尺寸越来越小,功耗越来越低,晶体管的节点电压和工作电压都随之降低,使得芯片越来越容易受到软失效的问题[1]。如今,解决芯片软失效问题在诸如医疗器械,航空电子和工业现场等电子与计算机系统中都是尤为重要的。
软失效是指由于高能粒子单元对芯片晶圆的撞击,产生大量的电子空穴对,当这些带电粒子的带电量与芯片存储单元的阀值电荷量相当时,将会导致比特翻转而引起单比特错误,多比特错误及栓锁等软失效问题[2-3]。芯片封装材料中放射性元素产生的α粒子,宇宙射线的高能中子和低能中子都是造成芯片发生软失效的重要触发源[4]seifert。但时随着目前芯片绝缘体材料不再使用BPSG,切断了低能中子和10B发生原子反应的可能性,低能中子已不再是软失效的主要触发源。
软失效较易发生于半导体存储芯片中,如DRAM,SRAM,寄存器组,高速缓存和配置寄存器设备等。芯片的软失效率SER单位一般表示为FIT(Fails In Time),即每109个小时芯片发生软失效错误数根据芯片存储容量的不同通常都表示为FIT/Mb。其中1 FIT/Mb = 1 fail per 109 hrs per 106 bits = 10-15 fail/bit-hour
本文从软失效的原理出发,详细介绍了导致芯片软失效的各类触发源及其触发源环境因素的影响和限制,并详述了芯片软失效引起的常见危害,最后从半导体芯片厂商和芯片应用商的角度提出了几种应对芯片软失效问题的方案和措施,诸如奇偶检验,纠错码和比特交织等。
2  软失效的触发源
导致存储器芯片发生软失效问题的主要触发源有:
芯片封装材料中放射性元素衰变产生的α粒子。芯片管壳封装材料中含有的U、Th等放射性元素,其原子核裂变时会释放出α粒子,从而引发芯片软失效问题
然而这类α粒子的触发源,受工作环境的影响较小,一般不会受到工作地点和海拔因素的影响。即使外界环境中存在α粒子源,因α粒子穿透性差,也很难会直接诱发芯片发生软失效问题。
宇宙射线的高能中子。来源于宇宙和太阳系的高能中子本身并不带有电荷,但是它会被芯片的原子核捕获,产生附属的带电粒子,如α粒子和氧原子核等,进而引发芯片的软失效问题。
这类触发源受到环境的影响很大,在不同的高度和地点(地磁场强度、障碍物)条件下,高能中子的密度不一样,所以发生软失效的概率变化很大。
目前关于高能中子防护措施较少,很难对高能中子进行直接的屏蔽防护,所以当前宇宙射线的高能中子已为芯片发生软失效问题最主要的触发源。
低能中子。BPSG拥有非常好的绝缘特性,且具有熔点低,耐压高优点,因此被广泛应用到半导体芯片内层作为绝缘体材料。其中B元素有两种同位素10B和11B。低能中子本身也不带有电荷,不会直接改变芯片内部存储单元的内容,但是它会和芯片内部绝缘体材料BSPG中的10B元素发生原子反应,产生α粒子和7Li,如下式所示。
10B + n → 7Li (0.84MeV) + 4He (1.47MeV) + gamma (0.48MeV)                  (1)
这些高能粒子(4He (1.47MeV)和7Li(0.84MeV))都会对晶体撞击产生电子空穴对,从而导致存储单元的存储内容发生改变。低能中子触发源受到外界环境因素的影响很大,诸如外部中子放射源就极易诱发芯片发生软失效问题。
由于低能中子极易引起芯片发生软失效问题,所以一度被认为是造成芯片发生软失效问题的主要触发源。但是随着目前半导体工艺技术的进步,半导体芯片厂商Cypress在采用0.16um及更小规格技术后已不再使用BPSG材料,因此低能中子对软失效的影响可忽略不
计。
3  软失效的常见危害
单比特错误(Single-Bit Upset)。单比特错误是指在一个数据字中因为芯片软失效引起的一个比特的错误。对于芯片封装材料中放射性元素衰变产生的α粒子引起的软失效问题,一般99%的错误都是单比特错误。而对于高能中子引起的软失效问题,一般70%的错误是单比特错误。
多比特错误(Multi-Bit Upset)。多比特错误是指在一个数据字中因为芯片软失效引起的两个或更多比特的错误。对于芯片封装材料中放射性元素衰变产生的α粒子引起的软失效,1%的错误是多比特错误。而对高能中子引发的软失效,一般30%的错误是多比特错误。通常这种多比特错误的概率较低,但一旦发生后极难纠正错误比特
栓锁(Latch-Up)。栓锁是指在CMOS晶片中,电源VCC和地线GND之间由于寄生的PNP和NPN双极性三极管相互影响而产生的低阻抗通路,它的存在会使VCC和GND之间产生大电流,如下图1所示
图1 CMOS晶片中寄生PNP和NPN示意图
通常情况下,寄生的PNP和NPN都处于关断的状态,当高能粒子对芯片晶圆的撞击产生电子空穴对时,当累计的电荷电压大于三极管导通的阀值电压时三极管导通,在电源和地之间形成低阻抗的回路,从而产生大的电流流过。对于没有限流保护的CMOS芯片,栓锁容易直接造成芯片永久性的破坏。而在有限流保护的CMOS芯片上,发生栓锁后芯片很难自我恢复,只有在外部电源掉电重启后芯片才能恢复正常工作。
目前不少半导体厂商ISSICypress等对芯片的栓锁问题都进行了极为有效的防护。如Cypress厂商在芯片上采用了三层沟道的防护措施[5]后,芯片发生栓锁的概率降为0。
4  软失效的应对措施
高速大容量的存储器已经广泛地应用到医疗器械,通信,航空电子和工业现场等各种场合。在一些重要的应用场合,芯片任何一次软失效问题都有可能会给系统带来致命的灾难,所以如何应对软失效问题已经成为各大半导体厂商和芯片应用商共同关心的问题。目前软失效的应对措施主要分为工艺级措施和系统级措施。
工艺级措施主要包括两个方面封装材料中放射性元素引发的软失效问题。各大半导体厂商从芯片封装材料的源头出发,选用放射性元素含量极低的封装材料,从而降低α粒子产生机率。如Cypress厂商在nvSRAM的封装材料中,α粒子的通量率仅为0.001~0.002alpha/cm2/hr。低能中子引发的软失效问题。半导体厂商为杜绝此类软失效问题的发生,采用相应绝缘体材料来替代BPSG材料,这样从源头上切断了低能中子和10B元素发生原子反应的可能性,从而从根本上杜绝了低能中子引发的软失效问题。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。