高可靠星载计算机硬件容错科技概述

发布时间:2013-11-27 17:28:23 论文编辑:yangcheng

第一章 绪论


1.1 课题背景和研究意义
1.1.1 课题背景
在各种太空技术中,星载计算机的设计开发可以说是核心一环,星载计算机负责各类航天器的设备控制、事务管理和数据处理等复杂程度各异的航天任务。从 20 世纪 90 年代以来,我国在空间技术和航天航空领域的进步与成就都是令人瞩目的,在很多航天技术尖端领域我国都处于世界先进水平,如以嫦娥系列卫星为代表的月球探测工程的开展标志着我国成为世界上第五个成功发射月球探测卫星的国家,2011 年 9 月成功升空的天宫一号和 2012 年 6 月成功发射的神舟九号卫星表明我国空间站计划步入了正轨。与此同时,航天器所执行的任务也呈复杂化、多样化的发展趋势,这些任务的实现都依靠航天器的“大脑”星载计算机来控制,除了这些新的功能外,航天器的星务管理、在轨运行和载荷数据处理等基本功能也由星载计算机来控制,可以认为保证星载计算机系统的可靠性就是保证航天器的可靠性,提升星载计算机系的性能就相当于提升航天器的性能。卫星所在的空间环境是非常复杂的,空间环境中的各种辐射都会对星载设备的正常工作造成影响,常见的空间辐射包括太阳耀斑、极光辐射和宇宙辐射等[1],且各种粒子对于空间中的不同电子设备会产生不同影响,如表 1-1 所示[2]。上述辐射和各种粒子很有可能会引发电子设备总剂量效应与单粒子效应,从而引起整个星载计算机系统的故障[2],降低星载计算机系统和航天设备的可靠性,甚至造成航天设备的失效和航天任务的失败。我国在这方面有过深刻教训,1990年发射的某型号气象卫星在升空后不久便由于辐射环境太恶劣而无法正常工作[3]。有研究机构对 1971 年到 1986 年之间国外发射的地球同步通信卫星进行过研究,这段时间内由空间辐射造成的卫星故障共有 1129 次,而这段时间内卫星总共发生的故障次数为 1589 次,即由空间辐射造成的卫星故障占了卫星总故障数的七成,可以想象,降低空间辐射对航天器的损害有着巨大的实际意义。需要进一步说明的是,这 1129 次由空间辐射引起的故障中,单粒子效应造成的航天器故障占了所有由空间辐射引起的故障数目的一半以上,由此可见,由单粒子效应引起的航天器故障是需要重点研究的对象[4]。
著名的 SPOT-1 卫星由法国研制并发射,科学家对这颗卫星进行了长期的观测研究,发现在该卫星升空后有多次单粒子翻转事件发生,其中,前面的三年半便发生了 11 次,这些事件的发生都对卫星造成了极大的影响,有的情况下卫星甚至需要三天时间才能恢复正常;美国国家航空航天局曾做过统计,在所有空间辐射造成的航天器故障中,单粒子效应引起的故障占了八成[5]。而且,当前半导体器件特征尺寸随着工艺的进步逐渐变小,但是器件的集成度却变得更高了,这些因素,都将让航天器中的电子设备遭受更加频繁的单粒子效应侵扰[6-8]。所以,如何提高航天器中的电子设备特别是星载计算机的可靠性自从星载计算机出现开始就成为了航天器技术领域研究的重点。对于星载计算机而言,其成本、规模、复杂性和质量都和大气环境以及近地空间辐射有着密切联系[9]。辐射带中的俘获粒子、太阳耀斑质子和银河宇宙射线会在微电子器件中诱发单粒子翻转事件或单粒子锁定事件,这些事件都会影响星载计算机的运行性能和工作寿命,从可靠性的角度来讲,单片 CPU 的系统一旦损坏,将会导致整个卫星的失效。作为卫星综合电子系统的控制及数据管理中心,目前在星上用的最多的还是一些核加固的、抗辐射、低带宽、低 MIPS 的处理器,高集成密度、高性能的宇航级处理器昂贵并且稀少[10]。传统的中低性能单处理器星载计算机已经无法满足日益增长的星载高性能、高实时性、高可靠性处理任务的需求,而星上任务一般具有强实时性特性,性能不满足必然带来实时性的不满足,所以,提升系统处理速度和接口速度,是星载计算机技术发展的重要方向。目前,受限于空间恶劣环境和处理器主频提升的难度,星载计算机从体系结构的角度采用多个高性能处理器协同工作提高系统的性能已成为当前星载计算机的主要研制方向。


第二章 国内外星载计算机发展概况


2.1 星载计算机的加固方案发展及趋势
世界上第一台星载计算机由美国国家航空航天局在上世纪六十年代研制成功[24],从这以后,世界上的航空航天强国都陆续展开了对星载计算机系统的研究与开发,星载计算机系统的性能也得以不断提高,星载计算机系统也变得越来越复杂。受益于集成电路、通信和材料等学科的发展,星载计算机技术的进步也日新月异,星载计算机的处理能力和抗辐射能力相比上个世纪中后期都有了质的变化。近年来,与星载计算机领域相关的技术中星载计算机冗余技术、星载计算机处理器和星载计算机系统标准化、通用性等方面的发展尤为抢眼。


2.1.1 冗余技术
航天器在轨运行期间,星载计算机系统对整个航天器的正常运行起着核心作用,但是航天器在轨运行期间也是星载计算机所处环境最恶劣的时期,而且在轨的航天器无法像在地面一样方便的派人去进行维修,所以,星载计算机必须有着非常高的可靠性。通常为了提高星载计算机的可靠性,除了使用特殊的宇航级器件和进行物理抗辐加固外,使用最多的策略就是在星载计算机上应用冗余容错技术,第一章中所提到的冗余容错技术基本上在星载计算机上都进行过实验甚至是实际应用。随着航天器任务的多样化和复杂化发展,人们对冗余容错技术的研究也从未止步,星载计算机的冗余容错技术也从简单的冗余容错朝着可重构的方向发展[25]。另一方面,星载计算机系统内部模块的冗余容错技术虽然已经出现并应用了很多年,但是其功耗大、成本高、体积大等缺点始终存在,不适应于小卫星方向的发展,所以国外许多航空航天强国都进行了芯片级冗余技术的研究和实验。其中最为人们所熟知的是欧洲航天局多次应用到实际星载计算机系统中的 LEON 系列处理器,LEON 系列处理器由 Gaisler Research 公司负责设计,三模冗余技术被应用到了处理器内部,而且检错纠错技术在处理器内部得到了大量的应用,这样的设计使得星载计算机系统的体积得到了很大的缩小,而且应用这个处理器的航天器体积和重量都要优于之前[26]。


第三章 高可靠并行星载计算机体系结构........13
3.1 系统结构设计方案........13
3.2 高可靠并行星载计算机运行流程设计........17
3.2.1 运行模式及分配........18
3.2.2 任务的选择与切换........20
第四章 系统 FPGA 容错结构........21
4.1 FPGA 内部结构设计........21
4.2 比较纠错机制设计........22
4.3 故障恢复机制设计 ........25
4.3.1 复位方式........25
4.3.2 快速恢复机制 ........25
4.4 本章小结 ........27
第五章 高可靠并行星载计算机并行方案........28
5.1 星载并行计算机体系结构概况 ........•28
5.2 系统并行计算方案........28
5.2.1 并行方式 A ........29
5.2.2 并行方式 B........29
5.2.3 并行方式 C ........30
5.3 并行性能 ........31
5.4 本章小结 ...........32


结论


为了完成本文中所述的设计,作者从2011年的8月份开始系统的设计与实现,而在这之前就对星载计算机技术展开了认真、详细的学习与调研,并在此基础上,通过与航天 XXX 研究院合作设计了一种高可靠并行星载计算机结构。高可靠并行星载计算机系统有多种工作模式,可以使系统工作在多模冗余与并行模式下,在保证系统高可靠性的前提下,极大的提高了系统性能。在此基础上,又设计了基于队列的比较机制与快速恢复机制,进一步对系统性能进行了提升。本文先对系统结构进行了详细介绍,然后仔细介绍了系统的工作流程,主要对容错流程和并行机制等进行了描述。最后,将本文中的设计付诸实现,搭建了原型机,通过对原型机的搭建与调试,最终实现了设计中所述的系统功能,并对系统的性能进行了测试与分析。论文所做的工作总结如下:
(1)对国内外容错技术与星载计算机研究现在进行了调研,以此作为高可靠并行星载计算机设计的理论基础。通过调研发现当前国内外星载计算机的系统结构大多不具备模式切换的能力,系统性能的进一步提高存在着诸多瓶颈,特别是国内的星载计算机的性能大多处于较低水平,无法适应星载计算机的发展。
(2)参与了航天科技研究院 XXX 研究所高可靠并行星载计算机系统板的设计,目前该板已经完成了设计和生产,正在进行系统板的测试与移植,即将本文中的设计移植到该板。并参与了该板所用 DSP 器件和 FPGA 器件抗辐加固测试的方案设计与具体实现。
(3)针对高可靠并行星载计算机系统的设计,介绍了系统的结构。其中详细介绍了系统的控制单元与数据处理单元,控制单元由 FPGA 构成,负责系统的容错与状态控制,数据处理单元由多 DSP 组成,负责星载任务的数据处理。随后简要对运行流程的设计进行了说明。


参 考 文 献
[1] E. R. Benton and E. V. Benton. Space radiation dosimetry in low-Earth orbit andbeyond[J]. Nuclear Instruments and Methods in Physics Research Section B: BeamInteractions with Materials and Atoms. 2001, 184.1: 255-294.
[2] 赵恒. 星载并行计算机硬件系统可靠性设计与分析[D]. 长沙: 国防科学技术大学, 2006.
[3] 张国强. 星载并行处理计算机系统容错技术研究[D]. 长沙: 国防科学技术大学. 2006.
[4] 王长河. 单粒子效应对卫星空间运行可靠性的影响[J]. 半导体情报. 1988,Vol35, No1.
[5] K. L. Bedingfield, D. L. Richard and B. A. Margaret. Spacecraft system failures andanomalies attributed to the natural space environment[J]. NASA ReferencePublication. 1996, 1390: 20.
[6] P. E. Dodd, F. W. Sexton, G. L. Hash, M.R. Shaneyfelt, B.L. Draper, A.J. Farino andR. S. Flores. Impact of technology trends on SEU in CMOS SRAMs[J]. NuclearScience, IEEE Transactions on. 1996, 43(6): 2797-2804.
[7] Amusan, A. Oluwole, F. W. Arthur, W. M. Lloyd, L. B. Bharat, R. F. Patrick, L. A.Michael, L. S. Andrew, D. B. Jeffrey and D. S. Ronald. Charge collection andcharge sharing in a 130 nm CMOS technology[J]. Nuclear Science, IEEETransactions on. 2006, 53(6): 3253-3258.
[8] Heidel, F. David, P. R. Kenneth, O. Phil, S. G. Michael, T. Henry, H. C Ethan and P.Cristina. Single-event-upset critical charge measurements and modeling of 65 nmsilicon-on-insulator latches and memory cells[J]. Nuclear Science, IEEETransactions on. 2006, 53(6): 3512-3517.
[9] 宋伟, 面向实时的星载多处理器操作系统的研究与实现[D]. 国防科学技术大学, 2006.
[10] 郭朝华, 李华旺. 一种并行存储器系统的 FPGA 实现[J]. 电子技术应用, 2000年 07 期.