我们非常重视您的个人隐私,当您访问我们的网站时,请同意使用的所有cookie。有关个人数据处理的更多信息可访问《隐私政策》

产品中心

更多内容

SafeNovo™ | 从理论到实践:三大维度拆解芯片功能安全开发

2025/07/23

功能安全指电子电气系统在故障发生时仍能维持安全状态的能力,其核心在于通过合理的设计和流程将风险降至可接受水平。随着汽车智能化发展,电子系统复杂度大幅增加,芯片成为功能安全的关键载体。

2018年发布的第二版ISO 26262标准首次增设Part 11: Guidelines on application of ISO 26262 to semiconductors章节,对半导体功能安全中涉及到的SEooC(Safety Element out of Context)定义、失效率计算、安全分析、失效模式分析等提供了较为全面的开发指导。这标志着功能安全正式从整车系统层面向芯片级技术纵深拓展,推动汽车电子安全开发进入全新阶段。

相较于整车厂与Tier 1厂商,国内芯片功能安全领域起步较晚。作为模拟及混合信号芯片公司的功能安全研发团队,除深入掌握ISO 26262标准外,还需精准理解芯片在上层系统的应用场景,以定义SEooC。本文基于纳芯微工程实践,对芯片功能安全设计的关键路径进行梳理。


1. 基于系统安全目标的芯片架构定义

功能安全芯片开发需深度理解系统层应用场景,以逐层分析从系统级安全目标到芯片顶层安全需求,进而到芯片内部功能设计的技术安全需求的逻辑链路。

以新能源主驱电机驱动芯片为例,上层系统的典型安全目标为扭矩安全、高压安全及热安全。具体到扭矩安全,逆变器通过六个栅极驱动芯片实现永磁同步电机控制。驱动芯片除实现基础PWM信号输出外,还需承担众多诊断功能。针对功率模块及外部驱动电路,驱动芯片应监控功率管直通、门级状态不匹配、过温等失效模式;针对芯片内部电路是否工作正常,也应执行相应监控,例如隔离通信是否受到干扰或出现失效、内部电源轨输出是否在允许范围内等。此外,该芯片还可以通过PWM输入或原、副边的ASCx pin承接上层系统关断路径的安全需求。

2.jpg

举例说明安全需求的推导:为实现ASIL D扭矩安全,系统通常采用E-GAS三层架构,通过ASIL等级分解来降低开发难度,结合系统级故障策略,在非严重故障(例如单侧驱动故障,MCU正常)时,上层系统会通过应用层的PWM信号触发驱动芯片进入安全状态,芯片能否可靠执行控制信号,对于一个安全系统至关重要。

进一步结合驱动芯片的关键基础功能,我们可推导出驱动芯片的其中一条顶层安全需求:当芯片内部失效导致芯片驱动外部功率管的控制信号误动作时,芯片应触发相应的安全状态。基于该安全需求,芯片应在内部关键路径执行对应校验机制,例如PWM一致性检测、门级状态一致性检测。

其中,PWM信号一致性检测作为芯片内部诊断功能,需要综合考虑die-to-die传输过程中的信号延时以及多类消息的仲裁机制。而门级状态一致性检测则需实时监控外部功率管的实际门级状态是否符合预期。功率管的门级表现可能受到系统级安全请求(ASCx)、内部故障响应或外部功率管失效等多种因素的影响。因此,芯片需要对这些故障响应和安全请求进行优先级判定,并据此控制芯片最终的输出响应。进一步详细拆解该需求,则需深入理解上层系统的安全状态。

当前主流逆变器(驱动永磁同步电机)的安全状态设计,包含上下桥ASC(Active Short Circuit)和FW (Freewheeling)。ASC通过开通同一侧的功率模块(IGBT/SiC)使电机三相输入短路,主要用于高速区域;FW则为关断所有功率模块,仅限低速使用,高速时可能产生超出安全裕量的负扭矩。逆变器层面,会根据系统中故障的严重程度进行分级的安全关断,例如非严重故障通过PWM信号控制进入安全状态(ASC/FW),而严重故障则采用一条独立于软件的硬件关断路径去触发驱动芯片的ASC pin脚。由此可见,驱动芯片为上层系统的安全关断提供了灵活而多样化的支持,并且应和系统安全策略匹配。尤其是当系统中出现某些典型失效,例如功率管的GDS(SiC)/ GCE(IGBT)短路时,故障相桥臂内的驱动芯片有可能因为单个失效,面临一连串故障和系统安全请求的冲突,包括但不限于DESAT、门级一致性校验、ASCx等。因此,芯片厂在定义SEooC以及技术安全架构时,需要有意识地结合上层系统的use case和期望的故障响应,去进行正向的故障优先级定义。否则,有可能因为芯片多故障管理策略和上层系统安全策略的不一致,导致系统出现非预期的危险状态,例如高速下Freewheeling。


2. 失效模式驱动的芯片前端设计

失效模式分析贯穿功能安全芯片设计全流程。前端设计阶段需针对芯片内部功能模块建立失效模式库,并分析其失效模式影响。视芯片类型,失效模式影响可以分析到芯片级别(Effect on Chip)或上层系统级别(Effect on System),并应最终关联到芯片顶层安全需求。

针对常见的功能模块,ISO26262:2018提供了标准化的失效模式库。开发团队应结合该功能模块的具体电路实现(例如不同 LDO的电路架构),基于工程判断对芯片内各模块电路的失效模式进行更精细化的分析。其中一种方式,是将模块电路拆解到架构级,并从底层关键器件的基础失效模式往上推导(例如管子的开路、短路)。在设计具体安全机制时,首先应当针对该电路的失效模式进行分类,识别出可能潜在违反顶层安全需求的失效模式。结合芯片的目标ASIL等级,考虑设计安全机制覆盖这些失效模式。

此外,老版的标准ISO26262: 2011 Part5 Annex D也提供了针对不同诊断覆盖率的失效模式简易参考。以电源失效模式为例:

3.jpg


常见的电源失效模式有:过压、欠压、漂移、震荡、尖峰等。随着诊断覆盖率(DC)的提高,安全机制需要覆盖更复杂/偶发的失效模式。该表格提供的信息虽较为宽泛,但也为设计思路提供了一定指导:

• 低DC(60%):欠压、过压

• 中DC(90%):叠加漂移

• 高DC(99%):叠加振荡、电源尖峰

在进行失效模式分析时,功能安全工程师也应结合失效率一并考量。根据标准,失效率需涵盖永久故障(permanent fault)和瞬态故障(transient fault)。前者通常基于业内通用的可靠性标准(e.g. IEC62380)计算得出,包含Die、Package、Overstress失效率等。后者可以基于实测,或考虑根据工艺类型,采用门数乘以保守基础瞬态失效率得到。


3. 后端实现的共因失效防护

除上述维度的考量,芯片还应在后端物理实现上也采取措施防止共因失效。以常用的双核锁步(DCLS)和三模冗余(TMR)为例:

双核锁步(DCLS)通过双核冗余执行与实时比对实现故障检测。若不考虑功能安全,后端工具会基于线长、时序、逻辑关系、拥塞和功耗自动优化标准单元位置,导致双核单元摆放交错穿插,这样,双核有可能会因为某个common cause导致同时失效,进而导致校验失效。因此在后端实现时,应采取诸如物理隔离、延迟插入、版图异向布局等特殊措施规避共因失效。

其中双核间物理间距可以基于IEC 61508-2: 2010 Functional safety of electrical/electronic/programmable electronic safety-related systems推荐的金属层间距评估方法,叠加工艺安全系数确定。

4.jpg

出于同样原理,针对三模冗余TMR的物理实现上,隶属于同一组TMR的寄存器在水平和垂直方向均不可毗邻摆放,以此避免相邻寄存器受到同一束高能粒子的影响出现翻转。


小结

本文基于不同维度,针对芯片功能安全开发进行了粗浅探讨。通过以上不同开发层级的联动,可以初步实现从系统安全目标、到芯片安全需求、再到到芯片设计和物理实现的闭环。

然而在工程实践层面,芯片开发团队需要面对远多于此的复杂落地问题。因此如何高效地实现芯片功能安全开发,仍有很多核心课题亟待探索。