기능안전에서 '다중점 고장(Multiple-point failure)'은 두 개 이상의 독립적인 고장이 동시에 발생하여 안전 목표를 위협하는 상황을 의미합니다.
ISO 26262와 같은 기능안전 국제 표준에서는 차량의 전기/전자 시스템(E/E 시스템)이 고장났을 때도 안전을 확보할 수 있도록 다양한 고장 시나리오를 분석합니다. 그중 다중점 고장은 단일 고장이 아닌 복합적인 고장이 동시에 발생하거나 순차적으로 발생해 시스템의 안전 기능을 무력화할 수 있는 경우를 말합니다.
🔍 다중점 고장의 정의와 특징
- 정의: 두 개 이상의 독립적인 고장이 동시에 또는 시간차를 두고 발생하여 안전 목표를 달성할 수 없게 되는 상태.
- 예시: 제동 시스템에서 센서 고장과 제어 유닛 고장이 동시에 발생하면, 비상 제동 기능이 작동하지 않을 수 있음.
- 구분:
- 동시 고장: 시간적으로 거의 동시에 발생.
- 순차 고장: 하나의 고장이 발생한 후, 다른 고장이 이어서 발생.
🛡️ 기능안전에서의 대응 방식
- 안전 메커니즘 설계: 다중점 고장을 방지하거나 감지할 수 있는 설계가 필요.
- FMEA/FTA 분석: 고장 모드 및 영향 분석(FMEA), 결함 트리 분석(FTA)을 통해 다중점 고장의 가능성과 영향을 평가.
- ASIL 등급 고려: 다중점 고장은 높은 ASIL(Automotive Safety Integrity Level) 등급에서 특히 중요하게 다뤄짐.
기능안전 설계에서는 다중점 고장을 최소화하기 위해 고장 독립성 확보, 중복 설계, 고장 감지 기능 등을 적극적으로 활용합니다.
기능안전에서 단일점 고장인 것이 있었어, 그리고 그 단일점 고장을 통해 발생하는 안전 목표 위배를 막기 위해서 해당 단일점 고장에 안전 메커니즘을 적용 했어. 그랬을 경우 단일점 고장은 단일점 고장이면서 안전 메커니즘을 갖춘 거라고 보는거야? 아니면 더이상 단일점 고장이 아닌 다중점 고장으로 변하게 되는거야?
- 단일점 고장의 정의: 안전 메커니즘이 존재하지 않으며, 그 고장 하나만으로 즉시 안전 목표(Safety Goal)를 위배하는 고장입니다. [1]
- 변화: 질문하신 상황처럼 안전 메커니즘을 적용했다는 것은, 고장이 발생했을 때 이를 막아줄 '두 번째 요소'가 생겼다는 뜻입니다. 따라서 정의상 단일점 고장에서 제외됩니다.
- 잔류 고장 (Residual Fault): 안전 메커니즘이 도입되었으나, 메커니즘이 걸러내지 못하는 나머지 확률 부분을 의미합니다. (예: 진단율이 90%라면, 잡지 못하는 10%가 잔류 고장이 됨) [1]
- 다중점 고장 (Multi-point Fault): 안전 메커니즘에 의해 성공적으로 감지되거나 제어된 고장입니다. 이 고장 자체로는 사고가 나지 않으며, '고장난 상태'에서 '안전 메커니즘까지 고장(2차 고장)'나야 비로소 사고가 나기 때문에 다중점 고장으로 분류됩니다. [1]
- 안전 메커니즘 적용 전: 단일점 고장 (위험도 높음)
- 안전 메커니즘 적용 후:
- 감지된 부분 → 다중점 고장 (안전해짐)
- 감지되지 않은 부분 → 잔류 고장 (여전히 위험 요소로 관리 필요)
안전 메커니즘을 갖추는 순간, 그 항목은 설계 명세서나 분석서(FMEDA 등)에서 단일점 고장 카테고리에서 빠지게 되며, 안전 메커니즘의 성능에 따라 잔류 고장과 다중점 고장으로 쪼개져 관리됩니다.
chat gpt유료 버전의 다중점 고장과 진단 테스트 전략
너가 말한 것 중에 step1에 해당하는 다중점 고장 식별 여부 확인 있자나, 거기서 너가 latent fault + another fault 조합, residual risk 있는 조합 이런 식으로 간단하게 말헀는데 각 용어 개념까지 설명하면서 예시도 들어줘서 설명해줘 또 step3에 진단 테스트 전략은 어느 문서에 어떤 식으로 작성하는지 알려줘
1. Step 1에서 말한 “다중점 고장 식별”이 정확히 뭔가
체크리스트 문장이
“다중점 고장 방지를 위해 다중점 결함을 검출하는 모든 안전 메커니즘에 대해 진단 테스트 전략이 명세 되었는가?”
이런 식으로 되어 있으면, 먼저 해야 할 일은:
우리 시스템에서 어떤 다중점 고장 조합이 Safety Goal 위반으로 이어질 수 있는지 찾는 것
이다.
즉, 여기서 핵심은 단일 고장이 아니라 고장 조합이다.
2. 용어부터 정확히 정리
2.1 Multiple Point Fault (다중점 고장)
이건 가장 바깥 개념이다.
둘 이상의 독립적인 고장이 함께 존재해서 위험한 결과를 만드는 경우
단일 고장 하나만으로는 Safety Goal을 바로 깨지 않을 수도 있는데,
고장 2개 이상이 조합되면 SG 위반으로 이어질 수 있다.
예시
브레이크 ECU에 2채널 센서 구조가 있다고 하자.
- Fault 1: 센서 채널 A 고장
- Fault 2: 채널 비교 진단 로직 고장
채널 A 하나만 고장나면 원래는 비교 진단이 잡아야 한다.
진단 로직 하나만 고장나도, 센서가 정상이라면 위험이 바로 나타나지 않을 수 있다.
그런데 둘이 동시에 있으면:
- 잘못된 센서값이 들어오고
- 그걸 잡아야 할 진단도 죽어 있어서
- 잘못된 제어가 계속 수행됨
이건 다중점 고장이다.
2.2 Latent Fault (잠재 고장)
이게 가장 헷갈리는 개념이다.
이미 발생했지만, 그 시점에는 드러나지 않았고 검출되지도 않은 고장
즉,
- 고장은 이미 있음
- 하지만 시스템이 아직 “그 고장을 모름”
- 겉으로는 아직 정상처럼 보일 수 있음
그래서 위험한 것이다.
예시 1
워치독 회로가 고장났는데, 평소에는 CPU가 정상 동작해서 아무 문제가 없어 보인다.
- watchdog 고장 = 이미 존재
- 하지만 CPU hang이 아직 발생하지 않음
- 그래서 문제가 겉으로 안 보임
이 워치독 고장은 latent fault다.
예시 2
이중 채널 센서 중 채널 B 진단 회로가 죽었는데, 현재 채널 A와 B 값이 우연히 정상 범위처럼 보인다.
- 진단 경로는 이미 고장
- 아직 다른 fault가 안 와서 문제 안 드러남
이것도 latent fault다.
핵심 포인트
latent fault는 혼자 있을 땐 바로 hazard가 안 나타날 수 있다.
하지만 나중에 또 다른 고장이 오면 큰 문제가 된다.
2.3 Another Fault (다른 하나의 고장)
내가 아까 “latent fault + another fault”라고 했는데,
여기서 another fault는 말 그대로:
이미 숨어 있던 latent fault 외에 추가로 발생하는 두 번째 고장
이다.
예시
- latent fault: watchdog 고장
- another fault: CPU software deadlock 발생
원래 CPU deadlock이 생기면 watchdog이 reset해야 한다.
그런데 watchdog이 이미 latent fault 상태로 죽어 있으면, reset이 안 된다.
즉,
- watchdog fault만 있을 때는 hazard 아님
- CPU deadlock만 있을 때는 watchdog이 커버 가능
- 둘이 같이 있으면 hazard 가능
2.4 Residual Risk 있는 조합
이 표현은 조금 실무적인 표현인데 뜻은 이렇다.
안전 메커니즘을 설계했는데도, 여전히 남아 있는 위험 가능성이 있는 고장 조합
즉, “안전 설계를 했으니 끝”이 아니라,
그 뒤에도 남는 위험 조합이 있을 수 있다.
예시
토크 제어 시스템이 있다고 하자.
- Safety mechanism 1: sensor plausibility check
- Safety mechanism 2: output torque limiter
그런데 다음 조합은 남을 수 있다.
- sensor drift fault
- plausibility threshold 설정 오류
이 경우 plausibility check가 이상을 못 잡고, 출력 리미터까지 특정 조건에서 충분히 강하지 않으면, 여전히 위험이 남을 수 있다.
이런 게 residual risk 관점에서 봐야 할 조합이다.
쉽게 말하면
“대책은 있는데, 그 대책이 모든 조합을 다 커버하지는 못할 수 있다”
그래서 남는 위험 조합을 봐야 한다는 뜻이다.
3. 이 용어들을 연결해서 이해하면
실무적으로는 보통 이렇게 본다.
latent fault + another fault = 대표적인 multiple point fault 후보
그리고 그 조합이 실제로 Safety Goal 위반으로 이어질 수 있으면
그건 분석 대상이고, 필요하면 safety mechanism과 test strategy까지 가야 한다.
4. 실제 예시로 길게 설명
예시 1. 듀얼 브레이크 페달 센서 시스템
시스템 구조
- Sensor A
- Sensor B
- 두 센서 비교하는 plausibility logic
- 이상 시 safe state 전환
정상 의도
센서 하나가 고장나도 다른 센서와 비교해서 이상 검출
가능한 fault
- Fault 1: Sensor A stuck high
- Fault 2: plausibility check function disabled
각 고장의 의미
- Sensor A stuck high만 있으면 → 비교 로직이 잡아야 함
- plausibility check 고장만 있으면 → 센서가 정상이라면 아직 문제 없음
그런데 둘이 같이 있으면:
- 잘못된 센서값이 입력되고
- 진단이 안 되고
- 잘못된 braking request가 유지될 수 있음
여기서
- plausibility check 고장은 latent fault가 될 수 있음
- Sensor A stuck high는 another fault
- 둘의 조합은 multiple point fault
이 조합이 SG 위반 가능성을 만들면
이건 다중점 고장 식별 대상이다.
예시 2. Watchdog 기반 안전 메커니즘
구조
- CPU가 주기적으로 서비스
- watchdog이 CPU hang을 감시
- hang 시 reset
가능한 fault
- Fault 1: watchdog circuitry failure
- Fault 2: CPU deadlock
해석
watchdog 고장만 있으면 평소엔 티가 안 날 수 있다.
그래서 latent fault다.
CPU deadlock만 있으면 원래는 watchdog이 reset한다.
하지만
- watchdog이 이미 죽어 있고
- CPU deadlock이 발생하면
시스템이 멈춘 채 위험상태가 유지될 수 있다.
이게 전형적인 latent fault + another fault 조합이다.
예시 3. 출력 모니터가 있는 모터 제어 시스템
구조
- 입력: pedal sensor
- 제어 SW
- 출력: inverter command
- 안전 메커니즘: torque monitor
fault 조합
- Fault 1: pedal sensor drift
- Fault 2: torque monitor threshold misconfiguration
sensor drift만 있으면 torque monitor가 잡을 수 있다.
threshold misconfiguration만 있으면 정상 상태에서는 안 드러날 수 있다.
그런데 둘이 겹치면:
- 잘못된 입력이 들어오고
- monitor가 허용해 버려서
- unintended torque가 커질 수 있다
여기서 threshold misconfiguration은 latent처럼 숨어 있을 수 있고,
sensor drift가 another fault가 된다.
5. 그러면 Step 1에서 실제로 뭘 확인해야 하나
체크리스트 기준으로 Step 1은 이런 식으로 보면 된다.
5.1 확인 대상 문서
- HARA
- FSC / TSC
- DFA
- FMEA / FMEDA
- FTA
- Safety mechanism concept
- Hardware safety analysis
- Software safety analysis
5.2 확인 질문
- 단일 고장만 보지 않고 고장 조합을 식별했는가?
- 그 조합 중에 latent fault + another fault 형태가 있는가?
- 그 조합이 SG 위반 가능성으로 이어지는가?
- 그 조합을 줄이거나 검출하는 안전 메커니즘이 정의되어 있는가?
- 그 메커니즘이 진짜 커버하는지 검증 계획이 있는가?

이렇게 되면 confirmation review에서 훨씬 강하다.
6. Step 3의 “진단 테스트 전략”은 어느 문서에 쓰나
이제 두 번째 질문으로 가자.
결론부터 말하면:
진단 테스트 전략은 보통 1개 문서에만 고립해서 쓰지 않고,
상위 전략 문서 + 하위 시험 명세 문서로 나눠서 관리하는 게 가장 실무적이다.
즉, 계층이 있다.
7. 어떤 문서에 어떻게 쓰는가
보통 아래 구조로 가면 좋다.
7.1 상위 문서: Test Strategy / Verification Strategy / Safety Validation Strategy
여기에는 전략 수준으로 쓴다.
즉,
- 어떤 safety mechanism을
- 어떤 시험 방식으로
- 어느 레벨에서
- 어떤 fault condition으로 검증할지
를 쓴다.
여기서 쓰는 내용
- 대상 safety mechanism 목록
- applicable fault model
- test level
- fault injection approach
- timing verification 필요 여부
- pass/fail 원칙
예시 문장
For safety mechanisms intended to detect multiple point faults, diagnostic verification shall be performed using fault injection and abnormal condition testing at the relevant integration level.
The test strategy shall verify detection capability, reaction correctness, and detection/reaction timing against the applicable safety requirements.
이 문장은 전략 문서에 들어간다.
7.2 중간 문서: Test Specification / Integration Test Specification / HW-SW Integration Test Spec
여기에는 구체적인 시험 설계 방향을 쓴다.
예를 들면:
- 어떤 고장 모드를 넣을지
- 어느 인터페이스에서 주입할지
- representative fault set은 무엇인지
- timing 측정 방법은 무엇인지
예시
- 대상: dual sensor plausibility check
- fault injection: stuck-at-high, stuck-at-low, disconnected
- 조합: latent diagnostic path fault + sensor fault
- 기대 결과: fault detected within 50 ms, transition to safe state
7.3 하위 문서: Test Case Specification / Test Procedure
여기에는 실제 시험 케이스를 쓴다.
예:
- TC-MPF-001
- 사전 조건
- fault 주입 방법
- 입력값
- 기대 결과
- acceptance criteria
즉,
- 전략 문서: “무엇을 어떤 방식으로 보겠다”
- 시험 명세: “무슨 fault model로 설계하겠다”
- 테스트 케이스: “실제로 이 조건으로 시험하겠다”
8. 가장 권장되는 문서 배치
실무적으로는 보통 이렇게 하면 깔끔하다.
문서 1: Safety Verification Strategy 또는 Integration Test Strategy
여기서 다음을 정의
- 다중점 고장 검출 safety mechanism은 진단시험 대상으로 한다
- fault injection, abnormal scenario, timing verification을 수행한다
- HW / SW / HW-SW integration / system integration 중 어느 레벨에서 검증하는지 정의한다
문서 2: Diagnostic Test Specification 또는 Integration Test Specification
여기서 다음을 정의
- safety mechanism별 시험 항목
- 고장 조합
- 주입 방식
- representative 조합
- 측정 파라미터
- 합격 기준
문서 3: Test Case / Procedure / Script
여기서 다음을 정의
- 개별 시험 절차
- 측정값
- expected result
- verdict
9. 진단 테스트 전략은 실제로 어떤 식으로 써야 하나
체크리스트 대응 관점에서 중요한 건
“전략”과 “케이스”를 구분해서 쓰는 거다.
9.1 전략 문서에 들어갈 내용
최소 포함 항목
- 대상 safety mechanism
- 관련 multiple point fault
- 시험 레벨
- 시험 방법
- fault injection 방식
- detection / reaction / timing 확인 방침
- pass/fail 원칙
- traceability

9.2 시험 명세 문서에 들어갈 내용
예시 항목
- 시험 목적
- 관련 safety requirement
- 관련 MPF ID
- precondition
- injected fault
- observation point
- expected detection
- expected safe reaction
- timing measurement method
- acceptance criteria
10. 체크리스트에서 실제로 어떻게 판정할까
이 항목은 아래처럼 보면 된다.
PASS
- multiple point fault가 식별되어 있고
- 관련 safety mechanism이 정의되어 있고
- 해당 safety mechanism에 대해
- 어떤 fault를 넣을지
- 어느 레벨에서
- 무엇을 검증할지
- timing은 어떻게 볼지
가 전략 또는 명세 문서에 분명히 있음
WEAK PASS / OBSERVATION
- fault injection 하겠다는 말은 있는데
- 어떤 multiple point fault를 겨냥하는지 연결이 약함
FAIL
- safety mechanism은 있는데
- diagnostic test strategy 없음
- 정상 시나리오 테스트만 있음
- timing 검증 없음
- multiple point fault와의 연결 없음
13. 핵심 한 문장
이 체크리스트 항목은 단순히 “진단 테스트가 있나”를 보는 게 아니라,
식별된 다중점 고장 조합과 그것을 다루는 안전 메커니즘 사이에 시험 전략이 추적 가능하게 연결되어 있는지를 보는 것이다.
'기능안전_기본이론' 카테고리의 다른 글
| TSR내 FHTI 작성은 어떤 경우에? (0) | 2025.10.31 |
|---|---|
| 기능안전 DFA분석 대상 도출 (0) | 2025.10.23 |
| Confirmation review 재수행 기준 (0) | 2025.10.21 |
| 기능안전 Part7 _ 5.5.7 (0) | 2025.10.16 |
| 기능안전 Part7 _ 5.5.4 (0) | 2025.10.16 |