Missing Data Imputation 방식 비교는 보건의료 연구의 신뢰성을 좌우하는 핵심 통계 주제다. 임상시험, 관찰연구, 레지스트리, 전자의무기록, 웨어러블 데이터까지 의료 데이터에는 결측이 거의 항상 존재한다. 문제는 결측 데이터 자체보다 이를 어떻게 처리하느냐에 따라 결과 해석이 완전히 달라진다는 점이다. 단순 삭제는 편향을 유발하고, 부적절한 대치 방법은 효과를 왜곡한다. 이 글은 Missing Data Imputation 방식 비교를 통해 결측 발생 메커니즘부터 대표적인 대치 기법의 장단점, 실제 의료 연구에서의 선택 기준까지 체계적으로 정리한 전문 가이드다.
보건의료 데이터에서 결측이 발생하는 이유
의료 연구에서 결측은 구조적으로 발생한다.
대표적인 원인은 다음과 같다.
- 환자 중도 탈락
- 추적 관찰 실패
- 검사 미실시
- 센서 오류
- 설문 미응답
특히 중증 환자일수록 결측이 많아지는 경향이 있어, 결측은 종종 예후와 직접적으로 연관된다. 이 점을 무시하면 심각한 편향이 발생한다.
결측 데이터 메커니즘 이해
Missing Data Imputation 방식 비교의 출발점은 결측 메커니즘 이해다.
MCAR
결측 발생이 관측값 및 미관측값과 무관
현실 의료 데이터에서는 매우 드물다.
MAR
결측이 관측된 변수에 의해 설명 가능
대부분의 임상연구는 MAR 가정을 전제로 한다.
MNAR
결측이 미관측값 자체와 연관
예: 상태가 나쁠수록 검사 미실시
MNAR 상황에서는 단순 대치가 거의 항상 편향을 유발한다.
결측 데이터 무시의 위험
가장 흔한 접근은 완전사례분석이다.
즉, 결측이 있는 환자를 분석에서 제외한다.
문제점은 다음과 같다.
- 표본 수 감소
- 통계적 검정력 저하
- 선택 편향 발생
특히 MAR 또는 MNAR 상황에서 완전사례분석은 결과를 체계적으로 왜곡한다.
단순 대치법의 구조와 한계
평균 대치
가장 단순한 방식이다.
- 구현이 쉬움
그러나
- 분산 과소추정
- 상관 구조 파괴
- 효과 왜곡
의료 연구에서는 권장되지 않는다.
최빈값 대치
범주형 변수에서 사용된다.
- 정보 손실 큼
- 편향 위험 높음
Missing Data Imputation 방식 비교에서 단순 대치법은 대부분 피해야 할 방법이다.
KNN 대치법
KNN 대치는 유사한 관측치를 이용해 결측값을 추정한다.
장점
- 분포 가정 없음
- 비선형 관계 반영 가능
한계
- 거리 정의에 민감
- 고차원 데이터에서 불안정
- 불확실성 반영 불가
웨어러블 데이터나 생체신호 탐색 분석에서는 제한적으로 사용된다.
회귀 기반 단일 대치
회귀모형을 이용해 결측값을 예측한다.
장점
- 변수 간 관계 반영
한계
- 예측값을 실제값처럼 취급
- 분산 과소추정
- 과도한 확신 유발
단일 대치라는 점에서 근본적 한계를 가진다.
다중 대치법(Multiple Imputation)의 개념
다중 대치는 현재 가장 널리 권장되는 접근이다.
절차는 다음과 같다.
- 결측값을 여러 번 대치
- 각 데이터셋에서 분석 수행
- 결과를 통합
이 방식은 결측에 따른 불확실성을 통계적으로 반영한다.
Missing Data Imputation 방식 비교에서 표준 접근으로 평가된다.
MICE 방법
MICE는 변수별 조건부 모형을 반복적으로 적합한다.
장점
- 연속형·범주형 혼합 처리 가능
- 유연성 높음
- 의료 데이터에 적합
주의점
- 모델 설정에 민감
- 반복 횟수 설정 필요
MICE는 임상연구에서 가장 많이 사용되는 다중 대치 기법이다.
EM 알고리즘 기반 대치
EM 알고리즘은 잠재 변수 구조를 이용해 모수를 추정한다.
장점
- 이론적 기반 탄탄
- 정규 가정 하에서 효율적
한계
- 분포 가정 필요
- 비정규 데이터에 부적합
- MNAR 대응 불가
EM은 전통적 임상시험에서 주로 사용된다.
Bayesian 대치 접근
Bayesian 방법은 결측값을 확률 변수로 취급한다.
장점
- 불확실성 자연스럽게 반영
- 소표본에 강함
단점
- 계산 비용 큼
- prior 설정 민감
희귀질환 연구나 고급 분석에서 활용된다.
MNAR 상황에서의 대처 전략
MNAR에서는 어떤 대치법도 완전한 해결책이 아니다.
권장 전략은 다음과 같다.
- Pattern-mixture model
- Selection model
- Sensitivity analysis
결과가 결측 가정에 얼마나 민감한지 반드시 보고해야 한다.
대치 후 분석에서 흔한 오류
오류 1: 대치 전후 분포 비교 안 함
오류 2: 대치값을 실제 관측처럼 해석
오류 3: outcome 변수를 대치 모델에서 제외
오류 4: 대치 횟수 부족
오류 5: 결측 메커니즘 설명 누락
이 오류들은 Missing Data Imputation 방식 비교의 핵심 취지를 훼손한다.
의료 연구에서 대치 방법 선택 가이드
| MCAR | 완전사례 또는 다중 대치 |
| MAR | MICE |
| MNAR | 민감도 분석 병행 |
| 소표본 | Bayesian 대치 |
| 고차원 | MICE 또는 KNN |
결측 데이터 보고 기준
의학논문에서는 다음을 반드시 보고해야 한다.
- 결측 비율
- 결측 메커니즘 가정
- 사용한 대치 방법
- 대치 횟수
- 민감도 분석 결과
이는 Missing Data Imputation 방식 비교에서 요구되는 최소 기준이다.
실제 적용 사례
임상시험에서
- 완전사례분석: 치료효과 유의
- MICE 적용 후: 효과 감소, 여전히 유의
이는 결측이 치료효과를 과대평가했음을 의미한다.
대치 방법 선택이 결론을 바꾼 대표적 사례다.
참고자료 바로가기
결측 데이터 처리 관련 개념은 아래에서 확인할 수 있다.
Missing Data Imputation Reference
결론
Missing Data Imputation 방식 비교는 의료 통계에서 선택이 아니라 필수다. 결측을 무시하거나 단순 대치로 처리하면 결과는 쉽게 왜곡된다. 결측 메커니즘을 먼저 이해하고, MAR 상황에서는 다중 대치법을 기본으로 사용하며, MNAR 가능성에 대해서는 민감도 분석을 병행해야 한다. 대치 방법과 가정을 투명하게 보고할 때 보건의료 연구 결과는 신뢰성과 재현성을 확보할 수 있다.