본문 바로가기
의학

임상 의사결정에서의 민감도/특이도, 양성예측도/음성예측도 적용

by 파페즈 2024. 1. 23.

임상 의사결정에서의 민감도/특이도, 양성예측도/음성예측도 적용

Application of Sensitivity/Specificity and PPV/NPV on clinical decision making

 

정의

- 민감도(Sensitivity): 유병일 때 양성일 확률 = 진양성 / (진양성 + 위음성)
- 특이도(Specificity): 무병일 때 음성일 확률 = 진음성 / (진음성 + 위양성)
- 양성예측도(PPV, Positive predictive value): 양성일 때 유병일 확률 = 진양성 / (진양성 + 위양성)
- 음성예측도(NPV, Negative predictive value): 음성일 때 무병일 확률 = 진음성 / (진음성 + 위음성)

- 조건부확률이 포함된 개념이다. 민감도는 병에 걸렸을 때(조건) 양성이 나온 확률이다. 양성예측도는 양성이 나왔을 때(조건) 병에 걸려있는 확률이다.

Sensitivity, Specificity

- 도표를 통해 각 개념의 특징에 대해 쉽게 파악할 수 있다. 붉은 선 기준 좌/우를 유병/무병으로 놓고, 상/하는 양성/음성으로 놓는다. 1사분면부터 4사분면 순으로 위양성, 진양성, 위음성, 진음성이 된다.

 

 

물음: 예측도를 사용해야 하지 않나?

임상에서 검사 결과를 볼 때, 우리는 민감도/특이도가 아니라 양성예측도/음성예측도를 고려해야 하는 것처럼 보인다. 전자는 질환을 전제로 하고 후자는 검사결과를 전제로 하는데, 실제로 임상에서 겪는 상황은 왜냐면 환자 질병 여부를 알 수 없는 상태에서 검사 결과를 통해서 병이 있을 확률에 대해 파악하는 것이기 때문이다. 정말 그런지 알아보자.

 

민감도와 특이도의 의미

- 민감도와 특이도는 검사의 정확도를 의미한다.

- 검사의 정의상 민감도와 특이도는 50% 이상이어야 한다. 예컨대 민감도가 50%이면 진양성과 위음성 비율이 같다는 뜻이고, 이는 무작위와 같다. 50% 미만이면 오히려 위음성 비율이 증가하기 때문에 무작위보다도 더 실패한 검사가 된다.
- 민감도와 특이도는 유병률에 영향을 받지 않으므로 검사의 성능을 평가하기에 적합하다.

 

PPV와 NPV의 의미

- PPV와 NPV는 유병률에 영향을 받는다. 민감도와 특이도는 검사에 따라 결정되지만, PPV와 NPV는 결정되지 않는다. 그렇기 때문에 'A라는 검사는 B라는 결과에 대해 민감도/특이도가 얼마이다'라고 표현하지만, PPV/NPV에 대해서는 그러한 표현을 많이 사용하지 않는다. 시행된 연구의 조건에 따라 유병률이 다르게 나타나기 때문이다.

- 검사의 민감도와 특이도는 최소 50% 이상이라는 공리가 전제되기 때문에, 같은 조건에서 유병률이 증가하면 진양성 비율은 증가, 위양성 비율은 감소한다. 따라서 유병률이 증가하면 PPV는 증가, NPV는 감소한다. 따라서 희귀 질환일수록 민감도가 매우 높은 검사에서 양성 결과가 나왔더라도, 그때 유병일 확률인 PPV는 직관보다 높지 않다.

 

각 값들의 관계

- 유병률이 증가하면 전체인구 기준 진양성의 분율은 증가하고 진음성의 분율은 감소한다. 따라서 유병률이 증가하면 PPV는 증가하고 NPV는 감소한다.

- 일반적으로는 유병률은 기본적으로 낮은 수치이다. 매우 특수한 경우가 아니면 유병인구가 무병인구보다 작다는 의미이다. 따라서 일반적으로는 PPV가 NPV보다 더 낮다.

- PPV와 NPV는 '예측도'이다. 검사의 정확성이 증가하면 예측도 역시 증가할 것이다. 따라서 다른 조건이 동일할 시 민감도와 특이도가 증가하면 PPV와 NPV는 증가한다.

- PPV에서는 특이도가 중요하고, NPV에서는 민감도가 중요하다. 위에서 설명했듯 유병률은 기본적으로 낮은 수치이므로, 같은 유병률일 때 민감도의 변화량보다 특이도의 변화량이 PPV에 미치는 영향이 크다. 민감도가 증가하면 위음성 수가 줄어드는데 PPV에 큰 영향을 주지 않는다. 반면 특이도가 높아지면 위양성 수가 줄어들고 PPV가 유의미하게 증가한다. 다시 말해 PPV에 대한 특이도의 기울기가 민감도의 기울기보다 높다(ΔPPV/ ΔSpec > ΔPPV/ΔSens) (연두색 선보다 보라색 선이 길의 길이가 크기 때문에, 높이 변화값이 동일하면 면적 변화값은 연두색보다 보라색이 더 크다).

반대의 경우도 마찬가지로, NPV에 대한 영향력은 민감도가 특이도보다 크다는 것이 아래 그래프에 나타나있다. 

 Influence of sensitivity on the negative predictive value  Influence of specificity on the negative predictive value
Influence of specificity(Lt) / sensitivity(Rt) on the negative predictive value

 

 

그냥 민감도/특이도를 사용해도 될까

막 흉통을 호소하기 시작한 환자가 응급실에 입원했고 심전도를 촬영했고 ST elevation이 확인되었다고 하자. 초기 STEMI에 대한 12 lead ECG의 민감도와 특이도는 각각 68%, 97%이다. 검사결과가 양성이니까, 양성예측도는 얼마일까? 이를 알기 위해서는 유병률(prevalance rate)을 알아야 한다. 그럼 유병률은 얼마인가? (여기서부터 뭔가 이상하다는 것을 눈치채야 한다). 2020년을 기준으로 심근경색 환자수는 약 12만 1,169명, 총인구는 약 5,183만 명이고, 계산해 보면 유병률은 약 0.002%이 된다. 이를 반영해서 계산한 결과는 아래와 같다.

 

* Sens= 68%, Spec=97%, PPV=0.01%, NPV=99.99%

 

그러면 이 환자에게 ECG 상 ST elevation 소견을 보고 MI일 확률이 0.01%라고 판단을 내릴 것인가? 당연히 말도 안 되는 일이다. 이는 유병률의 개념을 잘못 이해했기 때문에 발생하는 오류이다. 위에서 계산된 0.002% 유병률은 전 국민 중 심근경색이 발생한 분율을 의미한다. 급성 흉통 호소 환자에서의 유병률을 고려하면 훨씬 높을 것이고, MI의 risk factor인 고령, 성별, 고혈압 등등 여러 가지 risk factor들을 포함시켜서 유병률을 계산할 수도 있을 것이다. 그냥 전 국민으로 뭉뚱그린 유병률은 이 상황과 무관한 수치이다(여기서 '전 국민'이란 것도 한국인 기준이다. 아시아인, 세계인으로 넓힌다면 유병률의 개념은 또 달라진다).

그러면 이러한 요소를 모두 계산해야 MI라고 진단을 내릴 수 있는 것일까? 유병률을 고려한 예측도가 뭔가 이상한 것 같으니, 일단 유병률을 배제하고 검사의 특징에만 초점을 맞추어 판단해보자.

 

검사의 특징인 민감도와 특이도를 해석하면 다음과 같다. MI에 대한 ST elevation 소견의 민감도는 비교적 낮고, 특이도는 높다. 민감도가 낮다는 의미는 위음성의 가능성이 꽤 존재한다는 것, 즉 STE가 없이도 MI가 있을 가능성이 꽤 있으므로 다른 의심소견이 있다면 ECG가 괜찮다고 바로 퇴원하는 것이 아니라 다른 추가적 w/u이 필요하다는 의미이다. 반면 특이도가 높다는 의미는 위양성의 가능성이 충분히 낮으므로, STE가 있으면서 MI가 없을 확률은 매우 적기 때문에, 다른 증상이 없더라도 ST elevation이 관찰되면 배제 차원에서 추가적인 w/u이 필요하다는 의미이다.

 

위와 같은 해석은 논리적으로 타당하지만, 유병률에 대한 고려가 포함되어 있지 않아서 직관과 실제 통계량에 차이가 발생할 수도 있음에 주의해야 한다. 희귀 질환에서는 양성예측도가 생각보다 낮게 나타남을 기억하자(이는 숫자에 속아 위험한 선택을 하는 사람들에서 자세히 다루고 있다). 따라서 유병률에 대해서도 고려해야 한다.

 

 

유병률을 고려해서 보정된 criteria를 적용, 베이즈 통계학

Sensitivity and specificity for pulmonary embolism at specific D-dimer thresholds
Sensitivity and specificity for pulmonary embolism at specific D-dimer thresholds within our sample population

D-dimer는 DVT(Deep vein thrombosis)와 PE(Pulmonary embolism)에 대해 민감도는 높고 특이도는 낮은 검사이다. 즉, 검사의 특징에만 초점을 맞추어 보면, 일반적으로 위음성이 적으므로 D-dimer normal range인 경우에서는 PE 가능성이 매우 낮고, 위양성은 꽤 높으므로 D-dimer elevation인 경우에도 이것이 반드시 PE를 시사하는 것은 아니다(D-dimer elevation에 기여하는 기타 요소들이 많다).

 

여기에 유병률을 고려하여 베이즈 통계학적인 관점에서 양성/음성예측도에 대해 해석해보자.

위의 유병률 개념에서 살펴보았듯이, 포인트는 임상에서 D-dimer 검사를 시행하는 조건에 대해 고려해야 한다는 것이다. 즉, 증상, 위험군 등의 risk factor, 유병률을 연결 지어서 생각해야 한다. D-dimer 검사를 시행하는 경우는 일반적으로 다음과 같다. (ECG나 CXR 상 유의미한 징후 없이) chest pain, tachypnea, tachycardia, hypoxia 등의 증상이 나타는 경우, Immobilazation, surgery, old age 등의 고위험군에서 예방적으로 시행하는 경우. 이러한 증상 또는 고위험군의 PE 유병률은 전체 인구의 PE 유병률보다 현저히 높을 것이다. 따라서 이때 일반적인 경우보다 PPV는 더 높게, NPV는 더 낮게 나타날 것임을 예측할 수 있다. 즉, 베이즈 통계학에서는 무증상으로 입실한 전 국민 평균에 해당하는 환자의 유병률(사전확률)에서, 고령, 고위험군, 유증상 등의 정보가 하나씩 추가될수록 환자의 유병률(사후확률)으로 업데이트된다고 이해할 수 있다. 그에 따라 (민감도와 특이도가 동일한) 같은 검사일지라도 양성예측도와 음성예측도가 변화할 것이다.

 

예컨대 위에서 '일반적으로는' 유병률이 낮은 수치라고 했는데, risk factor가 높은 그룹의 환자가 징후와 증상을 보이고 있다면 유병률이 절반보다 더 높을 수 있고, 이 경우 PPV가 NPV보다 더 높을 수 있다. 오히려 이게 임상 현장에 가깝다면 가까울 것이다.

 

Suzanne Ekelund의 논문에서 주장하는 골자는 pre-test 상 'PE 확률이 높은 환자에서는' D-dimer가 낮더라도 위음성에 대해 충분히 고려해야 하며, 쉽게 DVT 또는 PE를 배제해선 안된다는 것이다. 아래와 같이 criteria를 고려해서 D-dimer 기준치를 더 보수적으로 보거나, D-dimer가 음성이더라도 chest CT 등의 추가 검사를 시행할 필요가 있다. 위의 검사의 특징인 민감도/특이도만 고려했을 때 도출된 결론과 방향이 달라진다!

 

반대로 D-dimer의 민감도가 높더라도 PE 관련 징후가 없는데 D-dimer만 보고 chest CT를 찍는 것은 지양된다. 길고 복잡하게 설명했지만 결국 개별 상황마다의 risk factor의 정도를 고려해야 한다는 것이다. D-dimer는 특이도가 낮은 검사이므로 PTE 뿐만 아니라 CHF, sepsis, cancer 등 다양한 상황에서 elevation이 나타난다는 점도 함께 고려하면 좋겠다. 

YEARS algorithm and criteria for PE

 

 

임상 적용에서의 핵심

* 유병률의 정보, 즉 기타 정보들이 제한적일 때 검사의 특성만 고려하는 것도 일반적인 상황에서 도움이 된다.

  결과가 음성이면 민감도에 주목하고, 양성이면 특이도에 주목한다.

  민감도가 높은 검사는 음성을 확인하고 싶은 검사 ex)D-dimer-PE, 특이도가 높은 검사는 양성을 확인하고 싶은 검사 ex)STE-MI

 

- 검사가 음성이다, 민감도가 높다 = 위음성이 낮다 = 음성을 진음성으로 고려할 근거가 있다

- 검사가 음성이다, 민감도가 낮다 = 위음성이 높다 = 음성을 진음성으로 배제하기 어렵다, 다른 정보가 더 필요하다

- 검사가 양성이다, 특이도가 높다 = 위양성이 낮다 = 양성을 진양성으로 고려할 근거가 있다

- 검사가 양성이다, 특이도가 낮다 = 위양성이 높다 = 양성을 진양성으로 배제하기 어렵다, 다른 정보가 더 필요하다

 

 

* 정확한 판단을 위해서는 유병률, 즉 다양한 정보를 고려해야 한다. 베이즈 관점에서  유병률은 기본적으로 매우 낮은 사전확률에서 출발, 정보가 추가될수록 사후확률이 증가하는 방식으로 생각된다.

 

 

 


* Reference

Sensitivity and Specificity as Guides to Clinical Decision Making - JEMS: EMS, Emergency Medical Services - Training, Paramedic, EMT News

· VTE(Venous ThromboEmbol.. : 네이버블로그 (naver.com)
Why D-dimer tests cannot be used to exclude venous thromboembolism in patients with high pretest probability (acutecaretesting.org)

민감도, 특이도, 유병율, 양성 예측도, 음성예측도1 (youtube.com)

보도자료 < HIRA 소식 < 기관소식 < 건강보험심사평가원