어떤 일이 일어났을 때, 원인과 결과에 의해서 일어난 일인지 아니면, 아무런 관련이 없는 일이 우연히 동시에 일어났는지 확인하는 것은 중요합니다. 왜냐면, 계속해서 똑같은 결과를 끌어낼 수 있다면 그것을 일종의 규칙으로써 활용할 수 있기 때문입니다. 어떤 사건이 인과 관계 없이 우연히 발생했을 확률을 나타내는 것이 바로 P-value 의미입니다.
필연 vs 우연
모든 사람들은 무의식중에 세상의 규칙을 발견하고, 그것을 삶에 적용하면서 삽니다. 이것은 사실 굉장히 중요한 능력입니다. 어떤 행동을 했을 때, 어떤 결과가 나타날 지 미리 알고 있어야, 미래를 계획할 수 있기 때문입니다.
예를 들어, 열이 나고 있는 아기에게 해열제를 먹이면 열이 내린다고 합시다. 의사는 열이 나는 아기가 병원에 오면 열을 낮추기 위해서 해열제를 처방할 것입니다. 이 처방의 근거는 해열제는 먹으면 열이 내린다는 규칙이 있기 때문입니다. 만약, 해열제를 먹는 행위가 아기의 열을 내리는 결과와 상관이 없다면, 해열제를 처방하고 먹는 행위는 쓸모가 없는 행동이 됩니다.
“까마귀 날자 배 떨어진다”라는 속담이 있죠. 까마귀가 날아가려는 순간 우연히 배가 떨어진 것을 보고 까마귀가 배를 쪼아서 떨어진 것으로 생각하는 것입니다. 아무 상관 없는 일이 우연히 일어난 것인데, 연관이 있거나 인과 관계가 있다고 오해하는 것을 뜻하는 속담입니다.
배가 떨어지는 원인이 까마귀가 날아가는 것이라고 생각한다면, 까마귀가 날면 배가 떨어질 것이라는 이상한 가설을 세우게 됩니다. 이것을 토대로 미래의 현상을 예측하거나 의도하려고 하게 되면, 배를 떨어뜨리기 위해 까마귀를 날게 하는 이상한 시도로 이어지게 됩니다.
그렇기 때문에 어떤 사건이 그 원인되는 행위에 의해서 필연적으로 일어난 것인지, 아니면 그냥 우연히 일어난 일인지 구분하는 것은 매우 중요합니다. P-value는 결과가 우연에 의해서 일어났을 가능성을 나타내는 것입니다.
P-value에 따른 신뢰도 추정
P-value는 0에서 1사이의 값으로 나타납니다. 0이라는 것은 통계 분석의 결과가 우연히 발생했을 확률이 0%라는 뜻입니다. 1은 우연히 발생했을 확률이 100%라는 것입니다. 어떤 가설을 검증하기 위해 실험을 한 결과가 우연히 발생할 확률이 높다는 것은 그 가설의 신뢰도가 낮다는 이야기입니다.
예를 들어, ‘해열제를 먹는 행위’가 ‘열이 내려가는 결과’로 이어지는 것이 50% 우연에 의해서 발생한 것이라면(P-value 0.5), ‘해열제를 먹으면 열이 내려간다’는 가설은 신뢰도가 낮은 가설이 되는 것입니다. 두 번 중 한 번 꼴로 결과가 원인과는 상관 없이 나타난다는 말이기 때문입니다.
연구자들은 통계분석을 할 때, 유의수준을 설정합니다. 유의수준은 P-value의 상한 값으로, P-value가 유의수준을 넘으면 가설에서 주장하는 원인과 결과 사이에는 유의미한 관련이 없다고 결론을 짓게 됩니다. 유의수준은 보통 0.05보다 낮게(우연히 발생할 확률 5%, 신뢰도 95%) 설정됩니다.
통계분석 결과 0.01의 P-value가 나타났다는 것은 원인에 의한 결과가 우연히 발생할 확률이 1%이며, 다른 말로는 99%의 신뢰도를 갖는다는 것이기 때문에, 신뢰도가 높다는 것입니다. 해열제를 복용했을 때 100번 중 99번은 열이 내려간다는 통계적 결과가 나타난다면, 해열제를 먹었을 때 99% 확률로 열이 내릴 것이라고 예측할 수 있게 됩니다. 신뢰할 수 있는 수치라고 할 수 있죠.
P-value 기준에 대한 논란
통계분석을 통해서 가설을 검정할 때, P-value의 상한 값을 0.05로(신뢰도 95%) 설정하고 연구를 하는 것이 기존의 관례입니다. 하지만, 이 P-value에 대한 문제점을 제기하는 사람도 많습니다. 그러면서 사회과학과 생의학 분야의 경우 가설이 유의미하다고 판단할 수 있는 기준을 기존의 0.05에서 0.005정도로 강화해야 한다고 말하는 것입니다. 0.005는 신뢰도 99.5% 정도의 수준을 뜻합니다.
이러한 문제를 제기하는 이유는 간단합니다. 바로 P 해킹이라는 관행 때문에 P-value 자체를 신뢰하기 어렵게 된다는 것입니다. P 해킹은 데이터 수집 후 통계적으로 의미가 있다고 볼 수 있는 결과들만 모아서, 특정한 패턴을 찾아 가설을 완성하는 행위를 말합니다. 가설을 세우고, 그것을 검증한다는 연구의 대전제를 뒤집어버리는 것이죠. 이렇게 논문이 양산되면 싫어할 만도 합니다.
하지만, P-value의 기준을 낮추는 것은 생각보다 간단한 문제가 아닙니다. P-value의 기준을 낮추게 되면 샘플 부족으로 인해 위음성(false negative)의 가능성이 높아진다는 것입니다. 위음성이란 실제로는 양성인데 음성으로 잘못된 결과가 나오는 것을 뜻합니다. 맞는 가설임에도 불구하고 P-value 기준을 충족하지 못하기 때문에 틀린 가설이 되는 경우가 발생할 수 있다는 것입니다.
이에 대해서는 샘플 사이즈를 늘리는 방법을 통해 어느 정도 대응할 수 있지만, 샘플 사이즈를 늘리는 것은 연구비의 증가를 뜻합니다. 따라서, 자금 사정이 어려운 연구자들은 연구비 문제로 P-value를 충족하기가 어려워질 수 있습니다. 이렇게 되면 연구 행위 자체가 위축될 수 있는 문제가 발생하게 됩니다.
이렇듯 기준과 논란에 대한 의견이 많이 있지만, P-value는 가설이 의미 있는 지를 검증하는 데 여전히 유용하며 중요한 기준이라고 생각합니다.