안녕하세요,
아무리 봐도 잘 정리가 안되는 부분이 있어 질문드립니다^^
1000명정도 정리되어 있는 데이터가 있습니다.
대조군(100명정도) 및 질환군이 a, b, c, d, e 5가지이고,
변수는 연령, 성별, 특정증상 x 의 유무가 코딩되어 있습니다.
질환 a~ e는 겹칠 수 없는 질환입니다!
----------
질환 연령 성별 증상x의 유무
a 50 M 0
b 60 F 1
이런식으로요....
목적은 이중에서
특정 증상 x 의 유무가 제시된 질환군 중 어느 것과 연관성이, 있는지 ,
연령이나 성별과는 관련성이 있는지,
또한 증상 x의 비율이 각 질환군별로 유의하게 차이가 있는지 찾고자 하는건데요,
통계방법 결정에 있어서 혼란이 있는 부분은
제시된 대조군을 동일하게 놓고
1) 로지스틱 회귀분석으로,
독립변수에 연령, 성별 , 증상x 의 유무를 넣고 종속변수에는 각 질환의 유무를 넣어 위험인자를 찾는 방식으로 진행하여야 하는 것이 맞는지 궁금합니다.
이렇게 하는 것이 맞다면 각 질환별로 5번 통계를 돌려야 하는 것이겠지요?
독립변수에 연령, 성별, 질환군 5가지 를 넣고, 종속변수에 증상 x 의 유무를 넣고 로지스틱을 돌리는 것은 아닌 것 같아서요..
2) 또한 대조군과 각 질환, a, b, c d, e의 연령을 비교해 보면 유의한 차이가 있습니다. 증상 x가 연령과 비례하여 발생할 확률이 높다면, 각 질환군의 연령을 균일하게 보정해야 각 질환과 증상 x 와의 연관성을 증명할 수 있을 것 같은데, 보정이 가능한 방법이 있는지요,
3) 각 질환별로 증상 x 의 비율이 다른지를 보려면 교차분석을 해야 할 것 같은데, 질환군이 5개라 좀 복잡합니다. 다른 통계방법이 있는지 궁금합니다.
질문이 복잡합니다만,
정리하자면,
증상 x 와 연관된 요인을 찾고자 하는데 주어진 자료를 활용하여 어떤 통계방법을 사용하여야 하는가! 입니다 ㅠㅠ
가능하시다면 답변 꼭 부탁드립니다..
감사합니다.