특정감정 단어가 포함된 의견과 채택율 간의 상관관계를 분석하고자 합니다.
가설은 아래와 같습니다.
1. 특정 감정단어분류 내 단어가 포함 유무가 채택율에 영향을 미칠 것이다.
2. 특정 단어분류 내 단어의 강도가 채택율에 영향을 미칠 것이다.
감정단어 분류는 1)sadness, 2)anger, 3)frustration, 4)guilty와 같고
각 분류 내에는 아래와 같이 단어별로 강도가 매겨져 있습니다.
분류: anger
단어 종류
angry 0.7
furious 0.9
irritated 0.6
annoyed 0.55
...
의견은 다음과 같은 형식입니다.
"I got annoyed when I found the product was out of order. Then I asked it to be exchanged, but I didn't got any feedback for over 7 days. That's why I'm very angry now."
각 의견은 아래와 같이 두 테이블로 정리되어 있습니다.
inc(included)는 포함유무의 의미입니다.
의견ID sad_inc ang_inc fru_inc gui_inc
===========================================
00001 0 1 0 1
00002 0 0 1 0
int(intensity)는 강도의 의미입니다.
의견 내의 감정단어에 대한 강도 값을 다 더한 값입니다.
의견ID sad_int ang_int fru_int gui_int
===========================================
00001 0 0.8 0 0.57
00002 0 0 1.8 0
가설1을 검정하기 위해서
회귀분석을 해서 특정 감정이 유의미하다는 결과를 얻었습니다.
sig.
sad_inc .013
ang_inc .067
fru_inc .001
gui_inc .173
가설2에 대해서도 동일한 방식으로 회귀분석을 했더니 아래와 같은 식을 얻었다고 할 때
sig.
sad_inc .019
ang_inc .048
fru_inc .005
gui_inc .123
가설 1의 결과에서는 특정 감정이 유의미하다는 이야기를 하고자 한 것이고
가설 2에서 하고자 하는 이야기는 특정 감정이 유의미한 데 그치는 게 아니라
강도가 강하면 강할수록이라던가 강도 자체는 의미없고 포함만 되면 유의미하다라던가의
결론을 이야기하고 싶은데
가설1의 회귀분석결과와 가설2의 회귀분석결과가 비슷한 값이라는 사실을 근거로
강도는 큰 의미가 없다는 이야기를 할 수 있는 것인지 궁금합니다.
가설2를 위와 같은 방식으로 검증하는 것이 맞는지도 궁금합니다.
감사합니다...