무기는 끈기

[코드스테이츠 PMB 15기] 태블로를 이용하여 뇌졸중 예측 데이터를 시각화해보자 본문

Product Management (PM)

[코드스테이츠 PMB 15기] 태블로를 이용하여 뇌졸중 예측 데이터를 시각화해보자

김유비야 2022. 11. 25. 19:15

(W6D4)

 

 

 

저번 글에 이어 뇌졸중 예측 데이터로 세운 가설을 가지고, 실제로 태블로 라는 프로그램을 사용하여 시각화해보았다.

 

 

 

 

 

가설 1 :

1.  40-60대 여자가 40-60대 남자보다 뇌졸중의 발병 확률이 높을 것 같다.
    여자는 신체 내 적으로 남자에 비해 병의 발병 확률이 높았던 기사들을 접했던 기억이 있어서 가설을 설정해보았다.
    다른 병을 보면 주로 중장년층에게서 갑작스레 발병 확률이 높은 병이 많았기 때문에 가설을 설정해보았다.

 

 

 

 

태블로를 사용하여 막대 그리프를 구현한 후, 계산식을 사용하여 양과 음으로 나누었다.

 

 

 

 

연령에 따라서 성별을 양과 음으로 나누어 양방향 막대 그래프로 시각화 하였다. 

 

 

결과:

 

여성은 고른 분포로 나타났고, 남성은 여성에 비해 비교적 몰려있는 분포가 발견되었다.

 

뇌졸중이 걸린 40-60대 남성은 총 30명

뇌졸중이 걸린 40-60대 여성은 총 34명

 

남성 < 여성

 

수치상으로는 여성이 더 높게 나왔으나 가설에 확신을 가져올 정도의 유의미한 결과로 보이진 않는다.

 

 

* 추가 참고자료 *

 

이후 성별과 뇌졸중의 상관관계가 궁금해져 다양한 의학기사를 찾아보았다.

 

성별에 따른 뇌졸중 발생위험도를 분석한 결과,

남자는 14.98%

여자는 9.41% 로 남성이 여성에 비해 뇌졸중 발생위험보다 통계적으로 유의미하게 높았다.

 

 

음주, 흡연 등에 더 많이 노출되어 있어서 남성의 뇌졸중 발생위험도가 더 높게 측정되었다고 한다.

 

 

출처: https://j.kafn.or.kr/upload/pdf/jkafn-21-2-174.pdf

 

 

 

 

 

 

 

 

 

가설 2 :

2. 도시에 사는 사람의 뇌졸중 발병 확률이 높을 것 같다.
   한국 사회에선 시골에서 유유자적하게 사는 것보다 도시에서 사는 현대인이 더 스트레스를 많이 받을 것 같은 인상이 있다. 도시에 산다면 회사에 다닐 확률이 시골보다 높기 때문에 신경 쓸 거리가 많아 스트레스가 많을 것이고, 자연치유 효과가 덜할테니 스트레스 해소가 어려울 것이고, 당연하게도 혈압이 오르는 일이 많을 것이라는 짐작을 하였다.
  혈관이 갑자기 수축하여 발병하는 질병이니만큼 스트레스와 연관이 크지 않을까 하는 마음에 가설을 설정해보았다.

 

 

 

가설 설정 단계에선 막대 그래프를 사용하는 것이 좋을 것이라고 예상했다.

다른 동기분들의 의견을 받아 파이 차트로도 구현해보았다.

 

퍼센트지를 부여하여 파이차트로 시각화하니 미세한 차이이지만 더 보기 편했다.

 

타인을 설득하는 논리적인 근거가 될 시각화 기법을 선택할 때는 많은 사례를 보고, 많은 의견을 받아 직접 구현해보는 것이 중요하다는 것을 실감하는 계기가 되었다.

 

 

 

결과:

 

도시: 54.217%

시골: 45.783

 

시골 < 도시

 

결과는 약 10%의 차이로 도시에 사는 사람의 뇌졸중 발병위험이 더 높은 것으로 나타났다.

 

 

 

 

 

 

 

가설 3 :

3. 고혈압이 있거나, 체지방 지수(BMI)가 높거나, 흡연자이거나 뭐든 하나라도 있는 사람은 아예 없는 사람에 비해 뇌졸중 발병 확률이 높을 것이다.
    고혈압은 혈관이 수축하는 것이기 때문에 당연하다고 느껴지고, 체지방 지수 또한 높을수록 혈관을 지방으로 막을 확률이 높을 것이고, 흡연자는 니코틴과 타르로 인해 혈관의 원활한 흐름을 막을 것이라고 생각하였다. 유전지수도 있겠지만, 유전지수를 제외한다면 셋 다 해당되는 사람이라면 하나도 해당되지 않는 사람의 2배. 최소 1.7배의 확률로 뇌졸중 발병 확률이 높다고 예상된다.

 

가설 설정 단계와는 다르게 고혈압, BMI 지수, 흡연 여부를 각각 뇌졸중 발병여부와의 상관관계를 알아보고자, 각기 다른 그래프로 시각화하였다.

 

 

 

결론: 

 

고혈압 유무

 

고혈압이 있는 사람은 26.51%

고혈압이 없는 사람은 73.49%

 

 

 

BMI 지수

BMI 그래프는 막대 그래프로 시각화하였으나 유의미한 결과를 낼 수 없을만큼 고르게 분포하고 있어 BMI 지수가 영향을 준다는 결론을 낼 수 없었다.

 

 

 

 

흡연 여부

never smoked 비흡연자

formerly smoked 과거 흡연자

unknown 알수없음

smokes 흡연자

 

순서로 결론이 났다.

 

 

 

 

고혈압 여부, BMI 지수, 흡연 여부' 를 각각 분석하여 시각화한 결과 가설과는 다른 결과를 얻었다.

 

하지만 의학자료에 의하면 고혈압, 흡연, 높은 체지방 여부 모두 뇌졸중에 영향을 미친다고 하였다.

 

어째서 다른 결과가 나왔을지에 대해서 생각해보았다.

 

첫째는, 각각의 표본이 충분한 정도로 수집되지 못하였기 때문이라고 생각했다.

당연하게도 각각의 병이 있는 사람보다 없는 사람이 많을 것이기 때문이다.

 

둘째는, 애초에 시각화를 한 기반이 잘못되었기 때문이다.

하면서는 시각화가 실제로 유의미하게 실행된다는 사실에만 집중하느라 이게 맞는 결과를 가져다줄지에 대해서는 고려하지 못했다.

그러나 모든 시각화를 마치고 결론을 정리해보니 처음부터 문제가 있었다는 것을 발견하였다.

뇌졸중(Stroke)이 있는 사람과 없는 사람 전부를 시각화에 사용할 것이 아니라

있는 사람들 중에서의 각각의 비율을 봤다면 더 가설에 가까운 결론이 나지 않았을까 싶었다.

 

아쉬움을 갖고 나중에 다시 한 번 이 데이터를 시각화를 해봐야겠다는 생각과 다음부터는 힘들더라도 시각화화를! 할 것이다.가 아닌 시각화를 잘! 하는 것에 초점을 두기로, 시각화를 어떻게 해야 보다 정확한 결과를 낼 수 있을지에 집중하기로 다짐했다.

 

 

 

태블로를 사용하면서 구글링으로 많은 도움을 받았다.
유튜브도 참고하고, 문서화 되어있는 것을 보고 핸드러닝하며 같은, 비슷한 기능을 반복해서 사용하다보니 저절로 손에 익는 느낌이 들어 좋았다.

더 다양한 데이터를 가공하여 필요한 부분을 MySQL로 추출하여 보다 효율적으로 시각화한 후 대시보드를 만들어봐야겠다는 마음이 생겼다.

정신없이 시각화를 하다보니 빼먹는 부분들이 있어 시간이 지체되었다..
다음부턴 평소에 계획을 세우던 습관을 여기에도 적용시켜 리스트화 한 후 하나씩 시각화를 체계적으로 해야겠다는 생각을 했다.

 

 

 

따로 진행하고 있는 프로젝트가 있다.

 

신용카드 이용자의 대출 정도 예측을 하는 프로젝트이다.

개인적으로 데이터를 뜯어보며 다양한 변수를 세워보고 시각화해보는 중이다.

그 프로젝트는 파이썬을 이용하여 진행중이지만 태블로와 맞닿는 부분이 많아 흐름적으로 익숙해질 수 있어서 좋았다.

 

잊지 않도록 다양한 데이터를 뽑아 보고 분석하여 시각화하는 연습을 할 생각이다.

 

 

 

 

 

 

 

태블로 막대 그래프를 양방향 막대 그래프로 변환하기 위해 구글링하여 참고한 인사이트

출처 '태블로 위키'

http://tableauwiki.com/create-diverging-chart-tableau/