반응형
집단 크기가 다르면 가중치를 고려해서 계산해야된다.
예시 1)
1. 집단 A -> 3,4,5,8
2. 집단 B -> 5,6,7,8,10
집단 A와 B의 평균은 각각 5, 8이 됨.
그런데 각 집단의 크기가 4개, 5개로 다름 -> 각 집단의 평균을 그 집단의 크기로 가중해서 구해야 됨.
이는 가중평균이라고 함.
집단 A의 가중치는 4/(4+5)가 되고, 집단 B의 가중치는 5(4+5) rk ehla. -> 결론으로 전체 집단의 평균은 4/9 X 5 + 5/9X8=6.8이 됨.
예시 2)
상류층에서 애완견을 기르는 가구의 비율 -> 40%
중산층 이하에서 애완견을 기르는 가구의 비율 -> 20%
가중평균? -> 전체가구에서 상류층과 중산층 이하 가구가 차지하는 크기로 가중평균을 내야됨
상류층 비중은 15%, 중산층 이하가 85%라면,
전체 가구 중 애완견을 기르는 가구의 비율은 0.15 x 40% + 0.85 x 20% =23%가 됨.
심프슨의 역설이란 동일하지 않는 가중치를 적용함에 따라 부분에 대한 분석 결과와 전체에 대한 분석 결과가 일치하지 않는 현상을 말함.
반응형
'데이터분석' 카테고리의 다른 글
[게임업계] 데이터 분석 채용공고 현황 (0) | 2018.06.03 |
---|---|
유명 게임 데이터 분석가 블로그 주소 모음 (0) | 2017.07.30 |
데이터 분석 전문가 되는 방법 (0) | 2017.07.30 |
[방법론] 데이터 분석 6가지 유형 (0) | 2017.07.30 |
엔씨소프트 데이터 분석 (0) | 2017.02.28 |
댓글