“새빨간 거짓말, 통계”는 “정부나 언론, 여론조사기관 등 다양한 기관들이 보여주는 통계 수치에 속아 이용당하지 않기 위해서 반드시 읽어야 하는 책이다. 꽤 오래 전에 출간돼 스테디셀러로 꾸준하게 사랑을 받아온 책이지만 21세기에도 조금도 시대에 뒤떨어진다는 생각이 들지 않으며, 오히려 꼭 들어맞는다는 생각을 갖게 한다”고 빌 게이츠는 이야기 한다.
이렇게 빌게이츠가 추천한 도서로도 유명하고, 데이터리안의 추천도서로 선정되어 있길래 읽어본 책입니다.
1장. 언제나 의심스러운 여론조사(표본추출의 오류)
과연, 해당 표본이 모집단을 완벽히 대표할 수 있을까? → NO
2장. 평균은 하나가 아니다
평균의 모호함(산술평균, 중앙값, 최빈값)
소득의 분포는 정규분포를 따르지 않음(보통 오른쪽으로 꼬리가 긴 분포)
평균으로 계산한 범위가 어디까지인지(일용직, 알바 or 경영진 포함 된건지?)
3장. 작은 숫자를 생략하여 사기 치는 법
‘도크스 회사의 치약으로 23% 충치 감소’
→ 통계적으로 불충분한 표본을 채택 (단지,12명을 대상으로 실험한 결과였음)
시행 횟수가 충분히 커야만 여러 현상을 제대로 설명하거나 쓸모 있는 예측을 할 수 있게 된다
산포를 빼먹음으로 사람들에게 혼란을 주기도 함
그래프에 속지 마라(축의 숫자를 알려주지 않음으로 사람들을 속임)
4장. 쓸데없는 숫자로 벌어지는 헛소동
모든 표본 추출에 잠재적으로 포함되어 있는 이 오차의 개념을 무시해 버리면 정말 어처구니없는 잘못을 저지르게 되는 경우가 허다하다
5장. 사람 눈을 속이는 그래프
그래프의 힘은 막강하다
그 누구도 그래프에 대해 트집 잡는 일은 없을 것이다
그래프의 일부분을 자르므로 시각적으로 과장할 수 있다
6장. 백문이 불여일견이라고? 천만에
도표는 매우 자연스럽게 우회적으로 남을 속이는 능수능란한 거짓말쟁이
7장. 아전인수를 위한 마구잡이 통계
아전인수 격으로 꾸며내어 갖다 붙인 숫자들은 당신을 언제나 유리한 위치에 놓이게 해주는 훌륭한 도구들이다.
연관이 없는 숫자로 그럴듯하게 만들어 사람들을 속이려 든다
어떤 숫자이건 간에 그것을 표현하는 방법은 여러 가지가 있다
이 많은 표현방법 중에서 원하는 목적에 가장 알맞은 것을 골라 쓰면 되는 것이다
억지 숫자가 전부 사람들을 속이기 위해서 만들어진 것은 아니다.
일관성 부족으로 왜곡되어 있는 경우도 허다하다(ex: 1930년대 미국 남부 말라리아는 감기나 몸살을 나타내는 일상용어로 사용됨)
8장. 통계도 논리이다
흡연과 성적의 연구는 전형적인 전후관계를 인과관계로 오인한 실험이다
가장 주의를 요하는 상관관계는 어떤 변수도 다른 변수에 대하여 아무런 영향이 없지만 두 변수 사이에는 분명히 어떤 상관관계가 존재하는 경우
상관관계에 관해 경계해야할 점은 그 상관관계를 뒷받침하는 데이터의 범위를 넘어서까지 그 상관관계가 지속해서 성립할 것이라고 추측하는 일이다.
전후관계와 인과관계를 혼동하는 일은 빈번하다
상관관계가 사건의 경과나 시대적인 경향에 의해서 생겨난 종류의 것이 아닌가를 조사할 필요가 있다
9장. 통계를 조작하는 법
통계적 데이터를 가장 교활하게 잘못 나타내는 방법 중의 하나로 지도를 이용하는 방법이 있다.
소수를 사용하면 정확하다는 인상을 주는 것처럼 백분율도 정확함이라는 향기를 뿌려 부정확함이라는 악취를 감춘다.
속기 쉬운 것은 백분율과 백분율점(퍼센트포인트)을 혼동하는 데서 오는 착각이다.
때로는 논쟁의 핵심이 그래프로 표현된 것처럼 간단하지 않다는 것을 지적하는 것만으로도 상당한 도움이 될 때도 있다
통계의 기초는 수학이지만 그 실제 내용은 과학이면서 동시에 예술이기도 하다.
주어진 범위 내에서 여러 가지 조작이나 왜곡이 가능하기 때문이다.
따라서 때때로 통계학자들은 어떤 사실을 설명하기 위해서 주관적으로 판단하여 자신에게 알맞은 방법을 선택해야만 한다.
10장. 통계의 속임수를 피하는 다섯 가지 열쇠
- 누가 발표했는가? 출처를 캐 봐야 한다
- 어떤 방법으로 알게 되었는지 조사 방법에 주의해야 한다
- 빠진 데이터는 없는지 숨겨진 자료를 찾아 보아야 한다
- 표본의 크기가 얼마인지
- 상관관계에서 신뢰도가 얼마인지
- 편차가 명시되어 있지 않은 평균값에 대해 주의
- 비교할 다른 숫자가 빠져 있기 때문에 아무런 의미가 없는 숫자들이 많다
- 백분율만 발표하고 실제 숫자는 빠져 있는 경우도 있는데, 이것도 일종의 속임수다
- 내용이 뒤바뀐 것은 아닐지 쟁점 바꿔치기에 주의해야 한다
- 상식적으로 말이 되는 이야기인가 살펴 봐야한다. 석연치 않은 부분은 조사해라.
- ‘약 40달러’보다 ‘40.13달러’가 훨씬 그럴듯하게 들린다
'독후감' 카테고리의 다른 글
왜 일하는가 - 이나모리 가즈오 (3) | 2024.10.25 |
---|---|
빅데이터 시대, 성과를 이끌어 내는 데이터 문해력 - 카시와기 요시키 (5) | 2024.09.03 |