새빨간 거짓말, 통계 - 대럴 허프
·
독후감
“새빨간 거짓말, 통계”는 “정부나 언론, 여론조사기관 등 다양한 기관들이 보여주는 통계 수치에 속아 이용당하지 않기 위해서 반드시 읽어야 하는 책이다. 꽤 오래 전에 출간돼 스테디셀러로 꾸준하게 사랑을 받아온 책이지만 21세기에도 조금도 시대에 뒤떨어진다는 생각이 들지 않으며, 오히려 꼭 들어맞는다는 생각을 갖게 한다”고 빌 게이츠는 이야기 한다.이렇게 빌게이츠가 추천한 도서로도 유명하고, 데이터리안의 추천도서로 선정되어 있길래 읽어본 책입니다. 1장. 언제나 의심스러운 여론조사(표본추출의 오류)과연, 해당 표본이 모집단을 완벽히 대표할 수 있을까? → NO 2장. 평균은 하나가 아니다평균의 모호함(산술평균, 중앙값, 최빈값)소득의 분포는 정규분포를 따르지 않음(보통 오른쪽으로 꼬리가 긴 분포)평균으로..
통계전산처리 - 10주차(이산분포, 정규성검정, 모의실험)
·
파이썬/통계전산처리
4.2 이산분포4.2.1 베르누이 분포와 이항분포import numpy as npfrom scipy import stats as stfrom matplotlib import pyplot as pltst.binom.pmf(n=10,p=0.3,k=[0,1,2,3,4,5])# 예제 4.2.1 (b)# x값이 (1,3,6)일 경우 각 값까지의 누적확률 구하기np.round(st.binom.cdf(n=10,p=0.3,k=[1,3,6]),3)# 예제 4.2.1 (c)# 0.2, 0.5, 0.8의 누적확률을 갖는 확률변수값 구하기st.binom.ppf(n=10,p=0.3,q=[0.2,0.5,0.8])# 예제 4.2.1 (d)# 이항분포 B(10, 0.3)를 따르는 난수 5개 얻기st.binom.rvs(n=10,p=0..
통계전산처리 - 9주차(연속분포)
·
파이썬/통계전산처리
import numpy as npfrom scipy import stats as stfrom matplotlib import pyplot as pltmu=0sigma=1x=np.linspace(mu-4*sigma,mu+4*sigma,100) # 표준정규분포 x값의 범위 -4 ~ +4y=st.norm.pdf(x,mu,sigma) # 정규분포에 의한 확률밀도함수의 값xx=np.linspace(mu-4*sigma,mu-1*sigma,100) # P(Z​mu=0sigma=1x=np.linspace(mu-4*sigma,mu+4*sigma,100) # 표준정규분포 x값의 범위 -4 ~ +4y=st.norm.pdf(x,mu,sigma) # 정규분포에 의한 확률밀도함수의 값xx=np.linspace(mu-1*sigma..
통계전산처리 - 7주차 (다양한 시각화)
·
파이썬/통계전산처리
import pandas as pdimport numpy as npimport seaborn as snsfrom matplotlib import pyplot as pltactivities=['eat','sleep','work','play']slices=[3,7,8,6]colors=['r','y','g','b']plt.pie(slices,labels=activities, colors=colors, startangle=90, shadow=True, explode=(0,0,0.1,0), radius=1.2, autopct='%1.1f%%')plt.legend()plt.show()​color='cornflowerblue'points=np.ones(5)text_style=dict(horizo..
패스트캠퍼스 BDA 부트캠프 | 태블로 프로젝트(30대 중반 미혼 직장인을 위한 서울 아파트 추천)
·
[패캠] 데이터분석 부트캠프/프로젝트
태블로 프로젝트는 24.01.08~24.01.18 까지 진행했던 프로젝트였습니다.태블로가 시각화를 쉽게 할 수 있는 좋은 툴이지만, 이번에 처음 접하기도 했고 보기와는 다르게(쉬운거 같은데) 깊이 들어가면 어렵다는 것을 알게 되었습니다.태블로도 자유자재로 사용하려면 많은 연습이 필요할 것 같다고 느꼈습니다...​​강사님 피드백 :94 / 100프로젝트를 돌이켜보며주제를 선정하는데 가장 많은 시간이 걸렸던 프로젝트였습니다. 다양한 의견들이 나왔지만 데이터를 구할수 없다던가, 부동산과 관련된 다양한 변수들을 고려하자니 우리가 부동산 전문가는 아니기에 적절하지 못할 것 같다고 생각하였습니다. 진부한 주제이기는 하지만 직장인들에게 아파트를 추천하자는 주제를 발의하였고 채택된 이후 분석을 진행하였습니다.그리고 기..
패스트캠퍼스 BDA 부트캠프 | 11주차 과정(Tableau)
·
[패캠] 데이터분석 부트캠프/수업 정리
24.01.02표 만들기테이블 2개로 표 만들고, 원하는 측정값을 드래그앤 드랍!표를 통해서 확인하고 싶다는 니즈는 여전히 있음​표현방식으로 그리기 : 복수 개 선택 → 표현방식 우측 상단 클릭!시각화 자료 크기 조절 : crtl + 방향키테이블의 색깔 편집 : 범주 부분의 색깔 더블 클릭검은색 동그라미에 있는 색깔 클릭!이런식으로 할려면 측정값들을 기존 측정값에다가 드래그앤 드랍!​열마다 다르게 칠하기 : 측정값 텍스트를 crtl 누른채로 색상에 밀어 넣음 → 색상 우클릭 → ‘별도의 범례 사용’ 우클릭 칸에다 칠하는 것을 지저분하다고 생각하는 사람들도 있다이런식으로 강조 안 하고 싶은 것은 ‘사용자 지정 다중’ 으로 설정해서 양쪽 다 검은색으로 칠하면 됨불필요한 것들은 삭제하자!​퍼센트로 표시하기 :..
패스트캠퍼스 BDA 부트캠프 | 10주차 과정(Tableau)
·
[패캠] 데이터분석 부트캠프/수업 정리
23.12.27태블로는 큰 덩어리를 먼저 보여주고 썰어가면서 보고 싶은 방식으로 만들어가면 된다!강사님이 생각하는 데이터 분석 이유 : 패턴을 찾기 위해서!그려놓고 그것을 해석할 수 있느냐가 중요함!​색 지정 : 범례에 해당하는 범주 클릭 → 데이터 항목 선택에서 원하는 범주 클릭 → 색상 지정기본 숫자표현 방식 바꾸기 : Sales 우클릭 → 기본 속성 → 숫자형식해당 화면에서만 숫자표현 방식 바꾸기 : 열/행 에 있는 곳에서 우클릭 → 서식 → 패널 → 숫자 → 조정하기​파란색 알약은 불연속형초록색 알약은 연속형불연속을 연속으로 바꾸기 : 파란색알약 우클릭 → 아래에 있는 날짜를 체크마우스 오른쪽으로 드래그 앤 드랍 : 연속형 / 불연속형 선택 가능​라인차트 와 영역차트는 조금 다름범주를 추가하게 되..
패스트캠퍼스 BDA 부트캠프 | SQL 프로젝트 (Olist seller의 매출 증대 방안 모색)
·
[패캠] 데이터분석 부트캠프/프로젝트
23.12.14~23.12.26 까지 진행을 한 SQL 프로젝트입니다.짧은 기간동안 피드백도 자주 받으며 힘들기도 했지만 이번 프로젝트를 통해 개인적으로 얻은 것도 많고, 현업에서의 데이터 분석 과정을 약간이라도 체험해 볼 수 있었던 기회였던거 같습니다.​강사님 피드백 :
패스트캠퍼스 BDA 부트캠프 | 7주차 과정(MySQL)
·
[패캠] 데이터분석 부트캠프/수업 정리
23.12.04HAVING조건은 WHERE절에서 사용하는데 HAVING은 왜 사용하지?WHERE절에서는 집계함수를 사용할 수 없기에 HAVING절을 사용해야함SELECT provider FROM items GROUP BY providerHAVING COUNT(*)>=100;  SQL 실행 순서FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY​JOINJOIN은 두 개 이상의 테이블로부터 필요한 데이터를 연결해 하나의 포괄적인 구조로 결합시키는 연산JOIN은 다음과 같이 세분화될 수 있지만, 보통은 INNER JOIN을 많이 사용함INNER JOIN : 두 테이블에 해당 필드값이 매칭되는 (두 테이블의 모든 필드로 구성된) 레코드만 가져옴 (일종의 교집합)LEFT..
패스트캠퍼스 BDA 부트캠프 | 6주차 과정(MySQL)
·
[패캠] 데이터분석 부트캠프/수업 정리
23.11.30관계형 데이터베이스(relational data base)란 데이터를 계층 구조가 아닌 단순한 표(릴레이션 ; 관계)로 표현하는 형식의 데이터 베이스표(table)로 자유롭게 가로세로의 항목(item)을 액세스할 수 있도록 되어 있다이용자는 「표」의 분할, 결합을 자유롭게 할 수 있고, 표로의 추가, 변경도 다른 영향을 받지 않게 행할 수 있다(출처: 네이버 지식백과)​데이터베이스란 테이블을 저장해두는 저장소​#, --(마이너스 2개) : 주석​/**/ : 으로 한꺼번에 주석처리 가능​MySQL에서는 해당 저장 공간에서 미리 정해둔 데이터 타입이 아닐 경우, 데이터 저장이 불가능함.​데이터 타입:숫자형 데이터는 '수', 따라서 데이터 간 연산이 가능문자형 데이터는 반드시 "" 또는 '' 와..
패스트캠퍼스 BDA 부트캠프 | 4주차 과정(파이썬)
·
[패캠] 데이터분석 부트캠프/수업 정리
23.11.10예제 3)1. 하나의 정수를 입력 받는다.2. while문을 이용하여 1부터 입력받은 수까지 더하는 코드 작성.예제5)총 5명의 학생이 시험을 봐 시험 점수가 60점 이상이면 합격 그렇지 않으면 불합격이다.합격인지 불합격인지 결과를 표시하는 코드 작성.(점수:[90,32,69,44,88])★ 예제9 (윤년문제)연도를 입력받아 윤년 판단하는 코드를 작성해라. (개인적으로 이 코드 짜는 것이 오늘 수업 중 가장 어려웠)윤년규칙: 연도가 4로 나누어 떨어지면 윤년이 중에 100으로 나누어 떨어지면 평년그 중 400으로 나누어 떨어지면 윤년​ # 윤년 문제def is_leap(year): # Check if the year is divisible by 4 if year % 4 == 0:..
패스트캠퍼스 BDA 부트캠프 | 3주차 과정(파이썬)
·
[패캠] 데이터분석 부트캠프/수업 정리
23.11.03 프로그램 작성의 5단계문제 이해변수 고민구조 고민코딩검증​=과 == 혼동하지 말기=은 ==은 양쪽이 같다는 의미​변수의 이름의미 있는 이름을 사용소문자와 대문자는 서로 다르게 취급한다변수의 이름은 영문자와 숫자, 밑줄(_)로 이루어진다변수의 이름 중간에 공백이 들어가면 안 된다. 단어를 구분하려면 밑줄(_)을 사용 ​변수삭제 : del 변수빈 변수 만들기 : None을 할당파이썬에서 None은 아무 것도 없는 상태를 나타내는 자료형​사용자가 입력한 값을 어떤 변수에 대입하고 싶을 때 : input() +) input은 뭐든 str로 받아온다!입력값을 여러 개의 변수에 저장하기 : .split()​​​int는 각각 해줘야함 -> 한꺼번에 하려면 map을 이용하자!​sep로 값 사이에 문자 ..