패스트캠퍼스 BDA 부트캠프 11기로 23.10.23 ~ 24.03.15까지 약 6개월의 긴 여정이 예정되어 있습니다.
앞으로 매주의 학습한 활동들을 정리해서 포스트를 할 예정입니다.
23.10.26
데이터 리터러시 : 단순히 데이터를 읽고, 쓸 수 있는 것만이 아닌, 데이터를 구조적, 상황적 등 다양한 관점에서 이해하고 활용할 수 있는 능력
문제, 원인 정의
문제 : 지금 일어나는 현상
원인 : 문제 일으키는 이유
최종적으로 -> '내가 생각하는 나만의 데이터 분석에 대한 정의?' 만들어야함
데이터 분석의 목적 : 인사이트 도출!
국내에서 신입으로 DS 하기 현실적으로 힘듬
기업에서는 시티즌 데이터 사이언티스트들을 키우려고 함
일반적으로 지도학습(정답을 알고 하는 학습)이 많이 쓰임
adsp sqld 준비해보자!
빅분기(adsp + @ 느낌) 추천!
책은 아무거나 이쁜거로 사서 준비하자(크게 중요치 않다)
배려심이 많다 → 다른 사람들이 이해하기 쉽게 만든다
시각화가 중요하다!!(아무리 중요하고 잘 만든 컨텐츠여도 눈에 잘 들어와야)
요즘은 제네럴리스트들을 찾는 추세
ctrl + shift + ~ : 반점을 빼는 단축키.
ctrl + shift + 1: 숫자에 반점만 찍는 단축키
ctrl + shift + 숫자키 : 표시형식을 변환시키는 단축키들임.
ctrl space : 열을 잡는 단축키
shift space : 행을 잡는 단축
ctrl - : 행열 삭제
ctrl shift + : 행열 추가
ctrl 방향키 : 연속된 데이터로 이동함
shift 방향키 : 드래그와 동일
병합하고 가운데 맞춤은 쓰지 마세요!(셀의 서식이 깨지기 때문에)
ctrl + 1 → 셀 서식 → 맞춤 → 가로(선택영역의 가운데)
엑셀의 기본 원리 :
행, 열, 셀
상대참조 : 함수를 복사/붙여넣기 할 때 참조도니 셀이 함께 이동하는 참조
수식을 복사해 한 칸 밑으로 복사/붙여넣기 하면 참조된 셀도 한 칸 씩 밑으로 이동
절대참조 : 함수를 복사/붙여넣기 해도 참조된 셀이 이동하지 않는 참조
수식을 복사해 한 칸 밑으로 복사/붙여넣기 해도 참조된 셀이 이동하지 않음
F4키 1번 눌러서 A와 E를 잠금.
혼합참조 : 한 셀의 열 또는 행에만 절대 참조가 걸려있고 다른 하나는 상대 참조인 참조
= $A1 + $B1 F4키 3번 → 열은 절대 참조, 행은 상대 참조
= A$1 + B$1 F4키 2번 → 열은 상대 참조, 행은 절대 참조.
혼합참조가 중요
빠른실행도구모음
편리한 7가지 : 합계, 수식 붙여넣기, 값 붙여넣기, 서식 붙여넣기, 화면에 보이는 셀 선택,
틀 고정, 병합하고 가운데 맞춤
sum을 쓸 때도 엔터키가 아니라 tab키로 해야
ctrl+ 9 : 행 숨기기
ctrl+ shift + 9 : 행 숨기기 취소.
ctrl+ 0 : 열 숨기기
열숨기기 취소는 윈도우는 열 클릭해서 해야함
23.10.27
선형대수학 몰라도 데싸 할 수 있지만, 가슴이 아플수있다...(데싸대학원 교수님 피셜)
피벗테이블에 시그마값에 sales를 더 추가해서 값필드설정 →값표시형식→ 열에대한합계비율
피벗테이블 삽입 → 슬라이서 삽입
피벗테이블에서 행과 열과 값을 정하는 것이 중요하다
왜 적지? →기록적인 한파였네 / 왜 많지? → 겨울인데도 15도 나옴
∴ 따릉이 이용자 수는 온도와 관련이 있구나!!
결측치 처리 방법은 주관적임 → 정답이 없음
1. 제거 : 가장 쉽고 간단한 방식. 결측치의 비율이 어느 정도냐에 따라 판단할 것
10% 미만 이여도 제거 가능할 때도 있고 가능 안 될 때도 있음
2. 치환 : 적당한 방법으로 대체하는 것
데이터와 관련된 도메인 지식이 있어야 정확하게 결측치 대체 가능
3. 모델 기반 처리 : 결측치를 예측하는 새로운 모델을 구성해, 결측치 채워 나가는 방식
이상치(outlier) : 특정 지정된 그룹에 분류되지 못하는 값으로, 정상군의 상한과 하한의 범위를 벗어나 있거나 패턴에서 벗어난 수치 → 일반적으로 -3 * 표준편차 미만, +3 * 표준편차 초과인 값을 이상치로 판정
박스플랏 : 이상치의 존재유무 확인할 때 사용
sted.p :모집단의 표준편차
boxplot 그리기 : 데이터들 선택 → 삽입 → 상자 수염 그리기
상관 분석에서 가장 유의해야 할 점 : 강한 상관관계를 가지고 있다고 해서 두 변수가 반드시 인과관계를 가지는 것은 아님! → 상관관계를 인과관계로 확대 해석해서는 안 됨!
but, 그럼에도 상관 분석하는 이유는 강한 인과관계 있으면 강력한 상관관계를 보여줌
데이터 → 데이터분석 → 상관분석
1은 지우고 홈 → 조건부 서식 → 규칙관리 → 3가지 색조 → 숫자로 변경 → 최소 -1 최대 1로 변경
결과보니 평균이 0.65로 시각화 했을때 무엇이 중요한지 눈에 들어오지 않음
그래서 2가지 색조로 바꾸고 최소를 0.65로 변경하면 훨씬 눈에 잘 보임!
모든 기술은 사람을 향해야 한다
감동이나 자극을 주는 2가지 방법
- 새로운 것을 말한다 but 새로운 것 말하기는 힘듬
- 기존에 있는 것을 다르게 말한다
ex) 커뮤니케이션, 소통 →내가 웃어야 거울도 웃는다
소수점 두 번째 자리까지 표현하는 법 : ctrl + 1→ 셀서식 → 사용자지정 → 0.00 입력
산점도 그리기 : 삽입 → 산점도 → 빈 칸 오른족 클릭 → 데이터선택
데이터 전처리가 데이터 분석 과정 중 가장 많은 시간과 비용이 필요한 과정(60~80%)
“Garbage in, Garbage out”
[ ] 는 생략가능
IF 함수를 N번 중첩 사용하면 데이터가 N+1 가지로 구분
VLOOKUP 함수 : 공통 열을 기준으로 n번째 있는 데이터를 불러오는 함수
MATCH 함수는 하나의 열 또는 행만 잡아서해야함
COUNT 함수 : 특정 범위에서 숫자 데이터가 들어가 있는 셀의 개수
COUNTA : 특정 범위에서 데어터가 들어있는 셀의 개수
COUNTBLANK : 특정 범위에서 비어 있는 셀의 개수
COUNTIF : 특정 범위에서 하나의 조건을 만족하는 셀의 개수
*일반적으로 함수 안에 부등식을 사용할 때 따로 “”를 붙이지 않지만, COUNTIF 등의 함수의 조건으로 사용 할 때는 “”를 붙여야함
→ 불완전한 부등식일 때는 “” 붙인다!
ex) 완전한 부등식 : IF(A1≥90)
COUNTIFS는 조건 1개 일 때도 사용 가능하니 COUNTIFS 사용을 생활화 하자
'[패캠] 데이터분석 부트캠프 > 수업 정리' 카테고리의 다른 글
패스트캠퍼스 BDA 부트캠프 | 7주차 과정(MySQL) (0) | 2024.09.04 |
---|---|
패스트캠퍼스 BDA 부트캠프 | 6주차 과정(MySQL) (1) | 2024.09.04 |
패스트캠퍼스 BDA 부트캠프 | 4주차 과정(파이썬) (0) | 2024.09.04 |
패스트캠퍼스 BDA 부트캠프 | 3주차 과정(파이썬) (0) | 2024.09.04 |
패스트캠퍼스 BDA 부트캠프 | 2주차 과정(엑셀) (1) | 2024.09.03 |