[DA] A/B test 자세하게 step by step 으로 알아보기
·
데이터 분석 Data Analysis/통계 Statistics
*본 포스팅은 구글 데이터 사이언티스트 출신인 DataInterview 님의 유튜브 영상을 참고해 만들어졌습니다 a/b 테스트는 기본적으로 a와 b 옵션 중 우리 프로덕트를 개선하기 위해 어떤 선택을 할 것이냐는 문제를 수치를 이용해 의사결정을 내리기 위한 과정 중 하나다. 지금까지 내가 알고 있던 a/b 테스트 메트릭은 그저.. 랜덤한 집단인 a 그룹과 b 그룹에 각각 a 행동과 b 행동을 하고, 클릭율, 전환율, 오픈율과 같은 수치를 이용해 뭐가 더 나은 것인지 판단하는 것이다. 그런데, 항상 궁금했던 점이 있다. "어디까지가 통계적으로 유의미한 지표인가", 만약 메트릭들을 비교했을 때 수치상으로 5프로 정도의 차이가 났다면 이는 통계적으로 유의미한 결과인가? , "p-value 만 참고해 의사결정을..
데이터분석에서 로그를 취하는 경우 (세상에서 제일 쉬운 설명)
·
데이터 분석 Data Analysis/통계 Statistics
우리는 가끔.... (이 아니라 사실 자주) 괴이한 데이터를 만난다. 가령 우리의 데이터는 이렇게 생길 수도 있다 ....? 혹은 이럴지도 모른다 ............? 실로 괴이한 현상이 아닐 수가 없다. 이는 내가 이번 프로젝트를 하며 실제로 만났던 데이터들의 분포다. 이런 데이터들을 우리는 " 정규분포를 따르지 않는 데이터" 라고 부른다. 정규분포는 무엇이냐? 요렇게 데이터가 예쁜 종 모양! 한쪽으로 치우치지 않은 모양을 얼추 따르면 정규분포를 따른다고들 한다. 그러니 정규분포를 따르지 않는 데이터는 내가 보여준 예시마냥 극단적으로 치우치거나. 데이터가 연속적이지 않고 두세군데 듬성듬성 있다거나 하는 문제가 있는 그냥 생겨먹은게 이상하면 정규분포를 안 따르는 데이터인거다. 애석하게도... 데이터 ..
다중선형회귀 이론과 파이썬 코드
·
데이터 분석 Data Analysis/통계 Statistics
1. Intro 지난번의 단순선형회귀에 이어 이번엔 다중선형회귀를 알아보자. 말이 어려워서 그런데 그냥 변수가 여러개면 다중선형회귀다. 마치 요렇게 생긴 데이터처럼 말이다! (킹 카운티 주택 데이터다.. 아주아주 익숙한 예제데이터) 우리는 주택 가격을 예측하고 싶고 예측을 계산하기 위한 변수로 방 개수나 방 사이즈 등을 알 수 있다. 이런 경우 변수가 다양하기 때문에 이런 회귀식을 쓸 수 있을것이다 파이썬에서 사용할 코드는 아주 간단하다. 지난번과 똑같이 타깃과 피쳐를 정해주고, 모델 선언 후 학습, 파라미터들을 찍어보면 절편과 기울기를 쉽게 알 수 있다 predictors = ['SqFtTotLiving', 'SqFtLot', 'Bathrooms', 'Bedrooms', 'BldgGrade'] outc..
단순선형회귀 이론과 파이썬 예제코드
·
데이터 분석 Data Analysis/통계 Statistics
1. Intro 데이터사이언스를 크게 나누면 지도학습/ 비지도학습 (답이 정해져있냐 아니냐) 로 나뉜다. 지도학습은 그 안에서도 보통 (예측, 분류, 강화) 요렇게 세 그룹으로 나뉘는데 이 중에서도 예측, 그리고 뭔가 일반적인 패턴에서 벗어난 이상치에 대한 "이상 검출" 은 통계와 엄청 밀접한 관계가 있다고 함! 2. 단순선형회귀 단순선형회귀는 선형회귀모델 중에서도 가장 초 심플한 함수 형태의 모델이다. X 가 증가 혹은 감소함에 따라 Y 는 어떻게 되는지를 보여주는,, 방법이지! 이 방법을 쓰면 두 변수 사이의 관계를 정량화해 나타낼 수 있음 중 1 때 우리가 배웠던 1차방정식.. 요것이 단순회귀식이다. 우리가 이때 구해야 하는 것들은 b1 (기울기) 와 b0 (절편) 이다. 그걸 알면 X 에 따라 Y..
허니비 honeybee
'데이터 분석 Data Analysis/통계 Statistics' 카테고리의 글 목록