[DE] Airflow 윈도우에 설치부터 세상에서 제일 쉬운 실습까지
·
데이터 엔지니어링/파이프라인 뚝딱뚝딱
에어플로우 이전의 ETL 기반 파이프라인은 시간을 기반으로 코드를 돌리는 스케쥴을 작업하는 원리로 이루어졌었다. 그러니까 예를 들어서, 어떤 회사의 데이터를 수집하는 코드가 A, B, C 테스크가 있다고 가정하면, A 테스크가 끝날 것으로 예상되는 시간에 B 테스크가 돌아가게끔 프로그래밍을 하는게 ETL 이라고 생각하면 된다. 이 방법은 단순하게만 생각해봐도 단점이 어마어마하게 많다 만약, 무슨일이 생길지 모르는 코드세상에 약간의 이슈가 생겨 A 테스크가 늦게 끝난다면? 근데 B 테스크가 실행되어 버렸다면..? A 가 잘 끝났는지 에러가 난건지 에러가 안 나고 적재가 이상하게 된건지 알 수 있는 방법은...? 그러다가 데이터 엔지니어링의 세계에... Airflow 라는 놈이 등장했다고... 한다 ㅎ 분석..
[시계열] 일반 머신러닝 모델로 시계열 데이터 돌리는 법
·
데이터 과학 Data Science/시계열 데이터
다들 알고 계셨나요? 주니어인 저는 이번 프로젝트 하면서 생판 처음 알게 된 사실이랍니다... 말그대로 일반 머신러닝 예측, 분류 문제를 시계열 데이터에 활용하면 된다는건데요. 딥러닝을 그닥 좋아하지 않는 저로서는 이 소식이 정말 반갑고.. 놀라워 같이 작업하신 데사분께 배워온 내용들을 기록해 두려고 합니다 우선 기본 원리는 다음과 같습니다 1. 시계열 데이터의 형태를 일반 모델에 들어갈 수 있는 수치 형태로 바꿔준다 (이때 인덱스가 날짜일 필요는 없어지며 순서만 잘 유지해주면 되는 듯 하다) 2. 하지만 그렇게 되면 시계열 모델이 가지는 장점인 (시간 순서에 따른 패턴 등을 잘 학습한다는 점) 은 사라지게되니 이를 상쇠할만한 다른 컬럼들을 생성해 주거나, (이동평균이라던지, 푸리에변환이라던지) 공휴일 ..
[Analytics] 우리 회사만의 KPI 를 만들어 보려고 합니다
·
데이터 분석 Data Analysis
나는 스타트업에서 일하는 데이터 분석가와 데이터 사이언티스트 그 사이의 일을 하고 있다. 최근에 회사 내외부용으로 쓸 수 있는 중요한 지수인 KPI (Key Performance Indicator, KPI) 를 만드는 것을 고민하다가 내가 발견하고 테스트해본 방법들을 기록하기 위해 이 포스팅을 써보려고 한다 우선 당연히 지수를 만드는데 딱 어떻다할 정해진 방법은 없다. 너무나 당연히. 비즈니스에서 어떤 가치에 초점을 둘 것이냐는 문제로 직결되기 때문에 지수를 활용할 주체의 사람들과 다같이 이야기해봐야 좋은 결론이 날 수 있다. 이번 시즌에 이 프로젝트에서 분석가인 나의 role 은 수학적으로 어떻게 하면 좀 더 안정적인 지수를 만들지 연구하고 테스트해서 합의점을 찾는 부분이었음. 1.항목별 가중치에 대해..
[시계열] 시계열 모델 기초(3) - 다변량 시계열 ARCH, GARCH 모델
·
카테고리 없음
*실무에서 많이 쓰는 모델은 아니나 개념적으로 알고 있어야 하는 모델 변동성 시계열 모델은 불안정 시계열 모델들과 기본적으로 가지는 가정 자체가 다르다. 다변량 시계열 모델은 기본적으로 훨씬 더 제한적인 통계적 속성 하의 제한들을 가지고 있다. 따라서 범용성이 낮은 모델이며, 이 모델을 쓸 수 있는 데이터 역시 제한적이라는 것을 알고 가자. 복잡도가 높은 모델일수록 그러함. 지금까지 봤던 모형들은 (ARIMA 이하) 기본적인 가정이 정규분포를 따르고, 등분산성을 따른다는 것이었다. 하지만 변동성 모형의 기본 가정은 말그대로 "변동성이 존재하고" 그 변동성이 시간에 따라 크거나 작아질 수 있다는 것이다. (금융시계열 데이터에서 주로 나타나는 패턴이고, 거시경제 학자들이 이 데이터를 예측하기 위해 만든 모델..
[태블로] 태블로 API 이용해 자동화하기 (feat. pdf 추출 자동화)
·
데이터 분석 Data Analysis/Tableau
태블로 자동화 가능한가요 ! 네 가능합니다!! 유로 버젼만 가능하고 유료 버젼에서 쓸 수 있는 태블로 서버랑 파이썬 라이브러리를 API 로 연결해서 할 수 있어요! 이걸로 반복문을 돌릴 수 있게 되었습니다 우리는.. 데이터를 리프레쉬해서 만드는것도 되구요 저처럼 pdf 추출 자동화도 가능함! 그런데 한국어로 된 이걸 잘 설명해주는 문서가 없어서 제가 씁니다... 태블로 이시키들 한국 지사를 안 가지고 있어요 ㅠ ㅠ salesforce 한국쪽에다가 전화하면 영업팀만 받고 기술지원팀은 나몰라라야 뭔가 궁금한거 물어보려면 일본 지사 사람이랑 컨택해야돼 (근데 한국인 담당자가 있음) 저는 유료판 구매에서 라이선스부터 애를 먹고 태블로 측과 많은 멜을 주고 받았어요 하지만 도움이 되지는 않았답니다 ㅋㅋㅋㅋㅋㅋㅋㅋ..
[python][프로그래머스_lv1] 기사단원의 무기 (feat. 공약수)
·
카테고리 없음
오늘도 효율성은 개나 줘버린 나의 첫 코드 그냥 의식의 흐름대로 짰는데 파이썬 문법 연습한다 생각하고 ㅋㅋㅋ 효율성 테스트에서 실패 ~ 넌 왜그렇게 인내심이 없는거니? def solution(number, limit, power): #약수 개수 리스트 구하기 li = [] for j in range (1, number+1): count = 0 for i in range(1, j+1): if j%i == 0: count += 1 li.append(count) #제한보다 큰 것은 바꿔주고 합계 리턴 for i in range(len(li)): if li[i] > limit: li[i] = power return sum(li) 약수의 개수 구하는 부분에서 이중 포문을 쓰면서 시간초과가 된 것 같다 근데 아무리..
허니비 honeybee
Growth Vibes Only