[Airflow] Airflow 랑 GCP 연동시키기 (초보자용 세팅 설명)
·
데이터 엔지니어링/airflow
* 해당 게시글은 airflow 설치와 local 에서 작동이 잘 되고있는 상태라고 가정하고 작성한 글입니다. 혹시 설치부터 막힌다면 이전에 포스팅한 글을 참고해주세요! 에어플로우로 데이터 처리 자동화 작업을 해보려 한다. 에어플로우는 웬만한 3rd party 제품과의 연결을 지원하는데, 나는 익숙하게 사용하는 GCP 를 이용해보려고 한다. 먼저 gcp 에 가입을 해준다. 뭐라도 쓰려면 일단 무료 평가판을 구매해야 하는데, 실습을 위한 용량은 충분히 제공하기 때문에 걱정하지 않아도 됨. GCP > BigQuery 에 들어와서 데이터 세트 만들기를 눌러준다 아이디를 설정하고 세트를 만들고 나면 다음과 같은 화면이 뜬다 점 세개를 누르면 정보들을 확인할 수 있다 이번에는 클라우드 스토리지 > 버킷 으로 넘어..
[DE] IT 기업들의 Kafka 활용 사례집 모음
·
데이터 엔지니어링/파이프라인 뚝딱뚝딱
Kafka 를 공부하면서 IT 기업들이 어떤식으로, 어떤 프로젝트에서 Kafka 를 사용하는지 궁금해져 테크블로그들을 뒤져 찾아봤다. 재밌게 읽었던 테크블로그 아티클들 모음 1. 리디 https://ridicorp.com/story/how-to-use-kafka-in-ridi/ 리디에서 Kafka를 사용하는 법 - 리디주식회사 RIDI Corporation 2020년부터 리디는 내부 API를 활용하던 마이크로 서비스들 간의 통합을 점차 분산 데이터 스트리밍 플랫폼 'Apache Kafka' 기반으로 옮겨가고 있습니다. 리디는 Kafka를 어떻게 활용하고 있을까요? ridicorp.com 2. 라인 https://engineering.linecorp.com/ko/blog/how-to-use-kafka-in..
[DE] Kafka 작동 원리부터 기본 개념 세상 제일 쉬운 설명
·
데이터 엔지니어링/파이프라인 뚝딱뚝딱
1. 원래 우리는 데이터 파이프라인을 어떻게 만들었나 Kafka 가 있기 전의 전통적인 데이터 아키텍쳐는 Rest API 처럼 Api 요청을 보내고, 데이터를 받아와서 Data Lake 를 구축하곤 하는 방식을 주로 사용했었다. 그런데, 이 방식은 데이터 파이프라인이 복잡해지면 복잡해질수록 신뢰도가 점점 떨어지고, 저 연결고리가 복잡하다면 어떤 에러가 발생했을 때, 어디에서 에러가 나는지 모니터링하기도 어렵다는 단점이 있다. 그래서 이 복잡도를 낮춰줄 중간 단계로서 Kafka 가 등장한 것인데,... 쉽게 생각해 Data Lake 에 넘어가기 전 단계에 이 프로세스들을 한데로 연결할 중간 고리를 만들었다고 생각하면 된다 이렇게 파이프라인을 구축하면, 복잡도가 선형적으로 상승하기 때문에 확장성이 좋고, 새..
[DE] 웹 스크래핑 자동화 솔루션 BrightData 튜토리얼 실습해보기
·
데이터 엔지니어링/파이프라인 뚝딱뚝딱
아직 우리나라 기업들은 쓰는 곳을 많이 보진 못한 것 같은데, 너무나 어마어마해서 놀라웠던 자동 스크래핑 Sass 툴 하나를 소개하겠다! 바로 Brightdata https://brightdata.com/ Bright Data - The World's #1 Web Data Platform Award winning proxy networks, powerful web scrapers, and ready-to-use datasets for download. Welcome to the world's #1 web data platform. brightdata.com 대충 홈페이지를 들어가 보면 이런 영역으로 사업을 전개중인 것 같다. 스크래핑 자동화 툴이 대표적인 툴이고, 그들이 만든 데이터를 팔고 대시보드 구성..
허니비 honeybee
'데이터 엔지니어링' 카테고리의 글 목록 (3 Page)