[DE] IT 기업들의 Kafka 활용 사례집 모음
·
데이터 엔지니어링/파이프라인 뚝딱뚝딱
Kafka 를 공부하면서 IT 기업들이 어떤식으로, 어떤 프로젝트에서 Kafka 를 사용하는지 궁금해져 테크블로그들을 뒤져 찾아봤다. 재밌게 읽었던 테크블로그 아티클들 모음 1. 리디 https://ridicorp.com/story/how-to-use-kafka-in-ridi/ 리디에서 Kafka를 사용하는 법 - 리디주식회사 RIDI Corporation 2020년부터 리디는 내부 API를 활용하던 마이크로 서비스들 간의 통합을 점차 분산 데이터 스트리밍 플랫폼 'Apache Kafka' 기반으로 옮겨가고 있습니다. 리디는 Kafka를 어떻게 활용하고 있을까요? ridicorp.com 2. 라인 https://engineering.linecorp.com/ko/blog/how-to-use-kafka-in..
[DE] Kafka 작동 원리부터 기본 개념 세상 제일 쉬운 설명
·
데이터 엔지니어링/파이프라인 뚝딱뚝딱
1. 원래 우리는 데이터 파이프라인을 어떻게 만들었나 Kafka 가 있기 전의 전통적인 데이터 아키텍쳐는 Rest API 처럼 Api 요청을 보내고, 데이터를 받아와서 Data Lake 를 구축하곤 하는 방식을 주로 사용했었다. 그런데, 이 방식은 데이터 파이프라인이 복잡해지면 복잡해질수록 신뢰도가 점점 떨어지고, 저 연결고리가 복잡하다면 어떤 에러가 발생했을 때, 어디에서 에러가 나는지 모니터링하기도 어렵다는 단점이 있다. 그래서 이 복잡도를 낮춰줄 중간 단계로서 Kafka 가 등장한 것인데,... 쉽게 생각해 Data Lake 에 넘어가기 전 단계에 이 프로세스들을 한데로 연결할 중간 고리를 만들었다고 생각하면 된다 이렇게 파이프라인을 구축하면, 복잡도가 선형적으로 상승하기 때문에 확장성이 좋고, 새..
[DE] 웹 스크래핑 자동화 솔루션 BrightData 튜토리얼 실습해보기
·
데이터 엔지니어링/파이프라인 뚝딱뚝딱
아직 우리나라 기업들은 쓰는 곳을 많이 보진 못한 것 같은데, 너무나 어마어마해서 놀라웠던 자동 스크래핑 Sass 툴 하나를 소개하겠다! 바로 Brightdata https://brightdata.com/ Bright Data - The World's #1 Web Data Platform Award winning proxy networks, powerful web scrapers, and ready-to-use datasets for download. Welcome to the world's #1 web data platform. brightdata.com 대충 홈페이지를 들어가 보면 이런 영역으로 사업을 전개중인 것 같다. 스크래핑 자동화 툴이 대표적인 툴이고, 그들이 만든 데이터를 팔고 대시보드 구성..
[DE] Airflow 윈도우에 설치부터 세상에서 제일 쉬운 실습까지
·
데이터 엔지니어링/파이프라인 뚝딱뚝딱
에어플로우 이전의 ETL 기반 파이프라인은 시간을 기반으로 코드를 돌리는 스케쥴을 작업하는 원리로 이루어졌었다. 그러니까 예를 들어서, 어떤 회사의 데이터를 수집하는 코드가 A, B, C 테스크가 있다고 가정하면, A 테스크가 끝날 것으로 예상되는 시간에 B 테스크가 돌아가게끔 프로그래밍을 하는게 ETL 이라고 생각하면 된다. 이 방법은 단순하게만 생각해봐도 단점이 어마어마하게 많다 만약, 무슨일이 생길지 모르는 코드세상에 약간의 이슈가 생겨 A 테스크가 늦게 끝난다면? 근데 B 테스크가 실행되어 버렸다면..? A 가 잘 끝났는지 에러가 난건지 에러가 안 나고 적재가 이상하게 된건지 알 수 있는 방법은...? 그러다가 데이터 엔지니어링의 세계에... Airflow 라는 놈이 등장했다고... 한다 ㅎ 분석..
허니비 honeybee
'데이터 엔지니어링/파이프라인 뚝딱뚝딱' 카테고리의 글 목록