[DE] 웹 스크래핑 자동화 솔루션 BrightData 튜토리얼 실습해보기
아직 우리나라 기업들은 쓰는 곳을 많이 보진 못한 것 같은데, 너무나 어마어마해서 놀라웠던 자동 스크래핑 Sass 툴 하나를 소개하겠다! 바로 Brightdata
Bright Data - The World's #1 Web Data Platform
Award winning proxy networks, powerful web scrapers, and ready-to-use datasets for download. Welcome to the world's #1 web data platform.
brightdata.com
대충 홈페이지를 들어가 보면 이런 영역으로 사업을 전개중인 것 같다. 스크래핑 자동화 툴이 대표적인 툴이고, 그들이 만든 데이터를 팔고 대시보드 구성 솔루션을 제공하기도 하는 회사다
아래는 유튜브에 올라와있는 demo 영상을 보고 정리해둔 것이다. 실 사용 후기는 조금 더 자세하게 다음 달에 업로드할 예정! 이번에 계약하게 될 회사에서 쓰는 툴이라고 해서 기대중이다 두근두근
참고 데모 영상
https://www.youtube.com/watch?v=d4e4xVr0I5g
Brightdata 는….
- 자동 데이터 scrapping 툴을 공급하고 있어요
- social media 에서의 데이터 수집을 통해 marketing 전략을 세우는데 활용하는 기업이 많음
- 미디어도 도메인에 따라 다양한데, 웬만한 SNS 업체는 모두 지원하고 있음
기존 온라인 데이터 수집에 요구되는 infrastructure
- 기존의 방식은 사실 step by step 으로 하나씩 구현해야 했다. Selenium 으로 코드짜기 + Ariflow 로 자동화하기 + 서버에 올리고 최적화하기 + 계속해서 추적관리 .. 만약에 block 이 되거나 html 이 바뀌면 난장판
- 그리고 시간도 짱 오래 걸림 만약 객체 1개 가져오는데 6초 걸리고 총 2만개를 가져와야 한다면 기본 서버로는 16시간동안 코드가 돌아가야 할 판
이런 문제를 종합적으로 원스텝 서비스를 주는 Bright Data ~
- 좋은 인프라.. 좋은 서버가 일단 규모에 맞게 열리는 듯
- 글로벌 프록시가 IP 주소를 이어줍니다 전세계와 연결이 가능하죠
- blocking mechanism : 자동으로 IP 를 rotation 시켜서 block 을 막습니다 그 이외에도, protocol 조작, 디지털 지문인식.. (?) 등의 방식으로 data collect 를 유연하게 시켜준다네요
- BrightData 는 이 과정을 한방에 ~ wow!
윤리적인 이슈
- GDPR 에서 윤리적인 승인을 받은 데이터 수집 방법이라고 함
데모
*대부분의 SNS에서 데이터 수집이 가능함
- SNS url 을 입력하고 잡고싶은 페이지를 선택 (데모는 페이스북 프로필로)
2. webpage > outputexample 을 입력하면 추출 데이터의 형태를 볼 수 있음. CSV, json 등 다양한 방법을 선택 가능
3. Collector 를 추가하고 상세 설정을 해주면 됨 (에어플로우와 작동 원리가 유사하다는 생각..)
등록이 되어있는 경우는 이렇게 자동으로 collector 가 생성됨. but 지원하지 않는 웹사이트는 이 collector 를 만들어줘야함
4. Collector의 상세 설정을 해주면 됨
- complete 기준으로 수집할지, realtime 으로 가져올지 (양이 많으면 당연히 전자가 좋아요)
- 데이터 포맷 설정
- 데이터 송출 설정
5. 아웃풋 상세 설정. 여기서 이름도 바꾸고 포멧도 정할 수 있어요. 예시 데이터도 확인가능
6.Collector 를 구동시킵시다
사진에 보이는 설정이 기본 설정, 자동 설정이에요. 하나의 수집이 끝나면 자동으로 다음 수집이 시작되는 방식
7. 결과 화면이 나옵니다
추가 ) Code editor 를 이용해서 cutom collector 를 형성할 수 있음
- 근데 js 기반이기도 하고
- 자체 command 를 알아야 해서 난이도가 높을듯
툴들의 발전은 이루 말할수없이 놀랍다..
툴들이 과연 내 직업을 사라지게 할지
툴을 잘 쓰는 사람이 많은 일을 하게 될지