[NLP] Fasttext 한국어에서 써보고 하이퍼파라미터 튜닝까지!
·
데이터 과학 Data Science/자연어처리 NLP
필자는 지금 다음 주 나갈 대회 준비를 위해 여러가지 자연어 분류기 알고리즘들을 공부중이다. 사실 오늘 소개할 fasttext 라는 알고리즘 역시 딥러닝 알고리즘이기 때문에 그 안에 있는 복잡한 수식이나 원리는 강의를 들어도... 뭔 말인지.. 잘 이해가 안 가는 것 같다.. 이론에 대한 내용은 다른 블로거들을 참고하시고! 나는 내가 이해되는 수준에서 쉽고 간단하게 원리를 설명해 보고, 사용했던 모듈들과 소스코드를 집중적으로 공유하겠다 1. 모델 원리 (안 궁금하면 넘어가셔도 됩니다..) 우선 Fasttext 는 Word2Vec 의 확장판 모델이라고 생각하면 편하다. Fasttext 를 이해하기 위해 Word2vec 을 먼저 설명하자면, Word2vec 은 주변 단어를 예측하는 과정에서 적절한 단어를 압..
[Data Analytics] 데이터에서 인사이트 얻기 -1. 트래픽 증가 원인 찾기
·
데이터 분석 Data Analysis/Adobe Analytics
*회사에서 보고듣고배운것 일반화시켜 기록하기 *위 게시글은 adobe analytics 의 32개 글로벌 국가의 웹사이트별 AARRR별 segement 와 breakdown 을 이용해 분석을 하며 인사이트를 얻기 위해 세운 가설들, 검증했던 방법들을 정리한 게시글입니다 (상황) 웹사이트의 전체 방문 트래픽이 전년도에 비해 올랐다. 왜 올랐는지 밝혀내자 가설1. 특정 국가의 트래픽이 올랐다 -> 일단 국가별로 월별로 트래픽 추이를 살펴보고, 눈에 띄는 지표가 있는지 확인한다 -> 주요국 위주로 먼저 확인하면서 비등비등한 portion 으로 올랐는지, 특정 국가에서 확 올랐는지 확인해본다 가설 2. 특정 이벤트나 특정 시기에 외부적인 이유로 트래픽이 올랐다 (특정 이벤트) -> 유입종류별로 어떤 분야에서 많..
[python][프로그래머스_lv1] 체육복 (feat. 탐욕법)
·
코딩테스트/python
Description 점심시간에 도둑이 들어, 일부 학생이 체육복을 도난당했습니다. 다행히 여벌 체육복이 있는 학생이 이들에게 체육복을 빌려주려 합니다. 학생들의 번호는 체격 순으로 매겨져 있어, 바로 앞번호의 학생이나 바로 뒷번호의 학생에게만 체육복을 빌려줄 수 있습니다. 예를 들어, 4번 학생은 3번 학생이나 5번 학생에게만 체육복을 빌려줄 수 있습니다. 체육복이 없으면 수업을 들을 수 없기 때문에 체육복을 적절히 빌려 최대한 많은 학생이 체육수업을 들어야 합니다. 전체 학생의 수 n, 체육복을 도난당한 학생들의 번호가 담긴 배열 lost, 여벌의 체육복을 가져온 학생들의 번호가 담긴 배열 reserve가 매개변수로 주어질 때, 체육수업을 들을 수 있는 학생의 최댓값을 return 하도록 soluti..
[python][프로그래머스_lv1] 로또의 최고 순위와 최저 순위
·
코딩테스트/python
Description Lotto 6/45(Hereinafter 'Lotto') is a popular lottery game where six numbers are drawn from a pool of 45 numbers. The lottery prize tiers are as follows1: Prize TiersRequirement 1 All six numbers match 2 Five numbers match 3 Four numbers match 4 Three numbers match 5 Two numbers match 6 (no prize) All other cases You bought a lotto ticket and have been waiting for the draw. However, y..
[case] 앱 로그 데이터로 유저의 접속 시간 계산하기
·
Python/Case 정리
메신저 어플을 관리하는 회사의 프리랜서 외주 일을 하면서 특정 유저의 행동 단위 접속시간을 계산해야했던 적이 있다. 보통같으면 유저가"앱에 접속한 경우" 부터 "앱을 종료한 경우" 까지 모두 하나하나 태그를 심어 트래킹을 하고, 그런 경우라면 그냥 데이터끼리 빼주기만 하면 되겠지만은,, 이 회사는 후자를 트래킹하지 않은 회사였다 ㅠ 그래서 우리는 일단 다음과 같은 방법을 쓰기로 했다.. 연속적으로 2분이내 일어나는 타임스탬프는 지속 접속으로 보고 그 이상의 시간이 흐른후에 타임스탬프가 찍히면 가장 마지막에 찍힌 타임스탬프 +2분을 더해 접속시간을 간접 도출 예를 들어 a 유저가.. 12:00:00 에 접속 12:01:11 에 채팅침 12:01:22 에 좋아요 누름 12:02:33 에 사진 봄 …..(이하..
[nlp] subword 분절
·
데이터 과학 Data Science/자연어처리 NLP
단어에서 subword 란 말 그대로 더 작은 단위의 의미들이다. 예를 들어 "집중" 이라는 한글 단어는 모은다는 뜻이 있는 "집" 그리고 가운데를 뜻하는 "중" 으로 이루어져 있다. 영어의 경우도 Concentrate 는 con/centr/ate 의 세 가지 뜻으로 구성된 단어들이 대부분이다. 따라서 이런 작은 의미 단위로 분절할 수 있다면 학습이 더 유리해지나, 이를 위해서는 subword 를 나눠둔 사전이 필요하다. 오늘은 이 subword 사전을 만들어내기 위한 여러가지 방법들을 알아보고, 간단한 실습을 해보도록 하겠다. 1. Byte Pair Encoding 알고리즘 압축 알고리즘? 이라고 불리는 이 알고리즘은 subword 사전을 생성해내는 알고리즘이다. 학습 코퍼스를 활용해 모델을 학습시킨 ..
허니비 honeybee
Growth Vibes Only