계층적 클러스터링
·
데이터 과학 Data Science/비지도학습
계층적 클러스터링은 비슷한 군집끼리 묶으면서 최종적으로 한개가 될 때 까지 묶는 클러스터 기법이다. k-means 기법이 최적으로 응집된 지점을 찾아서 데이터를 "나누는" 데 집중하는 반면 이 아이는 데이터를 "분리하는 데" 집중한다. 그러니까 이 아이는 모든 데이터셋 자체를 그냥 시작부터 하나의 클러스터로 간주하고 계산을 시작하면서 결합해 나가는 방식으로 작동하는거다. 그렇다보니... 특이점이나 비정상적인 그룹을 발견하는 데 유리하고 시각화가 편하다는 장점이 있지만 다만 컴퓨팅 소스가 많이 들어가기 때문에 데이터셋의 크기가 너무 크면 안된다! 1. 작동 방식 준비물! d = 두 개의 데이터셋 i 와 j 사이의 거리를 측정하는 "거리 측정 지표" D = 두 개의 클러스터 A 와 B 사이의 차이를 측정하는..
DBSCAN으로 클러스터링
·
데이터 과학 Data Science/비지도학습
1. 개요 DBSCAN 은 아주 강력한 클러스터링 방식으로 알려져있다! 제일 대표적으로 거론되는 k-means clustering 과의 차이를 먼저 언급해보자면, 클러스터의 개수를 정해야 할 필요가 없고, 이상치 탐지에 최고인 방식인 점이다. 이상치가 많은 경우 DBSCAN 을 쓰는게 k-means 보다는 유리한데, 그 이유는 DBSCAN 은 노이즈를 분류하기 때문이다. K-means 는 평균으로부터 좀 떨어져 있는 데이터이더라도 반드시 그 데이터를 어떤 집단에 넣는 반면, DBSCAN 은 탐색 반경으로부터 먼 데이터는 노이즈라고 분류한다. 이 그림을 보자 DBSCAN 은 "더 잘 연결된" 데이터를 하나의 클러스터로, k-means는 "거리가 가까운" 데이터를 하나의 클러스터로 취급한다. 이런 이유 때문..
유사도 전파 Affinity Propagation 모델로 클러스터링
·
데이터 과학 Data Science/비지도학습
유사도 전파... Affinity Propagation 이라고 부르는데, 데이터 사이언스 웹사이트나 교재에 자주 소개되는 대표적인 비지도학습 클러스터링 방법 중 하나다. 공부해 보니 구현 방법이 상당히 독특하고 사용하는 case 도 특이해. 근데 국내에서 많이 안 쓰는지 한국어로 된 자료가 정말 별로 없더라.. 난 특이한걸 좋아하니깐 포스팅해보도록 하겠다. 1. 작동 원리 일단 유사도 전파는 쉽게 설명하면 각각의 데이터셋 포인트들 하나하나가 자기를 대표해 줄 만한 데이터에 투표를 하는 방식임! 데이터들 간의 유사성을 기준으로 자기랑 비슷하고 대표성이 있다고 판단되는 데이터에 대표투표를 해주고, (메시지를 전달한다 ~ 이렇게도 표현함) 최적의 대표 집합에 수렴할때까지 알고리즘이 반복한다 당연히 투표는 수식..
가우시안 혼합 모델로 클러스터링
·
데이터 과학 Data Science/비지도학습
1. 개념 가우시안 혼합 모델 Gausian Mixture Model 은 데이터의 분포가 가우시안인 경우 사용하는 혼합 모델이다. 데이터의 분포가 가우시안이다 = 정규분포다 라는거랜다. 왜 굳이 두가지 말을 쓰냐 해서 찾아봤는데 보통 공학에선 전자, 수학에선 후자로 말한다고 한다.. (참 나 찾아보기 전까지 어려운건줄 알고 긴장했잖아) 혼합 모델이라는건 데이터가 여러 구성 요소 분포에 의해 처리된다고 가정하는 확률밀도모델이다. 말이 되게 어려운데 예를들자면, 우리는 아시아 사람들의 쇼핑 스타일과 패턴을 알고 싶다고 가정하자. 이 때 나라를 기준으로 데이터를 쪼개 각각을 표현하는 모델을 만들고 그걸 어떻게 합쳐서 최종 모델을 만들면 국가별 특징과 대륙의 특징을 모두 살릴 수 있는 모델이 된다. 혼합 모델은..
허니비 honeybee
'데이터 과학 Data Science/비지도학습' 카테고리의 글 목록