
DBSCAN으로 클러스터링
·
데이터 과학 Data Science/비지도학습
1. 개요 DBSCAN 은 아주 강력한 클러스터링 방식으로 알려져있다! 제일 대표적으로 거론되는 k-means clustering 과의 차이를 먼저 언급해보자면, 클러스터의 개수를 정해야 할 필요가 없고, 이상치 탐지에 최고인 방식인 점이다. 이상치가 많은 경우 DBSCAN 을 쓰는게 k-means 보다는 유리한데, 그 이유는 DBSCAN 은 노이즈를 분류하기 때문이다. K-means 는 평균으로부터 좀 떨어져 있는 데이터이더라도 반드시 그 데이터를 어떤 집단에 넣는 반면, DBSCAN 은 탐색 반경으로부터 먼 데이터는 노이즈라고 분류한다. 이 그림을 보자 DBSCAN 은 "더 잘 연결된" 데이터를 하나의 클러스터로, k-means는 "거리가 가까운" 데이터를 하나의 클러스터로 취급한다. 이런 이유 때문..