
계층적 클러스터링
·
데이터 과학 Data Science/비지도학습
계층적 클러스터링은 비슷한 군집끼리 묶으면서 최종적으로 한개가 될 때 까지 묶는 클러스터 기법이다. k-means 기법이 최적으로 응집된 지점을 찾아서 데이터를 "나누는" 데 집중하는 반면 이 아이는 데이터를 "분리하는 데" 집중한다. 그러니까 이 아이는 모든 데이터셋 자체를 그냥 시작부터 하나의 클러스터로 간주하고 계산을 시작하면서 결합해 나가는 방식으로 작동하는거다. 그렇다보니... 특이점이나 비정상적인 그룹을 발견하는 데 유리하고 시각화가 편하다는 장점이 있지만 다만 컴퓨팅 소스가 많이 들어가기 때문에 데이터셋의 크기가 너무 크면 안된다! 1. 작동 방식 준비물! d = 두 개의 데이터셋 i 와 j 사이의 거리를 측정하는 "거리 측정 지표" D = 두 개의 클러스터 A 와 B 사이의 차이를 측정하는..