Kmeans 장점 - 변수들에 대한 배경지식, 역할, 영향도에 대해 모르더라도 데이터 사이의 거리만 구할 수 있다면 쉽게 사용 가능 - 알고리즘이 비교적 쉬운 수식으로 이루어졌기 때문에 이해와 해석이 용이합니다. Kmeans 단점 - 데이터의 영향력을 반영하지 못함. - 최적의 클러스터 개수인 k를 정하는 게 어렵다 - 이상치에 영향을 많이 받음 - 이상치가 포함된 데이터일 경우 클러스터의 중심(Centorid)을 업데이트하는 과정에서 Centroid의 위치가 크게 변동 - 클러스터가 원하지 않는 방식으로 묶일 수 있음 model = KMeans(n_clusters=5, random_state=123) model.fit(scaled_df) # 학습 모델 결과 추가 sales_df['label'] = mo..