반응형

Python/DataAnalysis 3

[DataAnalysis] PCA(Principal Component Analysis)

PCA(Principal Component Analysis) : 여러 차원들의 특징을 가장 잘 설명하는 차원을 이용해 차원을 축소 1. 데이터 표준화 및 원점 이동 1) 데이터 단위 통일(m, mm / g, kg) 2) 데이터를 표준화(중심=원점을 기준으로 함) 2. 주성분 찾기 1) 데이터의 중심(원점)을 지나고 모든 데이터들로부터 수직거리가 가장 가깝게 하는 선 2) 주성분이 2개라면 두 번째 주성분 선은 첫 번째 주성분 선에 수직, 모든 데이터들에서 선까지 수직거리가 가장 작은 선 2-1) 주성분 찾는 방법 : 데이터들의 분산이 최대가 되도록 하는 선(수직 거리 짧음) 2-2) 두 번째 주성분 선이 첫 번째 주성분 선에 수직인 이유 : 첫 번째 주성분과 비슷한 정보가 적음 3. 데이터 투영 1) 모..

Python/DataAnalysis 2024.02.07

[DataAnalysis] 차원축소

차원이란? : 변수의 개수 - 데이터의 차원이 높아지면 좀 더 많은 정보를 나타낼 수 있음 - but, 데이터의 차원이 너무 많아지면 분석의 정확도가 떨어지는 경우도 있음 차원축소 1. 차원 선택 : 전체 차원 중 의미 있다고 판단되는 것들만 선택해서 사용 : 변수들 간의 관계를 통해 덜 중요하거나 불필요한 변수를 찾아 데이터에서 빼는 작업 장점 - 사용하기 쉽고 빠르게 적용 가능, 쉽게 해석가능 단점 - 정보손실이 커짐 2. 차원 추출 : 데이터를 가장 잘 설명하는 차원을 새롭게 생성하여 차원을 줄이는 방법 → 여러 변수의 특징을 종합적으로 잘 나타내는 새로운 변수를 찾아내 변수를 통합 장점 - 필요한 정보를 최대한 보존하기 때문에, 상대적으로 더 나은 성능 단점 - 여러 변수의 특징을 대표하기 위해 ..

Python/DataAnalysis 2024.02.07

[DataAnalysis] GMM (Gaussian Mixture Model)

GMM (Gaussian Mixture Model) : 특정 데이터의 값이 어떤 분포에 포함될 확률이 더 큰지를 따져서 각 클러스터로 구분하는 게 GMM의 방법론 - 클러스터별로 중심(평균)을 표현하면서 분산의 구조도 함께 띄고 있는 데이터 세트에 효과적 데이터가 원형으로 흩어져 있으면 평균은 있지만 분산이 없는 데이터라고 할 수 있음 → k-means 데이터가 타원형으로 흩어져 있다면 중심(평균)과 분산의 값을 갖는 형태 → GMM 모델 특징 특정 분포에 할당된 데이터 수가 적으면 모수 추정이 잘 안됨 정규분포를 따르지 않는 데이터를 다룰 수 없음. from sklearn.mixture import GaussianMixture from sklearn.datasets import make_classifi..

Python/DataAnalysis 2024.02.04
반응형