반응형

PCA 2

[DataAnalysis] PCA(Principal Component Analysis)

PCA(Principal Component Analysis) : 여러 차원들의 특징을 가장 잘 설명하는 차원을 이용해 차원을 축소 1. 데이터 표준화 및 원점 이동 1) 데이터 단위 통일(m, mm / g, kg) 2) 데이터를 표준화(중심=원점을 기준으로 함) 2. 주성분 찾기 1) 데이터의 중심(원점)을 지나고 모든 데이터들로부터 수직거리가 가장 가깝게 하는 선 2) 주성분이 2개라면 두 번째 주성분 선은 첫 번째 주성분 선에 수직, 모든 데이터들에서 선까지 수직거리가 가장 작은 선 2-1) 주성분 찾는 방법 : 데이터들의 분산이 최대가 되도록 하는 선(수직 거리 짧음) 2-2) 두 번째 주성분 선이 첫 번째 주성분 선에 수직인 이유 : 첫 번째 주성분과 비슷한 정보가 적음 3. 데이터 투영 1) 모..

Python/DataAnalysis 2024.02.07

[DataAnalysis] 차원축소

차원이란? : 변수의 개수 - 데이터의 차원이 높아지면 좀 더 많은 정보를 나타낼 수 있음 - but, 데이터의 차원이 너무 많아지면 분석의 정확도가 떨어지는 경우도 있음 차원축소 1. 차원 선택 : 전체 차원 중 의미 있다고 판단되는 것들만 선택해서 사용 : 변수들 간의 관계를 통해 덜 중요하거나 불필요한 변수를 찾아 데이터에서 빼는 작업 장점 - 사용하기 쉽고 빠르게 적용 가능, 쉽게 해석가능 단점 - 정보손실이 커짐 2. 차원 추출 : 데이터를 가장 잘 설명하는 차원을 새롭게 생성하여 차원을 줄이는 방법 → 여러 변수의 특징을 종합적으로 잘 나타내는 새로운 변수를 찾아내 변수를 통합 장점 - 필요한 정보를 최대한 보존하기 때문에, 상대적으로 더 나은 성능 단점 - 여러 변수의 특징을 대표하기 위해 ..

Python/DataAnalysis 2024.02.07
반응형