반응형
차원이란?
: 변수의 개수
- 데이터의 차원이 높아지면 좀 더 많은 정보를 나타낼 수 있음
- but, 데이터의 차원이 너무 많아지면 분석의 정확도가 떨어지는 경우도 있음
차원축소
1. 차원 선택
: 전체 차원 중 의미 있다고 판단되는 것들만 선택해서 사용
: 변수들 간의 관계를 통해 덜 중요하거나 불필요한 변수를 찾아 데이터에서 빼는 작업
장점
- 사용하기 쉽고 빠르게 적용 가능, 쉽게 해석가능
단점
- 정보손실이 커짐
2. 차원 추출
: 데이터를 가장 잘 설명하는 차원을 새롭게 생성하여 차원을 줄이는 방법
→ 여러 변수의 특징을 종합적으로 잘 나타내는 새로운 변수를 찾아내 변수를 통합
장점
- 필요한 정보를 최대한 보존하기 때문에, 상대적으로 더 나은 성능
단점
- 여러 변수의 특징을 대표하기 위해 만들어진 새로운 변수가 정확하게 무엇을 의미하는 것인지 해석하기 어려움
- 연산량 증가
ex) PCA(Principal Component Analysis)
반응형
'Python > DataAnalysis' 카테고리의 다른 글
[DataAnalysis] PCA(Principal Component Analysis) (4) | 2024.02.07 |
---|---|
[DataAnalysis] GMM (Gaussian Mixture Model) (0) | 2024.02.04 |