Python/DataAnalysis

[DataAnalysis] 차원축소

공기반 코딩반 2024. 2. 7. 01:13
반응형

 

 

차원이란?

: 변수의 개수

 

 

 

- 데이터의 차원이 높아지면 좀 더 많은 정보를 나타낼 수 있음

- but, 데이터의 차원이 너무 많아지면 분석의 정확도가 떨어지는 경우도 있음

 

 

 

 

 

차원축소

 

1. 차원 선택

: 전체 차원 중 의미 있다고 판단되는 것들만 선택해서 사용

: 변수들 간의 관계를 통해 덜 중요하거나 불필요한 변수를 찾아 데이터에서 빼는 작업

 

 

장점

- 사용하기 쉽고 빠르게 적용 가능, 쉽게 해석가능

 

 

단점

- 정보손실이 커짐

 

 

 

 

2. 차원 추출

: 데이터를 가장 잘 설명하는 차원을 새롭게 생성하여 차원을 줄이는 방법

→ 여러 변수의 특징을 종합적으로 잘 나타내는 새로운 변수를 찾아내 변수를 통합

 

 

장점

- 필요한 정보를 최대한 보존하기 때문에, 상대적으로 더 나은 성능

 

 

단점

- 여러 변수의 특징을 대표하기 위해 만들어진 새로운 변수가 정확하게 무엇을 의미하는 것인지 해석하기 어려움

- 연산량 증가

ex) PCA(Principal Component Analysis)

반응형