본문 바로가기
통계학

[Weekly] 한 줄 통계학 지식[5]

by IT돌이 2024. 8. 12.

* 앞서, 해당 내용은 모두 제가 공부를 하며 배운 것을 나누기 위한 article입니다. 

  틀린 부분이나 이해가 가지 않으시는 부분이 있다면 댓글을 달아주시면,

  최대한 빠른 기일 내에 정답을 찾아 수정 및 답변해드리도록 하겠습니다.

  감사합니다.

 

* 대질문(Qn.)과 그에 따른 설명으로 구성되어 있습니다.

   '-' 기호

   - 정의를 뜻합니다

      내용 중, 필요한 설명은 해당 내용 문단 밑에 넘버링 하여 써내려가는 방식입니다.

   '*'기호

   - 주석을 뜻합니다.

   'ex'

   - 예시를 나타냅니다.

    '+'

    - 추가설명을 나타냅니다. 보지 않으셔도 큰 상관은 없습니다.

 

* 하단부 출처 링크를 첨부해 두겠습니다.


오늘은 데이터간의 유사도를 계산할 때, feature의 수가 많을때의 해결 방법.

고유값과 고유백터, 히스토그램의 주요 단점과 대안적 시각화 방법에 대해 설명드리겠습니다.

 

Q1. 데이터간의 유사도를 계산할 때, feature의 수가 많을 때 어떻게 해야 하는가?

해당 문제를 풀기 위해선, 1)데이터의 유사도와 2)feature, 3)feature이 많을 때 발생하는 문제에 대해서 알아야 합니다.

 

0. 문제 풀이 전 알아 둘 것

1) 데이터간의 유사도란?

- 두 데이터 사이의 거리를 뜻합니다. 거리로 나타내기 전에 '벡터'로 변환하는 과정을 거쳐야 하는데요,

  벡터는 스칼라와 달리 공간 내에서 크기와 방향을 가지는 값을 의미합니다.

 

2) feature이란?

- 피처는 데이터의 특성을 나타내는 것으로 보통 데이터 표에서 열(colummn)을 지칭합니다. 

  머신 러닝 모델이 패턴을 학습하고, 예측이나 분류를 수행하는데 필요합니다.

 

3) feature이 많을 때 발생하는 문제

- '차원의 저주'라는 것이 발생합니다.

  차원의 저주란, 공간의 차원이 증가함에 따라 데이터의 밀도가 급격히 감소하여 데이터 분석이나 머신러닝 모델의

  성능에 부정적 영향을 미치는 것을 말합니다.

ex)

<그림1. 차원의 저주 설명>

 

 

이러한 차원의 저주를 피하기 위해서는 여러가지 방법이 있습니다.

그 중 가장 자주 쓰이는 차원 축소에 대해 말해보겠습니다.

 

1. 차원 축소

- 차원 축소는 고차원 데이터에서 중요한 정보만을 남기고 불필요한 정보를 제거하는 방법입니다.

1)주성분 분석, 2)선형 판별 분석 3)t-SNE 등이 있습니다.

 

1.1. 주성분 분석(PCA)

- 데이터 분산을 최대화하는 몇 개의 주성분을 찾아 차원을 줄이는 방법입니다.

  데이터의 분산을 유지한다는 것에 의의가 있습니다.

 

1.2. 선형 판별 분석(LDA)

- 클래스 간의 분산을 최대화하고, 클래스 내의 분산을 최소화하는 방향으로 데이터를 변환합니다.

  주로, 지도학습에서 사용됩니다.

+) 지도학습

     - 레이블이 지정된 데이터 세트를 사용하여 데이터를 분류하거나, 결과를 정확하게 예측하는

       알고리즘을 학습시키는 것입니다.

 

1.3.  t-SNE

- 비선형 차원 축소 기법입니다. 데이터 포인트 간의 거리와 관계를 저차원 공간에서도 유지하려고 하며 시각화 목적으로

  많이 사용됩니다.

 

 Q2. 고유값과 고유벡터에 대한 설명과 데이터 분석에서 왜 중요한가?

 

0. 문제 풀이 전 알아둘 것

+) 선형 대수학에서의 1)고유값과 2)고유벡터는 데이터 분석에서의 고유값, 고유백터와 다른 의미를 가지고 있습니다.

 

1) 고유값(Eigenvalue)

- 행렬 A에 의해 고유 벡터가 얼마나 증감 되는지를 알려줍니다.

 

2) 고유 벡터(Eigenvector)

- 행렬 A에 대해 변환되었을 때, 방향이 변하지 않는 벡터를 의미합니다.

 

1. 데이터 분석에서의 고유값

- 각 주성분의 중요도를 나타내며, 고유값이 클 수록 주성분이 더 많은 분산을 설명합니다.

 

2. 데이터 분석에서의 고유벡터

- 주성분의 방향을 나타내며, 이 벡터에 데이터를 투영하여 새로운 축을 형성합니다.

 

3.데이터 분석에서 중요한 이유

- 차원축소(PCA)와 데이터의 패턴인식에 사용됩니다.

 

Q3.히스토그램의 주요 단점과, 이를 극복하기 위한 대안적인 시각화 방법은 무엇인가?

 

0. 문제 풀이 전 알아 둘 것

1)히스토그램에 대해 알아야 합니다

 

1) 히스토그램

- 표로 되어있는 도수 분포를 정보 그림으로 나타낸 것입니다.

  bin이라 불리는 도수분포의 간격을 나타내는 것의 영향을 크게 받습니다.

 

1. 히스토그램의 주요 단점

- 히스토그램은 bin과 관련된 단점이 많습니다.

 

1) bin 간격

- bin의 크기와 개수에 따라 모양이 변합니다.

2) bin의 시작점

- 빈의 시작점에 따라 결과가 달라져, 해석에 차질이 생길 수 있습니다.

 

3) 연속적이지 않은 데이터 표현

- 데이터를 bin 간격으로 나누어 표현하기 때문에, 분포의 연속성을 정확히 나타내지 못할 수 있습니다.

 

4) 비교가 어렵습니다.

 

2. 히스토그램의 단점을 보완하기 위한 그래프

- 여러가지 대체적 그래프를 사용가능합니다.

  대표적으로 1)KDE(커널 밀도 추정), 2)박스플롯, 3)바이올린 플롯 등이 있습니다.

 

1)KDE(커널 밀도 추정)

- 데이터 분포를 커널 함수를 적용하여 분포를 추정합니다

- 연속적이기 때문에, 연속성을 잘 표현하여 해석이 쉽습니다.

+) 커널의 폭을 선택을 잘 해야한다는 단점이 있습니다.

 

2)박스 플롯

- 중위수, 사분위수, 이상치 등 기술통계를 표현하기에 좋습니다. 범위와 분산을 직관적으로 비교하기도 좋스ㅡㅂ니다.

- 여러 데이터 셋을 비교할 때 사용할 수 있습니다.

 

3)바이올린 플롯

- KDE + 박스 플롯으로 생각하시면 편합니다.

- 히스토그램과 박스 플롯의 장점을 결합한 효과적인 대안입니다.

 

출처

1. https://esj205.oopy.io/978eadf3-ddc3-4bd7-a5b1-f2f085ff7252

'통계학' 카테고리의 다른 글

[Weekly] 한 줄 통계학 지식[7]  (3) 2024.08.26
[Weekly] 한 줄 통계학 지식[6]  (0) 2024.08.19
[Weekly] 한 줄 통계학 지식[4]  (0) 2024.07.15
[Weekly] 한 줄 통계학 지식[3]  (0) 2024.07.07
[Weekly] 한 줄 통계학 지식[2]  (1) 2024.07.07