본문 바로가기
통계학

[Weekly] 한 줄 통계학 지식[3]

by IT돌이 2024. 7. 7.

* 앞서, 해당 내용은 모두 제가 공부를 하며 배운 것을 나누기 위한 article입니다. 

  틀린 부분이나 이해가 가지 않으시는 부분이 있다면 댓글을 달아주시면,

  최대한 빠른 기일 내에 정답을 찾아 수정 및 답변해드리도록 하겠습니다.

  감사합니다.

 

* 대질문(Qn.)과 그에 따른 설명으로 구성되어 있습니다.

   '-' 기호

   - 정의를 뜻합니다

      내용 중, 필요한 설명은 해당 내용 문단 밑에 넘버링 하여 써내려가는 방식입니다.

   '*'기호

   - 주석을 뜻합니다.

   'ex'

   - 예시를 나타냅니다.

    '+'

    - 추가설명을 나타냅니다. 보지 않으셔도 큰 상관은 없습니다.

 

* 하단부 출처 링크를 첨부해 두겠습니다.


오늘은 데이터 전처리와 t-test에 대해 알아보겠습니다.

 

Q1. 데이터 전처리 방법들에 대해 설명

데이터 전처리에는 여러가지 방법이 있습니다.

그 중 1) 이상치 처리 2) 결측값 처리 에 대해 설명해보고자 합니다.

그 전, 데이터 전처리의 정의에 대해 알아봅시다.

 

0. 데이터 전처리

- 데이터를 분석하기 전에 데이터를 조작, 필터링 또는 확대하는 것을 의미할 수 있으며

  데이터 마이닝 프로세스에서 중요한 단계인 경우가 많다.[출처1: 위키백과]

즉, 데이터를 처리하기 전 유용하지 않은 데이터를 미리 처리하는 단계를 의미합니다.

 

1. 이상치 처리

이상치 처리를 위해선, 이상치의 정의에 대해 알아보겠습니다.

 

이상탐지("이상치"에 대한 워딩으로 검색이 불가능하여 가장 비슷한 용어를 찾아왔습니다.)

- 일반적인 값과 다른 특이한 값(outliner)나 드문 사건을 탐지하는 기법이다.[출처2: 위키백과]

일반적인 정의와는 다르게, 크게 차이가 나는 값을 처리하여 데이터의 유효성을 높이기 위해 사용됩니다.

 

ex) 

<그림1. 인터넷 밈[출처 : 인터넷, 원본 알 수 없음]>

이해하기 쉬우시도록 인터넷 밈을 가져와 봤습니다.

과연 10대의 자산 평균을 위와 같이 나타내어 소비 금액의 비율을 알아보고 싶을 때 해당 데이터를 쓰면 유의미할까요?

여기서 이상치란, '연예인' '제벌 n세' 등의 특수한 케이스를 의미합니다.

이러한 이상치를 제외하기 위해 사용되는 방식입니다

 

https://reitscience.tistory.com/8

 

[Weekly] 한 줄 통계학 지식[1]

 

reitscience.tistory.com

해당 링크에서 설명한 것과 같이 '사분위수'를 통해 구한 IQR로 이상치의 범위를 설정합니다

보통

Q1 - 1.5 * IQR 미만, Q3 + 1.5 * IQR 초과하여 벗어나는 것을 이상치라고 정의하여 제외시킵니다(이상치 처리)

 

<그림2. [출처3]>

자주 사용되는 것으로는, boxflot(상자 수염 그래프)이 사용됩니다.

 

2. 결측값

결측 자료

- 어떠한 자료값도 관측 대상 변수에 저장되지 않을 때 발생한다.[출처4: 위키백과]

주로 무응답을 이유로 발생하거나 데이터 손실이 있을 때 발생합니다.

dropna등의 방식을 이용해 처리할 수 있습니다.

 

+) 결측치를 처리 하지 않으면 어떤 문제가 발생 할까요?

1. 데이터를 처리할 때 변수의 문제가 있을 수 있습니다.

NULL 값이기 때문에 처리 시 에러가 발생할 위험이 있습니다.

또는 0으로 취급될 경우도 있지만 이 것은 이상치로 나타내어지기 때문에 데이터에 악영향을 미칩니다.

2. 데이터 자체의 신뢰도가 낮아집니다.

 

Q2. t-test란?

- t-test는 일반적으로 검정 통계량이 정규 분포를 따르며, 분포와 관련된 스케일링 변숫값들이 알려진 경우 이용한다.

[출처5: 위키백과]

 

정규분포와 t-test의 쓰임새에 대해 알아보겠습니다.

 

1. 정규분포

- 어떤 사건이 일어난 빈도를 계산하여 그래프로 나타냈을 때, 중심(평균)을 기준으로 좌우가 대칭대는 분포를 뜻합니다.

<그림1. 정규분포>

2. t-test의 쓰임새

t-test는 t분포를 이용합니다.

t분포의 몇가지 특징에 대해 알아보겠습니다.

 

1) t 분포란, 표본의 개수가 충분하지 못할 때 사용되는 분포입니다.

보통 표본이 30개 이하일 때 사용합니다.

(z분포는, 표본의 개수가 충분할 때 사용되며 표준정규분포라고도 합니다.)

평균 0, 분산 > 1인 정규분포를 따른 다는 것에서는 동일합니다.

2) 평균 차이를 기준으로 검사합니다

3) 모집단의 표준편차를 알 수 없을 때 사용합니다.

 

즉, 서술한 t-test에서의 t분포를 만족하는 집단을 대상으로 사용하기 편리합니다.

 

출처

1. https://ko.wikipedia.org/wiki/%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%A0%84%EC%B2%98%EB%A6%AC

 

데이터 전처리 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 데이터 전처리(Data preprocessing)는 데이터를 분석하기 전에 데이터를 조작, 필터링 또는 확대하는 것을 의미할 수 있으며[1] 데이터 마이닝 프로세스에서 중요한

ko.wikipedia.org

2. https://ko.wikipedia.org/wiki/%EC%9D%B4%EC%83%81_%ED%83%90%EC%A7%80

 

이상 탐지 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 이상 탐지(anomaly detection)는 일반적인 값과 다른 특이한 값(outlier)나 드문 사건을 탐지하는 기법이다.[1] 침입, 사기, 결함, 건강 이상, 범죄 등 다양한 것을 탐지

ko.wikipedia.org

3. https://hsm-edu.tistory.com/1542

 

[분위수의 이해] 1. 상자수염그림 쉽고 자세한 설명

상자수염그림은 아래와 같은 그래프를 말합니다. 살충 스프레이 종류와 곤충 수 데이터를 사용하여 그린 상자수염그림입니다. R이라는 통계프로그램에서 제공하는 내장데이터입니다. x축이 살

hsm-edu.tistory.com

4. https://ko.wikipedia.org/wiki/%EA%B2%B0%EC%B8%A1%EC%9E%90%EB%A3%8C

 

결측자료 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 통계학에서 결측자료(missing data), 손실자료(損失資料)는 어떠한 자료값도 관측 대상 변수에 저장되지 않을 때 발생한다. 결측자료는 흔히 발생이 가능한 데이터

ko.wikipedia.org

 

'통계학' 카테고리의 다른 글

[Weekly] 한 줄 통계학 지식[6]  (0) 2024.08.19
[Weekly] 한 줄 통계학 지식[5]  (0) 2024.08.12
[Weekly] 한 줄 통계학 지식[4]  (0) 2024.07.15
[Weekly] 한 줄 통계학 지식[2]  (1) 2024.07.07
[Weekly] 한 줄 통계학 지식[1]  (0) 2024.07.07