* 앞서, 해당 내용은 모두 제가 공부를 하며 배운 것을 나누기 위한 article입니다.
틀린 부분이나 이해가 가지 않으시는 부분이 있다면 댓글을 달아주시면,
최대한 빠른 기일 내에 정답을 찾아 수정 및 답변해드리도록 하겠습니다.
감사합니다.
* 대질문(Qn.)과 그에 따른 설명으로 구성되어 있습니다.
'-' 기호
- 정의를 뜻합니다
내용 중, 필요한 설명은 해당 내용 문단 밑에 넘버링 하여 써내려가는 방식입니다.
'*'기호
- 주석을 뜻합니다.
'ex'
- 예시를 나타냅니다.
'+'
- 추가설명을 나타냅니다. 보지 않으셔도 큰 상관은 없습니다.
* 하단부 출처 링크를 첨부해 두겠습니다.
오늘은 데이터 전처리와 t-test에 대해 알아보겠습니다.
Q1. 데이터 전처리 방법들에 대해 설명
데이터 전처리에는 여러가지 방법이 있습니다.
그 중 1) 이상치 처리 2) 결측값 처리 에 대해 설명해보고자 합니다.
그 전, 데이터 전처리의 정의에 대해 알아봅시다.
0. 데이터 전처리
- 데이터를 분석하기 전에 데이터를 조작, 필터링 또는 확대하는 것을 의미할 수 있으며
데이터 마이닝 프로세스에서 중요한 단계인 경우가 많다.[출처1: 위키백과]
즉, 데이터를 처리하기 전 유용하지 않은 데이터를 미리 처리하는 단계를 의미합니다.
1. 이상치 처리
이상치 처리를 위해선, 이상치의 정의에 대해 알아보겠습니다.
이상탐지("이상치"에 대한 워딩으로 검색이 불가능하여 가장 비슷한 용어를 찾아왔습니다.)
- 일반적인 값과 다른 특이한 값(outliner)나 드문 사건을 탐지하는 기법이다.[출처2: 위키백과]
일반적인 정의와는 다르게, 크게 차이가 나는 값을 처리하여 데이터의 유효성을 높이기 위해 사용됩니다.
ex)
<그림1. 인터넷 밈[출처 : 인터넷, 원본 알 수 없음]>
이해하기 쉬우시도록 인터넷 밈을 가져와 봤습니다.
과연 10대의 자산 평균을 위와 같이 나타내어 소비 금액의 비율을 알아보고 싶을 때 해당 데이터를 쓰면 유의미할까요?
여기서 이상치란, '연예인' '제벌 n세' 등의 특수한 케이스를 의미합니다.
이러한 이상치를 제외하기 위해 사용되는 방식입니다
https://reitscience.tistory.com/8
해당 링크에서 설명한 것과 같이 '사분위수'를 통해 구한 IQR로 이상치의 범위를 설정합니다
보통
Q1 - 1.5 * IQR 미만, Q3 + 1.5 * IQR 초과하여 벗어나는 것을 이상치라고 정의하여 제외시킵니다(이상치 처리)
<그림2. [출처3]>
자주 사용되는 것으로는, boxflot(상자 수염 그래프)이 사용됩니다.
2. 결측값
결측 자료
- 어떠한 자료값도 관측 대상 변수에 저장되지 않을 때 발생한다.[출처4: 위키백과]
주로 무응답을 이유로 발생하거나 데이터 손실이 있을 때 발생합니다.
dropna등의 방식을 이용해 처리할 수 있습니다.
+) 결측치를 처리 하지 않으면 어떤 문제가 발생 할까요?
1. 데이터를 처리할 때 변수의 문제가 있을 수 있습니다.
NULL 값이기 때문에 처리 시 에러가 발생할 위험이 있습니다.
또는 0으로 취급될 경우도 있지만 이 것은 이상치로 나타내어지기 때문에 데이터에 악영향을 미칩니다.
2. 데이터 자체의 신뢰도가 낮아집니다.
Q2. t-test란?
- t-test는 일반적으로 검정 통계량이 정규 분포를 따르며, 분포와 관련된 스케일링 변숫값들이 알려진 경우 이용한다.
[출처5: 위키백과]
정규분포와 t-test의 쓰임새에 대해 알아보겠습니다.
1. 정규분포
- 어떤 사건이 일어난 빈도를 계산하여 그래프로 나타냈을 때, 중심(평균)을 기준으로 좌우가 대칭대는 분포를 뜻합니다.
<그림1. 정규분포>
2. t-test의 쓰임새
t-test는 t분포를 이용합니다.
t분포의 몇가지 특징에 대해 알아보겠습니다.
1) t 분포란, 표본의 개수가 충분하지 못할 때 사용되는 분포입니다.
보통 표본이 30개 이하일 때 사용합니다.
(z분포는, 표본의 개수가 충분할 때 사용되며 표준정규분포라고도 합니다.)
평균 0, 분산 > 1인 정규분포를 따른 다는 것에서는 동일합니다.
2) 평균 차이를 기준으로 검사합니다
3) 모집단의 표준편차를 알 수 없을 때 사용합니다.
즉, 서술한 t-test에서의 t분포를 만족하는 집단을 대상으로 사용하기 편리합니다.
출처
1. https://ko.wikipedia.org/wiki/%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%A0%84%EC%B2%98%EB%A6%AC
2. https://ko.wikipedia.org/wiki/%EC%9D%B4%EC%83%81_%ED%83%90%EC%A7%80
3. https://hsm-edu.tistory.com/1542
4. https://ko.wikipedia.org/wiki/%EA%B2%B0%EC%B8%A1%EC%9E%90%EB%A3%8C
'통계학' 카테고리의 다른 글
[Weekly] 한 줄 통계학 지식[6] (0) | 2024.08.19 |
---|---|
[Weekly] 한 줄 통계학 지식[5] (0) | 2024.08.12 |
[Weekly] 한 줄 통계학 지식[4] (0) | 2024.07.15 |
[Weekly] 한 줄 통계학 지식[2] (1) | 2024.07.07 |
[Weekly] 한 줄 통계학 지식[1] (0) | 2024.07.07 |