1. 연속형 자료의 정리
가. 중심측도 : 평균
1) 중심위치의 측도 : 평균, 중앙값, 최빈값 등이 있는데 이 중 가장 많이 사용되는 것이 평균이다.
2) 평균
: 관측한 자료의 값들을
이라 할 때, 다음과 같이 정의 됨.
표본평균 값은 아래와 같이 구함.
- 평균(mean)은 어느 한 자료값이 다른 값들보다 아주 크거나 작은 특이값(Outlier;이상치)의 영향을 많이 받음.
*R에서의 구하는 방법
> aval = c(값1,값2,값.....)
> sum(aval) ---- 전체 합
> mean(aval) ---- 평균
나. 중심측도 : 절사평균
1) 절사평균(trimmed mean) : 표본에서 절사평균을 빼고 계산된 평균. (10%절사평균은 표본에서 가장 작은 값 10%와 가장 큰 값 10%를 빼고 계산.)
- 자료를 크기순으로 정렬한다. : 1,2,3,4,5,6,7,8,9,10 (자료 10개중 10%절사평균은 1개임, 자료중 1번,10번째 삭제, 20%는 2개이므로 1번,2번,9번,10번째 자리를 삭제.)
- 특이값의 영향을 많이 받지 않음.
다. 중심측도 : 중앙값
1) 중앙값(median) : 자료를 크기순으로 나열할 때 중앙에 놓이는 값.
- 자류의 수를 n이라 할때 (n+1)/2번째 값을 중앙값으로 함.
ex) 4,5,7,9,10,11,14,17,18,20,25
- 중앙값 : (11+1)/2=6 ; 6번째 값 = 11
*R에서
> aval = c(값1,값2,값3....)
> mean(aval) ---- 평균값
[1] 평균값
> mean(aval, trim=0.10) ------ 절사평균10%
[1] 절사평균10%뺀값
> mean(aval, trim=0.20) ------- 절사평균20%
[1] 절사평균20%뺀값
> median(aval)
[1] 중앙값
라. 중심측도 : 최빈값(mode)
1) 최빈값 : 가장 빈도가 많은 값
- 이산형 자료일 경우 도수분포표만 봐도 쉽게 구할 수 있음
-연속형 자료일 경우 자료를 몇개의 계급구간으로 나누어 가장 도수가 높은 계급의 중간값을 최빈값으로 정하기도 함.
마. 산포도 측도
- 자료가 흩어진 정도를 수치로 측정. (measure of dispersion)
- 대표적인 산포도의 측도 : 분산 및 표준편차
- 이외 변동계수, 범위, 사분위수범위 등.
바. 산포도 측도 : 분산 표준편차
1) 분산(variance) : 각 자료값과 평균과의 거리를 제곱하여 합을 구한 후 이를 자료의 수로 나눈 측도.
* 표본분산
- 자료가 평균에서 많이 흩어져 있으면 커지고 몰려있으면 작게 됨.
2) 표준편차(standard deviation) : 분산의 제곱근
* 표본표준편차
사. 산포도 측도 : 변동계수, 범위
1) 변동계수(coefficient of cariantion) : 자료의 개수나 측정단위가 다른 두 개 이상의 자료에 대한 표준편차를 비교하는 것은 무의미. 이러한 경우에 사용하는 측도가 표준편차를 평균으로 나눈 표준화된 표준편차인 변동계수를 사용 (=변이계수)
2) 범위(Range) : 최대값 - 최소값
- 계산은 간편하나 극단점이 있을경우 올바른 산포도 측도가 못 됨.
아. 산포도 측도 : 사분위수범위
1) p% 백분위수(percentile) : 자료를 크기순으로 놓았을때 p%자료를 말함.
- 백분위수 25% 백분위수를 제1사분위수(1st quartile) 50%, 75%순으로 2,3 사분위수.
*R을 이용한 계산
> aval = c(5,4,7,6,8,10,11,0,7,18)
> sd(aval)
[1] 표준편차
> IQR(aval)
[1] 사분위수범위
> summary(aval)
Min. 1st Qu. Median. Mean. 3rd Qu. Max
>quantile(aval, probs=c(0.25, 0.5, ..75))
[1]백분위
*five number summary (다섯숫자요약) = 최소값, Q1, Med, Q3, 최대값
2. 연속형 자료의 그래프
가. 히스토그램
: 연속인 자료를 일정한 계급으로 나누어 각 계급에 속한 도수들을 정리한 도수분포표를 이용하여 작성한 그래프.
- 연속인 자료 분포, 많은 양의 자료에 적합.
*R
> a = rnom(200)
> hist(a, col="RED")
나. 줄기-잎 그림(stem-and-leaf plot) : 분포의 대략적인 형태를 살펴보기 위하여 작성되는 그래프, 군집의 존재여부, 집중도가 높은 구간, 대칭성의 여부, 자료의 범위 및 산포, 트깅값의 존재 여부 등을 파악하는데 이용.
*R
> score = scan("c:/data/dataintro/score.txt")
> stem(score)
다. 상자그림
1) 다섯숫자요약(five-number-summary)
(최소값,최대값,중앙값,제1사분위수,제3사분위수)
2)상자그림(box plot) : 다섯숫자요약을 특이값과 함께 그래프로 표현한 것, 분포의 상태, 특이값의 유무, 여러집단의 수치자료를 비교하고자 할때 이용.
* 그리는 방법
(1) 다섯숫자요약을 구함
(2) 제1사분위수, 제3사분위수에 해당하는 수직선상의 위치에 네모상자의 양 끝이 오게하고 상자내의 중앙값에 해당하는 위치에 가로지르는 막대를 표시.,
(3) 안울타리 값을 구함.
(4) 안울타리의 안쪽에 있으면서 경계에 가장 가까운 인접값(AV)을 찾아 상자의 양끝연결
(5) 안울타리 바깥에 있는 자료를 특이값으로 간주하여 "o" 또는 "*" 표시를 함.
*R
> score = scan("c:/data/dataintro/score.txt")
> stem(score)
> summary(score)
> boxplot(score)
3. 웹 데이터 분석
가. StatPages.net
-데이터분석, 통계적 방법, 전자교재, 통계 강의 등 다양한 내용 제공.
나. Interactivate (http://www.shodor.org/interactivate/activities/)
-도표그리기
'공부정리 및 기록 > [데이터] 정보처리' 카테고리의 다른 글
3. 통계정보의 인터넷 활용 (0) | 2020.05.24 |
---|---|
2. 데이터의 입력과 점검 (0) | 2020.05.24 |
1. 데이터 분석과 컴퓨터 (0) | 2020.05.20 |
댓글