본문 바로가기
공부정리 및 기록/[데이터] 정보처리

2. 데이터의 입력과 점검

by 9월스튜디오 2020. 5. 24.

 

1. 데이터의 개념

 

가. 데이터란 무엇인가?

1) 데이터

- 텍스트, 멀티미디어 등 표현양식과 관계없이 주제에 대해 수집된 구조화된 정보

- 특징 : 어떤 관심있는 주제에 대해 수집되었으며, 일정한 규칙과 형태가 있고,

조사나 실험을 통해 수집되며 분석과정에서 알맞은 형태와 유용한 정보로 변환됨.

2) 통계적 데이터

: 수치적 계산과 통계적 분석에 알맞은 데이터.

3) 데이터 분석의 목적

- 자연 및 사회현상에 대한 (집단의 특징) 파악

- 현상의 원인 (인과관계) 규명

- 경제, 사회현상 속에 숨어 있는 법칙성 발견 -> 미래상황 예측 및 합리적 의사결정에 도움.

 

 

2. 측정의 수준과 데이터 종류

 

가. 데이터 수집 방법

1) 통계조사, 실험, 관찰 등을 통해서 조사단위나 실험단위로부터 정해진 측정방법(도구,질문지)을 통해 얻음. (측정을 함)

2) 측정 : 각각의 조사단위의 어떤 특성을 일정한 기준에 따라 관측하여 각 조사단위에 수치를 부여하는 작업

3) 예 : 표본으로 뽑힌 사람들의 몸무게, 지능, 취업상태 등을 관측하여 수치로 나타내는 경우 -> 측정된 자료를 데이터라고 함.

 

나. 관련 기본용어

1) 케이스(CASE, 레코드) : 데이터 세트에서 하나의 조사단위에 대한 정보의 집합체.

2) 변수 (VARIALBE, 필드) : 각 조사단위로부터 측적된 개별적인 속성.

 

EX) 어느 단체에서 10명을 푱본으로 추출하여 각 사람으로부터 이름, 성별, 나이, 교육정도, 월 수입(단위:만원)을 조사하는 경우

케이스1 - 홍길동

케이스2 - 성춘향

변수1 - 성별

변수2 - 나이

....

이름

성별

나이

교육정도

월수입

홍길동

29

고졸

200

성춘향

30

.

210

 

*데이터를 행렬 형태로 표시하면 이해하기 쉽다.

*각 행은 케이스(레코드), 각 열은 변수(필드)가 됨.

*성춘향 케이스에서 "."는 결측값을 뜻함. (missing value)

 

다. 측정의 수준

- 측정 수준에 따라 명목척도(nominal scale), 순서척도(서열척도, ordinal scale), 구간척도(interval scale), 비율척도(ratio scale)로 구분.

- 척도에 따라 제공되는 정보의 수준과 데이터 분석에 이용할 수 있는 분석 방법이 달라짐.

1) 명목척도 (Nominal scale : 명명척도)

- 측정 대상의 속성을 단순히 분류, 확인할 목적으로 수치 부여.

- 단순한 범주 구분이 목적. -> 수치의 대소 비교와 연산 의미X

ex) 남(1) 여(2) 구분, 운동선수 등번호, 종교, 지지정당, 거주지(대도시,중소도시,농어촌) 등

2) 순서척도 (Ordinal scale : 서열척도)

- 어떤 특성을 많고 적음에 따라 수치부여.

- 수치 자체가 어떤 절대적인 수나 양, 크기 등을 나타내지 않고 서열, 대소관계의 구분만 의미있음.

ex) 제품의 서비스나 질을 물음

아주좋음(5) 약간좋음(4) 보퉁(3).......

3) 구간척도 (Interval scale : 등간척도)

- 측정대산을 속성에 따라 서열화, 서열간 간격이 같도록 수치부여.

- 연속형 값으로 측정값의 차이는 있지만, 비는 없음.

- 절대값 0을 정의할 수 없다. 임의값 0만 있음

ex : 섭씨온도, IQ, 주가지수, 적성검사 점수 등

(0도 존재 - 절대값아님, 10도보다 20도가 2배덥다 라는 표현은 잘못된것임 - 10도만큼 높은거임. 비는 없음)

4) 비율척도 (Ratio scale)

- 구간척도와 유사하지만 측정값의 차이뿐만 아니라 비도 의미 있는 경우

- 절대값0을 정의할 수 있음

ex : 소득, 체중, 신장, 시간, 방문객 수 등

(200만원은 100만원의 두배이다 - 비 가능)

 

라. 데이터의 구분

1) 측정 수준에 따른 구분

- 질적 변수(qualitative variable)

- 양적 변수(quantitative variable) : 연속형 변수 (이산형 일 수도 있음 - 방문객, 불량품 수 등 양적으로 셀 수 있음)

2) 측정되는 변수 수에 따른 구분

- 일변량 데이터

- 다변량 데이터

 

 

3, 데이터의 입력과정

 

가. 부호화(coding, 코딩)

- 설문지의 응답결과나 관측결과 등을 통계적 분석이 가능하도록 일정한 원칙에 따라 각 응답에 숫자를 부여하는 과정.

- 연속형 변수는 관측된 값이 숫자이기 때문에 그대로 입력가능.

- 여러 사람이 부호화 작업에 참여할 때에는 부호화의 일관성이 유지되도록 부호화 지침서(code book)를 만들어 사용함.

1) 데이터 코딩 설계

- 조사/실험을 통해 얻은 데이터를 입력할 때 어떻게 입력해야 더 간편하고, 효과적으로 분석할 수 있는지를 구상함.

EX) 지방자치제도가 지역발전에 미친 영향을 살펴보기 위해 표본 조사를 실시함. (*무응답 표현시 보통 9를 사용하기도함)

2) 텍스트 파일

- ASCII 코드형식으로 저장된 파일로 아스키 파일이라고 함.

- 한글 2014에서 일정한 양식으로 데이터 입력하고 텍스트 파일로 저장.

- 자유형식(FREE FORMAT) : 변수와 변수 구분은 공란으로 구분

- 고정형식(FIXED FORMAT) : 각 변수가 위치할 열(칼럼)을 정한 후 입력

3) 스프레드시트 또는 데이터베이스 파일

- 엑셀 등에서 간편한 데이터 입력

- 열은 변수, 행은 케이스 나타냄.

4) SPSS에서 데이터입력

- 텍스트나 엑셀에서 불러올 수 있음.

- 직접 데이터 입력,

5) SAS에서

- 데이터 직접입력 또는 외부 입력 파일 읽어옴.

6) S-LINK

- 직접 위커시트에 입력 또는 외부 데이터 불러옴.

 

 

4, 입력된 데이터에 대한 점검

 

가. 디버깅

: 입력 오류나 조사상 실수로 인한 오류를 찾아 수정할 목적으로 데이터 세트를 검토하고 분석

 

나. 오류점검

: 각 변수의 입력 범위를 확인, 변수들의 논리적 일관성 여부를 확인하는 방법이 있음.

EX) 성별 조사 과정에서 여자(1) 남자(2)일때 1보다 작거나 2보다 큰 수는 오류임.

성별과 암 종류 교차표 중 남자는 자궁암에 걸릴 수 없는데 자궁암 변수가 있음으로 측정되었을때.

 

 

 

댓글