2. 데이터의 입력과 점검

1. 데이터의 개념

가. 데이터란 무엇인가?

1) 데이터

- 텍스트, 멀티미디어 등 표현양식과 관계없이 주제에 대해 수집된 구조화된 정보

- 특징 : 어떤 관심있는 주제에 대해 수집되었으며, 일정한 규칙과 형태가 있고,

조사나 실험을 통해 수집되며 분석과정에서 알맞은 형태와 유용한 정보로 변환됨.

2) 통계적 데이터

: 수치적 계산과 통계적 분석에 알맞은 데이터.

3) 데이터 분석의 목적

- 자연 및 사회현상에 대한 (집단의 특징) 파악

- 현상의 원인 (인과관계) 규명

- 경제, 사회현상 속에 숨어 있는 법칙성 발견 -> 미래상황 예측 및 합리적 의사결정에 도움.

2. 측정의 수준과 데이터 종류

가. 데이터 수집 방법

1) 통계조사, 실험, 관찰 등을 통해서 조사단위나 실험단위로부터 정해진 측정방법(도구,질문지)을 통해 얻음. (측정을 함)

2) 측정 : 각각의 조사단위의 어떤 특성을 일정한 기준에 따라 관측하여 각 조사단위에 수치를 부여하는 작업

3) 예 : 표본으로 뽑힌 사람들의 몸무게, 지능, 취업상태 등을 관측하여 수치로 나타내는 경우 -> 측정된 자료를 데이터라고 함.

나. 관련 기본용어

1) 케이스(CASE, 레코드) : 데이터 세트에서 하나의 조사단위에 대한 정보의 집합체.

2) 변수 (VARIALBE, 필드) : 각 조사단위로부터 측적된 개별적인 속성.

EX) 어느 단체에서 10명을 푱본으로 추출하여 각 사람으로부터 이름, 성별, 나이, 교육정도, 월 수입(단위:만원)을 조사하는 경우

케이스1 - 홍길동

케이스2 - 성춘향

변수1 - 성별

변수2 - 나이

....

이름	성별	나이	교육정도	월수입
홍길동	남	29	고졸	200
성춘향	여	30	.	210

*데이터를 행렬 형태로 표시하면 이해하기 쉽다.

*각 행은 케이스(레코드), 각 열은 변수(필드)가 됨.

*성춘향 케이스에서 "."는 결측값을 뜻함. (missing value)

다. 측정의 수준

- 측정 수준에 따라 명목척도(nominal scale), 순서척도(서열척도, ordinal scale), 구간척도(interval scale), 비율척도(ratio scale)로 구분.

- 척도에 따라 제공되는 정보의 수준과 데이터 분석에 이용할 수 있는 분석 방법이 달라짐.

1) 명목척도 (Nominal scale : 명명척도)

- 측정 대상의 속성을 단순히 분류, 확인할 목적으로 수치 부여.

- 단순한 범주 구분이 목적. -> 수치의 대소 비교와 연산 의미X

ex) 남(1) 여(2) 구분, 운동선수 등번호, 종교, 지지정당, 거주지(대도시,중소도시,농어촌) 등

2) 순서척도 (Ordinal scale : 서열척도)

- 어떤 특성을 많고 적음에 따라 수치부여.

- 수치 자체가 어떤 절대적인 수나 양, 크기 등을 나타내지 않고 서열, 대소관계의 구분만 의미있음.

ex) 제품의 서비스나 질을 물음

아주좋음(5) 약간좋음(4) 보퉁(3).......

3) 구간척도 (Interval scale : 등간척도)

- 측정대산을 속성에 따라 서열화, 서열간 간격이 같도록 수치부여.

- 연속형 값으로 측정값의 차이는 있지만, 비는 없음.

- 절대값 0을 정의할 수 없다. 임의값 0만 있음

ex : 섭씨온도, IQ, 주가지수, 적성검사 점수 등

(0도 존재 - 절대값아님, 10도보다 20도가 2배덥다 라는 표현은 잘못된것임 - 10도만큼 높은거임. 비는 없음)

4) 비율척도 (Ratio scale)

- 구간척도와 유사하지만 측정값의 차이뿐만 아니라 비도 의미 있는 경우

- 절대값0을 정의할 수 있음

ex : 소득, 체중, 신장, 시간, 방문객 수 등

(200만원은 100만원의 두배이다 - 비 가능)

라. 데이터의 구분

1) 측정 수준에 따른 구분

- 질적 변수(qualitative variable)

- 양적 변수(quantitative variable) : 연속형 변수 (이산형 일 수도 있음 - 방문객, 불량품 수 등 양적으로 셀 수 있음)

2) 측정되는 변수 수에 따른 구분

- 일변량 데이터

- 다변량 데이터

3, 데이터의 입력과정

가. 부호화(coding, 코딩)

- 설문지의 응답결과나 관측결과 등을 통계적 분석이 가능하도록 일정한 원칙에 따라 각 응답에 숫자를 부여하는 과정.

- 연속형 변수는 관측된 값이 숫자이기 때문에 그대로 입력가능.

- 여러 사람이 부호화 작업에 참여할 때에는 부호화의 일관성이 유지되도록 부호화 지침서(code book)를 만들어 사용함.

1) 데이터 코딩 설계

- 조사/실험을 통해 얻은 데이터를 입력할 때 어떻게 입력해야 더 간편하고, 효과적으로 분석할 수 있는지를 구상함.

EX) 지방자치제도가 지역발전에 미친 영향을 살펴보기 위해 표본 조사를 실시함. (*무응답 표현시 보통 9를 사용하기도함)

2) 텍스트 파일

- ASCII 코드형식으로 저장된 파일로 아스키 파일이라고 함.

- 한글 2014에서 일정한 양식으로 데이터 입력하고 텍스트 파일로 저장.

- 자유형식(FREE FORMAT) : 변수와 변수 구분은 공란으로 구분

- 고정형식(FIXED FORMAT) : 각 변수가 위치할 열(칼럼)을 정한 후 입력

3) 스프레드시트 또는 데이터베이스 파일

- 엑셀 등에서 간편한 데이터 입력

- 열은 변수, 행은 케이스 나타냄.

4) SPSS에서 데이터입력

- 텍스트나 엑셀에서 불러올 수 있음.

- 직접 데이터 입력,

5) SAS에서

- 데이터 직접입력 또는 외부 입력 파일 읽어옴.

6) S-LINK

- 직접 위커시트에 입력 또는 외부 데이터 불러옴.

4, 입력된 데이터에 대한 점검

가. 디버깅

: 입력 오류나 조사상 실수로 인한 오류를 찾아 수정할 목적으로 데이터 세트를 검토하고 분석

나. 오류점검

: 각 변수의 입력 범위를 확인, 변수들의 논리적 일관성 여부를 확인하는 방법이 있음.

EX) 성별 조사 과정에서 여자(1) 남자(2)일때 1보다 작거나 2보다 큰 수는 오류임.

성별과 암 종류 교차표 중 남자는 자궁암에 걸릴 수 없는데 자궁암 변수가 있음으로 측정되었을때.

저작자표시 변경금지

'공부정리 및 기록 > [데이터] 정보처리' 카테고리의 다른 글

4. 통계 정보의 인터넷 활용(2) (0)	2020.05.24
3. 통계정보의 인터넷 활용 (0)	2020.05.24
1. 데이터 분석과 컴퓨터 (0)	2020.05.20

SEPTEMBER STUDIO

2. 데이터의 입력과 점검

'공부정리 및 기록 > [데이터] 정보처리' 카테고리의 다른 글

댓글

티스토리툴바

2. 데이터의 입력과 점검

'공부정리 및 기록 > [데이터] 정보처리' 카테고리의 다른 글

관련글

댓글

티스토리툴바