1. 데이터의 개념
가. 데이터란 무엇인가?
1) 데이터
- 텍스트, 멀티미디어 등 표현양식과 관계없이 주제에 대해 수집된 구조화된 정보
- 특징 : 어떤 관심있는 주제에 대해 수집되었으며, 일정한 규칙과 형태가 있고,
조사나 실험을 통해 수집되며 분석과정에서 알맞은 형태와 유용한 정보로 변환됨.
2) 통계적 데이터
: 수치적 계산과 통계적 분석에 알맞은 데이터.
3) 데이터 분석의 목적
- 자연 및 사회현상에 대한 (집단의 특징) 파악
- 현상의 원인 (인과관계) 규명
- 경제, 사회현상 속에 숨어 있는 법칙성 발견 -> 미래상황 예측 및 합리적 의사결정에 도움.
2. 측정의 수준과 데이터 종류
가. 데이터 수집 방법
1) 통계조사, 실험, 관찰 등을 통해서 조사단위나 실험단위로부터 정해진 측정방법(도구,질문지)을 통해 얻음. (측정을 함)
2) 측정 : 각각의 조사단위의 어떤 특성을 일정한 기준에 따라 관측하여 각 조사단위에 수치를 부여하는 작업
3) 예 : 표본으로 뽑힌 사람들의 몸무게, 지능, 취업상태 등을 관측하여 수치로 나타내는 경우 -> 측정된 자료를 데이터라고 함.
나. 관련 기본용어
1) 케이스(CASE, 레코드) : 데이터 세트에서 하나의 조사단위에 대한 정보의 집합체.
2) 변수 (VARIALBE, 필드) : 각 조사단위로부터 측적된 개별적인 속성.
EX) 어느 단체에서 10명을 푱본으로 추출하여 각 사람으로부터 이름, 성별, 나이, 교육정도, 월 수입(단위:만원)을 조사하는 경우
케이스1 - 홍길동
케이스2 - 성춘향
변수1 - 성별
변수2 - 나이
....
이름 |
성별 |
나이 |
교육정도 |
월수입 |
홍길동 |
남 |
29 |
고졸 |
200 |
성춘향 |
여 |
30 |
. |
210 |
*데이터를 행렬 형태로 표시하면 이해하기 쉽다.
*각 행은 케이스(레코드), 각 열은 변수(필드)가 됨.
*성춘향 케이스에서 "."는 결측값을 뜻함. (missing value)
다. 측정의 수준
- 측정 수준에 따라 명목척도(nominal scale), 순서척도(서열척도, ordinal scale), 구간척도(interval scale), 비율척도(ratio scale)로 구분.
- 척도에 따라 제공되는 정보의 수준과 데이터 분석에 이용할 수 있는 분석 방법이 달라짐.
1) 명목척도 (Nominal scale : 명명척도)
- 측정 대상의 속성을 단순히 분류, 확인할 목적으로 수치 부여.
- 단순한 범주 구분이 목적. -> 수치의 대소 비교와 연산 의미X
ex) 남(1) 여(2) 구분, 운동선수 등번호, 종교, 지지정당, 거주지(대도시,중소도시,농어촌) 등
2) 순서척도 (Ordinal scale : 서열척도)
- 어떤 특성을 많고 적음에 따라 수치부여.
- 수치 자체가 어떤 절대적인 수나 양, 크기 등을 나타내지 않고 서열, 대소관계의 구분만 의미있음.
ex) 제품의 서비스나 질을 물음
아주좋음(5) 약간좋음(4) 보퉁(3).......
3) 구간척도 (Interval scale : 등간척도)
- 측정대산을 속성에 따라 서열화, 서열간 간격이 같도록 수치부여.
- 연속형 값으로 측정값의 차이는 있지만, 비는 없음.
- 절대값 0을 정의할 수 없다. 임의값 0만 있음
ex : 섭씨온도, IQ, 주가지수, 적성검사 점수 등
(0도 존재 - 절대값아님, 10도보다 20도가 2배덥다 라는 표현은 잘못된것임 - 10도만큼 높은거임. 비는 없음)
4) 비율척도 (Ratio scale)
- 구간척도와 유사하지만 측정값의 차이뿐만 아니라 비도 의미 있는 경우
- 절대값0을 정의할 수 있음
ex : 소득, 체중, 신장, 시간, 방문객 수 등
(200만원은 100만원의 두배이다 - 비 가능)
라. 데이터의 구분
1) 측정 수준에 따른 구분
- 질적 변수(qualitative variable)
- 양적 변수(quantitative variable) : 연속형 변수 (이산형 일 수도 있음 - 방문객, 불량품 수 등 양적으로 셀 수 있음)
2) 측정되는 변수 수에 따른 구분
- 일변량 데이터
- 다변량 데이터
3, 데이터의 입력과정
가. 부호화(coding, 코딩)
- 설문지의 응답결과나 관측결과 등을 통계적 분석이 가능하도록 일정한 원칙에 따라 각 응답에 숫자를 부여하는 과정.
- 연속형 변수는 관측된 값이 숫자이기 때문에 그대로 입력가능.
- 여러 사람이 부호화 작업에 참여할 때에는 부호화의 일관성이 유지되도록 부호화 지침서(code book)를 만들어 사용함.
1) 데이터 코딩 설계
- 조사/실험을 통해 얻은 데이터를 입력할 때 어떻게 입력해야 더 간편하고, 효과적으로 분석할 수 있는지를 구상함.
EX) 지방자치제도가 지역발전에 미친 영향을 살펴보기 위해 표본 조사를 실시함. (*무응답 표현시 보통 9를 사용하기도함)
2) 텍스트 파일
- ASCII 코드형식으로 저장된 파일로 아스키 파일이라고 함.
- 한글 2014에서 일정한 양식으로 데이터 입력하고 텍스트 파일로 저장.
- 자유형식(FREE FORMAT) : 변수와 변수 구분은 공란으로 구분
- 고정형식(FIXED FORMAT) : 각 변수가 위치할 열(칼럼)을 정한 후 입력
3) 스프레드시트 또는 데이터베이스 파일
- 엑셀 등에서 간편한 데이터 입력
- 열은 변수, 행은 케이스 나타냄.
4) SPSS에서 데이터입력
- 텍스트나 엑셀에서 불러올 수 있음.
- 직접 데이터 입력,
5) SAS에서
- 데이터 직접입력 또는 외부 입력 파일 읽어옴.
6) S-LINK
- 직접 위커시트에 입력 또는 외부 데이터 불러옴.
4, 입력된 데이터에 대한 점검
가. 디버깅
: 입력 오류나 조사상 실수로 인한 오류를 찾아 수정할 목적으로 데이터 세트를 검토하고 분석
나. 오류점검
: 각 변수의 입력 범위를 확인, 변수들의 논리적 일관성 여부를 확인하는 방법이 있음.
EX) 성별 조사 과정에서 여자(1) 남자(2)일때 1보다 작거나 2보다 큰 수는 오류임.
성별과 암 종류 교차표 중 남자는 자궁암에 걸릴 수 없는데 자궁암 변수가 있음으로 측정되었을때.
'공부정리 및 기록 > [데이터] 정보처리' 카테고리의 다른 글
4. 통계 정보의 인터넷 활용(2) (0) | 2020.05.24 |
---|---|
3. 통계정보의 인터넷 활용 (0) | 2020.05.24 |
1. 데이터 분석과 컴퓨터 (0) | 2020.05.20 |
댓글