1. 데이터정보와 컴퓨터
가. 지식정보화
1) 정보화 사회 : 정보 중심 사회, 경제가 사회를 움직임.
- 정보의 수집 분석 및 정확한 판단 필요.
- 정보의 급격한 증대, 성장 보급화된 사회
2) 효율적 수집, 수집된 정보의 가치판단, 활용능력이 필수적 요구됨. ---> 지식정보화 사회
3) 데이터를 효율적 처리 및 분석하기 위한 컴퓨터 활용 및 데이터 분석 능력 필수.
나. 요구사항
1) 컴퓨터 활용
2) 인터넷 활용
3) 정보이해 및 문제파악과 판단을 위한 통계와 논리적 사고가 요구.
4) 유용한 정보 추출 및 합리적 의사결정을 위해 데이터분석 S/W를 활용.
2. 데이터분석 개요
가. 절차
: 문제 정의 ---> 조사 및 실험 계획 ---> 데이터수집 ---> 데이터 정리 및 분석 ---> 분석결과의 평가
1) 문제정의
- 대개 간단하고 모호한 질문으로부터 시작.
- 자세하고 정확한 질문으로 구체화시켜 연구의 목적으로 함.
- 연구대상의 모집단과 이것에 대한 불확실한 상황과 이에 대한 의사결정에 대한 자세한 검토.
2) 조사 실험 계획
- 모집단 전체 혹은 표본만을 조사할 것인지.
- 표본만일땐 어떻게 표본을 선택할 것이며, 표본의 크기 및 어떤 자료를 얻을 것인지 결정.
3) 데이터 수집
- 인터넷 혹은 문헌이 실용적임. 현장조사는 시간과 비용의 낭비초래. 오류초래.
- 예비자료 먼저 수집 후 자료수집 계획은 수정 또는 보완하기도 함.
4) 정리분석
- 도표나 그림 활용 또는 적합한 방법 이용.
- 엑셀, R, SAS, SPSS 등
- 통계적 방법 : 기술통계, 탐색적 자료분석, 범주형 자료분석, 두 모집단 비교, 회귀분석 등
5) 분석결과 평가
- 연구목적에서 제기된 질문에 대한 결론.
- 부분적인 답 혹은 제기 되지 않았던 결론 얻을 수 있고, 새 연구도 제안 가능.
3. 데이터분석 소프트웨어 소개
가. S/W 종류
1) SPSS (www.spss.co.kr)
- GUI 환경 하에서 통게분석 및 자료처리.
- 분석 절차에 적합한 다양한 대화상자 제공 - 쉬운 분석처리.
- 스프레드시트 형태의 데이터 입력으로 일반 사용자에게 친숙.
- 메뉴방식 및 프로그램 방식을 모두 이용하여 통계분석절차 제공.
- 메뉴방식을 이용한 통계그래픽스 기능이 뛰어남.
<사용예>
* 데이터 입력 : SPSS를 실행하고 데이터를 입력한 초기화면
(초기화면에서 변수이름을 지정하기 위해 하단 변수보기 선택)
* 분석ㅡ기술통계량ㅡ기술통계 선택
* 대화상자에서 변수선택 (옵션-원하는 기술통계량선택 / 표준화값을 변수로저장 - 표준화변수를 만드는 옵션)
* 기술통계 출력 결과
2) SAS (www.sas.com)
- 뛰어난 자료처리기능 - 다양한 통계분석
- 데이터베이스, 데이터 웨어하우징 등의 기능
- 데이터마이닝 - 빅데이터 솔루션
- 모듈
SAS/BASE : SAS 기본
SAS/STAT : 자료 분석 및 통계 분석
SAS/AF : 응용 프로그램 개발 지원
SAS/ASSIST : 메뉴형식의 SAS 시스템 지원
SAS/ETS : 시계열 분석
SAS/GRAGH : 그래프
SAS/IML : 행렬연산
SAS/INSIGHT : 통계분석 및 그래픽 구현
SAS/OR : Operation Research
SAS/QC : 통계적 품질관리
SAS/E-Miner : 데이터 마이닝
<사용예>
* 달리기버튼 눌러서 실행 - 산점도 및 상관 계수 결과
3) S-LINK (www.s-link.co.kr)
- 순수 국내 기술로 개발.
- 스프레드시트 데이터 입력.
- 메뉴방식처리, 사용매우간편.
<사용예>
* 도수분포표
4) R (www.r-project.org)
- free.
- 뛰어난 기능
- 프로그램 처리방식
- 자료처리, 분석 및 그래피스 분야에 탁월함.
<사용예>
* 상관계수에 대한 산점도
4. 데이터분석 예
가. 엑셀을 이용한 데이터분석
1) (예제) 2000년도부터 2013년도까지의 연도별 총출생성비가 다음과 같다. 연도별 출생성비(여아 100명당 남아의 수)를 시계열도표로 그려보자.
<연도별 출생성비>
년도 |
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 |
|||||||
출생성비 |
110.2 109.1 110.0 108.7 108.2 107.8 107.5 106.2 106.4 106.4 106.9 205.7 105.7 105.3 |
(출생성비 자료는 KOSIS 국가통계포털에 들어가면 얻을 수 있음.)
* 엑셀 데이터 입력
-> 데이터 영역을 선택하여 메뉴의 [삽입]의 '분산형'에서 원하는차트 선택
->차트수정 : 마우스로 왼쪽 축 선택 후 마우스 오른쪽 단추 눌러 나온 팝메뉴에서 축 서식 선택
-> 축의 최소, 최대값 변경 ->범례는 마우스로 선택하여 지우면 됨.
나. R Commander를 이용한 데이터 분석
1) (예제) 한 설문조사에서 다음 6개 문항에 대하여 표본 추출된 40명을 대상으로 조사한 자료가 다음과 같이 정리되어 있다.
1. 월수입의 히스토그램을 그려라.
2. 나이와 월수입의 상관계수를 구하라.
문항 1. 귀하의 성별은? 1 )남자 2) 여자
문항 2. 결혼하셨습니까? 1) 미혼 2) 기혼 3) 이혼
문항 3. 귀하의 나이는? (단위: 세)
문항 4. 귀하의 직업은?
1) 회사원 2) 공무원 3) 노무자 4) 정치가
5) 학생 6) 기업가 7) 주부 8) 기타
문항 6. 가족의 월수입은? (단위:만원)
* 바탕화면의 R 아이콘을 선택하여 오른쪽 버튼을 누르고 메뉴의 속성을 선택
-> 바로가기 탭 -> 대상(Target)에서 맨 뒤에 [ --sdi ] 를 입력 (이렇게 해주는것이 효율적이라한다)
-> R Commander 실행하기 -> 대소문자 구분하여 아래와같이 입력해주기
> # install Rcmdr package
> install.packages("Rcmdr")
> # load Rcmdr
> library(Rcmdr)
-> 메뉴창-데이터-데이터불러오기-텍스트...
-> 파일선택 -> 데이터셋 보기 -> 데이터셋의 이름
-> (월수입 히스토그램) 메뉴창-그래프-히스토그램-변수선택
-> (나이,월수입) 메뉴창-통계-요약-상관검정
-> 두 변수 선택(Crtl키이용)
'공부정리 및 기록 > [데이터] 정보처리' 카테고리의 다른 글
4. 통계 정보의 인터넷 활용(2) (0) | 2020.05.24 |
---|---|
3. 통계정보의 인터넷 활용 (0) | 2020.05.24 |
2. 데이터의 입력과 점검 (0) | 2020.05.24 |
댓글