본문 바로가기
공부정리 및 기록/[데이터] 정보처리

1. 데이터 분석과 컴퓨터

by 9월스튜디오 2020. 5. 20.

1. 데이터정보와 컴퓨터

가. 지식정보화

1) 정보화 사회 : 정보 중심 사회, 경제가 사회를 움직임.

- 정보의 수집 분석 및 정확한 판단 필요.

- 정보의 급격한 증대, 성장 보급화된 사회

2) 효율적 수집, 수집된 정보의 가치판단, 활용능력이 필수적 요구됨. ---> 지식정보화 사회

3) 데이터를 효율적 처리 및 분석하기 위한 컴퓨터 활용 및 데이터 분석 능력 필수.

나. 요구사항

1) 컴퓨터 활용

2) 인터넷 활용

3) 정보이해 및 문제파악과 판단을 위한 통계와 논리적 사고가 요구.

4) 유용한 정보 추출 및 합리적 의사결정을 위해 데이터분석 S/W를 활용.

2. 데이터분석 개요

가. 절차

: 문제 정의 ---> 조사 및 실험 계획 ---> 데이터수집 ---> 데이터 정리 및 분석 ---> 분석결과의 평가

1) 문제정의

- 대개 간단하고 모호한 질문으로부터 시작.

- 자세하고 정확한 질문으로 구체화시켜 연구의 목적으로 함.

- 연구대상의 모집단과 이것에 대한 불확실한 상황과 이에 대한 의사결정에 대한 자세한 검토.

2) 조사 실험 계획

- 모집단 전체 혹은 표본만을 조사할 것인지.

- 표본만일땐 어떻게 표본을 선택할 것이며, 표본의 크기 및 어떤 자료를 얻을 것인지 결정.

3) 데이터 수집

- 인터넷 혹은 문헌이 실용적임. 현장조사는 시간과 비용의 낭비초래. 오류초래.

- 예비자료 먼저 수집 후 자료수집 계획은 수정 또는 보완하기도 함.

4) 정리분석

- 도표나 그림 활용 또는 적합한 방법 이용.

- 엑셀, R, SAS, SPSS 등

- 통계적 방법 : 기술통계, 탐색적 자료분석, 범주형 자료분석, 두 모집단 비교, 회귀분석 등

5) 분석결과 평가

- 연구목적에서 제기된 질문에 대한 결론.

- 부분적인 답 혹은 제기 되지 않았던 결론 얻을 수 있고, 새 연구도 제안 가능.

3. 데이터분석 소프트웨어 소개

가. S/W 종류

1) SPSS (www.spss.co.kr)

- GUI 환경 하에서 통게분석 및 자료처리.

- 분석 절차에 적합한 다양한 대화상자 제공 - 쉬운 분석처리.

- 스프레드시트 형태의 데이터 입력으로 일반 사용자에게 친숙.

- 메뉴방식 및 프로그램 방식을 모두 이용하여 통계분석절차 제공.

- 메뉴방식을 이용한 통계그래픽스 기능이 뛰어남.

<사용예>

* 데이터 입력 : SPSS를 실행하고 데이터를 입력한 초기화면

(초기화면에서 변수이름을 지정하기 위해 하단 변수보기 선택)

* 분석ㅡ기술통계량ㅡ기술통계 선택

* 대화상자에서 변수선택 (옵션-원하는 기술통계량선택 / 표준화값을 변수로저장 - 표준화변수를 만드는 옵션)

* 기술통계 출력 결과

2) SAS (www.sas.com)

- 뛰어난 자료처리기능 - 다양한 통계분석

- 데이터베이스, 데이터 웨어하우징 등의 기능

- 데이터마이닝 - 빅데이터 솔루션

- 모듈

SAS/BASE : SAS 기본

SAS/STAT : 자료 분석 및 통계 분석

SAS/AF : 응용 프로그램 개발 지원

SAS/ASSIST : 메뉴형식의 SAS 시스템 지원

SAS/ETS : 시계열 분석

SAS/GRAGH : 그래프

SAS/IML : 행렬연산

SAS/INSIGHT : 통계분석 및 그래픽 구현

SAS/OR : Operation Research

SAS/QC : 통계적 품질관리

SAS/E-Miner : 데이터 마이닝

<사용예>

* 달리기버튼 눌러서 실행 - 산점도 및 상관 계수 결과

3) S-LINK (www.s-link.co.kr)

- 순수 국내 기술로 개발.

- 스프레드시트 데이터 입력.

- 메뉴방식처리, 사용매우간편.

<사용예>

* 도수분포표

4) R (www.r-project.org)

- free.

- 뛰어난 기능

- 프로그램 처리방식

- 자료처리, 분석 및 그래피스 분야에 탁월함.

<사용예>

* 상관계수에 대한 산점도

4. 데이터분석 예

가. 엑셀을 이용한 데이터분석

1) (예제) 2000년도부터 2013년도까지의 연도별 총출생성비가 다음과 같다. 연도별 출생성비(여아 100명당 남아의 수)를 시계열도표로 그려보자.

<연도별 출생성비>

년도

     2000  2001  2002  2003  2004  2005  2006 2007  2008  2009  2010  2011  2012  2013

출생성비

110.2  109.1  110.0  108.7  108.2  107.8  107.5  106.2  106.4  106.4  106.9  205.7  105.7  105.3

(출생성비 자료는 KOSIS 국가통계포털에 들어가면 얻을 수 있음.)

* 엑셀 데이터 입력

-> 데이터 영역을 선택하여 메뉴의 [삽입]의 '분산형'에서 원하는차트 선택

->차트수정 : 마우스로 왼쪽 축 선택 후 마우스 오른쪽 단추 눌러 나온 팝메뉴에서 축 서식 선택

-> 축의 최소, 최대값 변경 ->범례는 마우스로 선택하여 지우면 됨.

나. R Commander를 이용한 데이터 분석

1) (예제) 한 설문조사에서 다음 6개 문항에 대하여 표본 추출된 40명을 대상으로 조사한 자료가 다음과 같이 정리되어 있다.

1. 월수입의 히스토그램을 그려라.

2. 나이와 월수입의 상관계수를 구하라.

문항 1. 귀하의 성별은? 1 )남자 2) 여자

문항 2. 결혼하셨습니까? 1) 미혼 2) 기혼 3) 이혼

문항 3. 귀하의 나이는? (단위: 세)

문항 4. 귀하의 직업은?

1) 회사원 2) 공무원 3) 노무자 4) 정치가

5) 학생 6) 기업가 7) 주부 8) 기타

문항 6. 가족의 월수입은? (단위:만원)

* 바탕화면의 R 아이콘을 선택하여 오른쪽 버튼을 누르고 메뉴의 속성을 선택

-> 바로가기 탭 -> 대상(Target)에서 맨 뒤에 [ --sdi ] 를 입력 (이렇게 해주는것이 효율적이라한다)

-> R Commander 실행하기 -> 대소문자 구분하여 아래와같이 입력해주기

> # install Rcmdr package

> install.packages("Rcmdr")

> # load Rcmdr

> library(Rcmdr)

-> 메뉴창-데이터-데이터불러오기-텍스트...

-> 파일선택 -> 데이터셋 보기 -> 데이터셋의 이름

-> (월수입 히스토그램) 메뉴창-그래프-히스토그램-변수선택

-> (나이,월수입) 메뉴창-통계-요약-상관검정

-> 두 변수 선택(Crtl키이용)

댓글