응용통계학

[응용통계학] 02. 자료의 정리1

ima9ine4 2024. 10. 9. 00:05
728x90

2.1 자료의 종류

  • 질적 자료(qualitative data): 정해진 범주 중 하나의 값으로 측정되는 범주형 자료(비계량형), 이름이나 문자로 나타내는 자료. 원칙적으로 숫자로 표시될 수 없다.
    • 명목형 자료(순서가 없다, ex 남과여, 혈액형 등)
    • 순서형 자료(순서가 있다, ex 금은동, 학점, 직책)
  • 양적 자료(quantitative data): 자료 자체가 숫자로 표현되는 자료(계량형)
    • 구간자료
    • 비율자료

그룹화(grouping)이란? 양적 자료를 질적 자료로 바꾸는 과정, 집단화

 

2.2 질적 자료의 해석

도수: 각 자료값이 나타나는 빈도수
도수분포표(frequency table): 변수값, 도수, 상대도수 등을 나열해 놓은 도표
상대도수: 도수/n(자료의 총개수)

막대그래프(bar graph): 명목형 자료를 그래프로 표시
원형그래프(pie graph): 상대도수의 크기를 각도의 크기로 계산하여 표시(상대도수 * 360도)

도수: 각 자료값이 나타나는 빈도수
도수분포표(frequency table): 변수값, 도수, 상대도수 등을 나열해 놓은 도표

체크시트(check sheet): 계수치의 데이터가 분류항목 중 어디에 집중되어 있는지를 체크하기 위해 데이터의 발생 형태를 기록하는 도구

분할표(cross table)는 이차원 또는 다차원 형태의 도수분포표로 표현한 것이다.

 

2.3 양적 자료의 해석

히스토그램(histogram): 양적 자료를 도수분포표를 이용하여 그래프 형태로 나타내는 방법

도수분포표의 절차
1. 자료의 최소, 최대값을 찾는다.
2. 자료의 크기에 따라 5~20개 정도의 계급의 개수를 정하고 동일한 간격의 계급 크기를 정한다. (계급 구간의 크기가 동일하지 않으면 데이터의 왜곡이 생길 수 있다.)
3. 첫 번째 계급의 아래 경계를 설정
4. 각 계급의 도수를 계산

줄기-잎-그림(stem and leaf display): 히스토그램을 옆으로 돌려놓은 형태, 데이터를 분할하여 개별 데이터의 수치를 나타낸 그림
시각화가 잘되고 중앙값을 찾기 쉽다 / 데이터가 많은 경우 직접 그리기 번거롭다.

상대도수 다각형(relative frequency polygon): 히스토그램에서 각 막대의 윗 부분의 중앙값을 직선으로 연결한 다각형

사분위수(quartile): 크기 순서에 따라 늘어 놓은 자료를 4등분하는 수
상자그림(box plot): 사분위수를 요약하여 그린 그래프

산점도(scatter plot): 두 변수의 상관관계를 나타낼 때 사용

파레토 그림(pareto plot): 경제학자 Pareto가 20:80 법칙을 주장하면서 고안한 그림
불량품의 20%의 원인이 80%의 품질 문제를 발생시킨다고 주장

728x90
반응형

'응용통계학' 카테고리의 다른 글

[응용통계학] 01. 통계학이란 무엇인가?  (4) 2024.10.08