통계 개념사전
어려운 통계 용어를 검색하면 3가지 관점의 설명과 실제 계산 풀이를 보여드립니다.
표준편차 Standard Deviation
표준편차는 데이터가 평균에서 평균적으로 얼마나 흩어져 있는지를 나타냅니다. 반 친구들의 키가 모두 비슷하면 표준편차가 작고, 키 차이가 크면 표준편차가 큽니다. '들쭉날쭉한 정도'를 하나의 숫자로 요약한 것입니다.
정규분포 곡선에서 평균을 중심으로 좌우 1 표준편차 안에 약 68%, 2 표준편차 안에 약 95%의 데이터가 들어옵니다. 표준편차가 클수록 곡선이 넓고 펑퍼짐해지고, 작을수록 평균 근처에 뾰족하게 모입니다.
각 값에서 평균을 뺀 차이(편차)를 제곱해 평균낸 것이 분산이고, 그 제곱근이 표준편차입니다. 제곱하는 이유는 음수 편차가 상쇄되지 않게 하기 위해서입니다.
5명의 시험 점수: 70, 75, 80, 85, 90
정규분포 Normal Distribution
정규분포는 가운데가 가장 높고 양옆으로 갈수록 낮아지는 좌우대칭 종 모양 곡선입니다. 키, 몸무게, 시험점수처럼 자연·사회의 많은 현상이 이 모양을 띕니다. 평균 근처에 사람이 가장 많고, 아주 크거나 작은 경우는 드뭅니다.
평균을 중심으로 ±1 표준편차에 68%, ±2에 95%, ±3에 99.7%가 들어옵니다(68-95-99.7 법칙). 곡선 전체 아래 면적은 1(100%)이고, 특정 구간의 면적이 그 구간에 속할 확률입니다.
평균(μ)과 표준편차(σ) 두 값만으로 모양이 완전히 결정됩니다. μ는 곡선의 위치(중심), σ는 퍼짐(너비)을 정합니다.
평균 50, 표준편차 10인 시험에서 한 학생이 70점을 받았습니다.
p값 p-value
p값은 '이 결과가 단지 우연일 가능성'입니다. p가 작을수록 '우연이라고 보기 어렵다 = 진짜 차이/관계가 있다'는 뜻입니다. 보통 0.05(5%)를 기준선으로 삼아, 그보다 작으면 '통계적으로 유의미하다'고 말합니다.
분포 곡선에서 p값은 '관측된 값보다 더 극단적인 영역의 면적'입니다. 검정통계량이 꼬리 쪽 멀리 갈수록 그 바깥 면적(p값)이 작아집니다. 그래서 p값은 사실 곡선 아래 면적(적분)입니다.
귀무가설(차이가 없다)이 참이라고 가정했을 때, 지금 데이터처럼 극단적인 결과가 나올 확률입니다. 이 확률이 너무 낮으면(그 가정이 틀렸다고 보고) 귀무가설을 기각합니다.
두 반의 평균 점수를 비교한 t검정에서 t=2.8, 자유도=48이 나왔습니다.
효과크기 Effect Size
p값이 '차이가 있는지 없는지'를 알려준다면, 효과크기는 '그 차이가 얼마나 큰지'를 알려줍니다. 약의 효과가 '있다'고만 하면 부족하고, '얼마나 좋아지는지'가 효과크기입니다.
두 집단 분포가 거의 겹치면 효과크기가 작고(차이 미미), 멀리 떨어져 거의 안 겹치면 효과크기가 큽니다. 두 종 모양 곡선이 떨어진 정도라고 보면 됩니다.
가장 흔한 Cohen's d는 두 집단 평균 차이를 표준편차로 나눈 값입니다. 단위에 상관없이 차이의 크기를 비교할 수 있습니다.
A반 평균 82, B반 평균 76, 합동 표준편차 12
상관계수 Correlation Coefficient
상관계수는 두 변수가 함께 변하는 정도를 −1에서 +1 사이 숫자로 나타냅니다. 키가 클수록 몸무게도 늘면 양(+)의 상관, 운동량이 많을수록 체지방이 줄면 음(−)의 상관입니다. 0에 가까우면 관계가 거의 없습니다.
산포도에서 점들이 오른쪽 위로 가는 직선에 가까우면 +1, 오른쪽 아래로 가는 직선에 가까우면 −1, 흩어져 있으면 0입니다. 직선에 얼마나 가까운지를 숫자로 만든 것입니다.
두 변수의 공분산을 각자의 표준편차 곱으로 나눠 −1~+1로 표준화한 값입니다. 단위에 무관하게 관계의 방향과 강도를 잽니다.
공부시간(x)과 점수(y): (1,60) (2,70) (3,80) (4,90)
요인부하량 Factor Loading
요인부하량은 한 문항이 잠재개념(요인)을 얼마나 잘 대표하는지를 나타냅니다. '직무만족'을 묻는 5개 문항 중 어떤 문항이 만족을 잘 측정하고, 어떤 문항이 엉뚱한지를 보여주는 점수입니다. 보통 0.5 이상이면 좋은 문항입니다.
화살표가 요인(원)에서 문항(사각형)으로 향하는 그림에서, 그 화살표의 굵기·숫자가 요인부하량입니다. 굵을수록(높을수록) 그 문항이 요인을 강하게 반영합니다.
요인과 문항 사이의 표준화된 회귀계수(상관)입니다. 제곱하면 그 문항이 요인으로 설명되는 분산 비율(공통성)이 됩니다.
문항 Q1의 요인부하량이 0.8로 추정되었습니다.
신뢰구간 Confidence Interval
신뢰구간은 '참값이 들어 있을 법한 범위'입니다. 표본으로 추정한 값은 정확한 한 점이 아니라 오차가 있으므로, '평균은 대략 이 범위 안에 있다'고 폭으로 말하는 것이 정직합니다. 95% 신뢰구간이 가장 흔합니다.
추정값을 가운데 두고 좌우로 오차만큼 뻗은 막대로 표현됩니다. 표본이 클수록, 데이터가 덜 흩어질수록 막대가 짧아져(추정이 정밀해져) 신뢰구간이 좁아집니다.
같은 방식으로 표본을 100번 뽑아 구간을 만들면 그중 약 95개가 참값을 포함한다는 의미입니다. 추정값 ± (임계값 × 표준오차)로 계산합니다.
평균 80, 표준편차 10, 표본 100명의 95% 신뢰구간
중심극한정리 Central Limit Theorem
중심극한정리는 '원래 데이터가 어떤 모양이든, 표본평균들을 모으면 정규분포가 된다'는 강력한 법칙입니다. 주사위(균등분포)를 여러 번 굴려 평균을 내는 일을 반복하면, 그 평균들의 분포는 종 모양이 됩니다. 통계학이 정규분포를 자주 쓰는 이유입니다.
한 번 뽑은 데이터의 히스토그램은 울퉁불퉁할 수 있지만, '표본평균'을 수없이 모은 히스토그램은 매끈한 종 모양으로 수렴합니다. 표본 크기가 클수록 더 정규분포에 가까워지고 폭도 좁아집니다.
표본 크기 n이 충분히 크면(보통 30 이상), 표본평균의 분포는 평균 μ, 표준편차 σ/√n인 정규분포에 근사합니다.
평균 3.5인 주사위를 50번씩 던져 평균내는 일을 반복