통계 개념사전

어려운 통계 용어를 검색하면 3가지 관점의 설명과 실제 계산 풀이를 보여드립니다.

표준편차정규분포p값효과크기상관계수요인부하량신뢰구간중심극한정리

표준편차 Standard Deviation

관련: 분산 · 정규분포 · 표준화(z점수) · 변동계수

관점 1 · 직관적 비유

표준편차는 데이터가 평균에서 평균적으로 얼마나 흩어져 있는지를 나타냅니다. 반 친구들의 키가 모두 비슷하면 표준편차가 작고, 키 차이가 크면 표준편차가 큽니다. '들쭉날쭉한 정도'를 하나의 숫자로 요약한 것입니다.

관점 2 · 시각적 이해

정규분포 곡선에서 평균을 중심으로 좌우 1 표준편차 안에 약 68%, 2 표준편차 안에 약 95%의 데이터가 들어옵니다. 표준편차가 클수록 곡선이 넓고 펑퍼짐해지고, 작을수록 평균 근처에 뾰족하게 모입니다.

표준편차 시각화

관점 3 · 수식으로

각 값에서 평균을 뺀 차이(편차)를 제곱해 평균낸 것이 분산이고, 그 제곱근이 표준편차입니다. 제곱하는 이유는 음수 편차가 상쇄되지 않게 하기 위해서입니다.

s = √( Σ(xᵢ − x̄)² / (n − 1) )

x̄ = 평균, n = 표본 수, xᵢ = 각 관측값

실제 데이터로 풀어보기

5명의 시험 점수: 70, 75, 80, 85, 90

① 평균: (70+75+80+85+90) / 5 = 80

② 편차: −10, −5, 0, +5, +10

③ 편차²: 100, 25, 0, 25, 100 → 합 = 250

④ 분산: 250 / (5−1) = 62.5

⑤ 표준편차: √62.5 ≈ 7.91

다른 사례로 더 연습하고 싶으신가요? 새로운 숫자로 풀이가 생성됩니다.

정규분포 Normal Distribution

관련: 표준편차 · 중심극한정리 · z점수 · 왜도·첨도

관점 1 · 직관적 비유

정규분포는 가운데가 가장 높고 양옆으로 갈수록 낮아지는 좌우대칭 종 모양 곡선입니다. 키, 몸무게, 시험점수처럼 자연·사회의 많은 현상이 이 모양을 띕니다. 평균 근처에 사람이 가장 많고, 아주 크거나 작은 경우는 드뭅니다.

관점 2 · 시각적 이해

평균을 중심으로 ±1 표준편차에 68%, ±2에 95%, ±3에 99.7%가 들어옵니다(68-95-99.7 법칙). 곡선 전체 아래 면적은 1(100%)이고, 특정 구간의 면적이 그 구간에 속할 확률입니다.

정규분포 시각화

관점 3 · 수식으로

평균(μ)과 표준편차(σ) 두 값만으로 모양이 완전히 결정됩니다. μ는 곡선의 위치(중심), σ는 퍼짐(너비)을 정합니다.

f(x) = (1 / σ√2π) · e^( −(x−μ)² / 2σ² )

μ = 평균, σ = 표준편차, e ≈ 2.718, π ≈ 3.14

실제 데이터로 풀어보기

평균 50, 표준편차 10인 시험에서 한 학생이 70점을 받았습니다.

① 평균에서 거리: 70 − 50 = 20점

② 표준편차 단위로: 20 / 10 = 2 (z=2.0)

③ 위치 해석: 평균보다 2 표준편차 위 = 상위 약 2.3%

④ 결론: 100명 중 약 2~3등 수준의 우수한 성적

다른 사례로 더 연습하고 싶으신가요? 새로운 숫자로 풀이가 생성됩니다.

p값 p-value

관련: 유의수준 · 귀무가설 · 1종 오류 · 효과크기

관점 1 · 직관적 비유

p값은 '이 결과가 단지 우연일 가능성'입니다. p가 작을수록 '우연이라고 보기 어렵다 = 진짜 차이/관계가 있다'는 뜻입니다. 보통 0.05(5%)를 기준선으로 삼아, 그보다 작으면 '통계적으로 유의미하다'고 말합니다.

관점 2 · 시각적 이해

분포 곡선에서 p값은 '관측된 값보다 더 극단적인 영역의 면적'입니다. 검정통계량이 꼬리 쪽 멀리 갈수록 그 바깥 면적(p값)이 작아집니다. 그래서 p값은 사실 곡선 아래 면적(적분)입니다.

p값 시각화

관점 3 · 수식으로

귀무가설(차이가 없다)이 참이라고 가정했을 때, 지금 데이터처럼 극단적인 결과가 나올 확률입니다. 이 확률이 너무 낮으면(그 가정이 틀렸다고 보고) 귀무가설을 기각합니다.

p = P( |검정통계량| ≥ 관측값 | 귀무가설이 참 )

작을수록 귀무가설(차이 없음)에 불리한 증거

실제 데이터로 풀어보기

두 반의 평균 점수를 비교한 t검정에서 t=2.8, 자유도=48이 나왔습니다.

① 검정통계량: t = 2.8

② t분포에서 위치: 자유도 48에서 t=2.8은 꼬리 쪽

③ 양쪽 꼬리 면적: p ≈ 0.007

④ 판단: 0.007 < 0.05 → 유의미. 두 반 점수 차이는 우연이 아님

다른 사례로 더 연습하고 싶으신가요? 새로운 숫자로 풀이가 생성됩니다.

효과크기 Effect Size

관련: p값 · Cohen's d · 상관계수 · 검정력

관점 1 · 직관적 비유

p값이 '차이가 있는지 없는지'를 알려준다면, 효과크기는 '그 차이가 얼마나 큰지'를 알려줍니다. 약의 효과가 '있다'고만 하면 부족하고, '얼마나 좋아지는지'가 효과크기입니다.

관점 2 · 시각적 이해

두 집단 분포가 거의 겹치면 효과크기가 작고(차이 미미), 멀리 떨어져 거의 안 겹치면 효과크기가 큽니다. 두 종 모양 곡선이 떨어진 정도라고 보면 됩니다.

효과크기 시각화

관점 3 · 수식으로

가장 흔한 Cohen's d는 두 집단 평균 차이를 표준편차로 나눈 값입니다. 단위에 상관없이 차이의 크기를 비교할 수 있습니다.

d = (x̄₁ − x̄₂) / s_pooled

0.2 작음 · 0.5 중간 · 0.8 큼 (Cohen 기준)

실제 데이터로 풀어보기

A반 평균 82, B반 평균 76, 합동 표준편차 12

① 평균 차이: 82 − 76 = 6점

② 표준편차로 나눔: 6 / 12 = 0.5

③ Cohen's d: d = 0.5

④ 해석: 중간 크기의 효과 — 실질적으로 의미 있는 차이

다른 사례로 더 연습하고 싶으신가요? 새로운 숫자로 풀이가 생성됩니다.

상관계수 Correlation Coefficient

관련: 산포도 · 회귀분석 · 결정계수 · 인과관계

관점 1 · 직관적 비유

상관계수는 두 변수가 함께 변하는 정도를 −1에서 +1 사이 숫자로 나타냅니다. 키가 클수록 몸무게도 늘면 양(+)의 상관, 운동량이 많을수록 체지방이 줄면 음(−)의 상관입니다. 0에 가까우면 관계가 거의 없습니다.

관점 2 · 시각적 이해

산포도에서 점들이 오른쪽 위로 가는 직선에 가까우면 +1, 오른쪽 아래로 가는 직선에 가까우면 −1, 흩어져 있으면 0입니다. 직선에 얼마나 가까운지를 숫자로 만든 것입니다.

상관계수 시각화

관점 3 · 수식으로

두 변수의 공분산을 각자의 표준편차 곱으로 나눠 −1~+1로 표준화한 값입니다. 단위에 무관하게 관계의 방향과 강도를 잽니다.

r = Σ(xᵢ−x̄)(yᵢ−ȳ) / √[Σ(xᵢ−x̄)² · Σ(yᵢ−ȳ)²]

.1 약함 · .3 중간 · .5 강함 | 상관 ≠ 인과

실제 데이터로 풀어보기

공부시간(x)과 점수(y): (1,60) (2,70) (3,80) (4,90)

① 평균: x̄=2.5, ȳ=75

② 곱의 합 Σ(x−x̄)(y−ȳ): (−1.5·−15)+(−0.5·−5)+(0.5·5)+(1.5·15)=50

③ 각 제곱합: Σ(x−x̄)²=5, Σ(y−ȳ)²=500

④ 상관계수: 50/√(5·500)=50/50=1.0

⑤ 해석: 완벽한 양의 상관 — 공부시간과 점수가 정확히 비례

다른 사례로 더 연습하고 싶으신가요? 새로운 숫자로 풀이가 생성됩니다.

요인부하량 Factor Loading

관련: 요인분석 · CFA · 공통성 · AVE

관점 1 · 직관적 비유

요인부하량은 한 문항이 잠재개념(요인)을 얼마나 잘 대표하는지를 나타냅니다. '직무만족'을 묻는 5개 문항 중 어떤 문항이 만족을 잘 측정하고, 어떤 문항이 엉뚱한지를 보여주는 점수입니다. 보통 0.5 이상이면 좋은 문항입니다.

관점 2 · 시각적 이해

화살표가 요인(원)에서 문항(사각형)으로 향하는 그림에서, 그 화살표의 굵기·숫자가 요인부하량입니다. 굵을수록(높을수록) 그 문항이 요인을 강하게 반영합니다.

요인부하량 시각화

관점 3 · 수식으로

요인과 문항 사이의 표준화된 회귀계수(상관)입니다. 제곱하면 그 문항이 요인으로 설명되는 분산 비율(공통성)이 됩니다.

공통성 = (요인부하량)²

부하량 0.7 → 공통성 0.49 (문항 분산의 49%를 요인이 설명)

실제 데이터로 풀어보기

문항 Q1의 요인부하량이 0.8로 추정되었습니다.

① 부하량: λ = 0.80

② 기준 비교: 0.80 > 0.50 → 양호한 문항

③ 공통성: 0.80² = 0.64

④ 해석: Q1 분산의 64%를 요인이 설명 — 측정에 적합

다른 사례로 더 연습하고 싶으신가요? 새로운 숫자로 풀이가 생성됩니다.

신뢰구간 Confidence Interval

관련: 표준오차 · p값 · 표본 · 추정

관점 1 · 직관적 비유

신뢰구간은 '참값이 들어 있을 법한 범위'입니다. 표본으로 추정한 값은 정확한 한 점이 아니라 오차가 있으므로, '평균은 대략 이 범위 안에 있다'고 폭으로 말하는 것이 정직합니다. 95% 신뢰구간이 가장 흔합니다.

관점 2 · 시각적 이해

추정값을 가운데 두고 좌우로 오차만큼 뻗은 막대로 표현됩니다. 표본이 클수록, 데이터가 덜 흩어질수록 막대가 짧아져(추정이 정밀해져) 신뢰구간이 좁아집니다.

신뢰구간 시각화

관점 3 · 수식으로

같은 방식으로 표본을 100번 뽑아 구간을 만들면 그중 약 95개가 참값을 포함한다는 의미입니다. 추정값 ± (임계값 × 표준오차)로 계산합니다.

CI = x̄ ± ( z × s/√n )

95% 신뢰구간이면 z ≈ 1.96

실제 데이터로 풀어보기

평균 80, 표준편차 10, 표본 100명의 95% 신뢰구간

① 표준오차: s/√n = 10/√100 = 1.0

② 오차한계: 1.96 × 1.0 = 1.96

③ 신뢰구간: 80 ± 1.96 = [78.04, 81.96]

④ 해석: 참 평균은 약 78~82 사이에 있을 가능성이 높음

다른 사례로 더 연습하고 싶으신가요? 새로운 숫자로 풀이가 생성됩니다.

중심극한정리 Central Limit Theorem

관련: 정규분포 · 표본평균 · 표준오차 · 추정

관점 1 · 직관적 비유

중심극한정리는 '원래 데이터가 어떤 모양이든, 표본평균들을 모으면 정규분포가 된다'는 강력한 법칙입니다. 주사위(균등분포)를 여러 번 굴려 평균을 내는 일을 반복하면, 그 평균들의 분포는 종 모양이 됩니다. 통계학이 정규분포를 자주 쓰는 이유입니다.

관점 2 · 시각적 이해

한 번 뽑은 데이터의 히스토그램은 울퉁불퉁할 수 있지만, '표본평균'을 수없이 모은 히스토그램은 매끈한 종 모양으로 수렴합니다. 표본 크기가 클수록 더 정규분포에 가까워지고 폭도 좁아집니다.

중심극한정리 시각화

관점 3 · 수식으로

표본 크기 n이 충분히 크면(보통 30 이상), 표본평균의 분포는 평균 μ, 표준편차 σ/√n인 정규분포에 근사합니다.

x̄ ~ N( μ , σ²/n )

표본이 클수록 표본평균의 분포는 정규분포에 가까워짐

실제 데이터로 풀어보기

평균 3.5인 주사위를 50번씩 던져 평균내는 일을 반복

① 모집단 분포: 1~6 균등분포 (종 모양 아님)

② 표본평균의 평균: μ = 3.5 (모평균과 같음)

③ 표본평균의 표준오차: σ/√n = 1.71/√50 ≈ 0.24

④ 결론: 표본평균들은 평균 3.5, 표준오차 0.24인 정규분포

다른 사례로 더 연습하고 싶으신가요? 새로운 숫자로 풀이가 생성됩니다.

이 사전은 statconcept_db에서 계속 업데이트됩니다. 더 많은 용어가 추가될 예정입니다.