분산(Variance)은 통계학에서 데이터 세트의 변동성을 측정하는 지표로, 데이터 값이 평균으로부터 얼마나 퍼져 있는지를 나타낸다. 분산은 각 데이터 포인트와 평균 간의 차이를 제곱하여 평균한 값으로 정의된다.
분산의 수학적 정의는 다음과 같다. 데이터 세트가 n개의 관측값 x₁, x₂, x₃, ..., xₙ으로 구성될 때, 이 데이터 세트의 평균 μ는 다음과 같이 계산된다.
μ = (x₁ + x₂ + ... + xₙ) / n
이제 분산 σ²은 다음과 같이 계산된다.
σ² = (Σ(xᵢ - μ)²) / n
여기서 Σ는 모든 관측값에 대한 합을 나타내며, xᵢ는 각 관측값을 의미한다. 데이터 세트의 분산이 클수록 데이터 값 간의 차이가 크고, 분산이 작을수록 데이터 값이 평균에 가까이 모여 있음을 나타낸다.
분산은 두 가지 형태로 나타낼 수 있다. 모집단 분산(population variance)과 표본 분산(sample variance)이다. 모집단 분산은 전체 모집단을 대상으로 계산되며, 표본 분산은 모집단의 일부인 표본을 대상으로 계산된다. 표본 분산의 경우, n 대신 n-1로 나누어 Bessel 보정을 적용하여 계산된다.
분산은 연속형 데이터뿐만 아니라 이산형 데이터에서도 적용할 수 있으며, 서로 다른 데이터 세트 간의 변동성을 비교하는 데 유용하다. 또한, 분산의 제곱근인 표준편차(standard deviation)는 데이터의 평균으로부터의 변동 정도를 직관적으로 이해하는 데 도움을 준다.
분산은 데이터 분석, 품질 관리, 금융 분석 등 다양한 분야에서 널리 사용되며, 데이터의 특성과 분포를 이해하는 데 중요한 역할을 한다.