체비쇼프 부등식(Chebyshev's inequality)은 확률론과 통계학에서 확률변수의 값이 평균으로부터 일정 거리 이상 떨어져 있을 확률의 상한선을 제시하는 부등식이다. 이 부등식은 러시아의 수학자 파프누티 체비쇼프(Pafnuty Chebyshev)의 이름에서 유래하였으며, 확률변수의 분포가 무엇이든 상관없이 평균과 분산이 존재하기만 하면 보편적으로 적용될 수 있다는 특징을 가진다. 이는 정규분포와 같은 특정한 확률분포를 가정해야만 확률을 계산할 수 있는 다른 정리들과 구별되는 강력한 장점이다.
수학적으로 체비쇼프 부등식은 $P(|X - \mu| \geq k\sigma) \leq \frac{1}{k^2}$로 표현된다. 여기서 $X$는 확률변수, $\mu$는 $X$의 기댓값(평균), $\sigma$는 표준편차를 의미하며, $k$는 1보다 큰 임의의 양의 실수이다. 이 식은 확률변수 $X$가 평균으로부터 표준편차의 $k$배 이상 떨어진 영역에 존재할 확률이 $1/k^2$ 이하임을 보장한다. 예를 들어 $k$가 2라면, 어떤 분포의 데이터든 평균으로부터 표준편차의 2배를 벗어나는 값의 비율은 최대 25%를 넘지 못한다.
이 부등식은 이론적으로 대수의 법칙, 특히 '약한 대수의 법칙(Weak Law of Large Numbers)'을 증명하는 데 결정적인 근거를 제공한다. 표본의 크기가 커질수록 표본 평균이 모평균에 수렴한다는 사실을 수학적으로 엄밀하게 증명할 수 있게 해주기 때문이다. 또한, 확률 밀도 함수를 정확히 알 수 없는 미지의 데이터 집합에 대해서도 최소한의 확률적 경계를 설정할 수 있게 함으로써 통계적 추론의 기초를 마련한다.
체비쇼프 부등식의 증명은 마르코프 부등식(Markov's inequality)을 응용하여 이루어진다. 마르코프 부등식이 음이 아닌 확률변수에 대해 성립하는 확률적 한계를 보여준다면, 체비쇼프 부등식은 이를 편차의 제곱이라는 개념에 대입하여 일반적인 확률변수로 확장한 것이다. 분산의 정의 자체가 평균으로부터 떨어진 거리의 제곱에 대한 기댓값이기 때문에, 이를 적분 또는 합의 형태로 분해하여 특정 구간 밖의 값을 고찰함으로써 부등식이 성립함을 유도할 수 있다.
현실적인 측면에서 체비쇼프 부등식이 제시하는 확률 상한선은 대개 실제 확률보다 훨씬 보수적으로 계산되는 경향이 있다. 즉, 실제 데이터 분포에서는 특정 범위를 벗어날 확률이 $1/k^2$보다 훨씬 작게 나타나는 경우가 많다. 그러나 분포의 형태를 전혀 모르는 극한의 불확실성 상황에서도 사용할 수 있는 절대적인 지표라는 점에서 데이터 분석, 금융 위험 관리, 품질 관리 등 다양한 공학적·경제적 분야에서 유용하게 활용된다.