标准差，方差，协方差，正态分布

描述数据。

code 旭

1030人浏览 · 2025-03-05 13:28:28

code 旭 · 2025-03-05 13:28:28 发布

一、方差 (Variance)

1️⃣ 定义

描述数据偏离均值的程度
总体方差：

$\sigma^2 = \frac{1}{N}\sum_{i=1}^N (x_i - \mu)^2$
样本方差（无偏估计, $\bar{x}$ 为样本均值）：

$s^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2$

$$

$$

2️⃣ Python计算

import numpy as np

data = [2, 4, 6, 8]
var_pop = np.var(data)          # 总体方差 → 5.0
var_sample = np.var(data, ddof=1)  # 样本方差 → 6.666...

二、标准差 (Standard Deviation)

1️⃣ 定义

方差的平方根，保持量纲一致性
$\sigma = \sqrt{\sigma^2}$

2️⃣ 应用场景

Z-score标准化：
$\frac{x - \mu}{\sigma}$
正态分布的参数：68-95-99.7法则

3️⃣ Python实现

std_pop = np.std(data)          # 总体标准差 → 2.236...
std_sample = np.std(data, ddof=1)  # 样本标准差 → 2.581...

三、协方差 (Covariance)

1️⃣ 定义

衡量两个变量的总体误差：
$\text{Cov}(X,Y) = \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})$

2️⃣ 性质

正值 → 变量同向变化
负值 → 变量反向变化
绝对值越大 → 线性相关性越强

3️⃣ Python计算

x = [1, 2, 3]
y = [4, 5, 6]
cov_matrix = np.cov(x, y)  # 协方差矩阵
print(cov_matrix[0,1])     # 协方差值 → 1.0

四、正态分布 (Normal Distribution)

1️⃣ 概率密度函数

$\frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

2️⃣ 参数意义

$\mu$ ：均值（分布中心位置）
$\sigma$ ：标准差（分布宽度）

3️⃣ 重要特性

对称性：均值=中位数=众数
3σ原则：
- 68%数据在 $\mu \pm \sigma$
- 95%数据在 $\mu \pm 2\sigma$
- 99.7%数据在 $\mu \pm 3\sigma$

4️⃣ Python可视化

import matplotlib.pyplot as plt
from scipy.stats import norm

x = np.linspace(-3, 3, 100)
plt.plot(x, norm.pdf(x, 0, 1))  # 标准正态分布
plt.fill_between(x, norm.pdf(x,0,1), where=(x>1)&(x<2), alpha=0.5)
plt.show()

五、关键概念对比

概念	描述对象	计算公式	应用场景
方差	单个变量	$\frac{1}{n}\sum (x_i-\mu)^2$	数据离散程度评估
标准差	单个变量	$\sqrt{\text{方差}}$	数据标准化、异常检测
协方差	两个变量	$\frac{1}{n}\sum (x_i-\mu_x)(y_i-\mu_y)$	PCA、特征选择
相关系数	两个变量	$\frac{\text{Cov}(X,Y)}{\sigma_X\sigma_Y}$	量化线性相关性强度

六、工业级应用案例

1️⃣ 异常检测 (3σ原则)

def detect_outliers(data):
    mu = np.mean(data)
    sigma = np.std(data)
    return [x for x in data if abs(x - mu) > 3*sigma]

2️⃣ 数据标准化 (Z-score)

def z_score_normalize(data):
    return (data - np.mean(data)) / np.std(data)

3️⃣ 特征选择 (协方差矩阵)

import pandas as pd

df = pd.DataFrame({'X': x, 'Y': y})
cov_matrix = df.cov()  # 计算特征间协方差

七、常见误区解析

方差 vs 标准差
- 误区：认为标准差一定比方差小
- 事实：当数据值 <1 时标准差可能更小
协方差 vs 相关系数
- 协方差受量纲影响，相关系数范围[-1,1]

正态分布检验

使用Q-Q图或统计检验（如K-S检验）

from scipy.stats import probplot
probplot(data, plot=plt)
plt.show()

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

机器学习决策树-分类

2048 AI社区

软考中级-软件设计师 UML图详解（类图，对象图，用例图，序列图，通信图，状态图，活动图，构件图，部署图）

2048 AI社区

不懂编程本科毕业生手搓三个APP，用ChatGPT两年狂赚千万美金！

而现在更厉害的是，有了多模态能力的ChatGPT，直接上传设计图片、截图，并告诉它「我要做成这个样子，这些按钮要实现xxx功能，帮我把代码写出来」。ChatGPT发布那天，Walter Isaacson在课上也是表现的异常热情激动，他的眼睛闪烁着兴奋的光芒，就像孩子看到了心爱的玩具一样。也就是说，假设你能做对80%的决策，另一个人也能做对80%，并且你们的专长领域不重叠，那么当你们联手的时候，正确