估量、误差和方差

  • 本文首发自民众号:RAIS

前言

本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。

估量

统计的目的是为了推断,大量的统计是为了更好的推断,这就是一种估量,一种凭据现有信息对可能性的一种展望。

  • 点估量:点估量指的是用样本数据估量总体的参数,估量的结果是一个点的数值,因此叫做点估量。这个界说异常宽泛,\(\hat{\theta}_m=g(x_1, x_2, …, x_m)\),其中险些对 g 没有什么限制,只是说对照好的 g 会靠近真实的 θ。
  • 函数估量:是一种映射关系,如 \(y=f(x)+ϵ\),其中 ϵ 是从 x 中展望不出来的,我们不体贴,我们体贴的是函数估量 f,函数估量是一种从输入到输出的映射关系。

误差

估量的误差界说为:\(bias(\hat{\theta}_m)=E(\hat{\theta_m})-\theta\),这很好明白,估量与现实值之间的距离就是误差,若是误差为 0,则\(\hat{\theta}\)\(\theta\)的无偏估量,若是在 m 趋近于无穷大时,误差趋近于 0,则\(\hat{\theta}\)\(\theta\)的渐进无偏。

方差

上面我们用估量量的期望来盘算误差,我们还可以用估量量的方差器量估量的转变水平,我们希望期望这两个值都较小。

对于高斯分布来说,我们有:

  • 样本均值 \(\hatμ_m=\frac{1}{m}\sum_{i=1}^mx^{(i)}\) 是高斯均值参数 μ 的无偏估量;
  • 样本方差 \(\hatσ_m^2=\frac{1}{m}\sum_{i=1}^m(x^{(i)}-\hatμ_m)^2\)\(σ^2\) 的有偏估量;
  • 无偏样本方差 \(\hatσ_m^2=\frac{1}{m-1}\sum_{i=1}^m(x^{(i)}-\hatμ_m)^2\)\(σ^2\) 的无偏估量;

无偏样本方差显然是对照不错的,然则并不总是最好的,有时候某一些有偏估量也是很好的。比如在机械学习中,均值标准差就异常有用:

\[SE(\hatμ_m)=\sqrt{Var[\frac{1}{m}\sum_{i=1}^mx^{(i)}]}=\frac{σ}{\sqrt{m}} \]

《JavaScript 模式》读书笔记(5)— 对象创建模式4

或者写成

\[σ_{\overline X}=\sqrt{Var(\overline X)}=\sqrt{\frac{1}{m}Var(X)}=\frac{σ}{\sqrt{m}} \]

均方误差(MSE)

\[MSE=E[(\hatθ_m-θ)^2]=Bias(\hatθ_m)^2+Var(\hatθ_m) \]

鱼和熊掌不可得兼,误差和方差器量着估量量的两个差别误差泉源,误差器量着偏离真实函数或参数的误差,方差器量着数据上随便特定采样可能导致的估量期望的误差,两个估量,一个误差大,一个方差大,怎么选择?选择 MSE 较小的,由于 MSE 是用来器量泛化误差的。误差和方差之和就是均方误差:

估量、误差和方差

总结

本篇主要先容了估量、误差和方差,可以用来正式的描绘过拟合。

  • 本文首发自民众号:RAIS

原创文章,作者:dddof新闻网,如若转载,请注明出处:https://www.dddof.com/archives/4097.html