《概率入门》 2.6 一些重要的连续分布

《概率入门》 2.6 一些重要的连续分布

在本节中,我们给出了一些重要的连续分布并列出了它们的一些属性。请注意,每个分布的 pdf 取决于一个或多个参数;因此,正如前面讨论的离散情况一样,我们正在处理分布系列。

2.6.1 均匀分布(Uniform Distribution)

随机变量 X 的密度函数 f 定义为 \(f(x) = \frac {1}{b-a}, a \leq x \leq b\),则我们称 X 在区间 [a,b] 上具有均匀分布。

我们写作 X ∼ U[a, b]。 X 可以对区间 [a,b] 中随机选择的点进行建模,其中每个选择的可能性相同。图 2.9 给出了 pdf 的图表。

图 2.9 [a,b]上均匀分布的 pdf

我们得出

$$

\mathbb{E}X=\int_a^b\frac{x}{b-a}dx=\frac{1}{b-a} \left[ \frac{b^2-a^2}{2} \right]=\frac{a+b}{2}

$$

直接观察可以看出 pdf 围绕 c = (a+b)/2 对称,因此期望等于对称点 c。对于方差我们可以得出

$$

\begin{align*}

Var(X)&=\mathbb{E}X^2-(\mathbb{E}X)^2=\int_a^b\frac{x^2}{b-a}dx-\left(\frac{a+b}{2}\right)^2 \\

&= \cdots = \frac{(a-b)^2}{12}

\end{align*}

$$

更优雅的一种推导方法是将 X 视为 U ∼ U[0, 1] 上的和 X = a + (b − a)U 。即对于x ∈ [a, b] :

$$

\mathbb{P}(X \leq x)=\frac{x-a}{b-a}=\mathbb{P} \left(U \leq \frac{x-a}{b-a} \right) = \mathbb{P}(a+(b-a)U\leq x)

$$

因此,我们得到$Var(X)=Var(a+(b-a)U)=(b-a)^2Var(U)$。并且

$$

Var(U)=\mathbb{E}U^2-(\mathbb{E}U)^2=\int_0^1u^2du-\left(\frac{1}{2}\right)=\frac{1}{3}-\frac{1}{4}=\frac{1}{12}

$$

2.6.2 指数分布(Exponential Distribution)

随机变量 X 具有密度函数

$f(x)=\lambda e^{-\lambda x},x\geq 0$ (2.7)

则称 X 具有带 λ 参数的指数分布。我们写作 X~Exp(λ)。指数分布可以被视为几何分布的连续版本。图 2.10 给出了不同 λ 值的 pdf 图。

图 2.10 多种 λ 的 Exp(λ) 分布的pdf

以下是指数函数的一些属性:

矩生成函数(moment generating function)为

\[\begin{align*}

M(s)&=\int_0^\infty e^{sx}\lambda e^{-\lambda x}dx=\lambda \int_0^\infty e^{-(\lambda -s)x}dx=\lambda \left[\frac{-e^{-(\lambda -s)x}}{\lambda -s}\right] \\

&= \frac{\lambda}{\lambda -s}, s < \lambda

\end{align*}

\]

通过微分矩生成函数我们得到

\[\mathbb{E}X=M'(0)=\frac{\lambda}{(\lambda -s)^2}\bigg|_{s=0}=\frac{1}{\lambda}

\]

或者,您可以使用部分积分(partial integration)来计算

\[\mathbb{E}X=\int_0^\infty \underbrace x_{1} \underbrace {\lambda e^{-\lambda x}}_{-e^{-\lambda x}} = \left[-xe^{-\lambda x}\right]_0^\infty + \int_o^\infty e^{-\lambda x}dx = 0+\left[\frac{-e^{-\lambda x}}{\lambda}\right]_0^\infty = \frac{1}{\lambda}

\]

类似的,第二个矩是\(\mathbb{E}X^2=M''(0)=\frac{2\lambda}{(\lambda -s)^3}\bigg|_{s=0}=2/\lambda^2\),因此方差变为

\[Var(X)=\mathbb{E}X^2-(\mathbb{E}X)^2=\frac{2}{\lambda^2}-\frac{1}{\lambda^2}=\frac{1}{\lambda^2}

\]

X 的 cdf 定义为

\[F(x)=\mathbb{P}(X \leq x)= \int_0^x \lambda e^{-\lambda u}du = \left[-e^{-\lambda u}\right]_0^x = 1-e^{-\lambda x}, x \geq 0

\]

因此,尾部概率 P(X > x) 呈指数衰减:

\[\mathbb{P}(X>x)=e^{-\lambda x}, x \geq 0

\]

指数分布最重要的属性如下

定理2.2(无记忆属性) X 具有参数为 λ 的指数分布。那么对于任何 s,t > 0:

\[\mathbb{P}(X>s+t|X>s)=\mathbb{P}(X>t), \text{ 对于所有 } s,t \geq 0

\]

证明。根据(1.4)

\[\begin{align*}

\mathbb{P}(X>s+t|X>s) &= \frac{\mathbb{P}(X>s+t,X>s)}{\mathbb{P}(X>s)} = \frac{\mathbb{P}(X>s+t)}{\mathbb{P}(X>s)} \\

&= \frac{e^{-\lambda(t+s)}}{e^{-\lambda s}}=e^{-\lambda t}=\mathbb{P}(X>t)

\end{align*}

\]

这里第二个等式中,我们使用的为真事件 {X > s + t} 包含在事件 {X > s} 中,因此这两个集合的交集为 {X > s + t}。

例如,当 X 表示机器的生命周期时,考虑到该机器在时间 s 还活着,则该机器的剩余生命周期(即 X − s)具有与全新机器相同的指数分布。换句话说,机器没有年龄记忆,也不会“恶化”(尽管它最终会坏掉)。

证明指数分布是唯一具有无记忆特性的连续(正数)分布并不难。

2.6.3 正态(Normal),或高斯(Gaussian)分布

正态(或高斯)分布是统计学研究中最重要的分布。如果随机变量的密度函数 f 为

\[f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{1}{2} \left( \frac{x-\mu}{\sigma} \right)^2}, \quad x \in \mathbb{R}

\]

则我们说随机变量具有参数 μ 和 \(\sigma ^2\) 的正态分布。

我们写作 X~(\(\mu, \sigma^2\)),参数 μ 和 \(\sigma ^2\) 分别是分布的期望和方差。如果 μ = 0 且 σ = 1 那么

\[f(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}

\]

该分布称为标准正态分布(standard normal distribution)。后一种分布的 cdf 通常用 Φ 表示,并在附录 B 中列出。图 2.11 描述了三种不同正态分布的概率密度。

图 2.11 几种正态分布的概率密度函数

接下来我们考虑正态分布的一些重要属性。

如果X~N(\(\mu, \sigma^2\)),那么

$\frac{X-\mu}{\sigma}\sim N(0,1)$ (2.10)

因此,通过减去平均值并除以标准差,我们得到标准正态分布。这个过程称为标准化(standardisation)。

证明。令\(X \sim N(\mu,\sigma^2)\),并且 \(Z =(X-\mu)/\sigma\)。那么,

\[\begin{align*}

\mathbb{P}(Z \leq z) &= \mathbb{P}\left(\frac{X - \mu}{\sigma} \leq z\right) = \mathbb{P}(X \leq \mu + \sigma z) \\

&= \int_{-\infty}^{\mu + \sigma z} \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{1}{2} \left( \frac{x-\mu}{\sigma} \right)^2} \, dx \\

&= \int_{-\infty}^{z} \frac{1}{\sqrt{2\pi}} e^{-y^2/2} \, dy \quad [\text{c.o.v. } y = \frac{x-\mu}{\sigma}] \\

&= \Phi(z)

\end{align*}

\]

因此 Z 具有标准正态分布

标准化使我们能够用标准正态分布的 cdf 来表示任何正态分布的 cdf。这就是为什么附录中仅包含标准正态分布表的原因。

标准化公式的简单重用给出了以下重要结果:如果 \(X \sim N(\mu, \sigma^2)\),那么\(X = \mu + \sigma Z, Z \sim N(0,1)\)

换句话说,任何高斯(正态)随机变量都可以被视为标准正态随机变量的所谓仿射(affine 线性+常数)变换。

\(\mathbb{E}X=\mu\)。因为 pdf 关于μ对称

\(Var(X)=\sigma^2\)。这点涉及更多。首先,写出 \(X = \mu+\sigma Z\),Z为标准正态。那么,\(Var(X)=Var(\mu+\sigma Z)=\sigma^2 Var(Z)\)。因此,只要证明 Z 的方差为 1 就足够了。考虑 \(Var(Z)=\mathbb{E}Z^2\)(注意期望为 0)。我们得到

\[\mathbb{E}Z=\int_{-\infty}^{\infty}z^2\frac{1}{\sqrt{z\pi}}e^{-z^2/2}dz=\int_{-\infty}^{\infty}z\times\frac{z}{\sqrt{2\pi}}e^{-z^2/2}dz

\]

通过这种方式最后得到的被积函数(integrand),我们可以部分积分两个因素来得出

\[\mathbb{E}Z^2=\left[z\frac{-1}{\sqrt{2\pi}}e^{-z^2/2}\right]_{-\infty}^{\infty} + \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}e^{e^{-z^2/2}}dz=1

\]

因为最后一个被积函数是标准正态分布的 pdf。

\(X \sim N(\mu,\sigma^2)\) 的矩生成函数为

\[\mathbb{E}e^{sX}=e^{s\mu + s^2\sigma^2/2}, s \in \mathbb{R}

\]

证明。首先考虑 \(Z \sim N(0,1)\) 的矩生成函数,我们得出

\[\begin{align*}

\mathbb{E}e^{sZ} &= \int_{-\infty}^{\infty} e^{sz} \frac{1}{\sqrt{2\pi}} e^{-z^2/2} \, dz

= e^{s^2/2} \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-(z-s)^2/2} \, dz \\

&= e^{s^2/2}.

\end{align*}

\]

其中第二个被积函数是 N(s,1) 分布的 pdf,因此积分为 1。现在,对于一般的 \(X \sim N(\mu,\sigma^2)\) 写成 X = μ + σZ。然后,

\[\mathbb{E}e^{sX}=\mathbb{E}e^{s(\mu+\sigma Z)}=e^{s\mu}\mathbb{E}e^{s\sigma Z}=e^{s\mu}e^{\sigma^2s^2/2}=e^{s\mu+\sigma^2s^2/2}

\]

稍后将详细介绍高斯分布,尤其是多维(multidimensional)情况!

2.6.4 伽马(Gamma) 和卡方(\(χ^2\)) 分布

伽马分布在统计学中经常出现。其密度函数为

\[f(x)= \frac{\lambda^\alpha x^{\alpha-1}e^{-\lambda x} }{\Gamma(\alpha)} , x \geq 0

\]

其中 \(\Gamma\) 是 Gamma 函数,其定义为

\[\Gamma(\alpha)=\int_0^\infty u^{\alpha-1}e^{-u}du, \alpha > 0

\]

参数α称为形状(shape)参数,λ称为尺度(scale)参数。我们写作 X ∼ Gam(α, λ)。

特别重要的是以下特殊情况:如果 X ∼ Gam(n/2, 1/2),则称随机变量 X 具有自由度(degrees of freedom)为 n (\(\in \{1,2,\cdots\}\)) 的卡方分布(chi-square distribution)。我们写作 \(X \sim χ_n^2\)。图 2.12 给出了不同 n 的卡方(\(χ_x^2\))分布的 pdf 图。

图 2.12 不同自由度 n 的卡方分布

我们提到一些 Gamma 函数的属性

\(\Gamma (a +1)=a\Gamma(a), a \in \mathbb{R}_+\)

\(\Gamma(n)=(n-1)!, n=1,2,\cdots\)

\(\Gamma(1/2)=\sqrt\pi\)

X ∼ Gam(α, λ) 的矩生成函数为

\[\begin{align*}

M(s) &= \mathbb{E}e^{sX} = \int_{0}^{\infty} \frac{e^{-\lambda x} \lambda^\alpha x^{\alpha-1}}{\Gamma(\alpha)} e^{sx} \, dx \\

&= \left(\frac{\lambda}{\lambda - s}\right)^{\alpha} \int_{0}^{\infty} \frac{e^{-(\lambda - s)x}(\lambda - s)^\alpha x^{\alpha-1}}{\Gamma(\alpha)} \, dx \\

&= \left(\frac{\lambda}{\lambda - s}\right)^{\alpha}

\end{align*}

\]

因此,我们得出

\[\mathbb{E}X=M'(0)=\frac{\alpha}{\lambda} \left(\frac{\lambda}{\lambda-s}\right)^{\alpha+1}\bigg|_{s=0}=\frac{\alpha}{\lambda}

\]

类似的,

\[Var(X)=\frac{\alpha}{\lambda^2}

\]

相关推荐

雷军到底有多少钱?几千万都是零头!
beat365体育ios版下载

雷军到底有多少钱?几千万都是零头!

📅 06-28 👁️ 2623
固态硬盘SSD闪存芯片的颗粒类型 和 颗粒等级
365bet线上官网

固态硬盘SSD闪存芯片的颗粒类型 和 颗粒等级

📅 07-18 👁️ 4805
电脑为什么要重装系统,好处在哪里?
365足球直播无插件高清

电脑为什么要重装系统,好处在哪里?

📅 06-30 👁️ 602
1人民币等于多少美元?
365足球直播无插件高清

1人民币等于多少美元?

📅 07-04 👁️ 7570
热血江湖是哪个公司运营
beat365体育ios版下载

热血江湖是哪个公司运营

📅 06-29 👁️ 8853
为什么油漆发黑什么原因(涂料变色的原因何在?)
beat365体育ios版下载

为什么油漆发黑什么原因(涂料变色的原因何在?)

📅 07-04 👁️ 3750
炉石传说价格一览!2025年卡包/冒险模式氪金指南
beat365体育ios版下载

炉石传说价格一览!2025年卡包/冒险模式氪金指南

📅 07-14 👁️ 9985
重新认识拼音与发音:聊聊汉语拼音与注音符号方案的差异
365足球直播无插件高清

重新认识拼音与发音:聊聊汉语拼音与注音符号方案的差异

📅 06-30 👁️ 427
草莓的家庭养殖方法(从选地到收成,一步步教你如何种植草莓)