数据科学与机器学习中,概率与统计是极其核心的概念。对于我们而言,必须拥有统计学和概率知识来有效进行数据的收集、及分析。
在现实世界中,诸多现象,如天气数据、销售数据、财务数据等,都被视为具有统计性质的实例。这表示在特定情境下,我们有能力开发出数学函数来模拟自然现象,这些函数能够描述数据的特征。
“概率分布”是一种数学函数,它指出了实验中不同可能结果的发生概率。
理解数据的分布对于更好地模拟我们周围的世界至关重要。这有助于我们确定各种可能的结果及其可能性,或估计事件的可变性。所有这些因素都使得在数据科学和机器学习中理解不同的概率分布变得尤为重要。
本文将介绍一些常见的分布,并使用python代码进行可视化以直观地展示它们。
均匀分布是最为直接的分布类型。在均匀分布中,所有可能的结果其概率均等。例如,当我们掷一个公正的骰子时,落在任何数字上的概率均为1/6。此为离散型均匀分布的例子。
值得注意的是,并非所有均匀分布都是离散的,它们也可以为连续性。在指定范围内,它们可以取任何实际值。
让我们来详细看看这些分布的数学表达方式:
高斯分布或许是最广为人知的一种分布。它有着多种称呼——有人因其钟形曲线般的概率图而称其为钟形曲线;有人因其最早由德国数学家卡尔·高斯描述而称其为高斯分布;还有一些人因其反复出现的特性而称其为正态分布。
正态分布的概率密度函数如以下所示:
其中,σ代表标准偏差,μ代表分布的平均值。在正态分布中,均值、众数和中位数均相等。
绘制正态分布的随机变量时,其曲线会围绕均值进行对称分布,即一半的值位于中心左侧,一半位于中心右侧。曲线下的总面积总和为1。
关于正态分布的经验规则告诉我们:
约68%的数据值会落在平均值的一个标准差范围内。
约95%的数据值会落在平均值的两个标准差范围内。
而约99.7%的数据值则会在平均值的三个标准差范围内。
对数正态分布则是描述对数呈正态分布的随机变量的连续概率分布。若随机变量x为对数正态分布,则其对于数y=ln(x)将具有正态分布。
这是对数正态分布的概率密度函数:
由于对数正态分布的随机变量仅取正实数值,因此其分布曲线会呈现右偏特性。
接下来,我们将通过python进行可视化展示:
泊松分布是以法国数学家西蒙·丹尼斯·泊松的名字命名的一种离散概率分布。它主要用于计算具有有限结果的事件的概率,即计数分布。
当某一事件以固定速率在特定时间内发生时,我们可以使用泊松分布来描述该时间内事件发生的次数。例如,咖啡馆中顾客的到达率若以每分钟3次的平均速度进行,我们便可使用泊松分布来计算2分钟内9位顾客到达的概率。
以下是泊松分布的概率质量函数公式:
其中λ代表单位时间的事件发生率。我们可使用scipy进行实际概率的计算。
除此之外,指数分布、二项分布、学生t分布以及卡方分布等也均为常见且重要的概率分布。此处不再一一详述其具体细节及可视化过程。