概率论与数理统计问题
概率的公理化定义(区分:确定概率的频率方法)
概率的公理化定义包括三个公理:
- 非负性公理:对于任意事件A,它的概率值P(A)必须大于等于0。
- 规范化公理:样本空间Ω中的所有事件的概率之和为1,即P(Ω) = 1。
- 可列可加性公理:对于任意两个不相容事件A和B,它们的并集的概率等于它们的概率之和,即P(A∪B) = P(A) + P(B)。
确定概率的频率方法是一种基于大量试验的方法,通过频率估计概率,其核心思想是当试验次数趋近于无穷大时,事件出现的频率将趋近于概率值。
随机变量分布函数的三个性质(是充要条件)
随机变量分布函数的三个性质是:
- 非降性:对于任意实数x1和x2(x1≤x2),有F(x1)≤F(x2)。
- 右连续性:对于任意实数x0,有F(x0+) = limx→x0+ F(x)。
- 规范性:有limx→-∞ F(x) = 0和limx→+∞ F(x) = 1。
这三个性质是充要条件,即一个函数如果满足这三个性质,那么它就是一个随机变量的分布函数。
说出随机变量的八大分布:
随机变量的八大分布包括:
- 二项分布(Binomial distribution)
- 泊松分布(Poisson distribution)
- 正态分布(Normal distribution)
- 学生t分布(Student’s t-distribution)
- F分布(F-distribution)
- 指数分布(Exponential distribution)
- 均匀分布(Uniform distribution)
- 卡方分布(Chi-squared distribution)
简述区间估计基本思想和步骤
区间估计的基本思想是通过样本数据对总体参数的区间进行估计,提供一个区间估计的下限和上限,反映了总体参数的范围。其步骤包括:
- 确定需要估计的总体参数
- 选择合适的样本统计量
- 计算样本统计量的抽样分布
- 确定置信水平和置信区间的上下限
- 根据样本数据计算区间估计的下限和上限
请说出两类错误的原理和联系
两类错误的原理和联系如下:
- 第一类错误(α错误):原假设为真,但拒绝原假设的错误。它的概率是α,也称显著性水平。
- 第二类错误(β错误):原假设为假,但接受原假设的错误。它的概率是β,与样本量和效应大小有关。
请简述极大似然估计的思想和基本性质
极大似然估计(Maximum Likelihood Estimation, MLE)的思想是:在给定数据下,寻找一组参数值,使得样本的概率密度函数或概率质量函数在这组参数值下最大化,即该样本观测到的概率最大。其基本性质是:MLE是一致、有效和渐近正态的。
什么叫小概率事件
小概率事件是指概率很小的事件,一般指发生概率小于等于0.05或0.01的事件,也被称为稀有事件或极端事件。
什么是P值
P值是假设检验中的一个重要指标,是指当原假设成立时,样本观测值或更极端值出现的概率。如果P值小于预设的显著性水平,通常是0.05或0.01,则拒绝原假设;否则接受原假设。
什么叫依概率收敛
依概率收敛是指当样本容量n趋近于无穷大时,随机变量序列X1, X2, …, Xn依概率收敛于某个确定的随机变量X。具体来说,对于任意正数ε,当n足够大时,P(|Xn-X|>ε)可以小于任意小的正数。
请说出随机现象、随机事件和随机变量的概念
随机现象是指在一定条件下具有多种结果的事情,例如投掷一枚硬币,掷一次骰子等;随机事件是指随机现象中某一特定结果的集合,例如掷一次骰子得到奇数的事件;随机变量是指对随机现象中不同结果进行量化的数学表示,例如掷一次骰子得到的点数可以用随机变量X表示。
统计学问题
说出三大分布以及特点(卡方分布、t分布、F分布)
- 卡方分布:由n个相互独立的标准正态分布变量的平方和所构成的分布,记作χ²(n)。特点是非负、右偏且形状随自由度变化。
- t分布:用于小样本(n < 30)的区间估计和假设检验。特点是形状类似于标准正态分布,但有更高的峰度和更厚的尾部。
- F分布:由两个相互独立的卡方分布比值构成的分布,通常用于方差分析和回归分析。特点是非负、右偏、右侧有长尾。
说出三个抽样方法并说出概念
- 简单随机抽样:从总体中随机抽取n个样本,每个样本有相等的机会被选中。
- 系统抽样:将总体中的个体按照一定的顺序排列,然后从中隔一定间隔选择一个样本。
- 分层抽样:将总体分成若干层,每层中的个体有相似的特征,然后从每层中抽取若干个样本。
分层抽样与整群抽样的异同
- 相同点:都是多阶段随机抽样的一种形式。
- 不同点:分层抽样是按照总体的某些特征将总体划分成若干层,然后从每层中随机抽样一定数量的样本;而整群抽样是将总体划分成若干个互不重叠的子群,然后随机抽取若干个子群,再对每个子群中的所有个体进行抽样。
简述中心极限定理及其意义
- 中心极限定理指出,对于独立随机变量的和或平均数,在满足一定条件下,其分布会趋于正态分布。这个定理在统计学中非常重要,因为它提供了许多基于正态分布的统计推断方法的理论基础。
什么是统计量、如何构造检验统计量?
- 统计量是指从样本数据中计算出来的一个统计指标,例如样本均值、样本标准差等。检验统计量是用来检验假设的统计量,其构造需要符合一定的规则,通常需要满足无偏性、有效性和一致性等性质。
简述正态分布的3原则
均值原则:正态分布的均值唯一,是分布曲线的对称轴。
标准差原则:约68%的数据落在均值附近一个标准差的范围内,约95%的数据落在均值附近两个标准差的范围内,约99.7%的数据落在均值附近三个标准差的范围内。
- 正态分布的形状呈钟形曲线,左右对称,两侧尾部逐渐变陡。
评价估计量的标准有哪些?请简述说明
- 无偏性:估计量的期望值等于被估计参数的真值。
- 有效性:估计量的方差最小。
- 一致性:当样本量增大时,估计量的值趋近于被估计参数的真值。
请说出假设检验的基本思路和原理
- 假设检验的基本思路是根据样本数据推断总体参数,然后根据总体参数推断样本数据是否支持某种假设。其原理是先建立原假设(H0)和备择假设(H1),然后根据样本数据计算出一个检验统计量,并计算该统计量的P值,最后根据P值和显著性水平的大小(通常是0.05或0.01)来判断是否拒绝原假设。
简述假设检验中显著性水平的含义
- 显著性水平是假设检验中拒绝原假设的临界值,通常是0.05或0.01。如果计算出来的P值小于显著性水平,则拒绝原假设,否则不拒绝。
请说出相关分析和回归分析的联系与区别
- 相关分析和回归分析都是用于研究变量之间关系的方法。相同点在于都可以用于探究变量之间的相关性;不同点在于,回归分析是研究一个或多个自变量对因变量的影响,同时可以进行模型预测,而相关分析只是研究变量之间的相关程度。
对于一个时间序列怎么检验序列平稳性?
- 检验时间序列的平稳性通常需要进行单位根检验,例如ADF检验和KPSS检验。如果序列具有单位根,就意味着序列不是平稳的,需要对序列进行差分或转化来消除非平稳性。
假设检验的步骤
假设检验的步骤通常包括:
- 建立原假设和备择假设
- 选择合适的检验统计量
确定显著性水平
计算检验统计量的值
- 计算P值
- 判断是否拒绝原假设
数据的类型有哪些
- 名义数据(nominal data):只有类别,没有大小或顺序之分,如性别、种族等。
- 顺序数据(ordinal data):有大小和顺序之分,但不能用具体数字来表示,如学历、职称等。
- 区间数据(interval data):有大小和顺序之分,可以用具体数字来表示,但没有绝对零点,如温度、时间等。
- 比率数据(ratio data):有大小和顺序之分,可以用具体数字来表示,有绝对零点,如身高、体重等。
对于每种数据类型适合哪种统计方法分析
- 名义数据:主要使用频数分析、卡方检验等方法。
- 顺序数据:主要使用频数分析、列联表分析、秩和检验等方法。
- 区间数据:主要使用均值、标准差、t检验、方差分析等方法。
- 比率数据:主要使用均值、标准差、t检验、方差分析、回归分析等方法。
机器学习问题
什么是最大似然估计?
最大似然估计是一种统计方法,用于从样本数据中估计一个或多个未知参数的值。它的基本思想是找到能够使给定数据集的概率最大化的参数值。通常情况下,这个过程涉及到使用某个概率分布来描述数据,然后使用样本数据来确定该分布的参数。
什么是交叉验证?
交叉验证是一种评估机器学习模型性能的技术。它通过将数据集划分成几个部分来完成,每个部分都会轮流作为测试集使用,而其余部分则用作训练集。这个过程会多次重复,以确保每个部分都有机会成为测试集。最终,这个过程会生成一组性能指标,例如准确度、精确度和召回率,用于评估模型的性能。
什么是过拟合?
过拟合是指机器学习模型在训练集上表现出很好的性能,但在测试集上表现不佳的现象。这通常是因为模型过于复杂,过度拟合了训练数据,从而失去了对新数据的泛化能力。为了避免过拟合,可以使用一些技术,如正则化、早期停止和交叉验证。
什么是神经网络?
神经网络是一种模仿人类神经系统的机器学习模型。它由多个神经元(或节点)组成,每个神经元都接收多个输入,并生成一个输出。这个输出会成为下一层神经元的输入,并在整个网络中传播,直到生成最终的输出。神经网络通常用于处理图像、语音、文本等类型的数据。
什么是随机森林?
随机森林是一种机器学习模型,它由多个决策树组成。每个决策树都是一个分类器,用于将输入数据分成不同的类别。随机森林通过对多个决策树进行集成来提高预测准确度。它通常用于处理分类和回归问题,并在许多应用领域中得到广泛应用。
什么是深度学习?
深度学习是一种机器学习技术,它利用多个层次的神经网络来学习高层次的抽象特征。深度学习通常用于处理大规模的非结构化数据,如图像和语音等。
什么是优化算法?
优化算法是用于找到最优解或接近最优解的数学方法。在机器学习中,优化算法通常用于调整模型参数,以使其最小化损失函数。
什么是降维?
降维是一种机器学习技术,用于减少数据的维度。通过减少数据的维度,降维可以简化模型,减少计算时间,并提高模型的泛化能力。
什么是支持向量机?
支持向量机是一种机器学习模型,用于进行分类和回归。它基于寻找能够分隔数据的超平面,并将数据映射到高维空间中进行分类。
什么是回归分析?
回归分析是一种统计学方法,用于建立因变量与一个或多个自变量之间的关系。回归分析通常用于预测一个连续的数值输出,例如房价、销售额等。
什么是聚类分析?
聚类分析是一种机器学习技术,用于将数据分成不同的组别。聚类分析通过在数据点之间寻找相似性来实现这一目标,并将相似的数据点分为同一组。
什么是决策树?
决策树是一种机器学习模型,它基于树形结构来表示可能的决策路径。决策树通过将数据分成不同的类别来进行分类,每个决策节点都表示一个特征,而每个叶节点则表示一个类别。
什么是梯度下降?
梯度下降是一种优化算法,用于调整模型参数,以最小化损失函数。梯度下降的基本思想是通过计算损失函数的梯度来确定每个参数的调整方向。
什么是混淆矩阵?
混淆矩阵是用于评估分类模型的性能的矩阵。在机器学习中,分类是指将一个输入数据分到预先定义好的多个类别中的一个。混淆矩阵列出了预测值和真实值之间的对应关系,展示了分类器的分类准确性和错误的情况。混淆矩阵通常是一个正方形矩阵,其行表示真实类别,列表示预测类别,矩阵中的每个元素表示预测为该类别的数据点数量。混淆矩阵的对角线上的元素表示预测正确的数据点数量,而非对角线上的元素则表示预测错误的数据点数量。通过分析混淆矩阵,可以计算出各种评价指标,例如准确率、精确率、召回率和 F1 值,从而评估分类器的性能。