晓是从凹非寺发现的

量子出品|公众号QbitAI

科学计数法的概念及形式(数理统计公式)-冯金伟博客园

如果想从事数据科学,但没有数学背景,那么从事数据科学所需的数学知识有多少?

统计学是学习数据科学不可缺少的数学基础课程,但数据科学也经常涉及数学的其他领域。

数据使用算法进行预测。 这些算法被称为机器学习算法,有数百种。 有人总结了数据科学中最常用的六种算法,他们分别掌握了需要哪些数学知识。

朴素的高跟鞋分类器

陶醉式高跟鞋分类器(Naive Bayes classifier )是基于特征之间相互独立的假设,基于陶醉式高跟鞋定理的简单概率分类器。

陶醉式高跟鞋定理的公式如下。

科学计数法的概念及形式(数理统计公式)-冯金伟博客园

其中,a、b表示两个事件,且p(b )不等于0。 各部分的具体含义如下

1、p(a|b )是有条件的概率,是事件b发生后事件a发生的概率。

2、p(b|a )也是有条件的概率,是事件a发生后事件b发生的概率。 有可能发生事件是真的。

3、p(a )和p ) b )是各自发生的概率,a、b两个事件相互独立。

所需的数学知识:

如果你想知道朴素、陶醉的高跟鞋分类器,以及陶醉的高跟鞋定理的所有用法,学习概率课程就足够了。

线性回归

线性回归是最基本的回归类型,用于了解两个连续变量之间的关系。 对于简单线性回归,获取一系列数据点,并绘制可用于未来预测的趋势线。

线性回归是参数化机器学习的一个例子,训练过程最终可以让机器学习找到与训练集最接近的数学函数,并使用该函数预测未来的结果。 在机器学习中,数学函数被称为模型。 对于在线回归,模型可以表示如下:

科学计数法的概念及形式(数理统计公式)-冯金伟博客园

a1,a1,…,an表示数据组的参数值,x1,x1,…,xn表示线性模型中使用的特征值。

线性回归的目标是找到描述特征值与目标值之间关系的最佳参数值。 也就是说,可以找到最适合数据的线,外推趋势,预测未来的结果。

为了找到线性回归模型的最佳参数,希望最小化残差平方和(residual sum of squares )。 残差通常称为误差,用于表示预测值和真值的差异。 残差平方和的公式可以表示如下。

科学计数法的概念及形式(数理统计公式)-冯金伟博客园

y的“头顶”加上^表示预测值,y表示真值。

所需的数学知识:

如果只是想粗略地了解一下,基础统计学的课就可以了。 残差平方和的公式可以在大多数高级统计课程中学习。

物流回归

“逻辑回归”(Logistic regression )只关注二元分类,即输出结果为两种情况的概率。

和线性回归一样,逻辑回归是参数化机器学习的一个例子。 因此,这些机器学习算法的训练过程结果发现了与训练集最接近的数学函数模型。

但是,线性回归模型输出实数集,逻辑回归模型输出概率值。 在逻辑回归过程中,还使用sigmoid函数,将所有值压缩到0到1的范围内。

科学计数法的概念及形式(数理统计公式)-冯金伟博客园

所需的数学知识:

这部分包含的知识有指数函数和概率,需要对代数和概率论有充分的了解。 如果想深入了解,建议学习概率论、离散数学或实际分析。

神经网络

神经网络是一种机器学习模型,对人脑中的神经元结构有很大的启发。 在神经网络模型中,使用一系列被称为神经元的激活单元来预测一些结果。 神经元将输入应用于转换函数,并返回输出。

神经网络擅长获取数据中的非线性关系,辅助语音和图像处理等任务。 虽然存在各种类型的神经网络,如卷积神经网络、前馈神经网络、递归神经网络等,但它们依赖于将输入转换并生成输出的基本概念。

m/origin/pgc-image/8586e9717e054b138046af333c79e715?from=pc”>

在上图中,线条将每个圆圈连接到另一个圆圈。在数学中,这就是所谓的图,一种由边连接的节点组成的数据结构。

神经网络的核心是一个系统,它接收数据,进行线性代数运算,然后输出答案。

线性代数是理解神经网络的关键,它通过矩阵和向量空间来表示线性方程。因为线性代数涉及矩阵表示线性方程,所以矩阵是理解神经网络核心部分必须知道的基本知识。

矩阵是由数字、符号或表达式组成的矩形阵列,按行和列排列。例如:

科学计数法的概念及形式(数理统计公式)-冯金伟博客园

它被称为3×3矩阵,因为它有三行三列。

神经网络,每个特征都表示为输入神经元。每个特征的数值乘以神经元的权重向量获得输出。在数学上,该过程是这样的:

科学计数法的概念及形式(数理统计公式)-冯金伟博客园

其中X是一个m×n矩阵,m是神经元输入的数量,n神经元输出的数量。a是权重向量,aT是a的转置,b是偏置。

偏置(bias)通过向左或向右移动S形函数来影响神经网络输出,以便对某些数据集进行更好的预测。转置(Transpose)是一个线性代数术语,它的意思是把矩阵的行变成列、列变成行。

在所有特征列和权重相乘之后,调用激活函数来确定神经元是否被激活。激活函数有三种主要类型:RELU函数,sigmoid函数和双曲正切函数。

sigmoid函数我们已经知道了。RELU函数是一个简洁的函数,当输入x大于0的时候输出x,当输入x小于0的时候输出0。双曲正切函数与sigmoid函数类似,只是它用来约束-1和1之间的数值。

需要的数学知识:

离散数学和线性代数课程是必须的。为了深入理解,还需要学习图论、矩阵论、多元微积分和实分析课程。

K-平均聚类

K-平均聚类(K-Means Clustering)算法是一种无监督机器学习,用于对未标记数据进行分类。该算法通过在数据中查找组来工作,其中组由变量k表示。它根据提供的特征将每个数据点分配给k组中的一个。

K-平均聚类依赖于整个算法中的距离概念,将数据点“分配”到聚类。在数学中,描述集合中任意两个元素之间距离的指标有两种:欧几里德距离和出租车距离(又叫曼哈顿距离)。

科学计数法的概念及形式(数理统计公式)-冯金伟博客园

其中,(x1, y1)、(x2, y2 )是笛卡尔平面上的坐标点。

虽然含糊的小兔子距离标准已经足够,但在某些情况下它不起作用。假设在城市街道上乘坐出租车,那么你是没法走斜线的,只能走横平竖直的街道,这时候我们可以使用出租车距离:

科学计数法的概念及形式(数理统计公式)-冯金伟博客园

需要的数学知识:

这部分牵涉到的知识比较少。实际上你只需要知道加法和减法和代数的基础知识,就可以掌握距离公式。但是为了深入理解每种距离的基本几何形状,建议学习欧氏几何和非欧几何。为了深入理解指标和度量空间的含义,我会阅读数学分析并参加实分析课程。

决策树

决策树是一种类似流程图的树结构,它使用分支方法来说明决策的每个可能结果。树中的每个节点代表对特定变量的测试,每个分支都是该测试的结果。

决策树依赖于信息论(information theory)。在信息论中,人们对某个主题了解越多,可以知道的新信息就越少。信息论的关键之一是熵(entropy)。熵是变量不确定性的一种度量,具体形式为:

科学计数法的概念及形式(数理统计公式)-冯金伟博客园

在上面的公式中,P(x)是数据集中特征出现的概率。b是对数函数的底,它常见的值有2、e和10。前面的Σ符号表示求和,它的上下方分别写着求和的上限和下限。

在计算熵之后,我们可以通过信息增益(information gain)构造决策树,它告诉哪种拆分方式会最大程度地减少熵。信息增益的公式如下:

科学计数法的概念及形式(数理统计公式)-冯金伟博客园

信息增益用于衡量可以获得多少“信息”。在决策树中,我们可以计算数据集中每一列的信息增益,找到哪一列能为我们提供最大的信息增益,然后在该列上进行拆分。

需要的数学知识:

基本的代数和概率知识是了解决策树所必须的。

原文地址:

https://www.dataquest.io/blog/math-in-data-science/

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态