机器学习之Python — Sklearn库简介
机器学习之Python — Sklearn库简介
1 Sklearn简介
Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、分类(Classfication)、聚类(Clustering) 、降维(Dimensionality Reduction)等方法。当我们面临机器学习问题时,便可根据下图来选择相应的方法。Sklearn具有以下特点:
简单高效的数据挖掘和数据分析工具
让每个人能够在复杂环境中重复使用
建立NumPy、Scipy、MatPlotLib之上
sklearn库的结构
(1)结构:
由图中,可以看到库的算法主要有四类:回归,分类,聚类,降维。其中:
常用的回归:线性、决策树、SVM、KNN ;集成回归:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用的分类:线性、决策树、SVM、KNN,朴素贝叶斯;集成分类:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用聚类:k均值(K-means)、层次聚类(Hierarchical clustering)、DBSCAN
常用降维:LinearDiscriminantAnalysis、PCA
(2)图片中隐含的操作流程:
这个流程图代表:蓝色圆圈内是判断条件,绿色方框内是可以选择的算法。你可以根据自己的数据特征和任务目标去找到一条自己的操作路线,一步步做就好了。
2 Sklearn安装
Sklearn安装要求:
Python(>=2.6 or >=3.3)
NumPy (>= 1.6.6)
SciPy (>= 0.9)
如果你是window系统,你需要打开command prompt,输入conda list 查看你的python包的列表(前提你已经装了anaconda,推荐装新版的,自带sklearn了),
如果list有scikit-learn,说明你已经安装sklearn库,如果没有的话,看看你的Numpy和scipy相应版本是否符合要求,若需要安装的话,输入pip install scikit-learn或者conda install scikit-learn
3 Sklearn datasets
Sklearn提供一些标准数据,我们不必再从其他网站寻找数据进行训练。例如我们上面用来训练的load_iris数据,可以很方便的返回数据特征变量和目标值。除了引入数据之外,我们还可以通过load_sample_images()来引入图片。
4 Sklearn通用学习模式
Sklearn中包含众多机器学习方法,但各种学习方法大致相同,我们在这里介绍Sklearn通用学习模式。面对自己的任务肯定有自己的数据集,但是对于学习来说,sklearn提供了一些数据,主要有两部分:现在网上一些常用的数据集,可以通过方法加载;另一种sklearn可以生成数据,可以生成你设定的数据。(设定规模,噪声等)。模我们还可以通过MatPlotLib等方法来直观的展示数据。
SKlearn-iris
SKlearn-boston
5 Sklearn数据预处理 – 标准化
数据集的标准化对于大部分机器学习算法来说都是一种常规要求,如果单个特征没有或多或少地接近于标准正态分布,那么它可能并不能在项目中表现出很好的性能。在实际情况中,我们经常忽略特征的分布形状,直接去均值来对某个特征进行中心化,再通过除以非常量特征(non-constant features)的标准差进行缩放。
例如, 许多学习算法中目标函数的基础都是假设所有的特征都是零均值并且具有同一阶数上的方差(比如径向基函数、支持向量机等)。如果某个特征的方差比其他特征大几个数量级,那么它就会在学习算法中占据主导位置,导致学习器并不能像我们说期望的那样,从其他特征中学习。例如我们可以通过Scale将数据缩放,达到标准化的目的。
6 Sklearn交叉验证
交叉验证的基本思想是将原始数据进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。还可以从有限的数据中获取尽可能多的有效信息。
机器学习任务中,拿到数据后,我们首先会将原始数据集分为三部分:训练集、验证集和测试集。 训练集用于训练模型,验证集用于模型的参数选择配置,测试集对于模型来说是未知数据,用于评估模型的泛化能力。不同的划分会得到不同的最终模型。
以前我们是直接将数据分割成70%的训练数据和测试数据,现在我们利用K折交叉验证分割数据,首先将数据分为5组,然后再从5组数据之中选择不同数据进行训练。
7 总结
在实验的过程中,我们涉及到了Matplotlib绘图库、Numpy科学计算和SKlearn库数据读取的基本使用等等内容,是对所学科学计算及Python工程能力的很好实践。
注:当前工程代码已经在附件,请老师同学们参考!
参考资料
[1] 官方文档:
http://scikit-learn.org/stable/
[2] 互联网搜索资料:
https://morvanzhou.github.io/tutorials/machine-learning/sklearn/
[3] python模块库:
https://www.lfd.uci.edu/~gohlke/pythonlibs/