模型的拟合与正则化-亚洲ca88官方网站

发布时间：2023-03-18 22:29:37 来源：亚洲ca88官方网站

因为大众号改版不再依照作者的发布时刻进行推送，为防止各位朋友错失月来客栈推送的最新文章，咱们能够手动将大众号设置为“星标⭐”以榜首时刻取得推送内容，感谢各位~

在解说线性回归的内容中，掌柜初次引入了梯度下降算法来最小化线性回归中的方针函数，而且在经过屡次迭代后便能够求得到模型中对应的参数。此刻能够发现，模型的参数是一步一步依据梯度下降算法更新而来直至方针函数收敛，也就是说这是一个按部就班的进程。因而，这一进程也被称作是拟合（Fitting）模型参数的进程，当这个进程履行完毕后就会发生多种拟合后的状况，例如过拟合（Overfitting）和欠拟合（Underfitting）等。

在接下来的这篇文章中，掌柜将首要从模型拟合、正则化、差错方差与穿插验证和实例剖析这四个方面来介绍模型拟合以及模型的改进和泛化。以下为内容目录，咱们能够依据需求进行定位。

在线性回归中掌柜介绍了几种评价回归模型常用的方针，但现在有一个问题是：当MAE或许RMSE越小就代表模型就越好吗？仍是说在某种条件下其越小越好呢？仔细的读者或许一眼便明晰，肯定是有条件下的越小所对应的模型才越好。那这其间究竟是怎样回事呢？

生成（实践中并不知道），但因为其它要素的原因，使得咱们拿到的样本点并没有精确的落在曲线

如图1所示，黑色圆点为练习集，黑色曲线为实在的散布曲线。现在需求依据练习集来树立并练习模型，然后得到相应的猜测函数。假定别离用degree = 1,5,10来对这12个样本点进行建模（degree表明多项式的最高次数），那么便能够得到如图2所示的成果。

不知过了多久，忽然一名客户来说要买你的这个模型进行商业运用，一起客户为了评价这个模型的作用自己又带来了一批新的含标签的数据（虽然这个模型现已用

测验过，但客户并不会彻底信任，假如你的这个模型做弊呢）。所以你拿着客户的新数据（也是由

所生成），然后别离用上面的3个模型进行了猜测，并得到了如图3所示的可视化成果。

此刻令你感到奇怪的是，为什么当degree=5时的成果居然会好于degree=10时模型的成果，问题出在哪儿？其原因在于，当榜首次经过这12个样本点进行建模时，为了尽或许的使得“模型好（体现形式为

尽或许大）”而运用了十分杂乱的模型，虽然终究每个练习样本点都“精确无误”的落在了猜测曲线上，可是这却导致终究模型在新数据上的猜测成果严峻的偏离了其线过拟合与欠拟合

在机器学习中，一般将建模时所运用的数据叫做练习集（Training Dataset）,例如图1中的12个样本点；将测验时所运用的数据集叫做测验集（Testing Dataset）。一起把模型在练习集上发生的差错叫练习差错（Training Error）；把模型在测验集上发生的差错叫泛化差错（Generalization Error）；终究也将整个拟合模型的进程称作是练习（Training）[1]。

进一步，将1.1节中degree=10时所发生的现象叫做过拟合（Overfitting），即模型在练习集上的差错很小，但在测验集上的差错很大，也就是泛化才干弱；相反，将其对立面degree=1时所发生的现象叫做欠拟合（Underfitting），即模型练习集和测验集上的差错都很大；一起，将degree=5时的现象叫做恰拟合（Good Fitting），即模型在练习集和测验集上都有着不错的作用。

一起，需求阐明的是，在1.1节中掌柜仅仅是以多项式回归为例来向读者直观的介绍了什么是过拟合与欠拟合。但并不代表这种现象只呈现在线性回归中，事实上一切的机器学习模型都会存在着这样的问题。因而一般来说，所谓过拟合现象指的就是模型在练习集上体现很好，而在测验集上体现糟糕；欠拟合现象是指模型在两者上的体现都十分糟糕；而恰拟合现象是指模型在练习集上体现杰出（虽然或许不如过拟合时好），但一起在测验集上也有着不错的体现。

经过上面的描绘咱们现已对欠拟合有了一个直观的知道，所谓欠拟合就是练习出来的模型底子不能较好的拟合现有的练习数据。要处理欠拟合的办法相对来说较为简略，首要分为以下3种：

规划新的特征；搜集或规划更多的特征维度作为模型的输入，即依据已有特征数据组合规划得到更多新的特征，这有点类似于上一点。

减小正则化系数；当模型呈现欠拟合现象时，能够经过减小正则化中的赏罚系数来减缓欠拟合现象，这一点将在4.4节中进行介绍。

搜集更多数据；这是一个最为有用但实践操作起来又是最为困难的一个办法。练习数据越多，在练习进程中也就越能够纠正噪音数据对模型所构成的影响，使得模型不易过拟合。可是关于新数据的搜集往往具有较大的困难。

下降模型杂乱度；当练习数据过少时，运用较为杂乱的模型极易发生过拟合现象，例如4.3.1中的示例。因而能够经过恰当削减模型的杂乱度来到达缓解模型过拟合的现象。

正则化办法；在呈现过拟合现象的模型中参加正则化束缚项，以此来下降模型过拟合的程度，这部分内容将在4.4节中进行介绍。

集成办法；将多个模型集成在一起，以此来到达缓解模型过拟合的意图，这部分内容将在第8章中进行介绍。

为了防止练习出来的模型发生过拟合现象，在模型练习之前一般会将拿到的数据集区分红两个部分，即练习集与测验集，且两者一般为7:3的份额。其间练习集用来练习模型（下降模型在练习集上的差错），然后用测验集来测验模型在不知道数据上的泛化差错，调查是否发生了过拟合现象[2]。

可是因为一个完好的模型练习进程一般会是先用练习集练习模型，再用测验集测验模型。而绝大多数状况下不或许榜首次就挑选了适宜的模型，所以又会从头规划模型（如调整多项式次数等）进行练习，然后再用测验集进行测验。因而在不知不觉中，测验集也被当成了练习集在运用。所以这儿还有别的一种数据的区分办法，即练习集、验证集（Validation data）和测验集，且一般为7:2:1的份额，此刻的测验集一般是经过练习集和验证集选定模型后做终究测验所用。

那实践练习中应该挑选哪种区分办法呢？这一般取决于练习者对模型的要求程度。假如要求苛刻那就区分为3份，假如不那么严厉也能够区分为2份，也就是说这两者并没硬性的规范。

在这节中，掌柜首要介绍了什么是拟合，然后介绍了拟合后带来的3种状况，即欠拟合、恰拟合与过拟合，其间恰拟合的模型是咱们终究所需求的成果。一起，掌柜接着介绍了处理欠拟合与过拟合的几种办法，其间处理过拟合的两种详细办法将在后续的内容中别离进行介绍。终究，掌柜还介绍了两种办法来区分数据集来，以尽或许防止发生模型过拟合的现象。

从1.3节的内容能够知道，模型发生过拟合的现象体现为在练习集上差错较小，而在测验集上差错较大。而且掌柜还提到，之所以发生过拟合现象是因为练习数据中或许存在必定的噪音，而咱们在练习模型时为了尽或许的做到拟合每一个样本点（包含噪音），往往就会运用杂乱的模型。终究使得练习出来的模型在很大程度上遭到了噪音数据的影响，例如实在的样本数据或许更契合一条直线，可是因为单个噪音的影响使得练习出来的是一条曲折的曲线，然后使得模型在测验集上体现糟糕。因而，能够将这一进程看作是由糟糕的练习集导致了糟糕的泛化差错。但仅仅从过拟合的体现形式来看糟糕的测验集（噪音多）也或许能导致糟糕的泛化差错。在接下来这节内容中，掌柜将别离从这两个视点来介绍一下正则化（Regularization）办法中最常用的

这儿仍是以线性回归为例，咱们首要来看一下在线性回归的方针函数后边再加上一个

中的内容可知，当实在值与猜测值之间的差错越小（体现为丢失值趋于），也就代表着模型的猜测作用越好，而且能够经过最小化方针函数来到达这一意图。由式

所谓测验集导致糟糕的泛化差错是指练习集本身没有多少噪音，但因为测验集含有许多噪音，使得练习出来的模型在测验集上没有满足的泛化才干，而发生了较大的差错。这种状况能够看作是模型过于精确而呈现了过拟合现象。那正则化办法是怎样处理这个问题的呢？

中的方针函数练习而来，此刻当新输入样本（含噪声）的某个特征维度由练习时的

，那么发生的差错就会越小，这意味着模型越能够反抗噪音的搅扰，在必定程度提升了模型的泛化才干[3]。

由此便能够知道，经过在原始方针函数中参加正则化项，便能够使得练习得到的参数趋于滑润，然后能够使得模型对噪音数据不再那么灵敏，缓解了模型过拟合的现象。

所谓糟糕的练习集导致糟糕的泛化差错是指，因为练习会集包含有部分噪音，导致咱们在练习模型的进程中为了能够尽或许的最小化方针函数而运用了较为杂乱的模型，使得终究得到模型并不能在测验集上有较好的泛化才干。但这种状况就彻底是因为模型不适宜而呈现了过拟合的现象，而这也是最常见的过拟合原因。那

正则化办法又是怎样处理在练习进程中就能够下降对噪音数据的灵敏度的呢？为了便于后边了解，咱们先从图画上来直观了解一下正则化究竟对方针函数做了什么。

正则化后的方针函数。能够看出黑色实线的极值点均发生了显着的改动，且不谋而合的都更接近原点。

如图5所示，图中黑色虚线为原始方针函的等高线，黑色实线为施加正则化后方针函数的等高线。能够看出，方针函数的极值点相同也发生了改动，从原始的

变得更小了）。到此咱们好像能够发现，正则化具有能够使得原始方针函数极值点发生改动，且一起还有使得参数趋于0的作用。事实上也正是因为这个原因才使得

为一个二次曲面），所以给方针函数参加正则化，实践上就等价于给方针函数施加了一个远离原点的梯度。浅显点就是，正则化给原始方针函数的极值点施加了一个远离原点的梯度（乃至能够幻想成是施加了一个力的作用）。因而，这也就意味着关于施加正则化后的方针函数

的取值能够对应增大正则化项对应的梯度，而这将使得终究求解得到愈加简略的模型（参数值愈加趋近于0）。也就是

正则化能够看作是使得练习好的模型不再对噪音数据那么灵敏；而关于第二种状况来说，

正则化则能够看作是使得模型不再那么杂乱。但其实两者的原理归结起来都是一回事，那就是经过较小的参数取值，使得模型变得愈加简略。

别的值得注意的一点是，很读者关于杂乱模型存在着一个误解。以为高次数多项式表明的模型必定比低次数多项式表明的模型杂乱，例如5次多项式就要比2次多项式杂乱。但高次项代表的仅仅是更大的模型空间，其间既包含了杂乱模型，也一起包含了简略模型。只需求将杂乱模型对应方位的权重参数调整到更接近于0便能够对其进行简化。如图6所示，假如仅从幂次来看，两个模型相同“杂乱”，但实践上虚线对应模型的杂乱度要远大于实线对应模型的杂乱度。

在给方针函数施加正则化后也就意味着其关于参数的梯度发生了改动。不过走运的是正则化是被加在原有方针函数中，因而其关于参数

先本身乘以小于1的系数，再减去不含赏罚项项的梯度。这将使得模型参数在迭代练习的进程中以更快的速度趋近于0，因而

因为这儿要模仿模型的过拟合现象，所以需求先制造一个简略导致过拟合的数据集，例如特征数量远大于练习样本数量。详细代码如下：

在上述代码中，第3行用来初始化权重和偏置；第5-6行用来随机生成样本的输入特征，一起再加上相应的噪音。

为了后续便利调查模型的收敛状况，需求界说包含正则化项的方针函数，代码如下：

在上述代码中，第4行就是一般线性回归中的方针函数；第5行表明正则化项；终究再回来原始方针函数加上正则化项的成果。

界说的梯度下降代码相同，仅仅仅仅在一般线性回归梯度的终究加上了正则化项对应的梯度。在界说完上述各个函数后，便能够用来练习带正则化项和不带正则化项（lam参数设为0）的线所示，左面为未添加正则化项时练习差错和测验差错的走势。能够显着看出模型在测验集上的差错远大于在练习集上的差错，这就是典型的过拟合现象。右图为运用正则化后模型的练习差错和测验差错，能够看出虽然练习差错有少许添加，可是测验差错得到了很大程度上的下降[4]。这就阐明正则化能够很好的缓解模型的过拟合现象。

正则能够使模型变得更简略；其次掌柜介绍了参加正则化后原有梯度更新公式的改动之处，其仅仅仅仅加上了正则化项对应的梯度；终究掌柜经过一个示例来展现了

在第2.4节中，掌柜介绍了什么是正则化，以及正则化为什么能够缓解过拟合的原理。一起咱们能够知道，越是杂乱的模型越是或许发生过拟合的现象，这也就为模型在其它不知道数据集上的猜测带来了差错。可是这些差错来自哪里，是怎样发生的呢？知道这些差错的来历后对改进咱们的模型有什么样的协助呢？接下来掌柜就来介绍关于差错剖析以及模型挑选的若干办法。

在机器学习的建模中，模型遍及的差错都是来自于差错（Bias）或方差（Variance）。那什么又是差错与方差呢？

如图8所示[5]，假定你拿着一把枪冲击赤色的靶心，在你连打数十枪后呈现了以下四种状况：

一切子弹都密布打在靶心周围的方位，这就是典型的方差小（子弹很会集），差错大（间隔靶心甚远）；

子弹都散落在靶心周围的方位，这就是典型的方差大（子弹很散乱），差错小（都在靶心邻近）；

子弹都散落在靶心周围的方位，这就是典型的方差大（子弹散乱），差错大（间隔靶心甚远）；

一切子弹都密布打在了赤色靶心的方位，这就是典型的方差小（子弹会集），差错小（都在靶心方位）；

由此可知，差错描绘的是猜测值的希望与实在值之间的间隔，即差错越大，越偏离线行所示。方差描绘的是猜测值之间的改动规模（离散程度），也就是离其希望值的间隔。即方差越大，数据的散布越涣散，如图8右列所示。

上面介绍了什么是差错与方差，那么这4种状况又对应机器学习中的哪些场景呢？一般来说，一个简略的模型会带来比较小的方差（Low Variance)，而杂乱的模型会带来比较大的方差（High Variance）。这是因为简略的模型不简略遭到噪音的影响，而杂乱的模型（例如过拟合）简略遭到噪音的影响而发生较大的差错。一个极点的比方，

，那么其对应的方差就会是0。关于差错来说，一个简略的模型简略发生较高差错（High Bias），而杂乱的模型简略发生较低的差错（Low Bias），这是因为越杂乱的模型越简略拟合更多的样本。

如图9所示为模型的差错、方差与模型杂乱度的改动状况。从图中能够看出，方差跟着模型的杂乱度增大而上升，差错与之刚好相反。一起，假如一个模型的首要差错来自于较大的方差，那么这个模型呈现出的就是过拟合的现象；而一个模型的首要差错来自于较大的差错时，那么此刻模型呈现出的就是欠拟合现象。

总结就是，模型的高方差与高差错别离对应过拟合与欠拟合。假如一个模型不能很好的拟合练习样本，那么此刻模型呈现的就是高差错（欠拟合）的状况；假如是能够很好的拟合练习样本，可是在测验集上有较大的差错，这就意味着此刻模型呈现了高方差（过拟合）的状况。因而，当模型呈现这类状况时，咱们彻底能够依照前面处理过拟合与欠拟合的办法对模型进行改进，然后在这两者之间进行平衡。

在之前的介绍中，咱们知道了模型中的权重参数能够经过练习集运用梯度下降算法求解得到，但超参数又是什么呢？所谓超参数（Hyper Parameter）是指那些不能经过数据集练习得到的参数，但它的取值相同会影响到终究模型的作用，因而相同重要。到现在为止，咱们总共触摸过了3个超参数，仅仅榜首次呈现的时分掌柜并没有能够提起其姓名，在这儿再做一个详尽的总结。这三个超参数别离是：赏罚系数

越大也就意味着对模型的赏罚力度越大，终究练习得到的模型也就相对越简略。因而，在模型的练习进程中，也需求挑选一个适宜的

相同能使得方针函数在峡谷的两头来回振动，以至于需求屡次迭代才干得到最优解（乃至或许得不到最优解）。

如图10所示为相同模型选用不同学习率后，经梯度下降算法在同一初始方位优化后的成果，其间黑色五角星表明大局最优解（Global Optimum），

从图10能够看出，当学习率为0.4时，模型大概在迭代12次后就根本到达了大局最优解。当学习率为3.5时，模型在大约迭代12次后相同能够收敛于大局最优解邻近。可是，当学习率为4.1时，此刻的模型现已处于了发散状况。能够发现，因为模型的方针函数为凸函数（例如线性回归），所以虽然运用了较大的学习率3.5，方针函数仍旧能够收敛。但在后边的学习进程中，遇到更多的状况便对错凸型的方针函数，此刻的模型关于学习率的巨细将会愈加灵敏。

如图11所示为一个非凸型的方针函数，三者均从同一初始点开端进行迭代优化，仅仅各自选用了不同的学习率。其间黑色五角星表明大局最优解，

从图11能够看出，当选用较小的学习率0.02时，模型在迭代20次后堕入了部分最优解（Local Optimum）；而且能够知道此刻不管再持续迭代多少次，其仍旧会收敛于此处，因为它的梯度现已开端接近于0，而使得参数无法得到更新。当选用较大一点的学习率0.4时，模型在迭代4次后便能收敛于大局最优解邻近。当选用学习率为0.6时，模型在这20次的迭代进程中总是来回振动，而且没有一次接近于大局最优解。

从上面两个示例的剖析能够得出，学习率的巨细关于模型的收敛性以及收敛速度有着严峻的影响，且非凸函数在优化进程中关于学习率的灵敏性更大。一起值得注意的是，所谓学习率过大或许过小，在不同模型间没有可比性。例如在上面凸函数的图示中学习率为0.4时或许还算小，可是在非凸函数的这个比方中0.4现已算是相对较大了。

经过上面的介绍，咱们了解了超参数关于模型终究的功能有着重要的影响。那究竟应该怎么挑选这些超参数呢？关于超参数的挑选，首要能够先列出各个参数的备选取值，例如

；然后再依据不同的超参数组合练习得到不同的模型（比方这儿就有25个备选模型），然后再经过4.5.4节介绍的穿插验证来树立模型。不过这一整套的进程sklearn也有现成的类办法能够运用，而且运用起来也十分便利，在下面第4节中将会经过一个详细的示例进行阐明。不过跟着介绍的模型越来越杂乱，就会呈现更多的超参数组合，练习一个模型也会花费必定的时刻。因而，关于模型调参的一个根底就是要了解各个参数的意义，这样才或许更快的扫除不或许的参数取值，以便于更快的练习出可用的模型。

当在对模型进行改进时，自然而然的就会呈现许多备选模型。而咱们的意图就是尽或许的挑选一个较好的模型，以到达低差错与低方差之间的平衡。那该怎么挑选一个好的模型呢？一般来说有两种办法：榜首种就是1.3节中介绍过的将整个数据集区分红3部分的办法；第二种则是运用K折穿插验证（K-fold Cross Validation）[6]的办法。关于榜首种办法，其进程为先在练习集上练习不同的模型，然后在验证集上挑选其间体现最好的模型，终究在测验集上测验模型的泛化才干。可是这种做法的缺陷在于，关于数据集的区分或许刚好某一次区分出来的测验集含有比较奇怪的数据，导致模型体现出来的泛化差错也很糟糕。那么此刻就能够经过K折穿插验证来处理。

如图12所示，以3折穿插验证为例，首要需求将整个完好的数据集分为练习集与测验集两个部分。而且一起再将练习集区分红3份，每次挑选其间两份作为练习数据，别的一份作为验证数据进行模型的练习与验证，终究再挑选平均差错最小的模型。

假定现在有4个不同的备选模型，其各安闲不同验证集上的差错如表1所示。依据得到的成果，能够挑选平均差错最小的模型2作为终究挑选的模型。然后再将其用整个大的练习集练习一次，终究用测验集测验其泛化差错。当然，还有一种省掉的穿插验证办法，即一开端并不再区分出测验集，而是直接将整个数据区分红为K份进行穿插验证，然后挑选平均差错最小的模型即可。整个详细的示例进程将在4节内容中进行介绍。

在这节内容中，掌柜首要经过一个比方直观地介绍了什么是差错与方差，以及在机器学习中当模型呈现高差错与高方差时所对应的现象和处理办法；然后介绍了什么是超参数以及超参数能够给模型带来什么样的影响；终究介绍了在改进模型的进程中怎么经过K折穿插验证来进行模型的挑选。在4节内容中，掌柜将经过一个实在的比方来对上述进程进行完好的介绍。

经过前面几节的介绍，咱们对模型的改进与泛化现已有了必定的知道。下面掌柜就经过一个实践的手写体分类使命进行演示，介绍一下常见的操作流程。一起趁便介绍一下sklearn和中常见办法的运用，完好代码见Chapter04/05_digits_classification.py文件。

首要，需求载入练习模型时所用到的数据集。这儿以sklearn中常见的手写体数据集为例，代码如下：

数据集总共包含有1797个样本10个类别，每个样本包含有64个特征维度。在载入完结后还能够对其进行可视化，如图13所示。

其次，在开端进行规范化之前，需求将数据集分割成练习集和测验集两个部分，这儿能够凭借sklearn中的办法来完结，代码如下：

在上述代码中，第5行里test_size=0.3表明测验集的份额为30%，random_state=20表明设置一个状况值，它的作用是使得每次区分的成果都是相同的，一起也能够设置其它值。一起，在sklearn中关于包含随机操作的函数或许办法，一般都有这个参数，固定下来的意图是便于其他人复现你的成果。

然后，对练习集进行规范化，并保存规范化进程中核算得到的相关参数。例如以4.2.3节中的办法进行规范化时，就需求保存每个维度对应的均值

在上述代码中，第4行用来界说规范化办法；第5行先核算每个维度需求用到的均值和方差，然后再对每个维度进行规范化；一起，第5行也能够分隔来写，如下：

终究，运用在练习集上核算得到的参数，对测验集（以及未来的新数据）进行规范化，代码如下：

这儿只能运用办法来对测验集进行规范化，因为在第2步中现已在练习集上得到了规范化所需求用到的参数（均值和方差）。假如这儿再运用办法来进行规范化，那么就是依据测验会集的参数来对测验集进行规范化，而这将严峻影响模型在未来新数据上的泛化才干。

正如3节中的介绍，不同的模型实践上是依据挑选不同的超参数所构成的。因而，挑选模型的榜首步就是确认好有哪些可供挑选的超参数，以及每个超参数或许的取值。因为此处将选用逻辑回归算法对图片进行分类，所以现在涉及到的超参数仅有学习率和赏罚系数。下面，就依据3节中介绍的办法来一步步完结模型的挑选进程。

在这儿，取值办法一般来说能够每次扩展3倍，可是也能够每次都添加相同的步长（例如0.002），只不过这需求花费更多的时刻来遍历完一切或许的超参数组合，详细能够视状况而定。

在上述代码中，第5行运用的是sklearn中的类来树立逻辑回归模型。它与

中介绍的的差异在于，前者并没有经过梯度下降来进行参数求解，而后者运用的就是梯度下降算法进行求解。一起，在中能够经过来指定为逻辑回归；经过来指定为正则化；经过来指定运用自界说的学习率，即依据来设定，因为默许中的学习率都是依据练习进程动态习惯的；经过来指定相应的赏罚系数。

依据不同的超参数组合界说得到不同的模型后，就需求对练习集进行区分以完成模型的穿插验证。在这儿能够凭借sklearn中的KFold办法来对练习集进行区分，代码如下：

在上述代码中，第3行用来生成穿插验证时样本对应的索引，其间表明运用k折穿插验证，表明在区分时对练习集进行随机打乱；第4行用来取每一次穿插验证时样本的索引，即依据这些索引来获取每次对应的练习集和验证集。终究再调用模型中的办法来进行练习。

经过穿插验证的挑选后能够发现，当学习率为0.03，赏罚系数为0时对应的模型为最优模型。一起，因为备选的学习率有8个，备选的赏罚系数有7个，而且这儿选用了5折穿插验证，因而总共就需求拟合280次模型。

经过穿插验证挑选完模型后，就能够再用完好的练习集对该模型进行练习，然后在测验集上测验其泛化差错，代码如下：

到此，关于一个模型从数据预处理到模型挑选，再到模型测验的悉数流程就介绍完了。不过上述进程在模型挑选部分需求自己来手动区分数据集进行穿插验证挑选模型，这样看起来略微有点繁琐。不过好在sklearn现已将上述进程进行了封装，只需求几行代码就能完成上述完好进程。这部分内容将在第5章中进行介绍。

在本节中，掌柜首要经过逻辑回归算法进行了手写体分类的示例，介绍了怎么对数据集进行预处理以及其对应的完好流程；接着介绍了怎么对备选模型进行挑选，包含罗列超参数、界说模型以及进行穿插验证等进程；终究介绍了怎么测验最优模型的泛化差错。

上一篇：金山云王昊直播同享：风口上的在线教育下一篇：【用友云】商场交融东大集成

文章分类：公司新闻亚洲ca88官方网站

分享到：