English | 英文

新闻资讯

机械学习初学者易踩的5个坑

作者:Agnis Liukis,来源:机械之心


当你构建第一个模型,注意制止这5个坑。


数据科学和机械学习正变得越来越流行,这个领域的人数每天都在增长。这意味着有许大都据科学家在构建他们的第一个机械学习模型时没有富厚的经验,而这也是过失可能会爆发的地方。


近日,软件架构师、数据科学家、Kaggle 巨匠 Agnis Liukis 撰写了一篇文章,他在文中谈了谈在机械学习中最常见的一些初学者过失的解决计划,以确保初学者了解并制止它们。


640.png

以下为文章内容:


在机械学习领域,初学者制止这 5 个坑


1、在需要的地方没有使用数据归一化

对数据进行归一化操作,然后获取特征,并将其输入到模型中,让模型做出预测,这种要领是很容易的。但在某些情况下,这种简单要领的结果可能会让人失望,因为它缺少一个很是重要的部分。


一些类型的模型需要数据归一化,如线性回归、经典神经网络等。这类模型使用特征值去乘训练值的权重。在非归一化特征的情况下,一个特征值的可能规模可能差别于另一个特征值的可能规模。


假设一个特征的值在 [0,0.001] 规模内,另一个特征的值在 [100000,200000] 规模内。关于使两个特征同等重要的模型,第一个特征的权重将比第二个特征的权重大 1 亿倍。巨大的权重可能会给模型带来严重问题,好比保存一些异常值的时候。别的,预计种种特征的重要性变得困难,因为权重大可能意味着特征很重要,但也可能只是意味着其特征值很小


归一化后,所有特征的值都在相同的规模内,通常为 [0,1] 或 [-1,1]。在这种情况下,权重将在相似的规模内,并与每个特征的实际重要性密切对应。


总的来说,在需要的地方使用数据归一化将爆发更好、更准确的预测。


2、认为特征越多越好

有人可能会认为加入所有特征是一个好主意,认为模型会自动选择并使用最好的特征。实际上,这种想法很难成真。


模型的特征越多,过拟合的危害越大。纵然在完全随机的数据中,模型也能够找到一些特征(信号),尽管有时较弱,有时较强。虽然,随机噪声中没有真实信号。但如果我们有足够多的噪声列,则该模型有可能凭据检测到的故障信号使用其中的一部分。当这种情况爆发时,模型预测质量将会降低,因为它们一定水平上基于随机噪声。


现在有许多技术资助我们进行特征选择。但你要记着,你需要解释你拥有的每一个特征,以及为什么这个特征会资助你的模型。


3. 在需要外推的情况下,使用基于树的模型

基于树的模型易于使用,功效强大,这也是其受接待的原因。然而,在某些情况下,使用基于树的模型可能是过失的。


基于树的模型无法外推,这些模型的预测值永远不会大于训练数据中的最大值,并且在训练中也永远不会输出比最小值更小的预测值。


在某些任务中,外推能力可能很是重要。例如,如果该模型预测股票价格,那么未来股票价格可能会比以往任何时候都高。在这种情况下,基于树的模型将无法直接使用,因为它们的预测险些会凌驾最高历史价格。


这个问题有多种解决计划,一种解决计划是预测变革或差别,而不是直接预测价值。另一种解决计划是为此类任务使用差别类型的模型。线性回归或神经网络就可以进行外推。


4、在不需要的地方使用数据归一化

之前文章谈到了数据归一化的须要性,但情况并非总是如此,基于树的模型不需要数据归一化。神经网络可能也不需要明确的归一化,因为有些网络内部已经包括归一化层,例如 Keras 库的 BatchNormalization 操作。


在某些情况下,纵然是线性回归也可能不需要数据归一化,这是指所有特征都已处于类似的值规模,并且具有相同的寄义。例如,如果模型适用于时间序列数据,并且所有特征都是同一参数的历史值。


5. 在训练集和验证集 / 测试集之间泄漏信息

造成数据泄漏比人们想象的要容易,考虑以下代码段:


640 (1).png

数据泄漏的示例特性


实际上,这两种特征(sum_feature 和 diff_feature)都不正确。它们正在泄漏信息,因为在拆分到训练集 / 测试集后,具有训练数据的部分将包括来自测试的一些信息。这将导致更高的验证分数,但当应用于实际的数据模型时,性能会更差。


正确的要领是首先将训练集 / 测试集离开,然后才应用特征生乐成能。通常,划分处理训练集和测试集是一种很好的特征工程模式。


在某些情况下,可能需要在两者之间通报一些信息 —— 例如,我们可能希望在测试集和训练集上使用相同的 StandardScaler。


总而言之,从过失中吸取教训是件好事,希望上述所提供的过失示例能资助到你。


原文链接:https://towardsdatascience.com/5-typical-beginner-mistakes-in-machine-learning-3544bd4109b



本文仅做学术分享,如有侵权,请联系删文。


来源丨新机械视觉


(*如有版权问题请联系后台,将在24小时内删除文章)


获得更多产品支持与培训

加入WELINKIRT

是否有任何疑问 ?

世界各地的WELINKIRT代表可以随时为您提供支持,满足您的视觉和工业读码需求。

联系jxf祥瑞坊
sitemap网站地图