生成模型和判定模型的内部指南

字幕组双语原文:生成模型和判定模型的内部指南

英语原文:The Insiders’ Guide to Generative and Discriminative Machine Learning Models

为更好的理解,试着以下几个问题:(1 判别式;2 生成式)

  • 哪种模型需要较少的训练数据?1
  • 哪种模型能够生成数据?2
  • 什么时候使用某类模型?
  • 哪种模型对异常值更敏感?2
  • 哪种模型容易过拟合?1
  • 哪种模型训练时间短?1
  • 哪种模型直接学习条件概率?1
  • 在不确定情况下,哪种模型更好?2
  • 当特征存在关联时,哪种模型更好?2
  • 哪种模型具有更好的可解释性?2
  • 分类问题中,哪种模型准确率高?1
  • 对于未标注数据使用哪种模型?2
  • 如果是标注数据哪种模型更好?1
  • 哪种模型简单,训练速度更快?1

翻译:AI研习社(季一帆)

Mark的判断方法就是认真的观察,总结能够区分的特征,但过多的复杂特征会导致过拟合,但Tony不会遇到这种情况。

图源:,

判别式机器学习在可能的输出选择中确定输出。该过程根据给定的数据进行训练,从而学习模型参数,以最大化联合概率P(X,Y)。

分类有时被称为判别模型,这有一定道理,毕竟分类模型就是要到输入实例的类别进行判断。

图源:Antoine DautryUnsplash

无监督模型一般会对输入变量的分布进行学习,并能够根据输入分布创建或生成新的实例,类似这样的模型称为生成式模型。

对于变量分布已知的情况,如高斯分布

在这种情况下,生成模型可能非常适合,而使用判别模型的化则会使问题复杂化,反之亦然。

例如对于条件预测任务,判别模型表现显著优于生成模型,同时具有更好的正则性。

图源:,

由于生成模型能够总结数据分布,因此可以根据输入变量分布生成新变量。

看这样一个例子:有Tony和Mark两个小朋友,他们要在宠物商店中分辨出小猫和小狗。对于宠物,我们假定它们包含颜色、大小、眼睛颜色、毛发长短和叫声等特征。

给Mark两张照片,一张是猫,一张是狗,Mark要做出判断。他想到可以根以下条件进行判断:如果叫声是“喵喵”、眼睛是蓝色或绿色、具有褐色或黑色的条纹,则大概率会是猫。根据这样的简单规则,Mark可以容易的识别出猫或狗。

判别式机器学习训练模型在可能的输出选项中选择正确输出,通过训练学习使条件概率P(Y | X)最大化的模型参数。

Tony的任务可没这么简单。不是要他判断图片中是猫还是狗,而是要在两张白纸上画出猫和狗的样子。Tony能够画出猫和狗的样子,那么给他展示图片,他也很容易的区分出图中是猫还是狗。可以看到,相比Mark的方法,Tony的方法更加耗时。

如果Tony对猫和狗的特征了解的更多,他能够绘制出更详细准确的图画。但是,如果提供足够多的猫狗数据集,那么Mark会表现得更好。

假设只有猫狗两种宠物。如果一张图片上是蓝眼睛、棕色条纹的狗,那么Mark可能会将其标记为猫,但Tony可以判断出图片中一定是狗。

图源:Photos HobbyUnsplash

判别式方法重点在区别语言模型间的差异。无需学习语言就可实现语音分类。而生成式方法需要学习每种语言,根据学习到的知识进行分类。

如果在访问宠物商店之前,他们没有任何信息呢?也就是说只提供未标注的数据。这种情况下,Mark完全不知道该怎么做,Tony也判别不出什么(因为他不知道“猫”“狗”这两个类别),但至少Tony可以根据看到的猫和狗去画图,这难道不是巨大的优势吗?半监督就是如此。

图源:Morning BrewUnsplash

在本文中,我们将讨论生成模型和判别模型之间的差异、形成原因及相关内容。

再看另一个例子,将语音分类为语言模型。

数学上的区别

图源:Markus SpiskeUnsplash

参考文献

图源:Jon TysonUnsplash

生成对抗网络(GAN)同时训练生成器和判别器,具体而言,生成器生成一批样本,这些样本与真实数据集一起提供给判别器进行分类。

判别式分类器的缺陷

  • 它缺乏先验性,结构性和不确定性
  • 黑盒子,变量之间的关系无法观测

图源:,

生成式模型

  • 隐马尔科夫模型
  • 朴素贝叶斯
  • 贝叶斯网络
  • 混合高斯模型

GAN

生成式机器学习则是通过训练学习使联合概率P(X,Y)最大化的模型参数。通常可以由P(Y)和P(X | Y)得到联合概率,当前前提是P(Y)和P(X | Y)条件独立。

结论

机器学习模型一般分为生成式和判别式两类,其中,生成式模型主要涉及建模操作,判别式模型一般用于分类问题。一般而言,生成式模型更具有解释力。

模型并不是越大越好、参数越多越好。更新更多参数意味着更长的训练时间、内存和计算量。一般而言,判别式模型有更好的正则性。

生成式模型所需的数据一般要比判别式模型更少。

? Prasad, A., Niculescu-Mizil, A., and Ravikumar, P.K., 2017. On separability of loss functions, and revisiting discriminative vs. generative models. In Advances in Neural Information Processing Systems (pp. 7050?7059).

? Yogatama, D., Dyer, C., Ling, W., and Blunsom, P., 2017. Generative and discriminative text classification with recurrent neural networks. arXiv preprint arXiv:1703.01898.

判别式模型

  • 逻辑回归
  • 随机森林
  • 支持向量机
  • 经典神经网络
  • 最近邻

? Lasserre, J.A., Bishop, C.M. and Minka, T.P., 2006, June. Principled hybrids of generative and discriminative models. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06) (Vol. 1, pp. 87?94). IEEE.

在上述例子中,Mark就是判别式方法,而Tony代表生成式方法。

? Wang, K., Zong, C., and Su, K.Y., 2012. Integrating generative and discriminative character-based models for Chinese word segmentation. ACM Transactions on Asian Language Information Processing (TALIP), 11(2), pp.1?41.

最后,欢迎在Twitter和Linkedin上发表您的想法!你觉得本文对你有帮助吗?欢迎交流分享,联系方式和!

团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT咨询人、在校师生;志愿者们来自IBM、AVL、Adobe、阿里、百度等知名企业,北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。

雷锋字幕组是一个由 AI 爱好者组成的翻译团队,汇聚五百多位志愿者的力量,分享最新的海外AI资讯,交流关于人工智能技术领域的行业变革与技术创新的见解。

如果,你也是位热爱分享的AI爱好者。欢迎与雷锋字幕组一起,学习新知,分享成长。