漫谈机器学习 -6parkbbs.com

[返回杂论闲侃首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]

漫谈机器学习

送交者: PRChina[☆★★人民共和★★☆] 于 2019-08-12 18:43 已读 6117 次 8 赞

PRChina的个人频道

我在上一篇《漫谈人工智能》中曾经提到(https://web.6parkbbs.com/index.php?app=forum&act=view&tid=1118)，基于数据的（data-driven）AI主要靠机器学习技术（machine learning，ML，这么巧，那什么也是ML，我喜欢ML，哈哈哈）。那到底什么是ML，咳咳，严肃一点哈，用一个最初的定义，ML就是“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E”。这个定义的几个要点，首先，ML是个计算机程序，其次它要完成一些任务T，然后它需要从以往的经验E中学习，最后通过学习改善性能P。如果你把机器想象成一个人，当他对一个任务毫无所知的时候，你有两个方法让他完成这个任务，一个是事无巨细地给他安排好步骤，遇到什么情况用什么方法应对都有详细说明；另一个是给他一堆以前完成这件任务的案例，让他自己去寻找其中的规律。这前一种就是我上文所说的基于规则的AI，第二种就是ML的方法啦。

很多人谈ML都侧重ML的算法，比如现在最流行的深度学习deep learning（我未来会另开一文），是基于神经网络的算法，或者随机森林random forest，基于树算法，等等，各种算法不一而足。我在这行十几年，也不敢说每种算法都精通。但我觉得谈ML最根本的应该谈框架。这篇漫谈，我就避谈一些复杂算法，而是从框架入手，聊一聊我对ML的理解。

传统上，ML分监督型（supervised）和非监督型（unsupervised）（现在又派生出很多门类，我在这不细说，未来有时间再另帖谈）。监督型就是在训练机器的过程中，你要告诉他任务完成得对不对，而非监督型是，你不告诉他对不对（有可能你自己也不知道对不对）。但不管监督还是非监督，它都离不开我刚刚讲的几个要素，任务T，经验E和性能指标P。所以首先我们要给机器一个任务去完成，这个任务必须是预测型的任务，比如你问一个人昨天发生什么事，这不是ML范畴，你只有问他明天会发生什么，才需要ML。完成任务T需要机器去学习经验E，E即以数据data的形式存在，比如要预测明天天气，你要告诉机器，今天天晴，昨天多云，前天下雨之类的数据。机器通过算法对数据进行分析学习，这个过程叫做训练（training）。所谓的学习就是一个优化的过程，你需要给机器一个性能指标P，比如一个代价函数（cost function），拿天气预测的例子来说，它的代价函数可以是预测误差。逐渐最小化这个代价函数就能达到预测的效果。如果按照任务的类型，ML又可以分为分类型（classification/clustering）和回归型（regression）。分类型是给机器两个或以上类别，让机器把未知类别的数据归入各个类别，比如天气预测可以把天气分为天晴，多云，下雨，下雪等等类别，机器需要把明天的天气归入这些类别，就是分类型。分类型ML的应用非常普遍，比如给机器一堆图片，让它分清图片中是猫还是狗。回归型ML是预测一个连续数值，比如预测明天的温度，或者某支股票明天的价格。

我大概介绍了ML的概念，是不是觉得好像不复杂。确实，概念上ML不难理解。但是实际实现层面，ML有很多技术难点，我简要的介绍一下。

首先，任何一个ML项目都需要选定对的任务和好的数据。人常说，好的开始是成功的一半，这在ML项目中尤为重要。对任务和数据（至少）有三个要求，首先是基于已有数据可预测的问题，比如你有消费者的消费数据，你可以用其预测消费者的消费习惯，但是很难预测消费者的健康状况，第二是需要给机器较难的任务，比如你让机器分辨黑白对机器来说就太容易了，只需简单设置个门限即可，根本不需要学习，而机器比人类擅长的地方是它可以发现复杂且细微的pattern图案。第三数据的质量要好，且多多益善。我们有句行话：Rubbish in，rubbish out，垃圾进垃圾出。现实中，数据会参杂很多随机错误和遗失，需要在驯练之前对数据作预处理，也就是所谓的清洁数据。同时，很多领域里优质数据非常难采集，这给ML项目增加很多困难。

第二，一旦任务选定，数据也采集清理结束，就要进入建模训练阶段。我们还有句行话：No free lunch，没有免费午餐，即不可能有一个模型或算法对所用问题都适用。这就逼迫我们不能只使用一种模型，而要测试不同类型的模型，选择效果最好的。我们建模的时候，尤其是工业应用时，首先测试简单算法模型，然后再测试复杂算法。如果简单算法就可以达到复杂算法的效果，就不会使用复杂算法，这就是所谓奥卡姆剃刀原理啦（Occam's Razor），一个14世纪的古老哲学。

在ML算法优化的过程中，overfitting是最大的问题。用咱们中国人的哲学来理解，这叫过犹不及。我们说过，ML就是用现有数据预测未知，如果对现有数据研究太精细，甚至对每个情况划定一个规则，反而会影响对大局的判断，在对未知数据的预测上犯更多错误。这非常符合中国人哲学，抓大放小，难得糊涂，哈哈。为了防止overfitting，有很多技术和技巧，同时也决定了ML训练的标准流程，即cross-validation，所谓交叉验证，即把已知的数据分成若干小块，每一小块都被当作未知数据进行预测评估，其他数据当作训练数据，最后得到平均性能。对于如何防止overfitting，我这里就不深入了，否则需要讲好几天。

最后，ML的难点在于对性能评估。这又有好几层难点，首先是选用是么样的性能指标。不同的问题需要选择不同的性能指标，有时性能指标选择错误会严重影响实际预测的性能。再者是时间线。因为我们是预测未来，不是放马后炮，所以一种方法是作回顾型研究，假设自己是在过去的某个时间点，对“未来”作预测，再用已知“未来”对预测做评估；另一种方法是现在用已有的数据对未来作预测，然后封存，等待一段时间，用后来发生的结果作评估，这种时间胶囊型的方式较多的采用在一些国际科研竞赛上，比如我曾经参与的预测蛋白质功能和结构的国际比赛就是采用这种方式，比较公平。

最后，做个总结，ML的要素：任务，数据，评估和算法。我们的目标是，预测！预测！！预测！！！
欢迎转载，标明出处

评分完成：已经给 PRChina 加上 1000 银元！

喜欢PRChina朋友的这个贴子的话，

请点这里投票，“赞”助支持！

[举报反馈]·[ PRChina的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回杂论闲侃首页]

PRChina 已标注本帖为原创内容，若需转载授权请联系网友本人。如果内容违规或侵权，请告知我们。

所有跟帖: ( 主贴楼主有权删除不文明回复，拉黑不受欢迎的用户 )

23yuan23 给 PRChina 点“赞”支持3银元奖励！！ (无内容) - 23yuan23 (0 bytes) 08/13/19
- PRChina 给 23yuan23 点“赞”支持3银元奖励！！ (无内容) - PRChina (0 bytes) 08/13/19
xmlh 给 PRChina 点“赞”支持3银元奖励！！ (无内容) - xmlh (0 bytes) 08/13/19
- PRChina 给 xmlh 点“赞”支持3银元奖励！！ (无内容) - PRChina (0 bytes) 08/13/19
好帖 (无内容) - 黄家六少 (0 bytes) 08/12/19
- 谢黄兄支持 (无内容) - PRChina (0 bytes) 08/13/19
黄家六少给 PRChina 点“赞”支持3银元奖励！！ (无内容) - 黄家六少 (0 bytes) 08/12/19
- PRChina 给黄家六少点“赞”支持3银元奖励！！ (无内容) - PRChina (0 bytes) 08/13/19
工匠精神给 PRChina 点“赞”支持3银元奖励！！ (无内容) - 工匠精神 (0 bytes) 08/12/19
- PRChina 给工匠精神点“赞”支持3银元奖励！！ (无内容) - PRChina (0 bytes) 08/13/19
已经给 PRChina 加上 1000 银元！ (无内容) - tulala (0 bytes) 08/12/19
恭喜PRChina大作上留园首页热贴榜！追加银元一千！ (无内容) - tulala (0 bytes) 08/12/19
(^-^) tulala 给 PRChina 打来一扎啤酒！ - tulala (88 bytes) 08/12/19
(^-^) tulala 给 PRChina 送上一包开心果！ - tulala (87 bytes) 08/12/19
- (^-^) PRChina 给 tulala 献上一支玫瑰花！ - PRChina (88 bytes) 08/13/19
- (^-^) PRChina 给 tulala 赠送一套护肤品！ - PRChina (88 bytes) 08/13/19
中华兄这篇文章深入浅出，看得我津津有味。现在有三大词汇 - tulala (120 bytes) 08/12/19
- 我还有一篇谈DL的，等这篇热度消了再发? (无内容) - PRChina (0 bytes) 08/13/19
- 其实，更时髦的，还有两个：大数据分析，云计算。 - jameskelly (278 bytes) 08/12/19
  - 思达兄，这本能否分享？ (无内容) - PRChina (0 bytes) 08/13/19
  - 哈哈，书中自有黄金屋的现实版 (无内容) - PRChina (0 bytes) 08/13/19
  - 这本书巨贵啊！ - tulala (97 bytes) 08/12/19
    - 回错行，??? (无内容) - tulala (0 bytes) 08/12/19
      - 回错行，??? - jameskelly (124 bytes) 08/12/19
  - 这本书，我也有：《Cloud Computing and Big Data》2019年PDF版 - jameskelly (170 bytes) 08/12/19
    - 当真是学富五车… - tulala (57 bytes) 08/12/19
      - 哈哈哈，岂止五车？！电子版，Machine Learning方面，800多本。 - jameskelly (427 bytes) 08/12/19
        黄家六少给 jameskelly 点“赞”支持3银元奖励！！ (无内容) - 黄家六少 (0 bytes) 08/13/19
        jameskelly 给黄家六少点“赞”支持3银元奖励！！ (无内容) - jameskelly (0 bytes) 08/13/19
    - 我没回错，原来是两本书你都有啊 (无内容) - tulala (0 bytes) 08/12/19
“那到底什么是ML，咳咳，严肃一点哈”，众所周知，Make Love！ - jameskelly (149 bytes) 08/12/19
- PRChina 给 jameskelly 点“赞”支持3银元奖励！！ (无内容) - PRChina (0 bytes) 08/13/19
  - jameskelly 给 PRChina 点“赞”支持3银元奖励！！ (无内容) - jameskelly (0 bytes) 08/13/19
- 这位同学，那个，重点抓错了哈，? (无内容) - tulala (0 bytes) 08/12/19
  - 这位同学，那个，重点抓错了哈，? - jameskelly (149 bytes) 08/12/19
jameskelly 给 PRChina 点“赞”支持3银元奖励！！ (无内容) - jameskelly (0 bytes) 08/12/19
哪有智能，就是统计，什么时候不用大数据了才叫智能 (无内容) - ghostbuddy (0 bytes) 08/12/19
- 其实智能来自经验，如果你把一个人从小关起来，他也不会有“智能” - PRChina (30 bytes) 08/13/19
  - 一只猴子受尽知识熏陶也难聪慧，而人在发育中自然会产生自我意识，脑结构所致 (无内容) - ghostbuddy (0 bytes) 08/13/19
  - 人的智能由生理决定的，从小关起来的人只是知识受限，不影响具有智能 (无内容) - ghostbuddy (0 bytes) 08/13/19
    - 智能应该是软硬两方面的和，脑结构是硬，经验是软。杯子越大盛水就越多 (无内容) - PRChina (0 bytes) 08/13/19
- 是没有什么智能，现在对于智能，记忆本身的机制都不清楚 (无内容) - 121000358 (0 bytes) 08/12/19
  - 但确实能完成需要智能的事情，例如自动驾驶 (无内容) - 121000358 (0 bytes) 08/12/19
    - 自动驾照不是智能驾驶，受统计模型和人工规则驱动，只是看起来“智能”而已 (无内容) - ghostbuddy (0 bytes) 08/13/19
预测是神经网络应用中一个老的很的问题了，基本不需要深度学习 (无内容) - 121000358 (0 bytes) 08/12/19
- 此话怎讲？预测问题再老，并未得到解决呀，所以才有深度学习 (无内容) - PRChina (0 bytes) 08/13/19
- 希望看到你关于深度学习的续帖 (无内容) - 121000358 (0 bytes) 08/12/19
真好。评估应该是一个不可或缺的环节。评估才能进化，当然有可能过犹不及 (无内容) - 老轮 (0 bytes) 08/12/19
- 轮老引申得不错，任何工作都需要评估，而且需要公正合理的评估 (无内容) - PRChina (0 bytes) 08/13/19
- 政府，政党都应该接受评估，而且应该是外部的评估。自己评不好 (无内容) - 老轮 (0 bytes) 08/12/19
ML,ML,ML,ML,ML,ML,ML,ML,ML,ML,ML,ML,ML (无内容) - 向中国道歉 (0 bytes) 08/12/19
- 这位同学听课听得很有激情～ (无内容) - tulala (0 bytes) 08/12/19
(^-^) majia马甲线给 PRChina 赠送一袋香包！ - majia马甲线 (88 bytes) 08/12/19
(^-^) majia马甲线给 PRChina 送上一包开心果！ - majia马甲线 (87 bytes) 08/12/19
(^-^) majia马甲线给 PRChina 赠送一个鼠标！ - majia马甲线 (87 bytes) 08/12/19
- (^-^) PRChina 给 majia马甲线献上一支玫瑰花！ - PRChina (88 bytes) 08/12/19
- (^-^) PRChina 给 majia马甲线赠送一套护肤品！ - PRChina (88 bytes) 08/12/19
majia马甲线给 PRChina 点“赞”支持3银元奖励！！ (无内容) - majia马甲线 (0 bytes) 08/12/19
- PRChina 给 majia马甲线点“赞”支持3银元奖励！！ (无内容) - PRChina (0 bytes) 08/12/19
ML算法?? (无内容) - majia马甲线 (0 bytes) 08/12/19
- 你如何训练？需要监督不？? (无内容) - 工匠精神 (0 bytes) 08/12/19
- 喂，你开小差哎 (无内容) - tulala (0 bytes) 08/12/19
已经给 PRChina 加上 1000 银元！ (无内容) - majia马甲线 (0 bytes) 08/12/19
- 一篇旧帖，在我那小坛放发霉了，多谢不弃?，借贵宝地推而广之 (无内容) - PRChina (0 bytes) 08/12/19
  - 看见中华兄写的是重发～不过写的不错啊，知识趣味都有～以后来首发吧～ (无内容) - majia马甲线 (0 bytes) 08/12/19

打开微信，扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐：

>>>>查看更多楼主社区动态...

[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]