电话:0512-68056195

热线:400-850-6002

手机:17712607395

地址: 广东省广州市白云区广州大道北27号

秒速赛车企业动态
秒速赛车动态|谷歌发布机器学习规则 关于
作者:admin  更新时间:2017-10-24 01:36:16

  秒速赛车官网文章介绍了一种机器学习样式,类似于 Google C++ 样式指南和其他常用的实用编程指南。

  AI科技评论按,本文来源于谷歌开发者博客,AI科技评论获其授权转载。以下为下篇,内容为进行机器学习之前的第 21-43 条规则。相关术语及第1-20条规则参见谷歌发布机器学习规则 (Rules of Machine Learning): 关于机器学习工程的最佳实践(上)

  第 21 条规则:您可以在线性模型中学习的特征权重数目与您拥有的数据量大致成正比。

  关于模型的合适复杂度方面,有各种出色的统计学习理论成果,但您基本上只需要了解这条规则。在某次谈话中,曾有人表达过这样的疑虑:从一千个样本中是否能够学到任何东西,或者是否需要超过一百万个样本,他们之所以有这样的疑虑,是因为局限在了一种特定学习方式中。关键在于根据数据规模调整您的学习模型:

  1.如果您正在构建搜索排名系统,文档和查询中有数百万个不同的字词,且您有 1000 个有标签样本,那么您应该在文档和查询特征、TF-IDF 和多个其他高度手动工程化的特征之间得出点积。您会有 1000 个样本,十多个特征。

  2.如果您有一百万个样本,则使用正则化和特征选择(可能)使文档特征列和查询特征列相交。这样一来,您将获得数百万个特征;但如果使用正则化,则您获得的特征会有所减少。您会有千万个样本,可能会产生十万个特征。

  3.如果您有数十亿或数千亿个样本,您可以使用特征选择和正则化,通过文档和查询标记组合特征列。您会有十亿个样本,一千万个特征。统计学习理论很少设定严格的限制,但能够提供很好的起点引导。

  未使用的特征会产生技术负债。如果您发现自己没有使用某个特征,而且将其与其他特征组合在一起不起作用,则将其从您的基础架构中删除。您需要让自己的基础架构保持简洁,以便尽可能快地尝试最有可能带来良好效果的特征。如有必要,他人可以随时将您的特征添加回来。

  在决定要添加或保留哪些特征时,秒速赛车动态|谷歌发布机器学习规则 关于机器学习工程的最佳实践(下要考虑到覆盖率。即相应特征覆盖了多少个样本?例如,如果您有一些个性化特征,但只有 8% 的用户有个性化特征,那效果就不会很好。

  同时,有些特征可能会超出其权重。例如,如果您的某个特征只覆盖 1% 的数据,但 90% 具有该特征的样本都是正分类样本,那么这是一个可以添加的好特征。

  在继续探讨机器学习的第三阶段之前,请务必重点了解一下在任何机器学习课程中都无法学到的内容:如何检查现有模型并加以改善。这更像是一门艺术而非科学,但是有几个有必要避免的反模式。

  这也许是让团队陷入困境的最简单的方法。虽然 fishfood(在团队内部使用原型)和 dogfood(在公司内部使用原型)有许多优点,但员工应该看看是否符合性能要求。虽然应避免应用明显比较糟糕的更改,但在临近生产时,应对任何看起来比较合理的更改进行进一步测试,具体方法有两种:请非专业人员在众包平台上回答有偿问题,或对真实用户进行在线实验。

  这样做的原因有如下两点。首先,您与代码的关系太密切了。您关注的可能是帖子的某个特定方面,或者您只是投入了太多感情(例如确认偏差)。其次,您的时间很宝贵。考虑一下九名工程师开一个小时会议所花的费用可以在众包平台上购买多少签约的人工标签。

  如果您确实想获得用户反馈,请使用用户体验方法。在流程的早期阶段创建用户角色(请参阅比尔·布克斯顿的 Sketching User Experiences 一书中的描述),然后进行可用性测试(请参阅史蒂夫·克鲁格的 Don’t Make Me Think 一书中的描述)。用户角色是指创建假想用户。例如,如果您的团队成员都是男性,则有必要设计一个 35 岁的女性用户角色(使用用户特征完成),并查看其生成的结果,而不是只查看 10 位 25-40 岁男性的结果。在可用性测试中请真实用户体验您的网站(通过本地或远程方式)并观察他们的反应也可以让您以全新的视角看待问题。

  在向任何用户展示您的新模型之前,您可以进行的最简单(有时也是最有用)的一项衡量是,评估新模型的结果与生产有多大差别。例如,如果您有一项排名任务,则在整个系统中针对一批示例查询运行这两个模型,并查看结果的对称差分有多大(按排名位置加权)。如果差分非常小,那么您无需运行实验,就可以判断不会出现很大变化。如果差分很大,那么您需要确保这种更改可以带来好的结果。查看对称差分较大的查询有助于您了解更改的性质。不。

  • 联系我们

    电话:0512-68056195

    热线:400-850-6002

    手机:17712607395

    地址: 广东省广州市白云区广州大道北27号

  • 新闻中心

  • 版权所有:广州秒速赛车食品商贸有限公司      |网站地图