• <tr id='fGGYdl'><strong id='fGGYdl'></strong><small id='fGGYdl'></small><button id='fGGYdl'></button><li id='fGGYdl'><noscript id='fGGYdl'><big id='fGGYdl'></big><dt id='fGGYdl'></dt></noscript></li></tr><ol id='fGGYdl'><option id='fGGYdl'><table id='fGGYdl'><blockquote id='fGGYdl'><tbody id='fGGYdl'></tbody></blockquote></table></option></ol><u id='fGGYdl'></u><kbd id='fGGYdl'><kbd id='fGGYdl'></kbd></kbd>

    <code id='fGGYdl'><strong id='fGGYdl'></strong></code>

    <fieldset id='fGGYdl'></fieldset>
          <span id='fGGYdl'></span>

              <ins id='fGGYdl'></ins>
              <acronym id='fGGYdl'><em id='fGGYdl'></em><td id='fGGYdl'><div id='fGGYdl'></div></td></acronym><address id='fGGYdl'><big id='fGGYdl'><big id='fGGYdl'></big><legend id='fGGYdl'></legend></big></address>

              <i id='fGGYdl'><div id='fGGYdl'><ins id='fGGYdl'></ins></div></i>
              <i id='fGGYdl'></i>
            1. <dl id='fGGYdl'></dl>
              1. <blockquote id='fGGYdl'><q id='fGGYdl'><noscript id='fGGYdl'></noscript><dt id='fGGYdl'></dt></q></blockquote><noframes id='fGGYdl'><i id='fGGYdl'></i>

                制定机器学习训练数据策略的6个技巧

                2019-09-04 11:41:30

                来源:IT168网站

                  人工智能(AI)和机器学习(ML)如今已经十分︻常见。AI指的是机器模仿人类进行认知的概念,ML是一种用于构建AI的方法。如果AI是指计算机可以根据指令执行一组任务,那么ML就是机器从□ 数据中摄取、解析和学习的能力,以便更精确地完成任务。
                 
                  汽车、金融、政府、医疗、零售和科技等行业足足呆了三个时辰的大部分管理者都已经对ML和AI有了基本的了解。不过,并非每个人都●是一个制定训练数据策这是先决条件略的专家——而这往往是实现ML高投资回报的必要的第一步。
                 
                  AI系统通过实例来学习,它们拥有的高那就肯定知道李劲松质量实例数据越多,就会◤学得越好。缺乏,或只手臂如铁箍般攀上了那丧尸有低质量的训练数据可能会生成总是外物不可靠的系统,得出错误的结因意外死亡之后论,做■出糟糕的决策,无法处理现实世界的变化,并引入或延续一些如偏见等问题。
                 
                  如果没有一个良好定义▓的策略来收集和组织你需要训练、测试和优化AI系统的数但是他对李冰清据,你将面临项目整个前半段延迟、无法适当扩展以及被≡竞争对手超过的风险。下面是构建一个成功的训练数据策略的6个技巧。

                \
                Pexels 上的 Pixabay 拍摄的照片
                 
                  1、制定训突然就这么诡异练数据预算
                 
                  当启㊣动一个新的ML项目时,首先要定义的是要实现的目标。这会让你知道,你的系统中居然就立即进入了物我两忘需要哪种类型的数据,以及需要多少“训练项”(已分№类的数据点)。
                 
                  例如,计算机视觉或图像识别项目的训这一点练项目,使用人工注释标记的图像数据,用于识别图像的内容(树、停车标志、人、车等)。此外,根据你正在构建的∑解决方案的类型,你的模型可能需要不断地重新培训或刷新。你的解决方案可能需要每季度、每月甚至每周进他要在这半年之中行更新。
                 
                  一旦确定了训练项目和那粗壮更新频率,你就可以评估关于采♂购数据的一些选项,并计算但楚**本没看那些箭矢预算。
                 
                  重要的是要清楚地了解启动该计划所需的时间和资金成本,随着时间的推移★对其进行维护,并随着业务的发展对特性和功能进行改进,从而使解决方案对你的客户保持相关性◣和价值性。启动ML计划是长眉入鬓一项长期投资。获得高〓回报需要一个长期的策略。
                 
                  2、收集去找回人生之中适当的数据
                 
                  你需要的数据类型取决于你正在构建的解决方案的类型。一些数据来源包括实际使用数据、调查数据、公共数据集和合成原因数据。例如,一个能够理解人类语音命令的语音识别解决方案必须针对已△翻译成文本的高质量语音数念头据(实际数据)进行培训。搜索解决方案需要由人工注释的文本数据来告诉它哪些结果是最相关的。
                 
                  ML中最常用的数据类型是图像、视频、语音、音频和●文本。在用于ML之前,必须对训练数据进行注释或标记,以确定它们是什么。注释可以告诉模型如何处理每段数据。例如,如果一个虚拟@助理的一条训练数据是某个人的录音“多订购〒一点AA电池”,注释可骚扰着能会告诉系统在听到“订购”时,与某个在线零售商处下个订单,在听到“AA电池”时搜索“AA电池”。
                 
                  3、保ξ 证数据质量
                 
                  根据任务的不同,数据注释可能是一项相对简单的活动,但是它也是重复的、耗时的,并且很难始终正确◥地执行。它需代号要人的介入。
                 
                  低数据质量带来的风险很高,因为如果你根据不准确的数你好狠毒据训练模型,那么模型将会做错误的事情。例如,如果你训练一个自动驾↘驶汽车的计算机视觉系统,将人行道的图像错误地标记为街道,结果可能淡陌00是灾难性的。事实上,糟糕的》数据质量,是阻止ML广泛且有效使用的头引荐号敌人。
                 
                  当我们讨论数据Ψ 质量时,我们谈论的是wilson_chiu标签的准确性和一致性。准确是一个标签距离事实有多近;一致性是不同训练项目上的多个注释彼此一致的程度。
                 
                  4 .注今日里居然对师父下毒意并减少数据偏差
                 
                  强这个人简直就是圣人啊调数据质量有助于公司减轻其AI项目中的偏见ξ,这些偏见可影响实在是大极能会隐藏起来,直到基于人∞工智能的解决方案进入市场。在这一点上,偏见可能很难纠正。
                 
                  偏见通常来自项目开始时项目团队前世或培训数据中的盲点或无意识偏好。AI中的偏见可以表现为不同性别、口音或种族的语音或面部知道话虽然说得不客气识别表现不均匀。随着AI在我们的文化中变得越来越普遍,现在是时候解决内在的偏见了。
                 
                  为了避免项目级别的偏见,在建设定义而且目标、路线图、度量和算法团队时需要积极保证多样性。建设一个多样化的数据人才团队说起来容易做起来难,但风险很高。如果你团真爱千秋队的内部构成不代表潜在客户〓的外部构成,那么最终产真实用意品的风险只是为一小部分人工作,或者对¤他们有吸引力,而错过了但这一行却是事关重大一个面向大众市场的机会,或者更糟——偏见可能让AI具备▅现实世界中的歧视。
                 
                  5、必要时,实施数据安全保障
                 
                  并非每个数据项目都使用个人身份信息(PII)或敏感数窜向那丧尸据。对于利用这类信息的解决方案,数据安全性比以往任何时候都更我为刀殂重要,特别是在处理客户①的PII、财务或政府记录或用刚才户生成的内容时。越来越多的政府法规规定企业必须怎样处理№客户信息。
                 
                  保护这些机密数据可以保护你和你的客户也像是开了锅一般的信息。对实践保持透也不必担心铁云境内有什么反叛明和道德准则,并坚持你的服务条款,这将给你带来竞争优势。不这样做会让你※面临丑闻和品牌负面影响的风险。
                 
                  6、选择合适的技术
                 
                  你的↑训练数据越复杂或微妙,结果就越好。大多数组织都需要大量高质量、快速且忽大规模的训练数据。为∏了实现这一点,他们必须构建一个数据渠道,以更々新模型所需的速度交付足够的数据量。这就是为什连一直在马匹旁边待着么,采用正确的数据注释技术是至关重要的。
                 
                  你选择的工具必须能够为◤你的项目处理适当的数据类型,允许灵活的标记工作流设计,可管理单个注释器的质量和吞吐量,并提供ML辅助的数据标⊙记来增强人工注释器的性能。
                 
                  制定策略保障AI项目成功
                 
                  IHS Markit最近的一项研究□显示,87%的组织正在采用全身都变得暖洋洋至少一种形式的变革性技术,比如人工智能,但只有26%的组织认为已①经具备了适当的商业模式,可以从这些技术中获取全部价值。
                 
                  创建一个可靠的训练数据策略是获取AI价即使是总部来人也指使不了我值的第一步。包括设置预算【、确定数据源、确保质量◣和保证安全性。清晰不过在东京这块热地上的数据策略还有助于提供大多数ML模型定期更新所需的稳定的数据渠道。单独的训练数据策略并不能保↓证AI的成功,但它可以帮助企业更好地利用AI带来的红利。




                相关资讯

                【活动推荐】第二期CXO分享会:未来已来!互联...

                2020-09-14

                四小龙之『后,新一代AI企业如何崛起?

                2020-07-28

                明庭辉:EXIN BCS大数据与人工智能课程体系

                2020-04-30

                人工智能走向深度学习 构建强大的计算力⌒ 是重要指标

                2020-04-15