数据质量对于成功的AI/ML建模的重要性

iotforall 20221122

  • 人工智能
  • 机器学习
  • 数据质量
图示:© IoT For All --> 人工智能(AI)和机器学习(ML)技术有潜力彻底变革多个行业。但AI和ML有一个鲜有人谈及的致命弱点。Refinitiv于2019年进行的一项研究《Smarter Humans, Smarter Machines: Artificial Intelligence / Machine Learning Global Study》表明,人工智能和机器学习的部署和应用面临的最大障碍是糟糕的数据质量。来自替代资源和非结构化数据的数据日益重要,但必须经过“加工”处理,才能真正为实际使用带来价值。“垃圾进,垃圾出”这一说法也适用于AI/ML的部署——如果你提供给模型的是差数据,那么分析结果也会很糟糕。根据Refinitiv的调查,66%的受访者表示,低质量的数据影响了他们部署机器学习和人工智能技术的能力。该报告还指出,机器学习模型中处理新数据的四个挑战中有三个与数据质量有关。这些挑战包括:数据的历史、覆盖范围和人口统计信息是否准确、如何识别不完整或损坏的记录,以及如何清洗和管理数据。数据科学家面临的最大挑战之一就是找到高质量的数据,因为他们需要花费80-90%的时间用于清洗和标准化劣质数据。“无论数据是否用于人工智能,数据质量在进行数据分析时都极其重要。”——Amy Groden-Morrison 点击推文为何数据质量如此重要?无论数据是否用于人工智能,数据质量在进行数据分析时都极其重要。数据质量包括两个方面:数据缺失和数据错误。这两个问题都十分棘手,而且每个问题的影响只能根据具体情况来判断。如果在机器学习模型中没有确保数据质量,会导致误解和错误的推论。研究表明,公司会将市场数据和非结构化数据与自己的公司数据一起分析。这意味着他们将三种不同的数据来源结合起来,以获取洞察。传统上,结构化数据是强有力的定量分析的关键。然而,非结构化数据是公司面临的主要挑战。来自替代来源的数据大多是非结构化的,需要经过加工和验证以确保准确性。像自然语言处理(NLP)这样的机器学习方法被用来结构化和加工基于文本的数据。Facebook和Google在非结构化数据上投入了大量精力。他们的成功使非结构化数据变得更容易处理、更准确和更高效。尽管机器学习已经让从非结构化数据中提取信息变得更加容易,但这一过程仍然耗时,而且训练机器学习模型需要大量的技能和耐心。移动应用:AI解释缺失的一环 确保数据质量最好的方法是将其从一个可靠且易于访问的来源获取。在谈到可信赖的来源时,使用移动应用可以是一个办法。相比许多组织仍然使用的传统纸质表格,移动应用能为你提供更多的数据质量控制,而且你可以随时轻松访问数字数据。移动应用是实现人工智能的关键,因为它们可以提高数据质量。传统数据来自纸质流程,这些流程常常容易出现人为错误。如果数据质量差,你的人工智能也会受到影响,更不用说使用纸质表格时会面临的信息丢失或时间延迟了。用基于移动应用的数字表单替代这些流程,可以消除错误并提高数据质量。移动应用可以自动捕捉时间、位置和数据,甚至可以验证计算、数字签名、条形码和读数。特别是那些收集现场数据的移动应用,在将现场数据作为模型的关键数据源时,对成功实现AI至关重要。劣质数据的真实成本 我们可能没有意识到,但糟糕的数据可能代价高昂(每条数据甚至高达10美元)。数据质量公司发布的报告《劣质数据的真实成本》指出,员工收集的信息中可能有高达20%是错误的。该报告还指出,验证信息的费用可能高达每条记录一美元。这些钱用于支付员工工资、运行计算机的费用以及使用验证解决方案的支出。然而,每条记录一美元的费用可能具有误导性,因为在使用批量处理进行验证时,成本会显著上升。然后成本将升至每条记录10美元,如果公司没有建立检查记录的机制,这一数字可能还会低估。由于邮件退回、货物错发和市场机会的流失,每条记录的成本可能高达100美元。这意味着你将失去收入,并在运输过程中花费巨额费用。简而言之,劣质数据不仅需要花费大量的资金进行修复,还会因公司无法送货给客户和触及潜在客户而造成收入损失。减少劣质数据的最佳方法是实现无纸化并数字化所有流程。通过无纸化,你可以节省大量资金,提高生产效率,并减少处理劣质数据的隐性成本。构建强大的应用程序将有助于公司节省时间和成本。当一切都可以通过最少的人工干预数字化处理时,基于纸张的流程却需要大量时间和人力来管理。移动应用构建器 要创建可以优化业务流程的移动应用,你需要合适的应用构建器,用于为任何移动设备构建移动表单并实现无纸化。为此,低代码开发平台可能是理想选择,因为它们允许公民开发者构建企业级应用。许多低代码开发平台可以利用最新的移动应用功能(如GPS、摄像头等)在几分钟内开发出基于移动的表单,以快速准确地采集数据。推文 分享 分享 邮件 人工智能 数据分析 机器学习 --> 人工智能 数据分析 机器学习

查看全文

点赞

iotforall

作者最近更新

  • How to Implement Device Convergence for Sigfox & LoRaWAN
    iotforall
    2023-12-22
  • Edge and IoT Predictions For 2024
    iotforall
    2023-12-22
  • IoT Device Security Challenges: Calling for Consumer Vigilance
    iotforall
    2023-12-20

期刊订阅

相关推荐

  • 传感器应该推进人工智能实现整体进化

    2018-12-07

  • 华为首款AI音箱:可通过HiLink开放协议控制19个家电品类

    2020-02-21

  • 本田将在CES展出自动驾驶作业车和机器人新品

    2018-12-14

  • 日本新研究:人工智能或能提前一周预测台风

    2019-01-08

评论0条评论

×
私信给iotforall

点击打开传感搜小程序 - 速览海量产品,精准对接供需

  • 收藏

  • 评论

  • 点赞

  • 分享

收藏文章×

已选择0个收藏夹

新建收藏夹
完成
创建收藏夹 ×
取消 保存

1.点击右上角

2.分享到“朋友圈”或“发送给好友”

×

微信扫一扫,分享到朋友圈

推荐使用浏览器内置分享功能

×

关注微信订阅号

关注微信订阅号,了解更多传感器动态

  • #{faceHtml}

    #{user_name}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 查看评论 回复

    共#{comment_count}条评论

    加载更多

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} #{reback} 回复

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 回复

  • 关闭
      广告