据Gartner预测,到明年,大多数人工智能的训练数据将是合成数据。
据Gartner的一项新报告预测,用于训练机器学习模型的大部分数据将是人工合成并自动生成的。2021年,仅有1%的AI训练数据是合成的,但分析师预计到2024年底,这一比例可能达到60%。一位专家告诉Tech Monitor,治理和警惕偏见对于防止这类数据遭遇与有机数据相同的挑战至关重要。分析师预测,到2024年底,用于训练AI模型的超过60%的数据将是合成的。(照片由Yurchanka Siarhei / Shutterstock提供)合成数据由AI生成,用来填补真实世界信息中的空白,例如医学影像或特定疾病模式的信息。在Gartner本周发表的一份关于数据科学趋势的新研究报告中,Gartner预测到2024年,超过60%的AI模型训练数据将是合成的,它表示这将有助于构建更好的AI系统。从有机数据转向合成数据的这种转变,是向数据驱动型AI更广泛转型的一部分,例如被用于生成大型语言模型和基础模型的AI。“诸如AI专用的数据管理、合成数据和数据标注技术等解决方案旨在解决许多数据问题,包括可访问性、数量、隐私、安全、复杂性和数据范围等。”Gartner的报告中指出。GlobalData最近的一份报告发现,合成数据初创企业正在“重新定义数据生成的格局”。GlobalData颠覆性技术业务负责人Kiran Raj将合成数据描述为“通往AI未来的万能钥匙”,他表示这些初创企业正在突破数据质量和监管的束缚。Raj表示:“随着对可靠、成本效益高、耗时少并能保护隐私的数据需求不断增长,初创企业正设想一个由合成数据驱动的未来,开启机器学习发展的一个新时代。”合成数据在各个领域都具有潜在的积极影响。在医疗领域,它已用于补充真实的患者数据以训练医生,提高药物研发效率并优化系统。在金融服务领域,它有助于缓解风险和检测欺诈行为。在零售领域,它正在改善需求预测、个性化营销和欺诈检测。AI向边缘计算的转变Gartner提到的另一个主要趋势是AI向边缘处理的转变。据报告称,在数据生成的源头进行处理将帮助企业获得实时洞察并发现新趋势。它还将使企业更容易满足日益严格的隐私要求。该机构预测,到2025年,超过55%的神经网络数据分析将在边缘系统中进行。Gartner分析师还预测,对负责任的AI的重视将增加。这包括确保这项技术作为推动社会进步的积极力量,而非威胁。它还包括确保企业在采用AI时做出符合伦理的选择,以反映社会价值、风险、信任、责任和透明度。这些正是许多国家正在制定的AI法规中的核心要求,包括英国在内。分析师警告称,组织应采取“与风险相称的方法”进行AI投资和部署,这包括在应用解决方案和模型时保持谨慎,并寻求供应商提供的保证以确保他们管理自身的风险和合规义务。这将有助于防止财务损失和法律行动。我们合作伙伴的内容AI将为食品和饮料行业打造更具韧性的未来保险企业必须利用数据协作的力量实现其商业潜力科技团队如何推动公共部门的可持续发展议程一些基础模型和生成式AI企业正在提供一定程度的风险补偿。Adobe表示,其Firefly生成式AI图像模型的版权索赔相关成本将由公司承担。这是因为他们相信该模型仅基于授权和许可的数据进行训练,不会生成可能引发版权争议的输出。查看所有通讯订阅我们的通讯由Tech Monitor团队为您送达数据、洞察和分析在这里注册医疗与疾病检测Gartner分析师兼董事Peter Krensky表示:“随着机器学习在各行业的快速应用,数据正在从仅仅关注预测模型,发展为一种更加民主化、动态化和以数据为中心的学科。这种转变也受到生成式AI热潮的推动。尽管潜在风险正在显现,但数据科学家及其组织的许多新能力和用例也随之出现。”数据专家兼全球数据咨询公司Carruthers and Jackson联合创始人Caroline Carruthers告诉Tech Monitor,合成数据是训练AI模型的宝贵工具,特别是在缺乏大型数据集的情况下。“它在医疗领域得到了最有效的应用,合成数据补充了罕见病的数据,从而提升了治疗方案的建模效果。”她表示。Carruthers提到,虽然用合成数据扩展有限数据集具有“明显的价值”,但也存在一些风险,包括小型数据集中原本明显的偏差可能会被用作合成数据基础而被放大。她补充道:“关键在于,合成数据在治理和警惕潜在偏见方面面临的挑战与有机数据相同。”阅读更多:Adobe Firefly提供生成式AI版权索赔的赔偿本文主题:人工智能
查看全文
作者最近更新
评论0条评论