玩酷网

企业如何为人工智能获取和利用合成数据

随着人工智能的采用继续加速,企业领导者正在应对这项强大技术的复杂性。人工智能的核心是为机器提供数据——它来自哪里,谁拥有

随着人工智能的采用继续加速,企业领导者正在应对这项强大技术的复杂性。人工智能的核心是为机器提供数据——它来自哪里,谁拥有它,以及它的可靠性,所有这些都会影响人工智能的有效性。

然而,对数据准确性、隐私和偏见的担忧影响人工智能的全部潜力。根据Unisys最近的报告《人工智能方程式:2024年人工智能商业影响研究》,高管们对人工智能的前景保持乐观,但对其风险持谨慎态度,64%的人担心人工智能系统中的偏见和歧视。

高质量和无偏见的数据对于减轻这些风险至关重要。但是,随着人工智能模型以前所未有的速度消耗自然生成的数据,研究人员预测,最早可能在2026年耗尽现实世界的数据源。这就是合成数据发挥作用的地方。合成数据是人工生成的信息位,模仿现实世界的数据集,同时保持统计完整性。与自然数据不同,合成数据不包含个人身份信息,从而降低了隐私风险。它已经在可扩展性、减少偏差和安全性方面显示出希望。

在许多情况下,现实世界的数据是不完整的、敏感的,或者太昂贵而无法大规模获取。处理严格法规或专有信息的行业往往难以获取有效训练人工智能模型所需的数据。合成数据通过生成符合法规的真实数据集来规避这些限制,这些数据集可以根据特定用例进行定制。这不仅加速了人工智能的发展,而且保证了模型在多样化、高质量的输入上进行训练,从而产生更准确和合乎道德的结果。

如何创建合成数据

你不能凭空创造东西。合成数据来源于真实世界的数据和条件,以创建一个单独的数据实体,可以使用各种技术生成,包括:

基于规则的模拟:数据是使用预定义的规则、公式或逻辑条件创建的,以复制现实世界的场景。

统计方法:算法使用真实数据的分布和相关性来生成统计上相似但不相同的数据点。

机器学习模型:生成对抗网络(GAN)和变分自编码器(VAE)等高级模型从真实数据中学习模式,并生成新的、逼真的数据样本。

基于代理的建模:对实体(如客户、产品)之间的交互进行模拟,生成反映复杂行为的合成数据集。

然而,你仍然需要人类在这个数据生成循环中对生成的结果进行现实测试。只有主题专家(SME)才能验证模型和模拟的准确性。这些人对于使用合成数据至关重要。通常,业务部门内的数据管理员(而不是技术团队)负责这一角色。他们对特定领域有深入的了解,可以评估合成数据是否“符合规范”,以及它是否准确反映了现实世界的情况,确保数据真正代表了它应该代表的内容,为合成数据集带来了上下文相关性和实用见解。

加速跨行业的人工智能创新

在各个行业中,合成数据正在通过克服传统数据源的局限性来释放新的可能性。合成数据提供了一种在不损害组织隐私、安全或监管合规性的情况下扩展创新的方法。这种灵活性为行业解决复杂问题、增强人工智能模型和改进决策打开了新的大门。

在医疗保健领域,合成数据使研究人员能够生成反映真实世界健康趋势的数据集,从而在不损害患者隐私或违反HIPAA等严格规定的情况下进行准确的人工智能建模。这对于研究罕见疾病、训练诊断模型和改进治疗建议尤其有价值。同样,在金融服务中,合成数据允许组织训练模型,帮助财务顾问指导客户做出更好的财务决策,例如进行战略投资或管理账户,所有这些都不依赖于敏感的客户数据。在药物研究中,合成数据通过模拟对照组来帮助解决患者人数有限和入职缓慢等挑战,使研究人员能够测试假设并加速药物开发,而无需等待大规模的患者数据。

用合成数据赋能人工智能的未来

随着企业扩大其人工智能计划,获取高质量数据仍然具有挑战性。合成数据提供了一个强大的解决方案;然而,其有效性取决于深思熟虑的实施、严格的验证和人为监督,以确保准确性和与现实世界条件的一致性。

通过战略性地使用合成数据,企业可以释放人工智能的全部潜力,推动创新,改善决策。随着人工智能的发展,将合成数据整合到其战略中的企业将获得竞争优势,并在塑造负责任、高性能的人工智能系统方面处于领先地位,从而激发信任和合规性。