生成式AI成功关键:数据质量决定一切
创始人
2026-01-16 10:20:17
0

生成式AI正在成为几乎所有行业的颠覆性力量,但仅仅使用最好的AI模型和工具还不够。每个人都在使用相同的工具,而真正创造竞争优势的是能够训练和微调自己的模型,或为它们提供独特的上下文,这就需要数据。

您公司的庞大代码库、文档和变更日志?这些是您编程智能体的数据。您的历史提案和合同库?这些是您写作助手的数据。您的客户数据库和支持工单?这些是您客服聊天机器人的数据。

但是,仅仅因为所有这些数据存在,并不意味着它们是好的数据。

"将模型指向任何可用数据都非常容易," Unisys云、应用和基础设施解决方案高级副总裁兼总经理Manju Naglapur说。"在过去三年中,我们一遍又一遍地看到这种错误。垃圾进、垃圾出的古老格言仍然成立。"

根据波士顿咨询公司9月发布的一项调查,在1250名AI高级决策者中,68%的人表示缺乏高质量数据是采用AI时的关键挑战。其他最新研究也证实了这一点。在思科10月对超过8000名AI领导者的调查中,只有35%的公司拥有干净、集中且具有实时集成的数据供智能体使用。根据IDC的预测,到2027年,不优先考虑高质量、AI就绪数据的公司将在扩展生成式AI和智能体解决方案时遇到困难,导致15%的生产力损失。

语义层面的混乱

将所有数据混合在一起使用的另一个问题是语义层会变得混乱。当数据来自多个来源时,同一类型的信息可能以多种方式定义和结构化。随着新项目或新收购导致数据源数量激增,这个挑战会加剧。即使只是跟踪客户——最关键的数据类型——基本数据问题对许多公司来说都很困难。

邓白氏公司去年报告称,超过一半的受访组织对其在AI中利用的数据的可信度和质量表示担忧。例如,在金融服务行业,52%的公司表示AI项目因数据质量差而失败。根据12月发布的一项涵盖2000多名行业专业人士的调查,44%的公司表示数据质量是他们对2026年最大的担忧,仅次于网络安全。

云咨询公司Lemongrass的首席技术官Eamonn O'Neill说,拥有多个相互冲突的数据标准对每个人来说都是挑战。

"每一个不匹配都是风险,"他说。"但人类会想出解决办法。"

他补充说,如果您了解挑战所在,并投入时间和精力来解决它,AI也可以配置为做类似的事情。即使数据是干净的,公司仍应进行语义映射练习。如果数据不完美,就需要时间来整理。

"选择一个数据量小的用例并做好,"他说。"这是可行的。然后你再扩展。这就是成功采用的样子。"

未管理和非结构化数据的问题

O'Neill说,公司在将AI连接到公司信息时犯的另一个错误是让AI指向非结构化数据源。是的,大语言模型非常擅长读取非结构化数据并理解文本和图像。问题是并非所有文档都值得AI关注。

例如,文档可能已过时。或者它们可能是尚未编辑的文档早期版本,或者其中有错误。

"人们经常看到这种情况,"他说。"我们将您的OneDrive或文件存储连接到聊天机器人,突然间它无法区分'版本2'和'版本2最终版'。"

他补充说,人类用户很难维护适当的版本控制。"微软可以为您处理不同版本,但人们仍然会'另存为',最终您会有大量非结构化数据," O'Neill说。

安全控制的缺失

当CIO通常考虑与AI系统相关的安全性时,他们可能会考虑模型的防护栏,或围绕训练数据和用于RAG嵌入的数据的保护。但随着基于聊天机器人的AI发展为智能体AI,安全问题变得更加复杂。

例如,假设有一个员工薪资数据库。如果员工对自己的薪资有疑问并询问嵌入在AI门户中的AI聊天机器人,RAG嵌入方法是使用传统代码仅从数据库中收集相关数据,将其嵌入到提示中,然后将查询发送给AI。AI只能看到它被允许看到的信息,传统的确定性软件堆栈处理保持其余员工数据安全的问题。

但当系统发展为智能体系统时,AI智能体可以通过MCP服务器自主查询数据库,由于它们需要能够回答任何员工的问题,因此需要访问所有员工数据,防止数据落入错误之手成为一项重大任务。

根据思科的调查,只有27%的公司对AI系统有动态和详细的访问控制,不到一半的公司对保护敏感数据或防止未经授权的访问有信心。

O'Neill说,如果所有数据都被收集到数据湖中,情况会变得更加复杂。

"如果您放入了来自许多不同来源的数据,每个单独的来源都可能有自己的安全模型,"他说。"当您将所有这些都放入块存储中时,您会失去控制的粒度。"

试图在事后添加安全层可能很困难。他说,解决方案是直接访问原始数据源,完全跳过数据湖。

"这是为了永远保存历史记录,因为存储如此便宜,机器学习可以看到随时间变化的模式和趋势,"他说。"此外,如果您混合来自不同来源的数据,可以发现跨学科模式。"

数字化转型咨询公司Sutherland Global的CIO兼CDO Doug Gilbert说,一般来说,当涉及AI智能体而非人类时,数据访问会发生巨大变化。

"对于人类,有大量围绕人类的安全性,"他说。"例如,大多数用户界面都是这样编写的:如果是仅限数字的字段,您不能在其中输入字母。但一旦您引入AI,这一切都消失了。这是您系统的原始后门。"

速度陷阱

但Gilbert看到CIO犯的头号错误是他们行动过快。"这就是大多数项目失败的原因,"他说。"对速度的竞争如此激烈。"

他补充说,CIO经常将数据问题视为减速,但所有这些事情都是巨大的风险。"很多做AI项目的人会被审计,他们将不得不停下来重新做一切,"他说。

因此,正确处理数据并不是减速。"当您建立适当的基础设施时,您就会在创新中快速前进,通过审计,并具有合规性,"他说。

另一个可能感觉像不必要的时间浪费的领域是测试。快速行动、破坏事物,然后在部署后稍后修复它们并不总是好策略。

"以光速移动的错误成本是什么?"他问。"我总是先进行测试。令人惊讶的是,我们看到有多少产品在没有任何测试的情况下推向市场。"

利用AI修复数据

缺乏质量数据的问题可能感觉像是一个绝望的问题,随着AI用例的扩展只会变得更糟。

在AvePoint基于775名全球商业领袖调查的10月报告中,81%的组织已经因数据管理或数据安全问题而延迟部署AI助手,平均延迟六个月。

与此同时,不仅AI项目的数量继续增长,数据量也在增长。近52%的受访者还表示他们的公司正在管理超过500PB的数据,高于一年前的41%。

但Unisys的Naglapur说,由于AI的存在,获得客户360度视图以及清理和协调其他数据源将变得更容易。

"这是悖论,"他说。"AI将帮助解决一切。如果您考虑需要三年的数字化转型,现在您可以在12到18个月内用AI完成。"工具正越来越接近现实,它们将加速变革的步伐,他说。

Q&A

Q1:为什么说数据质量是生成式AI成功的关键?

A:因为虽然大家都在使用相同的AI模型和工具,但真正创造竞争优势的是能够训练和微调自己的模型,或为模型提供独特的上下文,这都需要高质量的数据。垃圾进、垃圾出的古老格言在AI时代仍然成立。

Q2:企业在AI数据使用中常犯哪些错误?

A:主要错误包括:将AI指向任何可用数据而不考虑质量;让数据的语义层变得混乱;将AI连接到未管理的非结构化数据源;在数据安全方面缺乏精细控制;以及行动过快而忽视数据基础设施建设。

Q3:如何解决AI项目中的数据质量问题?

A:建议采用循序渐进的方法:从小规模用例开始并做好,然后再扩展;进行语义映射练习;建立适当的版本控制;实施动态和详细的访问控制;优先进行充分测试。同时,AI本身也可以帮助清理和协调数据源。

相关内容

热门资讯

李湘多平台账号被禁止关注 1月16日,李湘微博、抖音、小红书等多平台账号被禁止关注。
局地降雪可达15厘米!河南发布... 据气象部门预报,1月18日夜间至20日,河南省将出现一次强降雪过程。1月16日,河南省防灾减灾救灾委...
阿里抢攻AI入口之战 阿里想把命运牢牢握在自己手里,尤其AI时代。1月15日,千问App宣布接入淘宝、支付宝、淘宝闪购等阿...
美国驻冰岛大使候选人称冰岛或成... 据美国“政治新闻网”、《时代》周刊网站等媒体报道,在美国威胁吞并格陵兰岛的紧张局势不断升温之际,美国...
郑州海关:开发“AI智审”应用... 【大河财立方 记者 闫文瑞】1月16日,河南省政府新闻办召开2025年河南省外贸进出口情况新闻发布会...
河南崛起算力高地 千行百业数智... 翻开北宋名画《清明上河图》,在汴京街市“赵太丞家”药铺的柜台上,一架算盘静卧其间——那是中原大地的传...
美军特种部队索降登船,“闪电式... 据凤凰卫视报道,美国正全面升级对委内瑞拉的制裁与能源控制。1月15日,美军在加勒比海再度扣押一艘委内...
广西柳城蔗农抢抓晴好天气种甘蔗 (来源:沐甜科技) 来源:沐甜科技 连日来,在柳城县龙头镇、凤山镇等村镇,不少蔗农一边砍伐甘蔗收获“...
从受制于人到自主可控!我国首台... 14日,中国科学院广州地球化学研究所发布消息,该研究所成功研制首台国产纳米晶体结构快速解析仪。 据介...
现场图来了!特朗普获赠诺奖奖章 美国总统特朗普1月15日在白宫会晤了委内瑞拉反对派领导人马查多。特朗普还透露,对方将自己的诺贝尔和平...