玩酷网

搭建AI产品的完整指南

AI产品不是“调模型”那么简单,而是一套完整的产品工程体系。本文从需求识别、能力规划、架构设计到Agent调度,系统梳理AI产品的搭建路径,帮助产品人构建具备落地能力与扩展性的智能产品。

2025年,各种AI相关报告、新闻、应用、投资席卷了各大平台新闻,各种概念、专业名词成了通用名词。

面对日益复杂的用户需求、数据驱动的竞争环境和技术红利窗口期的缩紧,构建能够自主推理、交互和决策的AI产品已成为企业构建差异化优势的必然选择,本文将讲解如何搭建一个AI产品。

搭建AI应用

产品职能-从“功能设计”到“智能赋能”

在从传统互联网到AI,产品搭建的流程以及产品的职能发生了转变,产品不仅要“满足需求”,更要“理解意图”、“生成价值”与“持续演化”。

传统互联网的产品经理,通过调研完用户需求,输出产品方案,最终输出PRD文档交付给研发实现。产品需要关注项目进度以及上线后的业务数据反馈。

AI时代,产品不仅需要描述业务需求,还需要参与AI实现,包括大模型技术调研、提示词工程设计、AI工作流搭建、相关工具梳理等。通过与算法工程师调整完模型后,再跟研发工程师对接,交付完整的AI产品能力。

搭建Agent

Agent核心组成:推理、Memory、Tools

推理

通常,推理也会被直接写成LLM,其底层是基于大预言模型的规划和反思。在推理中,我们依赖于模型、提示词和记忆。

1)模型选取

模型的选取主要基于三点:使用场景、模型能力、性价比

可以参考各大大模型评测榜单,里面以周、月的维度,对国内外通用大模型进行全方位的评测,例如数学推理、代码生成、幻觉控制、生成耗时、模型价格等。

另外,大模型也有其厂商的缩影,例如:

2)提示词(PromptEngineering)

提示词工程就是将一个“通才”,通过对大模型的约束,变成一个领域合格的“打工人”。

下面是一个通用的提示词结构:

但是这些基础的提示词,有时候很难完成更加高级和复杂的任务,因此现在有很多提示词工程技术,CoT、ToT、RAG等。这些热门范式都是帮助用户更加精准地完成任务所用到的。

做好了提示词工程,Agent可以做简单的对话和任务。

记忆(Memory)

由于AI在对话中,模型不会被训练,就出现了一个问题,AI记不住用户的信息和偏好。比如用户说,我叫小帅。再次询问AI我叫什么,AI会回答不知道用户叫什么。

因此智能体需要增加记忆(长期、短期、汇总),能够存储历史的推理过程、结果、执行步骤等。

短期记忆:用于跟踪当前对话或正在进行的任务;

长期记忆:用于记住过去的对话以及历史积累的经验。

汇总记忆:通过另一个模型,帮助历史对话、记录进行整理总结,做一个汇总的、压缩的记忆。

但是在使用的过程中发现,在处理多轮对话、复杂知识理解、不同用户的需求偏好、连续任务等场景中,记忆处理效果不够好。

举个例子:怎么煮咖啡?AI会根据记忆获取用户的偏好,比如用户喜欢早上喝咖啡,喜欢美式,输出用Markdown格式等。

但是你询问他我一些比较复杂的问题,比如帮我下载**数据(参考我上一篇文章:如何利用Agent构建自动化数据采集模型)。这个时候,数据按照什么格式输出,如果有分页数据,在执行任务的过程中,任务中断后,后续Agent怎么继续执行。

为了解决这个问题,衍生了一个新的学科:上下文工程(ContextEngineering)

1)上下文工程(ContextEngineering)

上下文工程的核心就是优化提示词结构和框架,使得Agent执行任务完成的更好。

还是以上一篇文章:《如何利用Agent构建自动化数据采集模型》,通过约束数据结构、任务步骤、使用什么工具做什么事情、todolist等,来约束后续的每个Agent都会按照统一的要求输出内容。

如果完全是基于记忆,就可能会得到千奇百怪的数据,甚至都不能输出想要的数据结果了。

工具(Tools)

由于大模型有知识截止的局限,LLM信息局限于大模型被设计出来的时间节点,并且他要怎么跟外部的世界去做交互?

这就用到了Tools,Tools就像Agent的手一样,和现实世界产生交互,例如查询本地数据库、打开一个网页、模拟RPA执行一个具体的任务等。同时,在使用工具的过程中,会有一些问题,比如如何使用Tools,以及每个工具可能都定义不一样,就跟手机厂商的充电器一样,每个人都有自己定义工具的方式。怎么让Tools能被多方使用,这就有了MCP。

1)MCP

可以理解为,MCP就是一个USB-C接口,使得任意大模型可以通过标准化的方式去对接任意工具。市面上也有了大批量成熟的MCP服务供应商,可以实现海量场景的搭建。

例如:12306的MCP,可以实时查看火车票信息;

实时天气MCP,可以获取各地的天气、温度、温度等。

工作流

Agent搭建好了,但是由于大模型的局限性,拥有幻觉,提示词越长,幻觉越严重,并且大模型的Token限制。因此单Agent来完成复杂任务,几乎难以实现或者很难达到预期。

这就需要更多的Agent来协同完成任务,每个Agent独立负责单个或者垂直任务,减少幻觉。

搭建AI工作流,分为2种方式:

固化的工作流和代理工作流。

固化工作流(StaticWorkflows)

在固化的工作流里面,需要设置好每一个Agent的节点、输入、输出、逻辑。市面上通用的平台如Dify/Coze等,用户的流程为:

设置好每一个Agent(包括提示词、工具、记忆等)——定义每个Agent输入与输出——将Agent通过逻辑串联起来

这就形成了工作流,可以很好地完成一个或者一系列的任务。设置好的工作流会按照配置好的顺序和逻辑,依次执行,旨在实现特定的任务或目标。

这类工作流的流程是确定的,意味着遵循定义的逻辑和顺序,无法根据新的规则进行自动调整,只能通过人工改变来调整。

代理工作流(AgenticWorkflows)

在某些流程中,为了提升工作流的适应能力,面对复杂的情况并不断优化策略,这就用到了代理工作流。

代理工作流主要分为3块任务:制定计划、执行任务、反思并迭代。

制定计划:在用户输入后,有一个中心Agent,模拟人的思路,确认解决问题的流程,将问题拆解成更小的任务,分配每个Agent需要执行的任务,使用的工具。

执行任务:与固化工作量一样,Agent执行任务时,使用预设的工具,来执行任务。

反思并迭代:在每一个Agent执行完成输出内容后,中心Agent会评估每一步的结果是否符合预期,并做出判断,是否继续执行,还是重新执行或者调整整个计划。

在代理工作流中,通常需要预设一个中心Agent,来完成整个任务的规划。

应用场景

上面讲了固化工作流和代理工作流分别是什么,对比两种工作流的优劣势及适应场景:

能力封装

现在已经成功搭建了一个AI工作流,现在要将这个工作流嵌入到产品中,产品需要将这个工作流(或者单Agent,甚至可以是微调后的大模型)交付给开发,由开发将工作流嵌入到现有的功能里,完成功能应用的实现。

与传统的产品开发对比,传统开发是具有确定性的,比如点击后的效果、输入后的展示等。AI应用,由于AI本身的不确定性,AI应用最终给出的结果都是不可预期的。在工作流里,AI工作流最核心的2个动作:意图识别和结果生成。

意图识别

识别用户的意图,提高任务的理解和任务执行的准确度。

如何提高意图识别的成功率呢?产品最常用的有三个方法:

1)约束用户输入

通过选择框、输入框等前端的限制,约束用户只能输入允许的内容。通过降低解决用户输入模糊或不明确的问题,使系统更精准获取用户意图;

2)不回答超出范围的内容

在提示词增加,若不属于当前系统的知识领域时,不做回复。通过拒绝回复,保证答案的相关性,避免产生误导;

3)反问

若客户提问模糊不清或存在歧义,可以通过反问的形式,引导用户表达出真实的意图,即通过多轮对话引导用户精准描述问题。

结果生成

生成主要是需要解决大模型的幻觉,以及面对AI的不确定性,产品如何去处理这些特殊场景,比如:

任务执行失败

结果非用户想要最优方案

输出内容一本正经地胡说八道

首先,由于AI的底层逻辑,是概率生成,因此幻觉不能100%被消除,只能在各方面降低幻觉对客户的影响,从产品维度出发,可以做以下动作:

评测-确保AI产品交付可信赖

在应用搭建完成后,需要对整个AI应用进行评估,是否满足预期,与普通的软件开发不一定的点在于,普通应用的测试是简单、确定性强,成功/失败一目了然,但是AI应用的测试,有更多的不确定性,以及高度的数据依赖。

数据集

数据集有助于评估系统性能,验证运行结果。

可以用历史数据作为数据集,以历史结果作为运行结果参考。也可以在产品上线后做数据集。

1)历史数据

将历史业务数据,例如以商品搜索为场景,用户搜索关键词,与搜索结果,以及客户点击商品情况作为数据集。

2)线上数据

通过增加用户反馈来记录运行结果

有了数据集后,接下来就是设立评估指标对应用进行真实的打分了。

指标

以下是一些常用的指标:

在系统性地获取评测结果后,对错误的场景进行分类、汇总,并排列优先级,针对性地对失败原因做优化。

优化-持续校准

上述已经说过,AI是不确定性的,因此在设计AI产品的时候,是在可控性和自动性之间不断做权衡。在评测完成后,发现当前模型已经不能满足业务场景时,就需要对应用进行调优。

调优方法很多,整体总结下来分为:模型微调、提示词优化、调参、优化知识库或数据集等。

模型微调(Fine-tuning)

模型微调的底层逻辑即为,使用已有的大模型,根据自己的业务场景,对模型进行训练和调整,然后将训练好的模型打包成新的模型,以便业务线使用。这样就能得到一个,更懂业务、贴合公司实际的大模型。

提示词优化

上述也提到了提示词优化的一些工具,在评测后,可以针对性地对存在的问题进行优化。

优化知识库

整理知识库结构,清晰数据,提升数据质量,提升模型的学习效果。

写到最后

AishwaryaNareshRegantiandKiritiBadam在Aug19,2025发布了一篇文章,全文的核心概念就从CI/CD到CC/CD,这里的CC就是continuouscalibration持续校准和continuousdevelopment持续开发。未来AI产品的开发不再是纯粹的软件交付,而是一个“持续校准与持续开发”的闭环循环体系。

作为产品经理,在AI浪潮中,不仅要掌握基础的技术知识,更要学会将“数据驱动”嵌入每个业务闭环,推动组织向“智能化服务提供商”迈进。

评论列表

Dong
Dong 2
2025-09-19 18:50
万里长征的牛市才刚开始!大利人工智能股!第四次工业科技革命:人工智能、物联网等为代表。[拍手][点赞]