AI的工作流
工作流是什么?
每个不同的工作,不同的岗位工作模式都是不一样的,我理解的工作流可能就是对应项目的开发流程,在互联网企业的工作流中,包含产品规划与开发、运营与市场推广、技术支持与维护、商务合作与客户关系等。在传统工业领域,其工作流差异也不是很大。我先介绍下传统工业研发领域的工作流是什么样子的,然后再讨论吴恩达教授最近说到的AI智能体工作流是一种怎么样的情况。
传统行业的工作流
大部分企业的研发一般是应用型研发,以实用性为主要目的,做出市场需求的产品。只有少数大型的企业如巴斯夫、陶氏、索尔维、汉高、万华等等跨国型大企业有能力和资金以及时间投入做开创性的研究,也就是从0-1的过程,并能创造出市场的需求。传统化学品研发的工作流也就是项目的开发流程大致是下图这种情况,但隔行如隔山,不知道其它工业如机器,汽车等其它行业是否也是如此。

1、项目需求导入
主要来源有三个:
- 第一个是市场部经过前期调研觉得某类产品有市场,而我们目前还没有相关产品或者产品还满足不了市场要求,需要进行开发。
- 第二个是销售部门再开拓市场的时候了解到客户的需求,但我们目前的产品无法满足客户需求,需要开发或改进的。
- 第三个是研发人员根据经验或者行业信息等了解到公司所欠缺的一些产品,有必要进行开发,完善产品体系。
2、立项评审
项目需求导入后需要经过评审,综合考虑市场行情,开发周期、投入产出比等情况来决定项目是否要做。
一般针对上面三个不同的需求情况,评审时考虑的情况也不同。
- 针对第一个情况:一般市场部门已经经过了综合的考虑,经过简单共识,没有太多问题的话就可以正式立项。
- 针对第二个情况:这个需要考虑的就比较多了,需要仔细判断销售带来的客户需求是真需求还是为伪需求,也就是是否是其它工艺因素引起的,而非对产品性能的需求。还需要考虑,这个需求是不是相关行业的普遍需求?具不具备复制性?投入产出比怎么样?判断这些情况需要技术和研发等人员配合销售到客户现场处,了解更多情况才能确定。
- 针对第三个情况:研发人员向公司市场部门提起,然后经过市场部门协助进一步了解待开发产品的详细情况后,重复1的评审。
3、资料收集
经过评审立项的项目进入资料收集阶段,这一阶段收集的信息是为后续的产品开发做准备,主要收集的信息有下面几个方面:
- 市面上相关竞品的信息:包括产品的TDS、MSDS和公司专利等等,其中相关产品一定要拿到手,用于在试验室内进行评测对比。
- 文献信息:包括国内外的文献、综述、专利、报告、技术研讨会资料等等,其中最具参考性的是相关国外的专利信息和文献。在传统领域,信息更新迭代时相比计算机行业慢很多,很多文献可能是几十年前的,但不要因此就认为没有可参考性,因为其原理不变,虽然没有很多先进的手段表征,但前人对试验的态度更加严谨,考虑更加周全,采用的很多试验方法与实际也有很好的对应性,值得仔细看一看。
- 相关标准与检测方法:这是比较重要的信息,没有合理的标准和检测方法,就没法判断所作的试验配方有没有改进,选错试验方法的话,加速试验和实际使用情况间没有很好的对应性,会造成实验内各项指标很好,但实际使用是却很差的情况。像是深度学习中模型性的泛化性能不好一样,配方过拟合试验方法,泛化性下降。
4、配方设计与优化
在对相关行业有了解后,那么对开发产品配方中需要哪些东西就已经有了一个大致的了解。
- 先确定配方的大致框架:例如在防锈油配方体系大致中分为四块:溶剂体系、磺酸盐主防锈剂体系、成膜剂、其它补充防锈剂和功能添加剂。
- 确定体系后开始进行原料的筛选,先是进行大范围的搜索,配方与配方间有很大的差异性,目的是先确定一个大致有效的组合,然后使用控制变量法对配方进行微调。这有点像是在对Transformer类模型进行学习率调节的步骤,先线性增长学习率,让模型预热起来,然后再逐步缓慢使用余弦衰减的学习率进行精细调整。
- 控制变量法:控制变量进行配方优化是关键,不然可能无法找到规律性,无法快速排除问题。但碰到多个配方原料间的协同和阻抗效应会比较麻烦,这时候就需要经验了。
- 当一个配方无论怎么优化都达不到要求时,就要赶紧从头对配方进行大的调整了,因为此时这个配方已经陷入了局部优化阶段,它的上限就在这里,需要赶紧跳出去,以免耽误项目进度。
- 最好针对同一个项目同时进行多个不同体系的配方开发,以防止精心选定的配方被后面突然冒出来的某个指标卡住,导致前功尽弃。这里有点像是集成学习,备用方案大部分情况下还是很必要的。
5、小试生产阶段
配方的优化与选定是在实验室内完成的,需要进行小试生产来进一步考察产品配方在进行生产的下面几种情况,不同的行业对小试的定义不同,一般小试在百公斤级左右:
- 验证配方产品生产的可行性与稳定性。
- 初步的确定生产工艺。
- 生产的产品提供给部分客户试用,获取反馈来对配方再次进行优化。这一步很关键,客户现场真正的验证比试验室指标更具说服力,销售有产品的应用案例可以参考,在推广产品时也更加高效。
6、中试生产
中试生产时使用大型工艺和设备,需要的评估的有下面几点:
- 产品在大规模生产下,工艺和设备的适用性。特别是一些需要传热的操作过程例如升温和降温操作,需要充分考虑大型设备的控制精度和效率,防止安全事故的发生。
- 产品在生产时产生的残次品和三废的处理。
- 进一步确定产品的生产操作工艺。
7、输出技术文件
进行到这里项目基本结束,需要把项目过程中涉及的各项文件输出给各个需要的部门。
- 针对生产部门需要输出:原材料入厂检验指标、产品生产工艺、过程检验指标等。
- 针对检测部门需要输出:产品的型式检验和出场检验,以及产品的分级指标。
- 针对销售部门需要输出:产品的说明书TDS/MSDS和应用案例等,还有一些例如Rose等法规文件。
- 针对公司技术部门需要输出:产品的开发过程,技术路线,便于知识留存。
AI的工作流是什么?
在Chatgpt、GPT-4、Sora的陆续推出后,人工智能继续下一步的发展是什么呢?人工智能著名学者、斯坦福大学教授吴恩达指出:AI 智能体工作流将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型。 他呼吁所有从事人工智能工作的人都关注 AI 智能体工作流,并撰写一篇博客简单阐述了原因。
原文的意思是:
当前,我们主要在零样本模式下使用 LLM,提供 prompt,逐个 token 地生成最终输出,没有进行调整。这类似于要求某人从头到尾写一篇文章,直接打字,不允许退格,并期望得到高质量的结果。尽管有困难,LLM 在这项任务上仍然表现得非常好!
非常直观的是,对作家来说,不断的修改是产生好文章的关键。开发配方也是,需要不断的迭代。那扩展到人工智能,就像我们给出提示词让模型一步一步慢慢来会产生更好的输出结果一样,让AI自己在不断修改和迭代的工作流模式下,输出的内容也能够产生更好的结果!
如下图所示,吴恩达的团队发现:GPT-3.5(零样本)的正确率为 48.1%,GPT-4(零样本)的表现更好,为 67.0%。然而,相比于迭代智能体工作流,从 GPT-3.5 到 GPT-4 的改进不大。事实上,在智能体循环(agent loop)中,GPT-3.5 的正确率高达 95.1%。
吴恩达分享了一个对构建智能体的设计模式进行分类的框架:
简单来说,这个框架包括:
- 反思:LLM 检查自己的工作,以提出改进方法。
- 工具使用:LLM 拥有网络搜索、代码执行或任何其他功能来帮助其收集信息、采取行动或处理数据。
- 规划:LLM 提出并执行一个多步骤计划来实现目标(例如,撰写论文大纲,然后进行在线研究,然后撰写草稿……)。
- 多智能体协作:多个 AI 智能体一起工作,分配任务并讨论和辩论想法,以提出比单个智能体更好的解决方案。
有了工作流之后,AI会越来越往自动发展的方向进行。很好奇,这种会自我完善工具是什么样子的。