AI
- 开源模型
- 在线模型
- 阿里百炼-国内模型丰富
- 质谱AI
- Kimi
2026年01月
基础入门
AIGC
- 核心:内容生成,依赖提示词被动响应,主要文本进行有限交互
Agent 智能体
- 核心:任务规划和自主执行,可通过工具调用操作实现交互,实现最终成果的交付
- 由 大语言模型LLM、一组可供模型使用的工具、提供指令的提示prompt、Tool Executor执行器 构成
- 执行过程:遵循 ReAct(Reason + Act)范式
- 接收输入与相关历史记忆构建上下文
- LLM推理与决策
- Reason 思考:模型先进行内部推理
- Act 行动:根据思考结果,执行一个行动-调用工具/最终回答;直到输出结果
Skills Agent = Skills架构的Agent【通用的Agent扩展包】
- 25年10月由Anthropic公司发布Claude Skills,不久后 Agent Skills作为开放标准发布
- Agent可通过加载不同的 Skills 包,拥有不同的专业知识、工具使用技能、稳定完成任务
- Skills 是模块化能力,扩展Agent,每个Skills都打包了 LLM指令、元数据、可选资源(脚本、模版等),在Agent需要时自动使用
Multi-Agent 多智能架构
- 用户问题-> Main Agent -> 选择分发给不同的Agent分别处理 -> 输出
- 适合业务复杂、工具较多时,进行拆分为 多智能体架构
场景分析
- Skills Agent :任务逻辑线形、可序列化(如:数据分析、文档生成、标准业务流程)
- Supervisor模式的多Agent
- 需并行、对抗或辩论(如:红蓝军对抗、模拟辩论、创意风暴)- 单个Agent无法在同一上下文同时模拟持有对立观点的多个角色
- 需调用不同特性的模型(如:文生图SD、代码生成Claude)- Skills架构通常基于单个骨干模型,无法解决模型异构问题
- 涉及隐私或信息隔离 - Skills共享全局上下文,会破坏信息隔离的基本规则
- 分层Skills 或转向多Agent:技能库规模庞大,超过50个 - 避免触及认知过载极限,可采用先分领域路由、在选技能的分层策略
其他备注
- MCP:Anthropic主导发布的一个开放的、通用的、有共识的协议标准;用于让 AI 大模型与不同数据源和工具无缝交互
| 对比维度 | Skills Agent | Multi-Agent |
|---|---|---|
| 核心范式 | 单体智能体 SAS,通过能力扩展 | 多智能体系统 MAS,通过任务分解与协作 |
| 工作流程 | 单一Agent根据任务自主规划并调用一个或多个技能 | Supervisor接受任务,识别意图,分配给特定子Agent执行,并可能协调多个子Agent |
| 上下文管理 | 渐进式披露:仅预加载技能描述,需要时再加载技能详情,上下文共享;软隔离/动态隔离 | 上下文隔离:每个子Agent拥有独立的上下文,通过状态State在Agent间传递关键信息;完全隔离 |
| 通信成本 | 低,所有思考发生在单个模型内部,无额外网络往返 | 高,每次子agent的调用都是一次独立的模型调用,产生额外Token消耗和延迟 |
| 优势 | 高效、简洁、低延迟;适合逻辑线性、可序列化任务 | 专业化、容错率高、适合复杂任务协作;处理不同模型、并行意见和隐私隔离的任务 |
| 劣势 | 存在“认知过载”的物理极限,技能数量过多会导致性能急剧下降 | 架构复杂,通信和协调开销大,开发和运维成本高 |
工业级Agent
- 大模型:各种类型的大模型 、 大模型的推理框架
- Ollama 为个人使用,不属于企业级,存在大量问题
- 工具
- Function Calling
- MCP协议
- 自定义工具
- 人工介入
- 上下文工程
- 上下文摘要
- 上下文嵌入


LangChain
2024年
- 论文阅读:
- LoRA 开山论文:2021 年 Microsoft Research 提出,首次提出了通过低秩矩阵分解的方式来进行部分参数微调,极大推动了 AI 技术在多行业的广泛落地应用:LoRA: Low-Rank Adaptation of Large Language Models
- 大语言模型开山论文:2017 年 Google Brain 团队发布,标志着 Transformer 架构的提出,彻底改变了自然语言处理(NLP)领域,标志着大语言模型时代的开始:Attention Is All You Need
模型部署及价值
- Ollama
- 模型部署
- Dify
- 案例:中铁水务客服助理
- ChatBox AI
- 智能对话的界面
- MaxKB
- 私有知识库 - RAG检索增强生成
- 函数库 - 工作流编排
- 案例:中铁水务客服助理
- 其他
- 嵌入到企业官网,以及微信公众号、企业微信、钉钉、飞书、OA 等系统
未来思考
能做什么?
现有大模型的底层实现,依靠大量资金实力,借助头部企业实现,如deepseek、通义千问...
当前我们迫切需要使用,实现模型落地应用开发
业务数据来源(mysql、hive、hbase)
和原有的业务生态系统打通
- LLM、一条完整的工具链
- 大公司 - 通用应用开发中...
中小企业:细分领域
业务数据 -> 数据清洗(复杂)
- rag - 数据向量处理 - 业务数据量不是特别大的场景
- sft - 人工处理 标注数据 - 训练业务模型
训练自己的代码开发助手(微调)
技术概念
- 微调:将知识喂给模型,模型消化吸收成为参数的一部分
- 强化学习:根据人类反馈,调整结果,生成个性化答案
- 检索增强生成:给予模型-额外的知识来源
三种训练方式
- SFT 有监督微调
- 通过提供人工标注的数据,进一步训练 预训练模型,让模型能够更加准确地处理特定领域的任务
- 除此之外,还有无监督微调、自监督微调,常见为有监督微调
- 强化学习 RLHF
- DPO
- 核心思想: 通过 人类对比选择,直接优化生成模型,使其产生更符合用户需求的结果,调整幅度大
- PPO 【Proximal Policy Optimization】
- 核心思想:通过 奖励信号,渐进式调整模型的行为策略,调整幅度小
- DPO
- 检索增强生成 RAG
- 将外部信息检索与文本生成结合,帮助模型在生成答案时,实时获取外部信息和最新信息
微调还是RAG ?
- 微调
- 适合:拥有非常充足的数据
- 能够直接提升模型固有能力,无需依赖外部数据,反应速度更快、更稳定
- RAG
- 适合:非常少的数据量,数据需要动态更新
- 每次回答前需耗时检索知识库,回答质量依赖于知识库的质量
有监督微调 SFT
通过提供人工标注的数据,进一步训练预训练模型,让模型能够更加精准地处理特定领域的任务
- 人工标注的数据
json// 如:分类系统 {"image_path": "path/image1.jpg", "label": "SpongeBobSquarePants"} {"image_path": "path/image2.jpg", "label": "PatrickStar"} // 如:对话系统 { "instruction": "请问你是谁", "input": "", "output": "您好,我是蟹堡王的神奇海螺,很高兴为您服务!我可以回答关于蟹堡王和汉堡制作的任何问题,您有什么需要帮助的吗?" },- 预训练模型(基座模型) 指已经在大量数据上训练过的模型,也就是我们微调前需要预先下载的开源模型。它具备了较为通用的知识和能力,能够解决一些常见的任务,可以在此基础上进行进一步的微调(fine-tuning)以适应特定的任务或领域
- 微调算法的分类
- 全参数微调(Full Fine-Tuning)
- 对整个预训练模型进行微调,会更新所有参数。
- 优点:因为每个参数都可以调整,通常能得到最佳的性能;能够适应不同任务和场景
- 缺点:需要较大的计算资源并且容易出现过拟合
- 部分参数微调(Partial Fine-Tuning)
- 只更新模型的部分参数(例如某些层或模块)
- 优点:减少了计算成本;减少过拟合风险;能够以较小的代价获得较好的结果
- 缺点:可能无法达到最佳性能
- 最著名算法:LoRA
- 全参数微调(Full Fine-Tuning)
LoRA 微调算法
- 微调常见实现框架
- 初学者如何对大模型进行微调?
- Llama-Factory:由国内北航开源的低代码大模型训练框架,可以实现零代码微调,简单易学,功能强大,且目前热度很高,建议新手从这个开始入门
- transformers.Trainer:由 Hugging Face 提供的高层 API,适用于各种 NLP 任务的微调,提供标准化的训练流程和多种监控工具,适合需要更多定制化的场景,尤其在部署和生产环境中表现出色
- DeepSpeed:由微软开发的开源深度学习优化库,适合大规模模型训练和分布式训练,在大模型预训练和资源密集型训练的时候用得比较多
能做的事
知识库搭建
阿里云百练
腾讯 ima
