AI

开源模型
魔塔社区
huggingface
在线模型
阿里百炼-国内模型丰富
质谱AI
Kimi

2026年01月

基础入门

AIGC
- 核心：内容生成，依赖提示词被动响应，主要文本进行有限交互
Agent 智能体
- 核心：任务规划和自主执行，可通过工具调用操作实现交互，实现最终成果的交付
- 由大语言模型LLM、一组可供模型使用的工具、提供指令的提示prompt、Tool Executor执行器构成
- 执行过程：遵循 ReAct（Reason + Act）范式
  - 接收输入与相关历史记忆构建上下文
  - LLM推理与决策
    - Reason 思考：模型先进行内部推理
    - Act 行动：根据思考结果，执行一个行动-调用工具/最终回答；直到输出结果
Skills Agent = Skills架构的Agent【通用的Agent扩展包】
- 25年10月由Anthropic公司发布Claude Skills，不久后 Agent Skills作为开放标准发布
- Agent可通过加载不同的 Skills 包，拥有不同的专业知识、工具使用技能、稳定完成任务
- Skills 是模块化能力，扩展Agent，每个Skills都打包了 LLM指令、元数据、可选资源（脚本、模版等），在Agent需要时自动使用
Multi-Agent 多智能架构
- 用户问题-> Main Agent -> 选择分发给不同的Agent分别处理 -> 输出
- 适合业务复杂、工具较多时，进行拆分为多智能体架构
场景分析
- Skills Agent ：任务逻辑线形、可序列化（如：数据分析、文档生成、标准业务流程）
- Supervisor模式的多Agent
  - 需并行、对抗或辩论（如：红蓝军对抗、模拟辩论、创意风暴）- 单个Agent无法在同一上下文同时模拟持有对立观点的多个角色
  - 需调用不同特性的模型（如：文生图SD、代码生成Claude）- Skills架构通常基于单个骨干模型，无法解决模型异构问题
  - 涉及隐私或信息隔离 - Skills共享全局上下文，会破坏信息隔离的基本规则
- 分层Skills 或转向多Agent：技能库规模庞大，超过50个 - 避免触及认知过载极限，可采用先分领域路由、在选技能的分层策略
其他备注
- MCP：Anthropic主导发布的一个开放的、通用的、有共识的协议标准；用于让 AI 大模型与不同数据源和工具无缝交互

对比维度	Skills Agent	Multi-Agent
核心范式	单体智能体 SAS，通过能力扩展	多智能体系统 MAS，通过任务分解与协作
工作流程	单一Agent根据任务自主规划并调用一个或多个技能	Supervisor接受任务，识别意图，分配给特定子Agent执行，并可能协调多个子Agent
上下文管理	渐进式披露：仅预加载技能描述，需要时再加载技能详情，上下文共享；软隔离/动态隔离	上下文隔离：每个子Agent拥有独立的上下文，通过状态State在Agent间传递关键信息；完全隔离
通信成本	低，所有思考发生在单个模型内部，无额外网络往返	高，每次子agent的调用都是一次独立的模型调用，产生额外Token消耗和延迟
优势	高效、简洁、低延迟；适合逻辑线性、可序列化任务	专业化、容错率高、适合复杂任务协作；处理不同模型、并行意见和隐私隔离的任务
劣势	存在“认知过载”的物理极限，技能数量过多会导致性能急剧下降	架构复杂，通信和协调开销大，开发和运维成本高

工业级Agent

大模型：各种类型的大模型、大模型的推理框架
- Ollama 为个人使用，不属于企业级，存在大量问题
工具
- Function Calling
- MCP协议
- 自定义工具
- 人工介入
上下文工程
- 上下文摘要
- 上下文嵌入

LangChain

2024年

https://www.bilibili.com/video/BV1R6P7eVEtd/?spm_id_from=333.1007.top_right_bar_window_history.content.click

论文阅读：
LoRA 开山论文：2021 年 Microsoft Research 提出，首次提出了通过低秩矩阵分解的方式来进行部分参数微调，极大推动了 AI 技术在多行业的广泛落地应用：LoRA: Low-Rank Adaptation of Large Language Models
大语言模型开山论文：2017 年 Google Brain 团队发布，标志着 Transformer 架构的提出，彻底改变了自然语言处理（NLP）领域，标志着大语言模型时代的开始：Attention Is All You Need

模型部署及价值

Ollama
- 模型部署
Dify
- 案例：中铁水务客服助理
ChatBox AI
- 智能对话的界面
MaxKB
- 私有知识库 - RAG检索增强生成
- 函数库 - 工作流编排
- 案例：中铁水务客服助理
其他
- 嵌入到企业官网，以及微信公众号、企业微信、钉钉、飞书、OA 等系统

未来思考

能做什么？
现有大模型的底层实现，依靠大量资金实力，借助头部企业实现，如deepseek、通义千问...
当前我们迫切需要使用，实现模型落地应用开发
业务数据来源（mysql、hive、hbase）
和原有的业务生态系统打通
- LLM、一条完整的工具链
- 大公司 - 通用应用开发中...
中小企业：细分领域
- 业务数据 -> 数据清洗(复杂)
  - rag - 数据向量处理 - 业务数据量不是特别大的场景
  - sft - 人工处理标注数据 - 训练业务模型
- 训练自己的代码开发助手（微调）

技术概念

微调：将知识喂给模型，模型消化吸收成为参数的一部分
强化学习：根据人类反馈，调整结果，生成个性化答案
检索增强生成：给予模型-额外的知识来源

三种训练方式

SFT 有监督微调
- 通过提供人工标注的数据，进一步训练 预训练模型，让模型能够更加准确地处理特定领域的任务
- 除此之外，还有无监督微调、自监督微调，常见为有监督微调
强化学习 RLHF
- DPO
  - 核心思想：通过 人类对比选择，直接优化生成模型，使其产生更符合用户需求的结果，调整幅度大
- PPO 【Proximal Policy Optimization】
  - 核心思想：通过 奖励信号，渐进式调整模型的行为策略，调整幅度小
检索增强生成 RAG
- 将外部信息检索与文本生成结合，帮助模型在生成答案时，实时获取外部信息和最新信息

微调还是RAG ？

微调
- 适合：拥有非常充足的数据
- 能够直接提升模型固有能力，无需依赖外部数据，反应速度更快、更稳定
RAG
- 适合：非常少的数据量，数据需要动态更新
- 每次回答前需耗时检索知识库，回答质量依赖于知识库的质量

有监督微调 SFT

通过提供人工标注的数据，进一步训练预训练模型，让模型能够更加精准地处理特定领域的任务
- 人工标注的数据
json
```
// 如：分类系统
{"image_path": "path/image1.jpg", "label": "SpongeBobSquarePants"}
{"image_path": "path/image2.jpg", "label": "PatrickStar"}
// 如：对话系统
{
    "instruction": "请问你是谁",
    "input": "",
    "output": "您好，我是蟹堡王的神奇海螺，很高兴为您服务！我可以回答关于蟹堡王和汉堡制作的任何问题，您有什么需要帮助的吗？"
},
```
1
2
3
4
5
6
7
8
9
- 预训练模型（基座模型）指已经在大量数据上训练过的模型，也就是我们微调前需要预先下载的开源模型。它具备了较为通用的知识和能力，能够解决一些常见的任务，可以在此基础上进行进一步的微调（fine-tuning）以适应特定的任务或领域
- 微调算法的分类
  - 全参数微调（Full Fine-Tuning）
    - 对整个预训练模型进行微调，会更新所有参数。
    - 优点：因为每个参数都可以调整，通常能得到最佳的性能；能够适应不同任务和场景
    - 缺点：需要较大的计算资源并且容易出现过拟合
  - 部分参数微调（Partial Fine-Tuning）
    - 只更新模型的部分参数（例如某些层或模块）
    - 优点：减少了计算成本；减少过拟合风险；能够以较小的代价获得较好的结果
    - 缺点：可能无法达到最佳性能
    - 最著名算法：LoRA

LoRA 微调算法

微调常见实现框架
- 初学者如何对大模型进行微调？
- Llama-Factory：由国内北航开源的低代码大模型训练框架，可以实现零代码微调，简单易学，功能强大，且目前热度很高，建议新手从这个开始入门
- transformers.Trainer：由 Hugging Face 提供的高层 API，适用于各种 NLP 任务的微调，提供标准化的训练流程和多种监控工具，适合需要更多定制化的场景，尤其在部署和生产环境中表现出色
- DeepSpeed：由微软开发的开源深度学习优化库，适合大规模模型训练和分布式训练，在大模型预训练和资源密集型训练的时候用得比较多

能做的事

知识库搭建

阿里云百练
扣子Ai
腾讯 ima

AI ​

2026年01月 ​

基础入门 ​

工业级Agent ​

LangChain ​

2024年 ​

模型部署及价值 ​

未来思考 ​

技术概念 ​

三种训练方式 ​

微调还是RAG ？ ​

有监督微调 SFT ​

LoRA 微调算法 ​

能做的事 ​

知识库搭建 ​

AI

2026年01月

基础入门

工业级Agent

LangChain

2024年

模型部署及价值

未来思考

技术概念

三种训练方式

微调还是RAG ？

有监督微调 SFT

LoRA 微调算法

能做的事

知识库搭建