Skip to content
成为赞助商

AI

2026年01月

基础入门

  • AIGC

    • 核心:内容生成,依赖提示词被动响应,主要文本进行有限交互
  • Agent 智能体

    • 核心:任务规划和自主执行,可通过工具调用操作实现交互,实现最终成果的交付
    • 由 大语言模型LLM、一组可供模型使用的工具、提供指令的提示prompt、Tool Executor执行器 构成
    • 执行过程:遵循 ReAct(Reason + Act)范式
      • 接收输入与相关历史记忆构建上下文
      • LLM推理与决策
        • Reason 思考:模型先进行内部推理
        • Act 行动:根据思考结果,执行一个行动-调用工具/最终回答;直到输出结果
  • Skills Agent = Skills架构的Agent【通用的Agent扩展包】

    • 25年10月由Anthropic公司发布Claude Skills,不久后 Agent Skills作为开放标准发布
    • Agent可通过加载不同的 Skills 包,拥有不同的专业知识、工具使用技能、稳定完成任务
    • Skills 是模块化能力,扩展Agent,每个Skills都打包了 LLM指令、元数据、可选资源(脚本、模版等),在Agent需要时自动使用
  • Multi-Agent 多智能架构

    • 用户问题-> Main Agent -> 选择分发给不同的Agent分别处理 -> 输出
    • 适合业务复杂、工具较多时,进行拆分为 多智能体架构
  • 场景分析

    • Skills Agent :任务逻辑线形、可序列化(如:数据分析、文档生成、标准业务流程)
    • Supervisor模式的多Agent
      • 需并行、对抗或辩论(如:红蓝军对抗、模拟辩论、创意风暴)- 单个Agent无法在同一上下文同时模拟持有对立观点的多个角色
      • 需调用不同特性的模型(如:文生图SD、代码生成Claude)- Skills架构通常基于单个骨干模型,无法解决模型异构问题
      • 涉及隐私或信息隔离 - Skills共享全局上下文,会破坏信息隔离的基本规则
    • 分层Skills 或转向多Agent:技能库规模庞大,超过50个 - 避免触及认知过载极限,可采用先分领域路由、在选技能的分层策略
  • 其他备注

    • MCP:Anthropic主导发布的一个开放的、通用的、有共识的协议标准;用于让 AI 大模型与不同数据源和工具无缝交互
对比维度Skills AgentMulti-Agent
核心范式单体智能体 SAS,通过能力扩展多智能体系统 MAS,通过任务分解与协作
工作流程单一Agent根据任务自主规划并调用一个或多个技能Supervisor接受任务,识别意图,分配给特定子Agent执行,并可能协调多个子Agent
上下文管理渐进式披露:仅预加载技能描述,需要时再加载技能详情,上下文共享;软隔离/动态隔离上下文隔离:每个子Agent拥有独立的上下文,通过状态State在Agent间传递关键信息;完全隔离
通信成本低,所有思考发生在单个模型内部,无额外网络往返高,每次子agent的调用都是一次独立的模型调用,产生额外Token消耗和延迟
优势高效、简洁、低延迟;适合逻辑线性、可序列化任务专业化、容错率高、适合复杂任务协作;处理不同模型、并行意见和隐私隔离的任务
劣势存在“认知过载”的物理极限,技能数量过多会导致性能急剧下降架构复杂,通信和协调开销大,开发和运维成本高

工业级Agent

  • 大模型:各种类型的大模型 、 大模型的推理框架
    • Ollama 为个人使用,不属于企业级,存在大量问题
  • 工具
    • Function Calling
    • MCP协议
    • 自定义工具
    • 人工介入
  • 上下文工程
    • 上下文摘要
    • 上下文嵌入

image-20260203105042531image-20260203105236252

LangChain

2024年

https://www.bilibili.com/video/BV1R6P7eVEtd/?spm_id_from=333.1007.top_right_bar_window_history.content.click

  • 论文阅读:
    • LoRA 开山论文:2021 年 Microsoft Research 提出,首次提出了通过低秩矩阵分解的方式来进行部分参数微调,极大推动了 AI 技术在多行业的广泛落地应用:LoRA: Low-Rank Adaptation of Large Language Models
    • 大语言模型开山论文:2017 年 Google Brain 团队发布,标志着 Transformer 架构的提出,彻底改变了自然语言处理(NLP)领域,标志着大语言模型时代的开始:Attention Is All You Need

模型部署及价值

  • Ollama
    • 模型部署
  • Dify
    • 案例:中铁水务客服助理
  • ChatBox AI
    • 智能对话的界面
  • MaxKB
    • 私有知识库 - RAG检索增强生成
    • 函数库 - 工作流编排
    • 案例:中铁水务客服助理
  • 其他
    • 嵌入到企业官网,以及微信公众号、企业微信、钉钉、飞书、OA 等系统

未来思考

  • 能做什么?

    现有大模型的底层实现,依靠大量资金实力,借助头部企业实现,如deepseek、通义千问...

    当前我们迫切需要使用,实现模型落地应用开发

    业务数据来源(mysql、hive、hbase)

  • 和原有的业务生态系统打通

    • LLM、一条完整的工具链
    • 大公司 - 通用应用开发中...
  • 中小企业:细分领域

    • 业务数据 -> 数据清洗(复杂)

      • rag - 数据向量处理 - 业务数据量不是特别大的场景
      • sft - 人工处理 标注数据 - 训练业务模型
    • 训练自己的代码开发助手(微调)

技术概念

  • 微调:将知识喂给模型,模型消化吸收成为参数的一部分
  • 强化学习:根据人类反馈,调整结果,生成个性化答案
  • 检索增强生成:给予模型-额外的知识来源

三种训练方式

  • SFT 有监督微调
    • 通过提供人工标注的数据,进一步训练 预训练模型,让模型能够更加准确地处理特定领域的任务
    • 除此之外,还有无监督微调、自监督微调,常见为有监督微调
  • 强化学习 RLHF
    • DPO
      • 核心思想: 通过 人类对比选择,直接优化生成模型,使其产生更符合用户需求的结果,调整幅度大
    • PPO 【Proximal Policy Optimization】
      • 核心思想:通过 奖励信号,渐进式调整模型的行为策略,调整幅度小
  • 检索增强生成 RAG
    • 将外部信息检索与文本生成结合,帮助模型在生成答案时,实时获取外部信息和最新信息

微调还是RAG ?

  • 微调
    • 适合:拥有非常充足的数据
    • 能够直接提升模型固有能力,无需依赖外部数据,反应速度更快、更稳定
  • RAG
    • 适合:非常少的数据量,数据需要动态更新
    • 每次回答前需耗时检索知识库,回答质量依赖于知识库的质量

有监督微调 SFT

  • 通过提供人工标注的数据,进一步训练预训练模型,让模型能够更加精准地处理特定领域的任务

    • 人工标注的数据
    json
    // 如:分类系统
    {"image_path": "path/image1.jpg", "label": "SpongeBobSquarePants"}
    {"image_path": "path/image2.jpg", "label": "PatrickStar"}
    // 如:对话系统
    {
        "instruction": "请问你是谁",
        "input": "",
        "output": "您好,我是蟹堡王的神奇海螺,很高兴为您服务!我可以回答关于蟹堡王和汉堡制作的任何问题,您有什么需要帮助的吗?"
    },
    • 预训练模型(基座模型) 指已经在大量数据上训练过的模型,也就是我们微调前需要预先下载的开源模型。它具备了较为通用的知识和能力,能够解决一些常见的任务,可以在此基础上进行进一步的微调(fine-tuning)以适应特定的任务或领域
    • 微调算法的分类
      • 全参数微调(Full Fine-Tuning)
        • 对整个预训练模型进行微调,会更新所有参数。
        • 优点:因为每个参数都可以调整,通常能得到最佳的性能;能够适应不同任务和场景
        • 缺点:需要较大的计算资源并且容易出现过拟合
      • 部分参数微调(Partial Fine-Tuning)
        • 只更新模型的部分参数(例如某些层或模块)
        • 优点:减少了计算成本;减少过拟合风险;能够以较小的代价获得较好的结果
        • 缺点:可能无法达到最佳性能
        • 最著名算法:LoRA
LoRA 微调算法
  • 微调常见实现框架
    • 初学者如何对大模型进行微调?
    • Llama-Factory:由国内北航开源的低代码大模型训练框架,可以实现零代码微调,简单易学,功能强大,且目前热度很高,建议新手从这个开始入门
    • transformers.Trainer:由 Hugging Face 提供的高层 API,适用于各种 NLP 任务的微调,提供标准化的训练流程和多种监控工具,适合需要更多定制化的场景,尤其在部署和生产环境中表现出色
    • DeepSpeed:由微软开发的开源深度学习优化库,适合大规模模型训练和分布式训练,在大模型预训练和资源密集型训练的时候用得比较多

能做的事

知识库搭建

访客总数 总访问量统计始于2024.10.29