【ML2025】1-生成式人工智能
wbfwonderful Lv3

李宏毅老师《机器学习》2025学习记录

image

生成式人工智能有什么样的行为?

  • 现有的模型通常会体现“思考”的过程(脑内小剧场??)。
    image
  • 未来 AI 的工作不再局限于“一问一答”,很多任务需要多个步骤来完成 –> AI agent
    image
  • 使用 AI agent 来训练模型??
    image

运作机制

  • 生成式人工智能的基本原理:输入一段 token,输出另一段 token。任何事物都可以由多个 token 表示:

    Those tokens were words, some of the tokens of course could now be images, or charts, or tables, songs … speech, videos. Those tokens could be anything. 
    token 可以是单词,图片、表、歌曲、对话等等……

image

  • 不论什么任务,本质上都是 token 到 token。

    • 具体来说,是给输入 token 序列,预测下一个 token。
    • 然后将预测的 token 与输入的 token 序列拼接,然后再次输入到模型中,预测下一个 token,重复上述步骤,直到结束。
  • 例如,输入图像,输出文字,那么 z 就代表所有文字 token 和图像 token 的集合
    image

  • 通常是使用深度网络来预测下一个 token。一个不恰当的比喻,假设任务为三个数字相加,每一个层为一个查表操作,如果只用一个层,那么需要存10^3种可能,如果分为两层,那么只需要10*10+19*10种可能。
    image

  • 本质上,让模型“思考”(reason)也是一种“深度”。

    • 困难的问题需要思考很多步,layer 的深度不够了?
    • 深度不够,长度来凑!
      image

内容是怎样产生出来的?

  • 我们要怎样得到可以生成内容的模型?三步走!
    • Find Function with Unknown Parameters
    • Define Loss from Training Data
    • Optimation
  • 生成式模型也不是新的问题:从“专才”到“通才”的转变
    image
  • 如何实现这个转变?大概包含以下三个阶段
    • 阶段一:训练通用的编码器,只能将输入 token 转换为 embedding,要实现下游任务,需要接对应的解码器。
      image
    • 阶段二:没那么好用的模型,只能生成 token,需要在特定任务上微调(相同架构,不同的参数)
      image
    • 阶段三:大模型时代!一个模型可以解决所有的问题(相同架构,相同参数)
      image

如何赋予模型新的能力?

  • 方法1:微调
    image

  • 方法2:模型编辑
    image

  • 方法3:模型合并
    image