-
【LLM From Scratch】6-通过微调遵循人类指令
指令微调大语言模型的预训练是通过让模型学会逐个生成单词来实现的。预训练后的大语言模型能够进行文本补全,这意味着给定任意一个片段作为输入,模型能够生成一个句子或撰写一个段落。 为有监督指令微调准备数据集指令微调需要在一个明确提供输入-输出对(如同从J... -
【LLM From Scratch】5-针对分类的微调
不同类型的微调微调语言模型最常见的方法是指令微调和分类微调。 指令微调涉及使用特定的指令数据对一组任务进行训练,以提高语言模型理解和执行自然语言提示词中描述的任务的能力。 分类微调,即模型被训练来识别一组特定的类别标签,比如在消息中过滤“垃圾消息”... -
【LLM From Scratch】4-在无标签数据上进行预训练
评估文本生成模型在训练之前,模型会生成随机的下一个词元的概率向量。模型训练的目标是确保与图中框出的目标词元 ID 对应的概率值被最大化。 训练大语言模型的目标是最大化正确词元的可能性,这涉及增大其相对于其他词元的概率。通过这种方式,可以确保大语言... -
【LLM From Scratch】3-从头实现 GPT 模型进行文本生成
构建一个大语言模型架构大语言模型包含以下内容: 使用层归一化进行归一化激活层归一化的主要思想是调整神经网络层的激活(输出),使其均值为 0 且方差(单位方差)为 1。这种调整有助于加速权重的有效收敛,并确保训练过程的一致性和可靠性。 注意,上图... -
【LLM From Scratch】2-编码注意力机制
长序列建模中的问题想要开发一个将文本从一种语言翻译成另一种语言的语言翻译模型。由于源语言和目标语言的语法结构不同,我们无法简单地逐个单词进行翻译。为了处理这个问题,通常使用一个包含编码器和解码器两个子模块的深度神经网络。编码器首先读取和处理整个文本... -
【代码随想录】动态规划2-背包问题1
01 背包总览 定义:有 n 件物品和一个最多能背重量为w 的背包。第i件物品的重量是 weight[i],得到的价值是 value[i] 。每件物品只能用一次,求解将哪些物品装入背包里物品价值总和最大。 二维 dp 数组 01 背包 重量 价... -
【LLM From Scratch】1-处理文本数据
理解词嵌入包括大语言模型在内的深度神经网络模型无法直接处理原始文本。由于文本数据是离散的,因此我们无法直接用它来执行神经网络训练所需的数学运算。我们需要一种将单词表示为连续值的向量格式的方法。 目前,人们已经开发出多种算法和框架来生成词嵌入,其中w...