大语言模型(LLM)简介.pdf

大语言模型(LLM)简介.pdf
这份文档主要介绍了大型语言模型的概念、架构、训练方法、应用以及潜在风险。 **1. 大型语言模型简介** * 大型语言模型(LLM)通过学习猜测下一个单词来进行训练,学到很多有用的语言知识,因为它们训练了大量的文本。 * LLM 的三种主要架构包括:解码器(如 GPT)、编码器(如 BERT)和编码器-解码器(如 Flan-T5)。 **2. LLM 的应用:将任务转化为单词预测** * LLM 的核心能力在于条件生成,即根据以前的文本生成文本。 * 许多 NLP 任务可以转化为单词预测问题,例如情感分析(预测情绪是正面还是负面)、问答(预测答案)。 **3. LLM 的生成采样** * LLM 通过解码和采样来生成文本,即根据模型的概率选择要生成的单词。 * 随机抽样不太管用,因为在分布的尾部有许多奇怪的低概率单词。 * 改进的采样方法包括 Top-k 采样(只保留前 k 个最可能的单词)和温度采样(通过调整 softmax 的温度参数来控制生成的多样性)。 **4. LLM 的预训练** * 预训练是 LLM 获得惊人性能的关键。 * 预训练算法包括: * 自我监督训练:模型预测下一个单词,并使用梯度下降来最小化预测误差。 * 教师强迫:模型在每个标记位置看到正确的标记,并计算下一个令牌的损失。 * 预训练数据:LLM 需要大量的文本数据,例如从互联网抓取的文本(如 C4),以及其他语料库。 * 数据质量和安全过滤:预训练数据需要进行质量和安全过滤,以删除成人内容、重复数据,并避免毒性和偏见。 **5. LLM 的微调** * 微调用于使 LLM 适应新的领域。 * 微调是对新数据的“持续预训练”,即根据新数据进一步训练模型的所有参数。 * 参数高效微调(PEFT):通过只更新模型的部分参数来减少计算成本。例如,LoRA(低秩适应)冻结模型的原有权重,只更新低秩分解的参数。 **6. LLM 的评估** * 困惑度(perplexity):衡量模型预测文本的能力,困惑度越低,模型越好。 * 标度定律:LLM 的性能取决于模型大小、数据集大小和计算量,并与这三者成幂律关系。 **7. LLM 的危害** * LLM 存在一些潜在风险,包括: * 幻觉:生成不真实或虚假的信息。 * 版权问题:LLM 的训练数据可能包含受版权保护的内容。 * 隐私泄露:LLM 可能会泄露用户的个人信息。 * 毒性和滥用:LLM 可能会生成有害或攻击性的内容。 * 误报:LLM 可能会传播虚假信息。
在线阅读 下载完整报告 | 1.58 MB | 74页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告