大语言模型(LLM)简介.pdf

这份文档主要介绍了大型语言模型的概念、架构、训练方法、应用以及潜在风险。
**1. 大型语言模型简介**
* 大型语言模型(LLM)通过学习猜测下一个单词来进行训练,学到很多有用的语言知识,因为它们训练了大量的文本。
* LLM 的三种主要架构包括:解码器(如 GPT)、编码器(如 BERT)和编码器-解码器(如 Flan-T5)。
**2. LLM 的应用:将任务转化为单词预测**
* LLM 的核心能力在于条件生成,即根据以前的文本生成文本。
* 许多 NLP 任务可以转化为单词预测问题,例如情感分析(预测情绪是正面还是负面)、问答(预测答案)。
**3. LLM 的生成采样**
* LLM 通过解码和采样来生成文本,即根据模型的概率选择要生成的单词。
* 随机抽样不太管用,因为在分布的尾部有许多奇怪的低概率单词。
* 改进的采样方法包括 Top-k 采样(只保留前 k 个最可能的单词)和温度采样(通过调整 softmax 的温度参数来控制生成的多样性)。
**4. LLM 的预训练**
* 预训练是 LLM 获得惊人性能的关键。
* 预训练算法包括:
* 自我监督训练:模型预测下一个单词,并使用梯度下降来最小化预测误差。
* 教师强迫:模型在每个标记位置看到正确的标记,并计算下一个令牌的损失。
* 预训练数据:LLM 需要大量的文本数据,例如从互联网抓取的文本(如 C4),以及其他语料库。
* 数据质量和安全过滤:预训练数据需要进行质量和安全过滤,以删除成人内容、重复数据,并避免毒性和偏见。
**5. LLM 的微调**
* 微调用于使 LLM 适应新的领域。
* 微调是对新数据的“持续预训练”,即根据新数据进一步训练模型的所有参数。
* 参数高效微调(PEFT):通过只更新模型的部分参数来减少计算成本。例如,LoRA(低秩适应)冻结模型的原有权重,只更新低秩分解的参数。
**6. LLM 的评估**
* 困惑度(perplexity):衡量模型预测文本的能力,困惑度越低,模型越好。
* 标度定律:LLM 的性能取决于模型大小、数据集大小和计算量,并与这三者成幂律关系。
**7. LLM 的危害**
* LLM 存在一些潜在风险,包括:
* 幻觉:生成不真实或虚假的信息。
* 版权问题:LLM 的训练数据可能包含受版权保护的内容。
* 隐私泄露:LLM 可能会泄露用户的个人信息。
* 毒性和滥用:LLM 可能会生成有害或攻击性的内容。
* 误报:LLM 可能会传播虚假信息。
相关报告
-
686.13 KB 27页 2025大型语言模型LLM安全风险案例与防御策略研究报告.pdf
-
11.42 MB 107页 大语言模型时代的AI4Science.pdf
-
2.22 MB 36页 大语言模型越狱攻击 模型、根因及其攻防演化.pdf
-
4.09 MB 53页 基于大型语言模型的代理的兴起和潜力:一项调查.pdf
-
2.07 MB 158页 大型语言模型安全:全面综述.pdf
-
7.14 MB 39页 2024年基于大语言模型的新型电力系统运行与仿真初探报告.pdf
-
1.91 MB 32页 大模型如何判决?从生成到判决:大型语言模型作为裁判的机遇与挑战.pdf
-
4.12 MB 33页 大语言模型综合评测报告2023.pdf
-
6.48 MB 86页 【论文推荐】基于大语言模型的智能体综述——复旦NLP -.pdf
-
2.64 MB 29页 艾瑞咨询:ChatGPT浪潮下,看中国大语言模型产业发展.pdf
-
1.9 MB 35页 GPTs 大型语言模型对劳动力市场影响潜力的早期研究.pdf
-
1.69 MB 13页 新兴产业景气扫描(3月第3期):Microsoft 365接入大语言模型
-
13.71 MB 55页 大小模型端云协同赋能人机交互-浙江大学-202504.pdf
-
6.16 MB 55页 2025大小模型端云协同赋能人机交互报告.pdf
-
13.08 MB 61页 从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例-浙江大学-202503.pdf
-
10.65 MB 65页 浙江大学·DeepSeek手册Ⅷ《DeepSeek模型解读》.pdf
-
8.68 MB 42页 语言解码双生花:人类经验与AI算法的镜像之旅-浙江大学-202503.pdf
-
8.36 MB 76页 DeepSeek R1+Kimi1.5及类强推理模型开发解读-北京大学-202502.pdf