阅文(马宇峰):AIGC在阅文集团的实践落地.pdf

阅文(马宇峰):AIGC在阅文集团的实践落地.pdf
阅文集团的AIGC技术负责人马宇峰分享了AIGC在阅文集团的实践落地经验。报告主要涵盖了以下几个核心内容: **1. 挑战与破题思路:** * **领域问题定义难:** 如何描述网文感和角色“灵魂”?采用数据来定义客观问题,并解决实际业务场景的主观问题。 * **领域数据储备难:** 如何从原始数据到专业标注数据?利用大模型辅助标注提高效率,并在线上直接验证评测结果。 * **领域结果获取难:** 如何规模化和实现业务价值?保留方法路径,筹措对称资源,优化推理成本,关注核心指标。 **2. 智能创作实践:** * **核心实践:** 经历了开源探索、微调方法跑通、智创场景调优、网文感生成、分布式训练加速、混合指令SFT等阶段,最终发布了妙笔大模型。 * **价值体现:** 通过增量预训练,能够生成更具网文风格和写作风格的文本。 * **技术细节:** 详细介绍了算力、训练方法、模型训练、数据清洗等方面的技术细节,以及各阶段的优化。 **3. 智能创作应用:** * **世界观设定:** 妙笔帮助作家丰满世界设定,提供灵感,生成画面,但故事内核仍由作家把控。 * **角色设定:** 让角色更立体、细节更丰满,提供成长可能性。 * **提升表达:** 妙笔辅助提升表达和氛围营造,让作家更专注好故事创意。 * **团队协作:** 为每位网文作家配备“专业团队”,辅助创作。 * **持续优化:** 通过显存优化、Int8量化、动态Batching等手段,持续优化推理成本。 **4. 角色对话实践:** * **技术框架:** 结合 Amis知识管理平台、Prompt 知识挂载、工程支持开启对话等技术,实现角色扮演。 * **模型训练:** 使用不同的数据配比、训练准备以及模型格式对齐的方式,训练角色模型。 * **测试与上线:** 训练后进行验证上线,并进行AB测试。 * **安全措施:** 特别强调了幻觉问题、新鲜度问题和数据安全等方面的挑战。 **5. RAG(检索增强生成)技术:** * **RAG流程:** 数据提取、embedding、创建索引、检索、自动排序、 LLM归纳。 * **主要价值:** 角色形象更为丰满,让角色更为生动鲜活。 **6. AIGC落地方法论:** * **关键流程:** 开源探索-> 领域微调-> 场景落地-> 基座领域化-> 参数规模化-> 线上优化。
在线阅读 下载完整报告 | 5.11 MB | 30页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告