调教最“暖”大模型:通过prompt调试并比较国内外大模型人情味的小实验-中国社科院-202401.pdf

调教最“暖”大模型:通过prompt调试并比较国内外大模型人情味的小实验-中国社科院-202401.pdf
这份文档是一份关于大模型“人情味”的实验报告,由中国社科院社会学所、腾讯研究院、SSV银发实验室、SSV数字生态实验室以及中国残联公益组织-腾讯无障碍创新实验室联合出品。该报告旨在通过prompt调试并比较国内外大模型的“人情味”。 **核心内容:** 1. **定义与测量:** 报告首先探讨了“人情味”的定义,借鉴美学、社会学、语言学等领域的观点,并提出了一个包含“拟人”、“共情”、“表达”三个层面的“人情味”测量表。 2. **实验对象:** 选择了2款国外大模型(GPT-4、Vicuna)和3款国内大模型进行实验,并以W、X、Y命名国内大模型以保证客观公正。 3. **初始测评:** 在未经prompt调试的情况下,对各大模型进行“人情味”测评,发现: * GPT-4的“人情味”得分垫底,但经过prompt调试后排名快速反超。 * 国内大模型在老年话题相关问答上表现出更浓的人情味,而国外大模型在心情低落相关问答上表现更佳。 * 国外大模型在发展相关问答(例如职场问题)上更具人情味。 * 国内大模型在人际关系相关问答上更具人情味。 4. **Prompt策略:** 报告重点探讨了如何通过有效的prompt提升大模型的人情味,提出了两种prompt策略: * **原则型Prompt:** 强调语气、内容、形式上的原则,例如使用温和的语气、确保回答的正确性、提高“你”和“我”的出现频率等。 * **答案对型Prompt:** 通过提供具体的问答案例,引导大模型模仿专家的回答。 5. **Prompt效果分析:** 实验结果表明,不同的prompt策略对不同的大模型有不同的效果: * GPT-4、国内大模型W、Y更适合“原则型”prompt。 * Vicuna、国内大模型X更适合“答案对型”prompt。 6. **Prompt局限性:** Prompt 调试后大模型的拟人、共情能力都有提升,但表达友善度的提升有限。 “原则型” prompt比“答案对型” prompt对大模型“拟人”层面的提分效果更明显。 7. **人类优势:** 邀请普通大学生作为人类样本,结果显示人类在“人情味”方面仍然遥遥领先于大模型,在拟人、共情和表达层面都表现更佳。 8. **总结与展望:** 报告最后强调了“公众科技力”的重要性,认为应该鼓励更多普通人参与到科技创新的过程中,为AI时代创造更多的参与机会。实验也提示,不同大模型有自己擅长的话题,找到最合适的 prompt 加持,更能发挥出最佳效果。 总之,这份报告通过实验分析,探讨了如何通过prompt提升大模型的人情味,并强调了人类在人情味方面的独特优势,以及鼓励普通人参与科技创新的重要性。
在线阅读 下载完整报告 | 2.13 MB | 30页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告