调教最“暖”大模型:通过prompt调试并比较国内外大模型人情味的小实验-中国社科院-202401.pdf

这份文档是一份关于大模型“人情味”的实验报告,由中国社科院社会学所、腾讯研究院、SSV银发实验室、SSV数字生态实验室以及中国残联公益组织-腾讯无障碍创新实验室联合出品。该报告旨在通过prompt调试并比较国内外大模型的“人情味”。
**核心内容:**
1. **定义与测量:** 报告首先探讨了“人情味”的定义,借鉴美学、社会学、语言学等领域的观点,并提出了一个包含“拟人”、“共情”、“表达”三个层面的“人情味”测量表。
2. **实验对象:** 选择了2款国外大模型(GPT-4、Vicuna)和3款国内大模型进行实验,并以W、X、Y命名国内大模型以保证客观公正。
3. **初始测评:** 在未经prompt调试的情况下,对各大模型进行“人情味”测评,发现:
* GPT-4的“人情味”得分垫底,但经过prompt调试后排名快速反超。
* 国内大模型在老年话题相关问答上表现出更浓的人情味,而国外大模型在心情低落相关问答上表现更佳。
* 国外大模型在发展相关问答(例如职场问题)上更具人情味。
* 国内大模型在人际关系相关问答上更具人情味。
4. **Prompt策略:** 报告重点探讨了如何通过有效的prompt提升大模型的人情味,提出了两种prompt策略:
* **原则型Prompt:** 强调语气、内容、形式上的原则,例如使用温和的语气、确保回答的正确性、提高“你”和“我”的出现频率等。
* **答案对型Prompt:** 通过提供具体的问答案例,引导大模型模仿专家的回答。
5. **Prompt效果分析:** 实验结果表明,不同的prompt策略对不同的大模型有不同的效果:
* GPT-4、国内大模型W、Y更适合“原则型”prompt。
* Vicuna、国内大模型X更适合“答案对型”prompt。
6. **Prompt局限性:** Prompt 调试后大模型的拟人、共情能力都有提升,但表达友善度的提升有限。 “原则型” prompt比“答案对型” prompt对大模型“拟人”层面的提分效果更明显。
7. **人类优势:** 邀请普通大学生作为人类样本,结果显示人类在“人情味”方面仍然遥遥领先于大模型,在拟人、共情和表达层面都表现更佳。
8. **总结与展望:** 报告最后强调了“公众科技力”的重要性,认为应该鼓励更多普通人参与到科技创新的过程中,为AI时代创造更多的参与机会。实验也提示,不同大模型有自己擅长的话题,找到最合适的 prompt 加持,更能发挥出最佳效果。
总之,这份报告通过实验分析,探讨了如何通过prompt提升大模型的人情味,并强调了人类在人情味方面的独特优势,以及鼓励普通人参与科技创新的重要性。
相关报告
-
2.14 MB 5页 使用小型应用程序提高应用程序性能混合并行编程范式的比较(英文).pdf
-
7.54 MB 88页 2024小红书内容增长力报告-今日广告研究院-202501.pdf
-
4.3 MB 12页 TikTok用户转战小红书:跨越语言与文化的社交迁徙-艺恩-202501.pdf
-
13.06 MB 71页 2024底妆行业趋势洞察报告-小红书x电通-202501.pdf
-
4.75 MB 33页 碎银时代下的情绪红利:2024生活趋势洞察报告-DT商业观察-202501.pdf
-
7.17 MB 68页 小红书:高活跃度的生活分享社区,广告与电商业务加速推进-中信建投-202501.pdf
-
10.04 MB 114页 2025年最值得关注的药物预测:新疗法即将迎来破茧成蝶的时刻-科睿唯安-202501.pdf
-
16.95 MB 45页 2024算法与AI大模型的用户认知调研报告-蚂蚁集团-202412.pdf
-
5.5 MB 159页 Graph+AI:大模型浪潮下的图计算白皮书(2024年).pdf
-
941.59 KB 67页 非洲司法中的女性:对14个国家女法官的比较研究(英)-2024.pdf
-
2.83 MB 19页 朱格拉周期:国内外的历史经验与借鉴-华福证券-20240819.pdf
-
68.77 MB 37页 2024小红书营销IP说明书一本大家看懂IP的使用说明-小红书x凯度咨询-202406.pdf
-
840.01 KB 12页 “天工”系列专题之四:隐秘的角落,小企业景气恢复-申万宏源-20240419.pdf
-
6.14 MB 52页 小红书种草方法论:营销的第三种范式-小红书x科特勒-202403.pdf
-
130.81 MB 45页 2023居家生活报告—十年的探索发现-宜家IKEA-202401.pdf
-
1.81 MB 12页 2024家外消费市场的繁花之路-凯度消费者指数-202401.pdf
-
10.81 MB 48页 2024破次元数字社交文化观察报告—带你走进Z世代的交友圈-宏盟xSoul-202401.pdf
-
7.09 MB 27页 2024小红书搜索推广白皮书-小红书-202401.pdf
-
10.19 MB 70页 2023年度小程序互联网发展白皮-阿拉丁研究院-202401.pdf
-
3.22 MB 22页 2023综艺剧集大盘广告主最爱系列-击壤科技-202401.pdf