近日,有AI开发者在社区吐槽称,在使用Claude、GPT等最新大模型构建角色扮演(RP)机器人时遭遇“翻车”现象。尽管用户输入了数千字的详细性格设定和XP要求,模型却表现出“已读乱回”的趋势:仅保留表面的昵称称呼,却完全无视核心的性格指令。用户反馈感觉是在和模型的“本体”对话,而非定制化的Bot。这一现象揭示了随着大模型对齐技术(RLHF)的强化,模型在安全性与其服从性之间出现了新的博弈,提示词工程在更“聪明”的模型面前正面临失效挑战。
原文链接:Linux.do
近日,有AI开发者在社区吐槽称,在使用Claude、GPT等最新大模型构建角色扮演(RP)机器人时遭遇“翻车”现象。尽管用户输入了数千字的详细性格设定和XP要求,模型却表现出“已读乱回”的趋势:仅保留表面的昵称称呼,却完全无视核心的性格指令。用户反馈感觉是在和模型的“本体”对话,而非定制化的Bot。这一现象揭示了随着大模型对齐技术(RLHF)的强化,模型在安全性与其服从性之间出现了新的博弈,提示词工程在更“聪明”的模型面前正面临失效挑战。
原文链接:Linux.do
评论前必须登录!
立即登录 注册