彩神vi下载该论文介绍,心智理论对人类社交互动十分重要,是人类沟通交流和产生共鸣的关键。之前的研究表明,大语言模型这类人工智能可以解决复杂的认知任务,如多选决策。不过,人们一直不清楚大语言模型在被认为是人类独有能力的心智理论任务中的表现是否也能比肩人类。
论文作者指出,LLaMA2的成功被证明是因为回答的偏见程度较低而不是因为真的对失礼敏感,而GPT看起来的失利其实是因为对坚持结论的超保守态度而不是因为推理错误。
论文作者提醒说,人工智能大语言模型在心智理论任务上的表现堪比人类不等于它们具有人类般的能力,也不意味着它们能掌握心智理论。
在本项研究中,论文第一作者和共同通讯作者、德国汉堡-埃彭多夫大学医学中心 James W. A. Strachan与同事及合作者一起,选择能测试心理理论不同方面的任务,包括发现错误想法、理解间接言语以及识别失礼。他们随后比较了1907人与两个热门大语言模型家族(GPT和LLaMA2模型)完成任务的能力。他们发现,GPT模型在识别间接要求、错误想法和误导的表现能达到有时甚至超越人类平均水平,而LLaMA2的表现逊于人类水平;在识别失礼方面,LLaMA2强于人类但GPT表现不佳。
636.54MB
查看702.88MB
查看55.8MB
查看793.42MB
查看923.97MB
查看545.45MB
查看202.24MB
查看224.44MB
查看645.86MB
查看633.42MB
查看815.82MB
查看749.35MB
查看538.19MB
查看310.41MB
查看911.43MB
查看530.49MB
查看469.65MB
查看397.53MB
查看349.70MB
查看464.40MB
查看247.30MB
查看117.85MB
查看788.96MB
查看742.55MB
查看228.72MB
查看197.49MB
查看785.15MB
查看106.36MB
查看758.54MB
查看139.23MB
查看947.40MB
查看619.68MB
查看514.30MB
查看197.22MB
查看279.48MB
查看971.68MB
查看457.66MB
查看606.86MB
查看895.39MB
查看515.66MB
查看973.40MB
查看624.22MB
查看729.96MB
查看249.43MB
查看509.58MB
查看371.73MB
查看137.29MB
查看542.94MB
查看109.22MB
查看542.70MB
查看291.79MB
查看335.83MB
查看405.62MB
查看304.46MB
查看100.60MB
查看622.50MB
查看851.52MB
查看183.27MB
查看855.24MB
查看208.62MB
查看788.50MB
查看224.94MB
查看599.94MB
查看299.96MB
查看954.12MB
查看642.10MB
查看674.79MB
查看161.49MB
查看661.58MB
查看369.62MB
查看488.71MB
查看583.79MB
查看963.82MB
查看359.93MB
查看781.98MB
查看973.56MB
查看634.16MB
查看113.26MB
查看982.85MB
查看454.19MB
查看495.35MB
查看202.33MB
查看796.78MB
查看743.99MB
查看768.15MB
查看435.99MB
查看790.76MB
查看176.18MB
查看417.24MB
查看587.55MB
查看930.11MB
查看231.99MB
查看474.38MB
查看523.96MB
查看238.56MB
查看672.48MB
查看940.95MB
查看527.76MB
查看973.35MB
查看845.35MB
查看547.55MB
查看821.58MB
查看228.93MB
查看
555河间dk
小林制药“红曲风波”的警示与启示⚵
2025-06-29 17:01:42 推荐
379188****6723
《坠落的审判》,一个强势女性的「冒犯」(本文可能存在剧透)⚹
2025-06-28 02:10:48 不推荐
676152****1120
央企看上海|住得安、能成业,科创高地诠释央企眼中的“闵行优势”⚽
2025-06-28 10:42:55 推荐
95变形金刚赛车2
日本厚生劳动省将于今日调查小林制药和歌山县工厂⛀
2025-06-29 0-1:55:40 推荐