研究称GPT-4通过图灵测试 54%参与者将其误认为真人

发布时间:2024-07-08 04:27 已有: 人阅读

  双方交替发送,每条消息限制在一定的字符数内。

  的长度人为地延迟发送。这种设置旨在模拟正常的人际交流节奏,增加实验的现实感。研究小组解释称,人类之所以不能百分之百地识别同类,是因为提问者认为AI的效率越来越高。这增加了他们将人类错误地识别为机器的可能性。

  为了深入了解影响参与者最后作出决定的定性因素,研究小组对其使用的策略和判断的理由进行了分类。36%的参与者与“对话者”进行闲聊,询问个人细节或他们的日常活动;第二类策略是社交和情感,例如询问“对话者”的意见、经历并分析判断它们的幽默感;第三类是知识和推理,包括数学、逻辑和常识问题。

  结果显示,有54%的参与者将GPT-4误认为是真人。相比之下,预先设定好回复的ELIZA只有22%的人将其认作线%,而“真人对话者”被正确辨认的比例则为67%。

  他们指出,这可能反映出参与者认为AI系统质量在不断进化,这一结果也与近年来其他类似的图灵测试呈现的情况类似。当AI系统能力很差时,真人是很容易被辨别出来的,而随着参与者对AI系统能力的信心增强,他们便更有可能将真人误认为AI。

  GPT-4和GPT-3.5在测试中的表现虽然未达到“真人对话者”的水平,但目前AI研究者普遍认为,只要有30%的回答被误认为是人类,那就算通过测试。不过也有观点认为,50%的基线更加合理,因为它更能证明人类在识别AI方面并不具有偶然性。

  在上述研究中,参与者的置信度得分和决策依据都表明他们并非随意猜测:GPT-4是人类的平均置信度为73%。

  还需要指出的是,由于研究人员在进行上述实验时,OpenAI尚未宣布新一代的旗舰模型GPT-4o。这一全新模型可以利用语音、和文本信息进行实时推理,如果参与测试,被参与者误认为人类的概率可能就会更高。

  图灵测试是由英国计算机科学家阿兰·图灵于1950年在其论文中提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等同或无法区分的智能水平。1966年,美国计算机协会还以图灵的名字设立了图灵奖,被誉为“计算机界的诺贝尔奖”,旨在奖励对计算机事业作出重要贡献的个人,每年颁发一次。

热门推荐
图文推荐
  • 苹果可能将iPad,Apple TV与HomePod合并,以
  • 三星的下一代Galaxy Z Fold折叠手机的屏幕可
  • 微信支付分怎么提高分数 分享微信支付分提高