研究称GPT-4通过图灵测试 54%参与者将其误认为真人

发布时间：2024-07-08 04:27 已有：人阅读

　　双方交替发送，每条消息限制在一定的字符数内。

　　的长度人为地延迟发送。这种设置旨在模拟正常的人际交流节奏，增加实验的现实感。研究小组解释称，人类之所以不能百分之百地识别同类，是因为提问者认为AI的效率越来越高。这增加了他们将人类错误地识别为机器的可能性。

　　为了深入了解影响参与者最后作出决定的定性因素，研究小组对其使用的策略和判断的理由进行了分类。36%的参与者与“对话者”进行闲聊，询问个人细节或他们的日常活动；第二类策略是社交和情感，例如询问“对话者”的意见、经历并分析判断它们的幽默感；第三类是知识和推理，包括数学、逻辑和常识问题。

　　结果显示，有54%的参与者将GPT-4误认为是真人。相比之下，预先设定好回复的ELIZA只有22%的人将其认作线%，而“真人对话者”被正确辨认的比例则为67%。

　　他们指出，这可能反映出参与者认为AI系统质量在不断进化，这一结果也与近年来其他类似的图灵测试呈现的情况类似。当AI系统能力很差时，真人是很容易被辨别出来的，而随着参与者对AI系统能力的信心增强，他们便更有可能将真人误认为AI。

　　GPT-4和GPT-3.5在测试中的表现虽然未达到“真人对话者”的水平，但目前AI研究者普遍认为，只要有30%的回答被误认为是人类，那就算通过测试。不过也有观点认为，50%的基线更加合理，因为它更能证明人类在识别AI方面并不具有偶然性。

　　在上述研究中，参与者的置信度得分和决策依据都表明他们并非随意猜测：GPT-4是人类的平均置信度为73%。

　　还需要指出的是，由于研究人员在进行上述实验时，OpenAI尚未宣布新一代的旗舰模型GPT-4o。这一全新模型可以利用语音、和文本信息进行实时推理，如果参与测试，被参与者误认为人类的概率可能就会更高。

　　图灵测试是由英国计算机科学家阿兰·图灵于1950年在其论文中提出的一个关于判断机器是否能够思考的著名试验，测试某机器是否能表现出与人等同或无法区分的智能水平。1966年，美国计算机协会还以图灵的名字设立了图灵奖，被誉为“计算机界的诺贝尔奖”，旨在奖励对计算机事业作出重要贡献的个人，每年颁发一次。