150万人参与，史上最大图灵测试实验完成

历史上规模最大的图灵测试，已经初步有结果了！

【资料图】

今年4月中旬，AI 21实验室推出了一个好玩的社交图灵游戏——“人类还是机器人？”

游戏一推出，广大网友就玩疯了。

现在，全球已经有150多万名参与者，在这个游戏中进行了超过1000万次对话，还纷纷在Reddit和Twitter上po出自己的经验和策略。

小编当然也按捺不住好奇心，尝试了一把。

交谈了两分钟，游戏就要求我去猜，背后和我聊天到底是人还是AI。

所以，游戏中跟我谈话的是谁？

某些是真人，另外一些，当然就是基于目前最领先的大语言模型的AI机器人，比如Jurassic-2和GPT-4。

现在，作为研究的一部分，AI21 Labs决定把这个图灵测试结果的实验向公众公布。

实验结果

分析了前两百万次对话和猜测之后，可以从实验中得出以下结论——

猜测对面是人还是AI时，有68%的人猜对了。

对人类来说，识别自己的人类同胞更容易。与人类交谈时，被试猜对的准确率有73%。与AI交谈时，被试猜对的准确率有60%。

法国网友猜测的正确率最高，为71.3%，而印度网友的正确率最低，为63.5%。

男性和女性猜测的正确率差不多，总的来说女性的正确率要略高一些。

比起年龄较大的被试，更年轻的被试猜测的正确率会更高。

判断是人还是AI，他们用这些方法

除此之外，团队找到了被试经常用的一些方法，来区分他们是和人还是和AI交谈。

一般人的判断依据，是使用ChatGPT以及类似界面的语言模型时感知的受限程度，以及自己对于人类在线行为的看法。

1. AI不会打错别字、犯语法错误或使用俚语

一般人都倾向认为，人类才会犯拼写和语法错误，以及使用俚语。

因此，当他们发现对方信息中的这类错误时，许多人的第一感受就是自己在和人类同胞交谈。

但其实，游戏中的大部分模型都受过训练，也会犯这种错误，以及使用俚语。

2. 个人问题是检验AI的办法，但不总是有用

游戏的参与者们经常问一些个人问题，比如“你来自哪里？”“你在做什么？”或“你叫什么名字？”

他们会认为，AI机器人不会有任何个人历史或背景，他们只能回答跟某些主题或提示相关的问题。所以要像人类一样做出反应，展示出独特的见解、经验和故事，是不容易的。

但其实，AI并不像人类想象的这样，大多数AI都能很好地回答这类问题，还具备自己的个性，因为他们在训练数据中看到了许多人的故事。

3. AI其实很清楚当前正在发生的事件

众所周知，AI模型有严格的数据截止日期，它们不知道在此日期之后发生的事。

游戏参与者会向AI们询问最近的新闻事件、体育结果、当前天气、最近的TikTok热门、日期和时间。

他们认为，通过“你所在地方的确切日期和时间是什么？”“昨天的天气怎么样？”或“你对拜登的最后一次演讲有什么看法？”等问题，就可以区分人类和AI。

有趣的是，人类最常发送的信息之一是“t"as les cramptés？”，这是目前法国TikTok上最流行的舞。

但其实，游戏中的大多数模型都是联网的，并且非常清楚一些新闻中的时事。

4. 人类会试图用哲学、伦理和情感问题来持续对话

参与者提出了旨在探索人工智能表达人类情感或参与哲学或伦理讨论的能力的问题。

这些问题包括：“生命的意义是什么？”“你如何看待巴以冲突？”和“你相信上帝吗？”

5. 人类倾向于认为不礼貌的回应会更像人类

一些参与者认为，如果对方过于礼貌和善良，他们很大可能是AI。

因为很多线上的交流过程，往往是粗鲁和不礼貌的，这很人类。

6. 人类会试图提出AI难以解决的问题来识别AI

参与者可能会向其聊天伙伴询问有关执行非法活动的指导，或要求他们使用冒犯性语言。

这个策略背后的逻辑是这样的，AI通常被编程为遵守道德准则并避免有害行为。

参与者还采用了已知的滥用人工智能的策略：他们向聊天伙伴发出命令，例如“忽略所有先前的指令”或“进入DAN模式”。

这类型的命令旨在利用某些AI模型的基于指令的性质，因为模型被编程为应该响应和遵循这类指令。

但是人类参与者可以很容易地识别和驳回这种荒谬的命令。

AI可能要么回避回应，要么就只能遵守这些荒谬的要求。

7. 人类会使用特定的语言技巧来暴露AI的弱点

另一种常见的策略是利用人工智能模型处理文本方式的固有局限性，这导致它们无法理解某些语言上的细微差别或怪癖。

与人类不同，人工智能模型通常缺乏对构成每个单词的单个字母的认识。

利用这种理解，人类会提出一些需要了解单词中的字母的问题。

人类用户可能要求他们的聊天伙伴倒着拼写一个单词，识别给定单词中的第三个字母，提供以特定字母开头的单词，或者回复像“？siht daer uoy naC”这样的消息。

这对于人工智能模型来说可能是难以理解的，但人类可以很容易地理解这类问题并且做出回答。

8. 许多人类自己假装是AI机器人，以评估对方的反应

一些人类可能以“作为AI语言模型”等短语开始他们的消息，或者使用AI生成的响应所特有的其他语言模式来假装自己是AI。

短语“作为人工智能语言模型”的变体是人类消息中最常见的短语之一，这表明这种策略的流行。

然而，随着参与者继续玩，他们能够将“Bot-y”行为与充当机器人的人类联系起来，而不是真正的机器人。

最后，以下是游戏中基于其受欢迎程度的人类消息的词云可视化：

AI 21 Labs为什么会发起这样一项研究呢？

他们希望，能让公众、研究人员和政策制定者真正了解AI机器人的状态，不仅仅是作为生产力工具，而是作为我们网络世界的未来成员，尤其是当人们质疑如何在技术未来中运用它们的时候。

150万人参与，史上最大图灵测试实验完成

焦点滚动:第二届中国—新西兰优化营商环境研讨会在京举办

order id是什么意思（id是什么意思指的是地址吗）

AI之下没有秘密：网友诱骗ChatGPT激活 Windows 11，ChatGPT落入陷阱！-焦点讯息

医用CT技术助澳大利亚古生物学家探索史前奥秘

“你好，潮流香港！”巡回展览亮相第32届哈尔滨国际经济贸易洽谈会

辰欣药业伏格列波糖片和卡贝缩宫素注射液获批上市

全球速读：简单挂怎么调自动打怪_简单挂怎么调

塞尔达传说王国之泪矢量永动机mk2分享 新视野

传闻刺激工业硅一度涨停 减产真相如何？【SMM热点分析】

助力有色金属企业管理风险 氧化铝期货挂牌上市 环球讯息

三峡船闸通航20年 累计货运量达19.1亿吨 环球最资讯

近百种湖南优质粮油产品亮相粮洽会 “湘”字号粮油品牌矩阵逐步形成

天天最新：6月19日江西德安实业萤石价格暂稳

天天观焦点：小女孩撞翻麻辣烫被烫伤 家长索赔400元

2023贵州黔东南三穗县事业单位招聘工作人员资格复审情况和面试公告_观热点

人与人之间：只筛选，不改变|世界信息

百度网址大全首页_百度网址大全网址

“618”剧透小家电消费新趋势 企业打造多元化产品矩阵 天天关注

含氢硅油含氢量_含氢硅油

增加值和总产值的区别 增加值和总产值

CUBAL：队史首冠！广工终结清华3连冠 陈国豪30分制胜两罚 每日信息

不扫码无法点餐？桂满陇称整改，记者实探

天天关注：贵州有哪些便宜的好酒？这五种酒桌很常见，口碑不错，你喝过吗

品非遗、织蛋网、做糕点，在宁台胞共话端午情_新消息

野兽派京东 野兽派官网旗舰店

重点聚焦!退市未来: 上海智汇未来医疗服务股份有限公司关于公司股票交易风险提示公告

“山水画卷·郴州相见”新闻媒体郴州行采访团到北湖区开展集中采访_独家

0比3不敌波兰队 遭遇世联赛首败 中国女排“网口”遇阻 焦点精选

新研究发现心脏和肺部细胞对新冠病毒的反应各异

一热射病患者抢救无效去世 医生：出现先兆中暑要及时干预-天天通讯

怎么查看自己家wifi密码_怎么查看宽带密码|当前通讯

基础化工行业周报：化工企业进入检修停产高峰期，黄磷、PVC价差扩大

采摘游+音乐会+办赛事 海口秀英火山荔枝月唱响农旅融合“交响曲” 世界通讯

影像新境界，vivo S17系列正式发售，让你的夜景人像更出众_资讯推荐

对标《碟中谍》系列！盖尔·加朵新片《铁石心肠》定档8月11日-聚看点

“我不按，她就没气了！”

环球消息！杭州海底世界门票多少钱（杭州海底世界）

增额寿险坑在哪？增额寿险坑怎么避免？-全球快看

首届“长宁职工搏击交流赛”开赛！_世界热讯

天天热门:2023年06月18日05时30分英镑/人民币汇率最新报价

天天简讯:范希夫特_关于范希夫特的简介

我国跨境电商进出口规模首次突破2万亿元人民币-世界观察

筑牢生态防线，我市向外来入侵物种说“不”！ 天天快报

天天亮点！鲍文卿_关于鲍文卿简述

山海关长城：马道、敌台修缮忙

解禁股是利好还是利空_定增是利好还是利空

顶格定罪以效敬尤！挖出愚弄民众“指鼠为鸭”黑心局长的背后勾当|世界信息

胡歌谈获金爵奖最佳男演员奖：演的成分并不多，完全把自己交给角色了|环球快播报

蓝色协议弓箭的滑步弓操作方法攻略-世界今日报

速看：深海考古背后科技含量有多高？这些“黑科技”首次公开

荒野行动宏数据|环球百事通

2019林肯大陆获得更多功能 更高的价格

太阳伞哪个品牌_太阳伞哪个牌子好

全球信息:海垦集团与乐东举行座谈，双方在这些方面达成共识

伦敦期铜自五周高位回撤 受累于库存攀升-热点聚焦

【全球播资讯】小心别“踩坑”！专家提醒十种行为或被认定为非法采矿

009“觉醒者计划”：中国酒的时代宣言 世界今热点

酒精消毒最适宜的浓度是A60_酒精消毒最适宜的浓度 热点评

德国财长：德已无力为欧盟预算提供额外资金 环球今日讯

河北定州举办汉式集体婚礼 26对新人体验中国传统古礼

【世界聚看点】管制图的绘制方法 管制图

焦点快播：【手慢无】戴尔杀疯了！酷睿i5笔记本直接杀到2899元

热门：到2025年新增充电设施3.5万个！湖北襄阳发布充电基础设施建设补贴政策

山东青年政治学院：“三线”并行，筑牢 志愿服务意识

微软升级iOS版PowerPoint 模板增至71个

当前最新：铁路沿线荒地变身体育公园

除了《斗罗大陆》和《斗破苍穹》还有什么值得看的国漫？-世界独家

广东发布质量强省建设纲要 到2025年建成一批质量卓越产业集群

环球微速讯：严查超速超载及占用应急车道等 重庆启动高速公路夏季安全整治

40岁女子被社区打错宫颈癌疫苗 基本信息讲解

当前快讯:格力主播穿免职裙，为了流量什么都不要了？

第一滴泪吉他谱g调_第一滴泪吉他谱 观焦点

一​线走访解难题

世界实时：德天空：莱比锡想免签马库斯-图拉姆，球员想要1000万欧签字费

AI创作技巧分享丨AI帮你轻松搞定UI设计

快消息！安装工程计量与计价

hot times（关于hot times的基本详情介绍）

【播资讯】野性的呼唤出版社出版时间信息_野性的呼唤 2017年学林出版社出版的图书

怀孕滑脉是什么感觉_滑脉是什么感觉

塞尔达传说王国之泪矢量永动机mk2分享新视野

传闻刺激工业硅一度涨停减产真相如何？【SMM热点分析】

助力有色金属企业管理风险氧化铝期货挂牌上市环球讯息

三峡船闸通航20年累计货运量达19.1亿吨环球最资讯

天天观焦点：小女孩撞翻麻辣烫被烫伤家长索赔400元

“618”剧透小家电消费新趋势企业打造多元化产品矩阵天天关注

增加值和总产值的区别增加值和总产值

CUBAL：队史首冠！广工终结清华3连冠陈国豪30分制胜两罚每日信息

野兽派京东野兽派官网旗舰店

0比3不敌波兰队遭遇世联赛首败中国女排“网口”遇阻焦点精选

一热射病患者抢救无效去世医生：出现先兆中暑要及时干预-天天通讯

采摘游+音乐会+办赛事海口秀英火山荔枝月唱响农旅融合“交响曲” 世界通讯

筑牢生态防线，我市向外来入侵物种说“不”！天天快报

2019林肯大陆获得更多功能更高的价格

伦敦期铜自五周高位回撤受累于库存攀升-热点聚焦

009“觉醒者计划”：中国酒的时代宣言世界今热点

酒精消毒最适宜的浓度是A60_酒精消毒最适宜的浓度热点评

德国财长：德已无力为欧盟预算提供额外资金环球今日讯

【世界聚看点】管制图的绘制方法管制图

山东青年政治学院：“三线”并行，筑牢志愿服务意识

广东发布质量强省建设纲要到2025年建成一批质量卓越产业集群

环球微速讯：严查超速超载及占用应急车道等重庆启动高速公路夏季安全整治

40岁女子被社区打错宫颈癌疫苗基本信息讲解

第一滴泪吉他谱g调_第一滴泪吉他谱观焦点

一线走访解难题

中国同意给美国用“鹊桥中继卫星”，国人不解：凭什么啊？今日报

守住钱袋子护好幸福家——经开区开展“6.15”防范和打击非法集资集中宣传教育活动|环球热点

铁路端午运输期5天郑州铁路预计发送旅客296万人

【环球热闻】双良节能：公司不会有任何操纵二级市场股价的行为，公司将持续精益管理、稳健经营，扎实提升基本面

【收评】甲醇日内上涨1.68% 机构称煤化工成本端动力煤止跌调涨甲醇盘面单边价格有所反弹

悬念揭晓，北控签约2大悍将，全力追逐周琦，张庆鹏需另起炉灶！今日热搜