曰韩免费_91久久精品国产亚洲_一区二区成人影院_九一视频在线免费观看_91国视频_亚洲成人中文在线

最新脑筋急转弯大全 【NLP】让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯,GPT

雕龙文库 分享 时间: 收藏本文

最新脑筋急转弯大全 【NLP】让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯,GPT

夕小瑶科技说 原创

作者 |

一个烙饼煎一面一分钟,两个烙饼煎两面几分钟?

让你来回答,是不是一不小心就掉到沟里了?如果让大语言模型来做这种脑筋急转弯会怎样呢?研究发现,模型越大,回答就越可能掉到沟里,即使是拥有千亿参数的大模型也不能幸免。但是却能很好回答这些问题。让我们一起来看看吧。

论文题目:

-Like and in —and in GPT-4

论文链接:

脑筋急转弯

作者采用了CRT( Test)数据作为脑筋急转弯的测试数据。该数据在心理学领域,广泛地被用于衡量人类的思维习惯,判断是否习惯于直觉思维。

▲脑筋急转弯数据示例

如上图所示,作者探索了3种CRT数据最新脑筋急转弯大全,和1种语言逻辑陷阱。例如:

模型表现

模型表现如下图所示,可以看到模型较小时(从117M GPT-1 到2.7B GPT-Neo),随着模型增大,模型回答正确答案(绿色)和直觉答案(红色)的比例在提高,回答无关答案(黄色)的比例在下降。但随着模型进一步增大(从2.7B GPT-Neo 到 175B GPT-3),无关答案比例进一步下降,直觉答案比例进一步上升,正确答案比例却不升反降。包括、、GPT-3在内的大语言模型明显掉入脑筋急转弯的陷阱。即使是经过指令调整与RLHF的text -002/003也未能幸免。

▲不同模型表现对比

而在上图中,经过指令调整的与GPT-4,一下子正确答案的比例就高了许多。究竟是什么魔法使得的脑筋会转弯呢?我们不得而知。

下图具体对比了GPT-3(text -003,左)、(中),GPT-4(右)在几类不同的脑筋急转弯的表现,可以更加凸显上述现象。

▲不同脑筋急转弯类型上的模型表现对比

如果改换输入形式会怎样?下图上为问答的形式,和上面的实验相同。下图中、下分别为多选、续写的形式??梢钥吹?,修改提问形式之后,正确率略有上升,但整体差别不大。

下图显示,通过少监督展示学习,GPT-3的正确率会有所上升。但即使展示到40个左右的样本,准确率和无监督的比仍有差距,更不用说GPT-4了。

结论

这篇论文针对很有意思的一类问题(脑筋急转弯)最新脑筋急转弯大全,发现了大语言模型的一个很有意思的现象。作者也尝试了多种方法,但无论是改变提问形式还是增加监督数据最新脑筋急转弯大全,GPT-3(text -003)在脑筋急转弯上的表现仍然难以达到的水平。究竟使用了怎样的魔法让模型的脑筋会转弯呢?

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码

免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表本站的观点和立场和对其真实性负责。如需转载,请联系原作者。如果来源标注有误或侵犯了您的合法权益或者其他问题不想在本站发布,来信即删。

主站蜘蛛池模板: 8av国产精品爽爽ⅴa在线观看 | 男人吃奶摸下挵进去好爽 | 久久99这里精品8国产 | 午夜片网站 | 日韩欧美精品在线观看 | 老汉影视永久免费视频 | 暖暖 在线 日本 免费 中文 | 亚洲中久无码永久在线观看同 | 69中文字幕| 久久精品国产亚洲av高清热 | 欧美一区二区三区在观看 | 日日碰狠狠躁久久躁综合网 | 顶级毛片在线手机免费看 | 午夜男女刺激爽爽影院 | 一级片视频免费观看 | 国产97在线视频 | 国产精品单位女同事在线 | 又粗又粗又黄又硬又深色的 | 日产精品一区到六区免费 | 伦理片高清在线观看网站 | 午夜免费播放观看在线视频 | 久青青| 我要看黄色一级毛片 | 欧美不卡在线 | 国产高清成人吃奶成免费视频 | 四川丰满妇女毛片四川话 | 国内精品视频一区二区三区八戒 | 特级黄色影片 | 亚洲一级毛片在线播放 | 亚洲中文字幕无码一久久区 | a级在线视频 | 亚洲男人网 | 欧美中文字幕一区 | 在线播放成人 | 成人爽a毛片在线视频网站 成人丝袜激情一区二区 | 日本大胆一区免费视频 | 五月丁香综合缴情六月小说 | 精品香蕉久久久午夜福利 | 精品久久久无码中字 | 国精产品一区二区三区 | 日本黄色不卡视频 |