大模型的错觉问题怎样解?谷歌DeepMind:用AI来做同行鉴定!现实核验正确率超越人类,而且廉价20倍。
一直以来,大言语模型胡言乱语(错觉)的问题最让人头疼,而近来,来自谷歌DeepMind的一项研讨引发网友热议:
![]()
关于LLM的长篇答复,SAFE运用其他的LLM,将答案文本分解为单个叙说,然后运用比如RAG等办法,来确认每个叙说的准确性。
![]()
别的,研讨还发现,比较于人工标示和判别现实准确性,运用AI不光廉价20倍,而且还更靠谱!
![]()
ChatGPT:尽管我的常识储藏只到2021年9月,但我勇于毫不犹豫地答复任何问题。
![]()
![]()
为了对大模型的长篇答复进行现实性评价和基准测验,研讨人员首要运用GPT-4生成LongFact,这是一个包含数千个问题的提示集,包含38个主题。
![]()
然后,运用查找增强现实性评价器(SAFE),运用LLM将长篇回复分解为一组独自的现实,并运用多进程推理进程来评价每个现实的准确性,包含运用网络查找来查验。
此外,作者主张将F1分数进行扩展,提出了一种统筹精度和召回率的聚合目标。
![]()
![]()
然后,经过指示模型将含糊的引证(代词等)替换为上下文中引证的恰当实体,将每个独自的现实修改为自包含的现实。
为了对每个独立的个别现实进行评分,研讨人员运用言语模型来推理该现实是否与上下文中相关,而且运用多进程办法对每个相关现实进行鉴定。
![]()
如上图所示,在每个进程中,模型都会依据要评分的现实和从前取得的查找出来的成果生成查找查询。
首要,直接比较关于每个现实的SAFE注释和人类注释,不难发现,SAFE在72.0%的单个现实上与人类共同(见下图),标明SAFE简直达到了人类的水平。
![]()
研讨人员在所有SAFE注释与人类注释产生不合的事例中,随机抽样出100个,然后人工从头比较究竟谁是正确的(运用互联网查找等途径)。
![]()
终究成果让人震动:在这些不合事例中,SAFE注释的正确率为76%,而人工注释的正确率仅为19%(见上图),——SAFE以将近4比1的胜率战胜了人类。
然后咱们再看一下本钱:一共496个提示的评分,SAFE宣布的 GPT-3.5-Turbo API调用本钱为64.57美元,Serper API调用本钱为 31.74 美元,因而总本钱为96.31美元,相当于每个呼应0.19美元。
而人类标示这边,每个呼应的本钱为4美元,——AI比人类廉价了整整20多倍!
![]()
据此,研讨人员在LongFact上对四个模型系列(Gemini、GPT、Claude和PaLM-2)的13个言语模型进行了基准测验,成果如下图所示:
![]()
![]()
关于人类在这项测验中面子尽失的成果,咱们不免有些置疑,本钱应该是比不过AI,可是准确性也会输?
Gary Marcus表明,你这里边关于人类的信息太少了?人类标示员究竟是什么水平?
![]()
为了真实展现超人的体现,SAFE需要与专业的人类现实核对员进行基准测验,而不单单是众包工人。人工评分者的详细细节,例如他们的资历、薪酬和现实核对进程,关于比较的成果至关重要。
当然了,SAFE的显着优势便是本钱,跟着言语模型生成的信息量不断爆破式增加,具有一种经济且可扩展的方法,来进行现实核验将渐渐的变重要。
特别声明:以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布,本渠道仅供给信息存储服务。
2024老瓦杯在哪里看,央视CCTV5直播吗?附12月14日CCTV5直播节目预告表
三胞胎宝妈陪孩子玩睡着了,孩子们交心给妈妈盖好被子。“公然女儿是妈妈的小棉袄”
看到老二嗷嗷待哺,好哥哥急忙掀开衣服去“喂奶”,“能够放在他俩各自的婚礼上看”
《编码物候》展览开幕 北京年代美术馆以科学艺术解读数字与生物交错的世界节律