国产成人在线影院_中文字幕亚洲欧美日韩2019_欧美一级免费视频_国产农村妇女毛片精品久久麻豆_中文字幕免费在线观看视频一区_久久久亚洲精华液精华液精华液_91精品国产一区二区三区香蕉_国产精品专区一_亚洲社区在线观看_国产**成人网毛片九色

您當前的位置: 首頁 > 新聞 > 其他

破天荒獨一份!文字序順不響影GPT-4閱讀理解

來源:量子位   編輯:非小米 時間:2023-12-04 13:24人閱讀

研表究明,漢字序順并不定一影閱響讀(對于英文來說,則是每一個單詞中的字母順序)。

現在,日本東京大學的一項實驗發現,這個“定理”居然也適合GPT-4。

比如面對這樣一段“鬼畫符”,幾乎里面每一個單詞的每一個字母都被打亂:

oJn amRh wno het 2023 Meatsrs ermtnoTuna no duySan taatgsuAu ntaaNloi Gflo bClu, gnelcinhi ish ifsrt nereg ecatkjnad ncedos raecer jroam。

但GPT-4居然完美地恢復出了原始句子(紅框部分):

破天荒獨一份!文字序順不響影GPT-4閱讀理解

原來是一個叫做Jon Rahm的人贏得了2023年美國大師賽(高爾夫)的故事。 

并且,如果你直接就這段亂碼對GPT-4進行提問,它也能先理解再給出正確答案,一點兒也不影響閱讀:

破天荒獨一份!文字序順不響影GPT-4閱讀理解

對此,研究人員感到非常吃驚:

按理說亂碼單詞會對模型的tokenization處理造成嚴重干擾,GPT-4居然和人類一樣不受影響,這有點違反直覺啊。

破天荒獨一份!文字序順不響影GPT-4閱讀理解

值得一提的是,這項實驗也測試了其他大模型,但它們全都挑戰失敗——有且僅有GPT-4成功。

具體怎么說?

文字順序不影響GPT-4閱讀

為了測試大模型抗文字錯亂干擾的能力,作者構建了一個專門的測試基準:Scrambled Bench。

它共包含兩類任務:

一是加擾句子恢復(ScrRec),即測試大模型恢復亂序句子的能力。

它的量化指標包括一個叫做恢復率(RR)的東西,可以簡單理解為大模型恢復單詞的比例。

二是加擾問答(ScrQA),測量大模型在上下文材料中的單詞被打亂時正確理解并回答問題的能力。

由于每個模型本身的能力并不相同,我們不好直接用準確性來評估這一項任務,因此作者在此采用了一個叫做相對性能增益(RPG)的量化指標。

具體測試素材則選自三個數據庫:

一個是RealtimeQA,它每周公布當前LLM不太可能知道的最新消息;

第二個是DREAM(Sun et al.,2019),一個基于對話的多項選擇閱讀綜合數據集;

最后是AQuARAT,一個需要多步推理才能解決的數學問題數據集。

對于每個數據集,作者從中挑出題目,并進行不同程度和類型的干擾,包括:1、隨機加擾(RS),即對每一個句子,隨機選擇一定比例(20%、50%、100%)的單詞,對這些單詞中的所有字母進行打亂(數字不變)。

2、保持每個單詞的第一個字母不變,剩下的隨意排列(KF)。

3、保持每個單詞的首字母和最后一個字母不變,剩下的隨機打亂(KFL)。

參與測試的模型有很多,文章正文主要報告了以下幾個:

text-davinci-003、GPT-3.5-turbo、GPT-4、Falcon-180b和Llama-2-70b。

首先來看不同干擾類型的影響。

如下圖所示:

在KFL設置中(即首尾字母不變),不管是加擾句子恢復還是加擾問答任務,模型之間的性能差距都不大。

然而,隨著干擾難度越來越高(變為KF和RS后),模型的性能都迎來顯著下降——除了GPT-4。

具體而言,在加擾句子恢復(ScrRec)任務中,GPT-4的恢復率始終高于95%,在加擾問答(ScrQA)任務中,GPT-4的相對準確性也都始終維在85%-90%左右。

相比之下,其他模型有的都掉到了不足20%。

破天荒獨一份!文字序順不響影GPT-4閱讀理解

其次是不同加擾率的影響。

如下圖所示,可以看到,在加擾句子恢復(ScrRec)任務中,隨著一個句子中被干擾的單詞數量越來越多,直至100%之后,只有GPT-3.5-turbo和GPT-4的性能沒有顯著變化,當然,GPT-4還是比GPT-3.5優先了很大一截。

破天荒獨一份!文字序順不響影GPT-4閱讀理解

而在加擾問答(ScrQA)任務中,隨著句子中被打亂的單詞數量越來越多,所有模型性能都出現了都顯著下降,且差距越來越大。

但在其中,GPT-4還能以87.8%的成績保持遙遙領先,并且下降幅度也是最輕微的。

所以簡單總結來說就是:

大多數模型都可以處理一定比例的干擾文本,但到極端程度時(比如單詞全部打亂),就只有GPT-4表現最好,只有GPT-4面對完全混亂的詞序,幾乎不怎么被影響。

GPT-4還擅長分詞

在文章最后,作者指出:

除了打亂單詞字母順序之外,還可以研究插入字母、替換字母等情況的影響。

唯一的問題是,由于GPT-4為閉源,大家也不好調查為什么GPT-4可以不被詞序影響。

有網友發現,除了本文所證明的情況,GPT-4也非常擅長將下面這一段完全連起來的英文:

UNDERNEATHTHEGAZEOFORIONSBELTWHERETHESEAOFTRANQUILITYMEETSTHEEDGEOFTWILIGHTLIESAHIDDENTROVEOFWISDOMFORGOTTENBYMANYCOVETEDBYTHOSEINTHEKNOWITHOLDSTHEKEYSTOUNTOLDPOWER

正確分隔開來:

Underneath the gaze of Orion’s belt, where the Sea of Tranquility meets the edge of twilight, lies a hidden trove of wisdom, forgotten by many, coveted by those in the know. It holds the keys to untold power.

按理來說,這種分詞操作是一件很麻煩的事兒,通常需要動態編程等操作。

GPT-4表現出來的能力再次讓這位網友感到驚訝。

他還把這段內容放進了OpenA官方的tokenizer工具,發現GPT-4看到的token其實是這樣的:

UNDER NE AT HT HE GA Z EOF OR ION SB EL TW HER ET HE SEA OF TRA

這里面除了“UNDER”、“SEA”和“OF”之外,幾乎剩下的所有token都看起來“毫無邏輯”,這更加使人費解了。

破天荒獨一份!文字序順不響影GPT-4閱讀理解

對此,大伙是怎么看的呢?

參考鏈接:

[1]https://arxiv.org/abs/2311.18805

[2]https://news.ycombinator.com/item?id=38506140

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

標簽: ChatGPT

相關文章

国产成人在线影院_中文字幕亚洲欧美日韩2019_欧美一级免费视频_国产农村妇女毛片精品久久麻豆_中文字幕免费在线观看视频一区_久久久亚洲精华液精华液精华液_91精品国产一区二区三区香蕉_国产精品专区一_亚洲社区在线观看_国产**成人网毛片九色
精品奇米国产一区二区三区| 色一情一乱一乱一91av| 国产成人小视频| 久久99国产精品免费网站| 国产美女精品人人做人人爽| 国产无人区一区二区三区| 国产精品免费免费| 亚洲精品视频观看| a4yy欧美一区二区三区| 精品久久久久久无| 日韩精品91亚洲二区在线观看| 日韩三级视频中文字幕| 亚洲欧洲国产专区| 亚洲成人激情av| 99久久99久久久精品齐齐| 欧美综合亚洲图片综合区| 中国av一区二区三区| 日本韩国欧美一区二区三区| 欧美日韩一本到| 欧美三区免费完整视频在线观看| 亚洲一区二区欧美| 老司机精品视频线观看86| 国产午夜精品一区二区| 7777女厕盗摄久久久| 中文字幕日本不卡| 久久国产精品72免费观看| 日韩欧美国产一区二区在线播放| 亚洲一区二区三区免费视频| 色香蕉成人二区免费| 午夜成人免费电影| 国产精品视频免费看| 久久久久久影视| 秋霞成人午夜伦在线观看| 久久精品一区八戒影视| 午夜不卡av在线| 欧美一区二区女人| 91精品国产综合久久小美女| 国产精品亚洲一区二区三区妖精 | 欧美精品一区二区久久婷婷| 免费xxxx性欧美18vr| 国产成人aaa| 五月天婷婷综合| 欧美日韩一本到| 亚洲影视资源网| 91久久免费观看| 精品乱码亚洲一区二区不卡| 欧美日韩在线不卡| 久久国产视频网| 亚洲国产高清在线| 欧美裸体一区二区三区| 麻豆成人免费电影| 欧美一区二区三区啪啪| 精品视频在线免费观看| 高潮精品一区videoshd| 亚洲成人激情社区| 99国产精品99久久久久久| 欧美色综合天天久久综合精品| 看电影不卡的网站| 国产高清成人在线| 成人18视频日本| 日本一区二区不卡视频| 亚洲主播在线播放| 一本久久a久久精品亚洲| 一区二区三区四区在线播放| 国产不卡在线一区| 91成人网在线| 欧美亚洲日本国产| 精品国产一区二区国模嫣然| 亚洲欧美日韩电影| 午夜久久久影院| 日韩美女视频一区| 国产视频在线观看一区二区三区 | 在线视频一区二区三| 精品国产免费人成在线观看| 免费的成人av| 久久综合视频网| 97久久精品人人做人人爽50路| 欧美大度的电影原声| 久久精品999| 中文字幕av在线一区二区三区| 欧美军同video69gay| 一区二区三区欧美亚洲| 国产伦精一区二区三区| 久久99精品国产.久久久久 | 99久久伊人网影院| 成人午夜大片免费观看| 欧美日韩国产一区二区三区地区| 日韩高清在线观看| 午夜精品久久久久久久久久久| 91豆麻精品91久久久久久| 欧美日本在线播放| 久久91精品久久久久久秒播| 美女视频第一区二区三区免费观看网站 | 午夜精品久久久| 国产精品一区二区你懂的| 欧美日韩成人激情| 懂色一区二区三区免费观看| 在线视频一区二区三区| 久久精品人人做人人爽人人| 成人av网在线| 国产91精品精华液一区二区三区| 成人av集中营| 国产精品天天摸av网| 日本韩国欧美在线| 色8久久精品久久久久久蜜| 国产精品成人免费精品自在线观看 | 在线播放国产精品二区一二区四区 | 亚洲精品一区二区三区99| 国产黄色精品视频| 美国十次综合导航| 欧美aaaaa成人免费观看视频| 中文字幕在线不卡一区| 日韩欧美一区二区三区在线| 亚洲一区免费观看| 99这里只有精品| 午夜欧美视频在线观看| 欧美专区在线观看一区| 日本不卡不码高清免费观看| 欧美在线观看你懂的| 午夜精品一区二区三区三上悠亚| 精品久久久久久综合日本欧美| 日韩欧美一级二级三级| 亚洲伦理在线免费看| 日韩一级成人av| 日韩精品自拍偷拍| 国产精品免费久久| 日韩高清不卡一区| 99精品欧美一区二区蜜桃免费 | 欧美日韩免费一区二区三区视频| 91极品美女在线| 精品国产乱码久久久久久牛牛 | 欧美一二三区精品| 成人免费毛片片v| 国内精品视频666| 成人午夜在线播放| 国产一区二区三区四区五区美女| 亚洲国产高清在线观看视频| 欧美肥大bbwbbw高潮| 国产精品乱人伦中文| 欧美亚洲图片小说| 欧美精品一卡两卡| 亚洲精品成a人| 精品视频一区三区九区| 亚洲免费伊人电影| 亚洲.国产.中文慕字在线| 97se亚洲国产综合在线| 91色.com| 日韩精品乱码av一区二区| 日韩一区二区三免费高清| 国产福利一区二区| 亚洲国产精品精华液网站| 国产亚洲欧美激情| 欧美一区二区网站| 91视频xxxx| 国产精品夜夜嗨| 美女视频一区二区三区| 一区二区成人在线| 国产精品国产三级国产| 精品剧情在线观看| 欧美日本高清视频在线观看| 菠萝蜜视频在线观看一区| 久久99精品视频| 亚洲无人区一区| 国产精品久久久久久福利一牛影视 | 一区二区三区四区不卡在线| 国产三级一区二区| 精品国产乱码久久久久久免费| 欧美狂野另类xxxxoooo| 884aa四虎影成人精品一区| 91国偷自产一区二区开放时间 | 日韩美女主播在线视频一区二区三区| 91小视频在线| www..com久久爱| 菠萝蜜视频在线观看一区| 国产高清不卡二三区| 国产综合久久久久久久久久久久 | 欧美一级理论片| 日韩视频一区二区| 精品美女一区二区| 欧美国产精品劲爆| 中文字幕av一区二区三区| 国产网站一区二区三区| 国产精品女人毛片| 一区二区三区四区五区视频在线观看| 一区免费观看视频| 一区二区成人在线| 日韩精品成人一区二区三区| 美腿丝袜亚洲一区| 国产成人欧美日韩在线电影| 成人av资源在线观看| 在线观看日韩国产| 日韩免费看的电影| 久久精品水蜜桃av综合天堂| 欧美精品v日韩精品v韩国精品v| 国产成人在线视频免费播放| 韩国一区二区三区| 成人午夜av影视| 欧美视频一区二区三区四区| 欧美一区欧美二区| 国产日韩欧美不卡|