下一代Windows系統(tǒng)曝光:基于GPT-4V Agent跨應(yīng)用調(diào)度 代號(hào)UFO
下一代Windows操作系統(tǒng)提前曝光了??
微軟首個(gè)為Windows而設(shè)的智能體(Agent) 亮相:
基于GPT-4V,一句話就可以在多個(gè)應(yīng)用中無縫切換,完成復(fù)雜任務(wù)。整個(gè)過程無需人為干預(yù),其執(zhí)行成功率和效率是GPT-4的兩倍,GPT-3.5的四倍。
比如,刪除PPT演示文稿上的所有備注。
幾個(gè)簡(jiǎn)單步驟就可完成。
還有像利用多個(gè)來源文本,比如word文檔、圖像文本內(nèi)容,撰寫電子郵件。
網(wǎng)友表示:這才是Windows級(jí)別應(yīng)有的創(chuàng)新能力
第一個(gè)Windows Agent來了
這樣一個(gè)智能體叫做UFO,全名“UI-Focused”,是一個(gè)專為Windows OS(操作系統(tǒng))交互設(shè)計(jì)、面向用戶界面(UI)的智能體框架,可以在單個(gè)或者多個(gè)應(yīng)用程序中操作,由MSRA、微軟AI與應(yīng)用研究團(tuán)隊(duì)等共同打造。
用戶就可以通過自然語言指令,來操作App的用戶界面。
據(jù)介紹,UFO是第一個(gè)專為Windows OS環(huán)境中的任務(wù)完成量身定制的UI Agent。
就拿刪除PPT上的所有注釋為例。傳統(tǒng)方式需要一頁一頁手動(dòng)刪除注釋。如果PPT巨長(zhǎng)無比,這個(gè)過程就會(huì)又久又無聊,讓人瞬間暴躁。
但UFO得到指令后,簡(jiǎn)化了整個(gè)過程。
它先是提議用“刪除所有演示筆記”功能,這個(gè)功能因?yàn)榘粹o位置藏得很深,經(jīng)常被用戶忽視。
而后,UFO導(dǎo)航到“File”選項(xiàng),對(duì)后臺(tái)視圖進(jìn)行訪問;然后,再平滑地切換到“info”菜單,單擊“檢查問題”按鈕,并選擇“檢查文檔”,開始檢查文檔中所有包含的注釋。
緊接著,UFO識(shí)別到菜單地步的“刪除所有演示筆記”,向下滾動(dòng)定位到其位置,啟動(dòng)單擊功能。
考慮到誤刪的可能性,UFO這里有一道保護(hù)功能,需要用戶再次確定是否真的要?jiǎng)h除所有注釋。
用戶一旦確認(rèn),所有筆記就“

”的一下都沒有了~
如PowerPoint這般,文章中對(duì)其它幾個(gè)場(chǎng)景進(jìn)行了圖文并茂的展示。
比如讀一篇PDF:
設(shè)計(jì)PPT格式:
下載Docker拓展:
發(fā)條推文:
搜索總結(jié):
讀篇paper:
以及怎么利用UFO在Word文檔里提取文本、描述圖像、撰寫然后發(fā)送電子郵件等。
研究團(tuán)隊(duì)在9個(gè)常用的Windows應(yīng)用程序上對(duì)UFO進(jìn)行了測(cè)試,包括Outlook、Photos、PPT、Word等,涵蓋了Windows用戶的高頻使用場(chǎng)景,能夠測(cè)試工作、交流、編碼、閱讀、網(wǎng)頁瀏覽等目的。
對(duì)于每個(gè)應(yīng)用程序,團(tuán)隊(duì)設(shè)計(jì)了5個(gè)不同的請(qǐng)求,共45個(gè);另外還設(shè)計(jì)了5個(gè)設(shè)計(jì)跨多個(gè)交互應(yīng)用程序的請(qǐng)求。
也就是說,共產(chǎn)生了50個(gè)請(qǐng)求,每個(gè)應(yīng)用程序至少有一個(gè)請(qǐng)求鏈接到另一個(gè)后續(xù)請(qǐng)求,提供全面評(píng)估UFO的互動(dòng)模式。
在評(píng)估指標(biāo)方面,則從成功度、步驟、完成率和保障率這幾個(gè)角度來評(píng)估UFO。
為了全面評(píng)估UFO的性能,團(tuán)隊(duì)開發(fā)了名為WindowsBench的測(cè)試基準(zhǔn)。
考慮到?jīng)]有現(xiàn)成的Windows Agent,團(tuán)隊(duì)選擇GPT-3.5和GPT-4作為基座模型,并且指示它們提供一步一步的指導(dǎo)來完成用戶請(qǐng)求。
值得注意的是,UFO在WindowsBench上成功率達(dá)到了86%,成倍超過了GPT-4——因此UFO可以被定位為一個(gè)高效的Agent。
而UFO的完成率也是最好的,這表明它有能力采取更精確的動(dòng)作;此外,UFO完成任務(wù)的步驟也是最少的,安全度也是最高的。
最后,9個(gè)場(chǎng)景從4個(gè)角度在WindowsBench的詳細(xì)得分如下:
三個(gè)模塊組成
既然如此,這樣一個(gè)操作系統(tǒng)級(jí)別的Agent,究竟是如何實(shí)現(xiàn)的呢?
首先,它理解用戶的自然語言要求,然后將其分解為一系列子任務(wù)。然后觀察用戶界面,并對(duì)其控制元素進(jìn)行操作,以實(shí)現(xiàn)總體目標(biāo)。
既然如此,又是如何實(shí)現(xiàn)的呢?
架構(gòu)上看,UFO是個(gè)雙Agent框架,主要有三個(gè)模塊:
應(yīng)用智能體(AppAgent),選擇一個(gè)應(yīng)用程序滿足用戶請(qǐng)求。
行動(dòng)智能體(ActAgent),負(fù)責(zé)在所選應(yīng)用中反復(fù)執(zhí)行任務(wù)。
交互控制,無需人工干預(yù),全自動(dòng)執(zhí)行。
在收到用戶請(qǐng)求后,AppAgent會(huì)對(duì)需求進(jìn)行分析。除此之外,還有這些信息作為輸入:桌面截圖、App信息、記憶以及示例。
其中,UFO為AppAgent提供了完整的桌面截圖和可用應(yīng)用程序列表以供參考。
然后從當(dāng)前激活的應(yīng)用程序中選擇一個(gè)合適的應(yīng)用程序,并制定一個(gè)全局實(shí)現(xiàn)計(jì)劃,將其傳遞給ActAgent。
一旦找到合適的應(yīng)用程序,App就會(huì)出現(xiàn)在桌面上。隨后ActAgent啟動(dòng)操作。
在每個(gè)操作選擇之前,UFO都會(huì)捕獲當(dāng)前應(yīng)用程序用戶界面窗口的屏幕截圖,并標(biāo)注所有可用控件。此外,UFO還記錄了每個(gè)控件的相關(guān)信息,供 ActAgent觀察。
ActAgent的任務(wù)是選擇要操作的控件,然后通過控件交互模塊選擇要在所選控件上執(zhí)行的特定操作。
這一決定是基于 ActAgent 的觀察結(jié)果、先前計(jì)劃和操作記憶做出的。
這個(gè)遞歸過程一直持續(xù)到用戶請(qǐng)求在所選應(yīng)用程序中成功完成為止。至此,用戶請(qǐng)求的一個(gè)階段結(jié)束。
如果需要跨越多個(gè)應(yīng)用程序,那么在ActAgent 完成當(dāng)前任務(wù)之后,ActAgent 將把任務(wù)委托給 AppAgent,以便切換到不同的應(yīng)用程序,從而啟動(dòng)請(qǐng)求的第二階段。
用戶可以選擇提出新的請(qǐng)求,促使 UFO 通過重復(fù)上述過程來處理新任務(wù)。
研究團(tuán)隊(duì)依據(jù)日常鼠標(biāo)操作,還開發(fā)了自定義操作,比如單擊、選擇文本、滾動(dòng)等,以此來完成對(duì)于控件的操作。
主要有這些控制類型。
微軟全球資深副總裁、MSRA副院長(zhǎng)領(lǐng)銜
最后介紹一下UFO的研究團(tuán)隊(duì),其中大多數(shù)都為華人。
通訊作者Chaoyun Zhang,是微軟DKI(Data、Knowledge、Intelligence,數(shù)據(jù)/知識(shí)/情報(bào))*小組的高級(jí)研究員。
他于2020年,在愛丁堡大學(xué)獲得碩士和博士學(xué)位,研究興趣包括時(shí)間序列建模、時(shí)空數(shù)據(jù)挖掘、因果推理以及云服務(wù)和 AIOps的可解釋機(jī)器學(xué)習(xí)。
Chaoyun Zhang還是華中科技大學(xué)校友,出國前在華中科技大學(xué)電子信息與通信學(xué)院取得學(xué)士學(xué)位。
作者Liqun Li,現(xiàn)為微軟DKI組首席研究員。
他先畢業(yè)于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,取得學(xué)士學(xué)位;而后又在2012年獲得中國科學(xué)院軟件研究所博士學(xué)位。期間,Liqun Li曾作為訪問學(xué)者前往密歇根州立大學(xué)。
作者Saravan Rajmohan,Miceosoft 365的AI及應(yīng)用研究的合作伙伴總監(jiān)。
他領(lǐng)導(dǎo)應(yīng)用研究團(tuán)隊(duì)與Microsoft的各個(gè)研究小組進(jìn)行深入?yún)f(xié)作,將算法研究與AI/ML技術(shù)和硬件創(chuàng)新相結(jié)合
作者張冬梅,MSRA(微軟亞洲研究院)常務(wù)副院長(zhǎng),微軟杰出首席科學(xué)家。
她從2004年起加入MSRA,從事和領(lǐng)導(dǎo)DKI領(lǐng)域的研究工作,近幾年,團(tuán)隊(duì)將研究擴(kuò)大到商業(yè)智能領(lǐng)域。
作者張祺,微軟全球資深副總裁。
此前,張祺曾任微軟(亞洲)互聯(lián)網(wǎng)工程院常務(wù)副院長(zhǎng),兼任微軟移動(dòng)聯(lián)新互聯(lián)網(wǎng)服務(wù)有限公司董事長(zhǎng),負(fù)責(zé)微軟互聯(lián)網(wǎng)業(yè)務(wù)及人工智能平臺(tái)在亞洲的團(tuán)隊(duì)。
同時(shí),他也是微軟中國首位“全球杰出工程師”。
最后,簡(jiǎn)單介紹一下多位作者的工作單位:MSRA的DKI組。
DKI是Data、Knowledge、Intelligence的簡(jiǎn)寫。
該小組致力于AI、數(shù)據(jù)分析、數(shù)據(jù)交互、數(shù)據(jù)可視化的研究,探索全新的數(shù)據(jù)分析、展示、交互技術(shù),讓數(shù)據(jù)和數(shù)據(jù)中的發(fā)現(xiàn)故事被高效地理解、廣泛地傳播。
團(tuán)隊(duì)與微軟產(chǎn)品如Excel,PowerPoint等深度合作,常年在各個(gè)領(lǐng)域的頂會(huì)和期刊上發(fā)表論文。
本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請(qǐng)來信告知我們刪除。郵箱:business@qudong.com
























