2025 年 4 月 1 日,亞馬遜正式發(fā)布通用型 AI 智能體 Nova Act,憑借 “操控瀏覽器自主執(zhí)行任務(wù)” 的顛覆性能力,重新定義了人類與互聯(lián)網(wǎng)的交互方式。這款由亞馬遜 AGI 實(shí)驗(yàn)室研發(fā)的技術(shù)新星,不僅能替代用戶完成購(gòu)物、訂票等日常操作,更標(biāo)志著 AI 從 “被動(dòng)應(yīng)答” 向 “主動(dòng)行動(dòng)” 的歷史性跨越。
它不僅是瀏覽器的AI代理,更是一個(gè)能理解意圖、自主決策、甚至“替你思考”的智能助手。
讓 AI 像人類一樣 “看懂屏幕、精準(zhǔn)操作”
Nova Act 的技術(shù)突破源于其多模態(tài)交互架構(gòu):
視覺(jué)理解:通過(guò)自研的 Nova 基礎(chǔ)模型(如 Nova Micro/Lite/Pro)解析網(wǎng)頁(yè)內(nèi)容,精準(zhǔn)識(shí)別按鈕、表單、文本等元素;
行為模擬:結(jié)合 ScreenSpot Web Text 94% 的高分能力,模擬人類操作邏輯,自動(dòng)完成點(diǎn)擊、滑動(dòng)、輸入等動(dòng)作;
流程控制:開(kāi)發(fā)者可通過(guò) SDK 將復(fù)雜任務(wù)拆解為原子級(jí)指令(如 “搜索機(jī)票→比價(jià)→選擇航班→支付”),并設(shè)置人工介入節(jié)點(diǎn)(如支付前確認(rèn)),平衡效率與安全性。
維度 |
傳統(tǒng) AI |
Nova Act |
交互方式 |
僅文本對(duì)話 |
文本 + 視覺(jué) + 行為全鏈路控制 |
任務(wù)完成度 |
需用戶手動(dòng)操作后續(xù)步驟 |
自主完成閉環(huán)流程 |
可靠性 |
依賴固定規(guī)則 |
動(dòng)態(tài)學(xué)習(xí)網(wǎng)頁(yè)結(jié)構(gòu),適應(yīng)性更強(qiáng) |
你的瀏覽器 “數(shù)字分身”
Nova Act不是個(gè)“啞巴AI”,它能通過(guò)自然對(duì)話理解你的需求。比如:“幫我找附近評(píng)分4.5分以上的川菜館,還要有午市套餐?!?,“明天下午3點(diǎn)前,把會(huì)議資料發(fā)給團(tuán)隊(duì),并提醒所有人確認(rèn)。”
它甚至能看懂網(wǎng)頁(yè)上的文字和圖片,幫你快速篩選信息,比你刷手機(jī)還快!
以上例子是通過(guò)自研的 Nova 基礎(chǔ)模型(如 Nova Micro/Lite/Pro)解析網(wǎng)頁(yè)內(nèi)容,精準(zhǔn)識(shí)別按鈕、表單、文本等元素;通過(guò) Nova Act SDK 調(diào)用瀏覽器操作、API 接口等功能,快速搭建原型并結(jié)合 ScreenSpot Web Text 94% 的高分能力,模擬人類操作邏輯,自動(dòng)完成點(diǎn)擊、滑動(dòng)、輸入等動(dòng)作。
內(nèi)部測(cè)試中,Nova Act 在網(wǎng)頁(yè)交互任務(wù)上超越 OpenAI 的 Operator 和 Anthropic 的 Computer Use;基于亞馬遜云的算力優(yōu)化,運(yùn)行成本比競(jìng)品低 75%。
AI 時(shí)代的 “數(shù)字勞動(dòng)力” 崛起
亞馬遜官方說(shuō),Nova Act在網(wǎng)頁(yè)交互能力上拿了高分!比如在測(cè)試中,它能精準(zhǔn)識(shí)別網(wǎng)頁(yè)上的文字和按鈕,完成任務(wù)的成功率比OpenAI的CUA和Anthropic的Claude高不少。不過(guò),它現(xiàn)在還處于“研究預(yù)覽版”,可能偶爾會(huì)“翻車(chē)”,但開(kāi)發(fā)者已經(jīng)在瘋狂優(yōu)化啦!
Nova Act由前OpenAI大牛帶隊(duì)研發(fā),目標(biāo)是“讓AI像人類一樣用電腦”是亞馬遜 AGI 實(shí)驗(yàn)室的首個(gè)公開(kāi)成果,其技術(shù)路徑(任務(wù)分解 + 人機(jī)協(xié)作)為通用人工智能提供了關(guān)鍵參考。
生產(chǎn)力革命:
客服、數(shù)據(jù)錄入等崗位效率提升 10 倍,成本降低 70%。
社會(huì)革命:
訂票、預(yù)約掛號(hào)、報(bào)名活動(dòng),它能記住你的信息,一鍵搞定。批量處理任務(wù):比如幫你比價(jià)購(gòu)物,找到最劃算的套餐;甚至幫你整理郵件,分類標(biāo)記重要信息。
AI不是搶工作,而是讓你更自由
Nova Act的出現(xiàn),讓我們看到AI不再只是“聊天工具”,而是能真正幫人類解放雙手的生產(chǎn)力工具。
Nova Act 的發(fā)布僅是開(kāi)端。未來(lái),隨著多模態(tài)模型的迭代和場(chǎng)景拓展,AI 智能體或?qū)?shí)現(xiàn):
虛實(shí)融合:通過(guò) AR 眼鏡直接操控物理世界(如語(yǔ)音控制家電);
自主決策:無(wú)需人工干預(yù)完成復(fù)雜任務(wù)(如策劃婚禮、管理投資組合);
倫理框架:全球協(xié)作制定 AI 操作規(guī)范,確保技術(shù)普惠而非壟斷。
你最想讓Nova Act幫你做什么?
當(dāng) Nova Act 讓瀏覽器成為 AI 的 “數(shù)字手腳”,它不僅是技術(shù)突破,更是人類與 AI 關(guān)系的重構(gòu)。在這里,互聯(lián)網(wǎng)不再是需要 “親力親為” 的戰(zhàn)場(chǎng),而是 AI 代勞的 “數(shù)字疆域”。這場(chǎng)由亞馬遜點(diǎn)燃的智能體革命,正在重塑每個(gè)人的數(shù)字生活 —— 而你,準(zhǔn)備好使用Nova Act了嗎?
郵箱:15236061639@163.com
QQ:60298351
微信:a18137798589
1.需求背景1)建立覆蓋加工車(chē)間的分布式控制網(wǎng)絡(luò),實(shí)現(xiàn)NC程序的有效調(diào)用、穩(wěn)定有效傳輸和在線加工等,
上周《2025年國(guó)產(chǎn)智能機(jī)器人企業(yè)競(jìng)爭(zhēng)力報(bào)告》(瞭望財(cái)經(jīng)快思慢想研究院)突然刷屏朋友圈。這份報(bào)告直接
汽車(chē)行業(yè)與人形機(jī)器人產(chǎn)業(yè)的協(xié)同發(fā)展確實(shí)正在形成一條高潛力的產(chǎn)業(yè)鏈,兩者的技術(shù)共享、供應(yīng)鏈整合和市場(chǎng)聯(lián)