跟 AI 一起用同一台 Mac







Anthropic 的 Claude Cowork 從一月就出來了——在 Claude 桌面 app 裡讓 AI 操作你的本機 app、跨檔案跨應用做事,但你的游標完全沒被搶走。OpenAI 上個月也在 Codex 推出 Computer use(上週才釋出官方 demo 影片:https://www.youtube.com/watch?v=D_FCYsshMI4),demo 裡同時讓它在 UTM 建 Mac VM、Spotify 放歌、Reminders 加待辦——三個 app 並行,使用者全程繼續講話、游標一動都沒動。
不知道你有沒有好奇過:這到底怎麼做到的?AI 明明在你電腦上點來點去,怎麼可能你的游標完全沒動?
Cowork 底層的實作沒公開,Codex 在 demo 有講到一部分(下面會帶到)。但市面上有個 open source project 在做出同樣效果的事——叫 Cua(GitHub: trycua/cua)。除了程式碼讀得到、可以拆給你看這個範式怎麼運作,它本身是一個 MCP server(讓 AI 多接一項能力的擴充包,像幫 AI 裝外掛),所以你可以直接把它接到 Claude Code,讓 Claude Code 也具備同樣的「背景操作 Mac、不搶你游標」能力。具體兩行指令在文末。
我自己最近用的是 Nous Research 的 Hermes Agent。第一次啟用它的「電腦操作」功能時,要授權 Mac 的幾項權限(主要是 accessibility 那塊)。授權完之後,電腦旁邊多了一個小夥伴,跟我一起用這台 Mac——我繼續打字、它在另一個 app 裡點來點去,互不干擾。
Hermes 用的就是 Cua——所以這個「小夥伴」體驗本質就是 Cua 提供的:AI 操作本機 app、不搶你游標。
跟傳統的 Computer Use 差在哪
傳統 Computer Use 走「模擬人」這條路徑:截圖看畫面、視覺辨識按鈕在哪、移動滑鼠過去、按下去、再截圖看結果。整套流程跟一個人坐在電腦前操作一模一樣——所以一隻滑鼠不是你的就是 AI 的,必然打架。十分鐘的自動化等於十分鐘你只能坐在旁邊看。
Cua 走的是另一條:用 macOS 私底下管視窗的 API(SkyLight),加上系統內建讓螢幕報讀軟體讀懂畫面元素的那層(accessibility framework),把點擊跟按鍵直接送到「那個 app 的程式內部」,根本不經過全域的滑鼠跟鍵盤系統。
結果:
- 你的游標一動都沒動
- macOS 不會把目標視窗跳到前景搶你注意力
- 按鈕被遮住、捲到螢幕外、躲在另一個 Space,都點得到(它認的是 app 內部那個按鈕本身、不是螢幕上的座標——靠的是上面那層 accessibility framework 維護的元素清單)
OpenAI Codex 的 demo 裡也明說他們同時用截圖跟 accessibility 元素清單,截圖看不到的(被遮住、捲到螢幕外)靠元素清單補——Cua 跟 Codex 兩家獨立的團隊都選了「讓 accessibility 扛主軸」這條路。架構選對的時候就會這樣。
順帶一提,OpenAI 在 demo 裡特別推搭 GPT-5.3-Codex-Spark 跟 Computer Use 一起用——因為走「元素清單」這條路只要看文字描述、不需要看圖片,所以非 multimodal(不看圖、只讀文字)的 Spark 反而最對味。Spark 跑在 Cerebras 這個專用 AI 晶片上,速度比主 Codex 快大概 15 倍,AI 操作 app 的速度可以「比人還快」。更實用的是 Spark 用量是獨立計算的,跑 Computer Use 不會吃到你 GPT-5.3-Codex 主額度——速度、適配度、額度都對上,堪稱絕配。
既然「多人」一起用電腦了
邊用邊冒出幾個好奇的方向,不知道你看到這邊會想到什麼。
跟 AI 玩雙人遊戲? 卡牌對戰、回合制 RPG 雙打、文字冒險合作——這類介面為主、輸入靠按鈕的遊戲,AI 戳它那邊的按鍵、我戳我這邊的,互不干擾。即時動作類(FPS、賽車)目前 Cua 的機制還碰不到,因為走的是 accessibility 不是全域鍵盤,但回合制跟介面類的「AI 跟你打同一款」這件事不再是科幻。
外接螢幕專門給 AI? 同一台 Mac 接一個延伸螢幕,一整面螢幕交給 AI 跑它的事——盯 dashboard、整理 Notion、回不急的 Slack——我這面螢幕繼續做自己的。工作流不被打斷,但隨時可以瞄一眼它在做什麼。
Pair programming 真的變 pair? AI 在 IDE 試 patch、我在另一個視窗讀 log,兩個人同時改一個 codebase,游標不搶。
OpenAI 的 demo 已經做到三個 app 同時並行的程度,技術 layer 已經到位。剩下的是想像力的問題。
你還能想到什麼有趣的應用?
(想自己接到 Claude Code 玩玩看的話,兩行 shell 就裝得起來:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"
claude mcp add --transport stdio cua-driver -- cua-driver mcp
之後 Claude Code 多三個工具:screenshot、click、type。任何 MCP client 都接得上,不綁特定 agent。)