Day 177 省 token 的 Headroom 實測

最近用 Claude Code 有種感覺：同樣的 $200 額度，好像比之前更快見底。沒去細查是不是真的縮水，但這幾天確實開始想——有沒有什麼工具能幫我把 token 用量壓下來一點。

於是抓了 Headroom 來掛著跑。它的定位很直接：在你的 AI agent 把東西送進模型之前，先壓縮一輪——工具輸出、log、搜尋結果、檔案、對話歷史，全都先瘦身。README 主打 60–95% fewer tokens、local-first、可回取原文。

掛了三天之後，我把儀表板的數字撈出來。結論先講：有省到，但沒有 README 講的那麼神，而且更要命的是——我體感它明顯變笨了。所以我不推。

怎麼接的

我沒有一個一個模式去試。它有 library、proxy、MCP、wrap agent 四種接法，對天天泡在 Claude Code 的人來說最沒摩擦的就一條：

headroom wrap claude

一行命令，它幫你把 Claude Code 的流量導去本機的 proxy 壓縮，中間什麼設定都不用改。然後就是正常工作，它在背後默默做事，儀表板開 localhost 看數字。

儀表板上的真實數字

我直接報儀表板（版本 0.27.0，主力跑 Opus 4.8）那幾張卡片的數：

經過它的 token：Before 64.3M → After 61.1M
壓掉 3.2M token，整體 5.0%
最猛的一次：30,545 → 12,497 token，壓掉 59%
換算帳單估省約 $16（5.9%）（這是 Headroom 用 API 牌價估的，跟 $200 訂閱上限是兩套不同的基準，別硬湊）

這裡的 5.9% 比上面 token 的 5.0% 高一點，是因為被壓掉的多半是比較貴的 output token，所以省下來的錢佔比會稍微高一些。

不是零，但離 README 那個 60–95% 的招牌數字差很遠——攤平到日常流量，就是個位數。

為什麼平均只有 5%

關鍵在「不是每個請求都壓得動」。看儀表板的明細，真正有被壓到的大概只有一半，另一半都壓不動：有的根本沒有可壓的內容、有的 prefix 被快取凍結（不能動，動了快取就失效）、有的太小不值得壓、有的直接放行。光是「沒有可壓內容」這一類就佔了最大宗。

所以那個 60–95% 是會出現，但只出現在「一次塞一大坨結構化輸出」的請求上——像那次 59% 的，多半就是一大包搜尋結果或 log。可是日常 coding 的流量大多不長那樣，平均拉下來就剩個位數。

換句話說，README 的數字沒造假，但那是精選場景的上限，不是你掛上去就會拿到的日常值。

我覺得它明顯變笨了

這段要先講清楚：是體感，不是實測。Headroom 的儀表板只量 token 跟錢，不量回答品質，所以下面是我的印象、不是數據。

但這個印象很明顯。掛著它跑的這幾天，Claude Code 的回答品質掉得很有感——同樣的任務，它更常抓錯上下文、答得更鈍，有幾次我得多來回幾輪才把它導回正軌。這很合理：壓縮本質上就是丟掉一些東西，丟對了沒事，丟到關鍵那段，模型就是會變笨。它有 CCR 可回取機制（原文留本機，模型需要時自己撈回來），理論上能補，但模型不一定每次都知道要去撈，實際上就是補不回來。

我沒有跑對照組去量這件事，所以這頂多是強烈的印象、不是證據。但它強到足以讓我把工具拔掉。

那這東西到底推不推

不推。

省 5%、三天大概 $16，換來的是回答明顯變笨——這筆帳怎麼算都不划算。token 是省了，但我得多花來回把模型導回正軌，省下的時間又賠回去，甚至倒貼。

硬要說它的適用場景：如果你的用量天天頂到額度上限、寧可答得鈍一點也要先能跑完，那它確實能擠出一些空間。但對絕大多數人——包括我——為了省一點錢賠掉品質，不值得。它自己 README 也寫了，只用單一供應商、吃原生壓縮就夠的，根本不用多接這層。

對我來說最大的收穫不是那 $16，是把「省 token」這件事的代價量清楚了：在真實的 Claude Code 工作流上，這類壓縮層省下的是個位數的量級，而換掉的品質卻很有感。便宜一點點、笨一截，這個交換我不要。

最近開始做免費的一對一諮詢，幫你把 AI 接進自己的工作流——有需要的話可以約：https://www.dawsonwang.com/

省 token 的 Headroom 實測

怎麼接的

儀表板上的真實數字

為什麼平均只有 5%

我覺得它明顯變笨了

那這東西到底推不推

我把 Obsidian 的 AI 外掛拔了

讓 AI 讀 LINE 把案子做對

多台裝置共用一個 Claude 訂閱