Day 103 — 讓 AI 自己改進自己的工具：claude-evolver 的設計思路

昨天聊到的 Hermes 是根據之前對話紀錄自動幫忙判斷是否需要做成 skill，或是改進現有的 skill。但如果我不用 Hermes，而是用 Claude Code，是否也有機會讓 skill 進化？

【從失敗中學習】

Day 100 提到 "先求有再求好"。在 AI 協作的脈絡下，"求好" 這件事能不能也自動化？

我平常用 Claude Code 寫了不少 skill。有些用得很順，但有些會踩到坑——AI 做了我不想要的事，我糾正它；或是同一個工具連續失敗好幾次。

這些 "負面訊號" 其實就是改進的線索。

每一次我說 "不是這樣"、每一次同一個工具連續失敗三四次，這些痕跡全部都留在 Claude Code 的 session 紀錄裡（~/.claude/projects/ 底下的 .jsonl 檔）。

【Darwinian Evolver：讓 skill 像生物一樣演化】

於是我做了一個工具叫 claude-evolver。設計靈感來自生物演化：找出不適應的個體，產生突變，讓突變體跟原本的版本比賽，贏的留下來。

整個流程是這樣的：

Miner → 掃描最近的 session 紀錄，找出失敗訊號（使用者糾正、重試、砍掉重來、工具連續失敗），然後追溯是哪個 skill 或規則在當時被使用

Mutator → 把有問題的 skill 複製到沙盒裡，用 Claude 根據失敗的脈絡產生一個改良版本

Evaluator → 用同樣的情境分別跑原版和改良版，然後讓另一個 AI 當裁判打分。不是看文字改了什麼，而是看行為有沒有變好

Reporter → 產出一份 HTML 報告，左右對比兩個版本的實際輸出，讓我自己決定要不要採用

最後如果我同意，才會把改良版推上去取代原本的。所有歷史版本都用 git 追蹤，隨時可以回滾。

【離峰時間自動復盤】

這套流程我設計成可以在離峰時間自動跑。我自己是排凌晨 3 點，讓它根據前一天的 session 紀錄自動判斷哪些 skill 需要優化，等我早上起來就有一份報告可以看。

這樣做的好處是不會佔用白天工作的時間，也不會干擾正在進行的對話。整個過程就像夜裡的健康檢查——隔天醒來直接看結果。

當然這需要搭配一些設定檔：要掃描哪個目錄、用哪個模型當裁判、失敗訊號的門檻怎麼設、哪些 skill 不要動等等。目前是做成 CLI 工具，自己再用一陣子、把設定跟流程磨順之後再考慮開源。有興趣的人可以先追蹤，之後會分享更多細節。

【跟 Hermes 的差異】

Day 102 介紹了 Hermes Agent 的 skill 自我改進機制——"邊用邊學"，在每次互動中順便改進。

我做的 claude-evolver 是 "定期體檢"——從累積的失敗中系統性地抽取改進方向，然後用對照實驗驗證。

兩種方向不衝突。Hermes 適合即時的、對話層級的學習。claude-evolver 適合跨 session 的、需要比較才能判斷的改進。

一個像是每天運動保持健康，另一個像是定期做健康檢查。

目前沒有做成全自動是因為品質的把關還是得人來界定，不然很可能發生昨天還用得好好的 skill，今天卻被改壞的慘況。

【背後的模式】

Day 99 提到一個觀察：大家的問題不是 AI 不夠強，而是不知道怎麼把資料接進 AI。

同樣的邏輯也適用於 AI 改進自己的工具。Claude Code 的 session 紀錄裡藏著大量可以用來改進的資訊，只是之前沒有工具把它挖出來。

我覺得這是一個值得關注的方向。不只是用 AI 做事，而是讓 AI 改進它做事的方式。先求有，再讓它自己求好。

— 讓 AI 自己改進自己的工具：claude-evolver 的設計思路