Day 73

今天參加 Claude Code meetup，跟預期有點落差，原本期望聽到更 hard core 的技術分享，不過現場更偏向大眾面向的。即便如此還是有聽到一些不錯的重點，或是不同的切入角度。

davidchu 提到在 stop hook 加上 verify 的機制，五輪後可以讓單次完成度不高的模型也收斂到 90 幾％。但如果單純讓一個 80% 完成度的 agent 串聯在一起執行五次，最後準確率只剩下 30%。這用資料告訴了我們 verify 的重要性——即使是表現較差的模型，也有機會透過 verify 來提升表現。

這讓我聯想到一個比較少人提到的 eval 功能。/skill-creator v2 其實已經支援 eval，可以在建立 skill 的時候就進行評估，確保品質。雖然沒有資料佐證，但這件事對工程背景的人來說也是滿直覺的。

過去我們寫軟體都是 deterministic 的，所以用測試保護是非常廉價確保品質的方式。但現在到了 AI 時代，大家突然對 non-deterministic 的行為接受度高到不可思議。

我覺得 eval 是一個被大家低估的精神，跟 verify 有著異曲同工之妙。AI 的產出像是擲骰子，你不知道會擲出什麼；每次 model 更新就像是換一顆骰子，你無法確保相同的 prompt 會得出一樣的結果。即使是相同的 model，也常看到社群上有人反應降智，這些應該都要透過 eval 來驗證。

davidchu 提到的這篇 AI 分級，看看你現在在哪一級？ https://www.bassimeledath.com/blog/levels-of-agentic-engineering
最近幾天已經陸續看到人分享 paperclip，沒想到今天 Jeffrey 的分享竟然已經出現了，這採用的速度真的快得不可思議。這個發展趨勢其實也挺合理的，OpenClaw 是一個強大的 agent，而 paperclip 想要達成的是 AI 自治公司。還沒上手其實不知道實際上差異如何，畢竟要用 OpenClaw 來設立自治公司也是辦得到的，之後有心得再來分享。 https://github.com/paperclipai/paperclip

如果大家對 hard core 的技術分享有興趣，4/9 還有一場，可以密切注意 https://www.threads.com/@debuguy.dev/post/DVsxTuNAJMb?xmt=AQF0uJs_Jk0TXQXvYGPvhU-UkO3-1CmfdtLXNwdBrRFlfw

還有什麼推薦的聚會也歡迎留言分享

蓋一個自己的網站，讓人找得到你

AI 讓做產品變簡單，但做成產品變更難了

一半 AI 裁員的公司，2027 前會把人補回來