第 96 篇 · 台北 · 2026-04-06 一份持續書寫的工作日誌

醫師的 SOP 諮詢案例:為什麼 PyMuPDF 比 LlamaParse 還好用

今天來分享最近諮詢的案例:

一位醫師的痛點是,平常看診的人很多,平均每個人大概只有 2~3 分鐘的時間。很多時候整個療程有很多複雜的流程,例如病情如何的時候有幾種醫療方式,每種醫療方式之後的處置又不同,後續追蹤病情的狀況可能又需要不同的決策。這些會是一個非常複雜的決策樹。

而國際上通常會有相關的單位定期更新這些公版的 SOP,頻率大概是 3 個月一次。他希望能把國際組織的資訊更好的呈現給病患,讓他們有知的權利,也協助他們做決策。

這位醫師說之前有試著把一個版本看完,結果看完的時候已經又出了兩個新版,根本沒時間每一版去讀。所以他試著用 Claude Code 去寫一個自動辨識這些流程圖的方式。他嘗試過許多 parser,目前找到 LlamaParse 是效果最好的,但結果還是不太理想,所以他想根據 LlamaParse 的結果再去修正。

會自己利用下班時間做是因為醫院通常不會為了這種需求掏錢。過去院方也有花幾百萬採購過其他影像辨識的系統,但已經過了好幾年都沒有更新,而且結果也不是很可信。他願意自掏腰包來改善目前的問診環境。

在了解他的需求與限制後,我提出曾經試過的工具 OmniParser,也跟他初步提出一些疑問:例如根據 LlamaParse 的結果再進一步修正,說不定其實更困難。但這些都要我實際嘗試後才能給出答案。

他也有提到看到我曾經提過 TDD,但效果不是很好,測試通過了但結果卻還是不對。

於是我花了一點時間根據他給的 SOP PDF 來試著 parse 看看,結果發現其實單純的 PyMuPDF 效果就已經很好了。如果都是制式的 PDF,用程式這種確定性的方式反而比較適合,因為掌控權都在自己手上,可以去微調,又不會像 LLM 那樣殺雞用牛刀卻又不太能控制。微調後很適合去寫 test case 讓結果是確定的,這樣就能自然而然形成迴路,讓我們把 parse 的腳本寫的更好。

至於 test case,我會先把辨識出來的結構確定下來,然後去 assert 那些連結關係。因為每次辨認出來的文字區塊 id 可能都不一樣,但至少除了 id 以外的內容是一樣的,例如這個區塊的文字,有了文字的比對就可以代表是同一個區塊。再來就是看這個區塊是不是有連結到下一個正確的區塊。

要寫好測試我們必須要有一個正確答案的版本,然後透過執行我們的腳本產出的結果要跟這個正確答案一致。每次微調最後的成果可能稍微有些出入,這時候我們可以決定哪些是可以接受跟不能接受的。有了測試告訴我們簡單的過與不過,這樣就可以完成簡單的迴路。

接下來放著讓 AI 根據新的案例來修正腳本,就不用擔心改 A 壞 B 了。

不管你是什麼領域,如果你在工作上有想用 AI 解決的問題,歡迎預約免費諮詢: https://calendar.app.google/4ex59LH1wSif96NU9

延伸閱讀 看完整 137 篇 →