Day 96 醫師的 SOP 諮詢案例：為什麼 PyMuPDF 比 LlamaParse 還好用

今天來分享最近諮詢的案例：

一位醫師的痛點是，平常看診的人很多，平均每個人大概只有 2~3 分鐘的時間。很多時候整個療程有很多複雜的流程，例如病情如何的時候有幾種醫療方式，每種醫療方式之後的處置又不同，後續追蹤病情的狀況可能又需要不同的決策。這些會是一個非常複雜的決策樹。

而國際上通常會有相關的單位定期更新這些公版的 SOP，頻率大概是 3 個月一次。他希望能把國際組織的資訊更好的呈現給病患，讓他們有知的權利，也協助他們做決策。

這位醫師說之前有試著把一個版本看完，結果看完的時候已經又出了兩個新版，根本沒時間每一版去讀。所以他試著用 Claude Code 去寫一個自動辨識這些流程圖的方式。他嘗試過許多 parser，目前找到 LlamaParse 是效果最好的，但結果還是不太理想，所以他想根據 LlamaParse 的結果再去修正。

會自己利用下班時間做是因為醫院通常不會為了這種需求掏錢。過去院方也有花幾百萬採購過其他影像辨識的系統，但已經過了好幾年都沒有更新，而且結果也不是很可信。他願意自掏腰包來改善目前的問診環境。

在了解他的需求與限制後，我提出曾經試過的工具 OmniParser，也跟他初步提出一些疑問：例如根據 LlamaParse 的結果再進一步修正，說不定其實更困難。但這些都要我實際嘗試後才能給出答案。

他也有提到看到我曾經提過 TDD，但效果不是很好，測試通過了但結果卻還是不對。

於是我花了一點時間根據他給的 SOP PDF 來試著 parse 看看，結果發現其實單純的 PyMuPDF 效果就已經很好了。如果都是制式的 PDF，用程式這種確定性的方式反而比較適合，因為掌控權都在自己手上，可以去微調，又不會像 LLM 那樣殺雞用牛刀卻又不太能控制。微調後很適合去寫 test case 讓結果是確定的，這樣就能自然而然形成迴路，讓我們把 parse 的腳本寫的更好。

至於 test case，我會先把辨識出來的結構確定下來，然後去 assert 那些連結關係。因為每次辨認出來的文字區塊 id 可能都不一樣，但至少除了 id 以外的內容是一樣的，例如這個區塊的文字，有了文字的比對就可以代表是同一個區塊。再來就是看這個區塊是不是有連結到下一個正確的區塊。

要寫好測試我們必須要有一個正確答案的版本，然後透過執行我們的腳本產出的結果要跟這個正確答案一致。每次微調最後的成果可能稍微有些出入，這時候我們可以決定哪些是可以接受跟不能接受的。有了測試告訴我們簡單的過與不過，這樣就可以完成簡單的迴路。

接下來放著讓 AI 根據新的案例來修正腳本，就不用擔心改 A 壞 B 了。

不管你是什麼領域，如果你在工作上有想用 AI 解決的問題，歡迎預約免費諮詢： https://calendar.app.google/4ex59LH1wSif96NU9

醫師的 SOP 諮詢案例：為什麼 PyMuPDF 比 LlamaParse 還好用

把文字變圖片竟然可以省 token

演講逐字稿工具打算自己做

這一切從失業第一天開始