線上會議記錄開源神器 Vexa 實測





你也有線上會議紀錄的需求嗎?
跟外部單位開會越來越多,常開到一半就跳出 Otter / Fireflies / Fathom 的小頭像,自動幫雙方做筆記、寫摘要、列待辦。看著看著我也想用——但這類 SaaS 都有兩個讓我猶豫的地方:
- 免費額度用完就要月費(個人版多半 USD 15–20/月)
- 會議音檔會送到它們的雲端
如果你也對這兩件事在意,但又不會自己架伺服器——這篇就是寫給你的。
這篇分享一個開源替代方案:Vexa。架在自己機器上跑,0 元月費,音檔跟逐字稿全程留在自己手裡。
重點是這次連 docker 都不用自己會——我把整套安裝丟給一隻 AI agent 處理就好。
為什麼說是神器
跟一般"按 Record 才會錄"的本地工具不一樣,Vexa 的核心能力是"派一個機器人主動進你的會議"——使用體驗跟 Otter / Fireflies 一模一樣,只是這隻 bot 跑在你家的 Mac 上、不是它們的雲端。
幾個讓我願意搬過來的理由:
- bot 主動加入會議:Google Meet / Microsoft Teams / Zoom 三大平台都吃。對方在會議室裡看到的就是一個叫"Vexa Bot"的普通與會者
- 即時逐字稿:用 Whisper(OpenAI 開源的語音辨識模型)做 sub-second(小於一秒延遲)轉錄,會議結束的瞬間全文就在硬碟上
- 100+ 語言、自動偵測:跟日本客戶開、跟東南亞夥伴開、中英混講都直接吃,不用先選語言
- 四種輸出格式一次給齊:
.txt(純逐字稿)、.vtt/.srt(有時間軸的字幕)、.tsv(機器可讀的表格,每行 start/end/text)。要剪片有字幕、要做後續分析有資料表 - 完全本地:音檔、逐字稿、相關資訊都在你的 Mac,沒有任何一個檔案外流
- 可以接 Claude Code / Cursor:內建 MCP server(讓 AI agent 多接一項能力的擴充包),會議結束之後可以直接問 AI"上週四那場 user research,使用者反覆提到哪三件事"
跟付費服務比
| 面向 | Otter / Fireflies / Fathom | Vexa(自架) |
|---|---|---|
| 月費 | USD 15–20 | 0 |
| 自動派 bot 入會 | ✓ | ✓ |
| 即時逐字稿 | ✓ | ✓ |
| 音檔在哪 | 它們的雲端 | 你的硬碟 |
| 支援平台 | Meet / Teams / Zoom | Meet / Teams / Zoom |
| 語言 | 30–60 種 | Whisper 100+ |
| 客製整合 | 看廠商開放多少 | 可以串其他工具(例如自動丟進 Notion / Slack) |
| 上手門檻 | 註冊就用 | 要自架一套 docker stack(一整組互相串好的程式包,平常工程師才會玩) |
最後一行就是門檻——以前 self-host 一套 docker stack 是工程師才有耐心做完的事。Vexa 在 GitHub 上開源一年多了,但會去自己裝的人始終是少數。
安裝這次不用自己動手
我這次完全沒打開 terminal。整個安裝丟給 Hermes(Nous Research 的 AI agent,昨天 Day 140 也提過)處理。我只說了一句"在家裡那台 always-on 的 MacBook Pro 上幫我裝 Vexa、Google Meet 優先"。
它做的事大致是:
- 把 Vexa 程式碼從 GitHub 抓下來,放在那台 Mac 的一個資料夾
- 先在那台 Mac 上開一條虛擬網路(後面所有容器要用這條互相通話)
- 一口氣把整套服務需要的容器都組裝、啟動起來
- 初始化資料庫、把預設資料塞進去
- 產生一組 API key,之後召喚 bot 進會議時用來驗證是"自己人"
- 整套跑一遍確認沒有壞掉
中途有一個容器第一次沒過健康檢查,Hermes 自己去翻它的日誌、單獨重啟那一個、再驗一次健康狀態 OK 才繼續往下。整段我沒介入——我在另一台 Mac(這台 MBA)繼續寫 Day 140 的稿,它在那台 MBP 上點來點去,游標完全在我手上。
裝完拿到一個本機 endpoint(程式對外的入口)http://localhost:8056、一組 API key,跟 12 個 healthy 的 container 持續跑在背景(開會時再多一隻 vexa-bot 進去,加起來 13 個):transcription-worker、runtime-api、mcp、dashboard、api-gateway、meeting-api、admin-api、tts-service、minio(本地物件儲存)、postgres、redis……一整套 stack(名字不用記,知道每個負責一塊就好)。
對沒寫過 docker 的人來說,這段以前是不可能的;現在這段就是"跟 AI 講一句話"。
實際開一場會看看
開會的時候我做的事很簡單:把 Google Meet 連結貼給 Hermes,跟它說"派 Vexa Bot 進這場會議"。
幾秒後,會議裡多一個與會者"Vexa Bot"。畫面上長得跟其他人一樣,只是它不會發言。
會議結束直接跟 Hermes 說"給我剛剛那場的逐字稿",它就會把逐字稿整理好交給你。
昨天我就是用這個流程跑一場實際的 Google Meet。會議結束後,MBP 上多了:
recordings/
├── meeting-xxxx.webm ←原始錄音(58 MB)
└── meeting-xxxx.m4a ←修正時間戳的版本(22 MB)
transcripts/meeting-xxxx/
├── transcript.txt ←純文字逐字稿
├── transcript.vtt ←有時間軸的字幕格式
├── transcript.srt ←播放器吃的字幕格式
└── transcript.tsv ←機器可讀的表格
整場 1 小時左右大約 80 MB,全部留在我家裡那台 MBP 上。
適合誰、不適合誰
適合:
- 家裡或公司有一台常開的 Mac(Vexa 要持續在線等召喚)
- 會議內容有保密考量(律師、醫療、法務、財務、客戶訪談、產品策略)
- 跨語言會議多,懶得每次都改 Otter 的語言設定
- 想接後續自動化(讓 LLM 自動歸納、塞進 Notion / Slack / Linear)
- 已經受夠每月一張一張的 SaaS 訂閱
先別急著裝:
- 沒有常開的機器(Vexa 不是 SaaS,沒人 host 它)
- 公司資安政策不允許在自己機器上跑外部 docker container
如果這兩條都卡住——找個會 docker 的朋友幫你架在他家那台,或繼續用 Otter 也是合理的選擇,這篇不是非裝不可。
以前付月費給 SaaS 的兩個理由——"我不會裝"跟"我懶得維護"——AI agent 把這兩個同時解掉了。
Vexa: https://github.com/Vexa-ai/vexa
沒看過 AI agent 怎麼在你 Mac 上做事的,可以回頭看 Day 140 那篇。