陳柏威醫師 Po-Wei Chen, MD

復健科醫師 · 花蓮慈濟醫院

徒手・運動治療 × 自架・程式 × AI・學習

專長與興趣

論文三件組的最後一塊：paper-fetch，給它一個 DOI，它自己去把全文抓下來

前陣子分享的論文評讀工具（讓 Claude 幫忙做品質評讀跟內容整理），有朋友回我一句很實在的話：工具是好用，但每次都得自己先去把 PDF 生出來，最煩的其實是這一步。真的是這樣。要讓 AI 幫你讀論文，你得先拿得到全文。而拿全文這件事，卡住的通常不是 AI，是權限、是出版社、是圖書館。所以論文三件組裡最後一塊、也是最痛的一塊，今天終於補上了：paper-fetch（MIT 開源）。給它一個 DOI，它會自己走完整條路，把全文 PDF 抓下來。階段工具做什麼發現論文學習雷達 paper-radar RSS／PubMed 餵新論文，依興趣排序下載 paper-fetch DOI → 全文 PDF 評讀 paper-review-and-digest 品質評讀、內容整理 — 它怎麼運作？一道由便宜到麻煩的階梯整個設計只有一句話：先走最便宜、最正當的路，失敗才往下掉。第一層：開放取用（open access） Unpaywall、Semantic Scholar、PMC／Europe PMC，還有藏在文章網頁裡的 citation_pdf_url meta tag（那正是 Google Scholar 拿來索引 PDF 的東西）。這層零金鑰、開箱即用，你只要在設定檔填自己的 email。沒有圖書館資源的人，能接的來源我都接上去了。第二層：出版社官方的文字探勘 API（text-mining API） Elsevier、Wiley、Springer 都有正式開放給文字探勘用的 API，自己去申請一把金鑰就好，是完全被允許的管道。這層跟盜版一點關係都沒有，只是大家很少知道它存在。第三層：自己醫院圖書館的校外連線用你自己的帳號登入，抓你們醫院本來就有訂的期刊。它只是把你原本會手動做的那一串點擊自動化，不是繞過付費牆。第四層：投降，但投降得有用全部失敗的話，它會把圖書館的 SFX／OpenURL 連結印出來讓你手動去點，而不是丟一個 error 就沒了。沒有 Sci-Hub，沒有盜版路線。每一層都是你本來就有資格走的路。 — 最花時間的是什麼？把每一家出版社的脾氣摸清楚這是我覺得整個專案最值得分享的部分。DOI 換 PDF 聽起來像一行程式，實際上每家出版社的做法都不一樣，而且沒有文件可以查，只能一篇一篇撞出來。目前摸清楚、而且用真實文章驗證過的有 20 幾條路線，收斂成四種形狀。 ...

ASR 模型實測結果：Breeze-ASR-25 加設定調校後真實醫學名詞捕獲 649 個，比 Whisper large-v3 的 435 個多 49%；台語版 Breeze-ASR-26 用在華語只有 182 個

我的資料，我的 benchmark：幫演講筆記系統換一顆語音辨識引擎

引言：為什麼官方分數不夠用我把演講錄影變成筆記的流程是這樣一條線：逐字稿 → 對應投影片 → 總整理。這條線的地基是語音轉文字（automatic speech recognition，ASR）。它聽錯多少，後面每一層筆記就跟著錯多少。原本我用的是 OpenAI 的 Whisper large-v3。這件事的起點，其實是我滑手機看到聯發科（MediaTek Research）發表台語模型 Breeze-ASR-26。台語模型本身就夠讓人好奇了，但點進去才知道，原來他們去年就出過 Breeze-ASR-25，從 Whisper-large-v2 微調，專門針對台灣華語和中英夾雜優化，Apache 2.0 開源。醫學演講正好是中英夾雜的重災區，我居然錯過了一整年。於是我同時面對兩顆模型，而它們的官方資料是完全不對稱的。 Breeze-ASR-25 給了一整張成績單，字錯率（word error rate，WER，越低越好）：資料集 Breeze-ASR-25 Whisper-large-v3 Whisper-large-v2 CSZS-zh-en（中英夾雜） 13.01 26.43 29.49 ASCEND-MIX（中英夾雜） 16.38 25.13 21.01 ASCEND-ZH（華語） 16.04 17.41 17.49 CommonVoice16-zh-TW（台灣華語） 7.97 8.95 9.84 ML-lecture-2021-long（長音檔演講） 4.98 6.41 6.13 （官方欄位寫的是 WLV3-Auto／WLV2-Auto，也就是開啟自動語言偵測的 Whisper。）它連我當時在用的 large-v3 都贏，中英夾雜那兩列更是壓倒性。這部分我沒有必要再證明一次。而 Breeze-ASR-26 呢？它只有台語一項成績——但那一項做得很紮實。官方拿它跟四個系統比台語字元錯誤率（character error rate，CER，越低越好）：系統台語 CER Breeze-ASR-26 30.13 教育部台灣台語輸入法 30.70 雅婷逐字稿 32.11 Google Gemini 3 Flash 32.52 Breeze-ASR-25 49.99 它在台語上贏了 Gemini 3 Flash，也贏了雅婷。這是真本事，不該被忽略。 ...

颱風前夕的意外測試：我家兩顆 UPS 是怎麼互相補位的

颱風要來了，家裡的不斷電系統（UPS）剛好也在最近換了電池，順手把整套關機、開機的流程重新測了一遍，發現了一個藏很久的坑，就來記錄一下這個過程。起點：一顆不會講話的 UPS 家裡的 NAS、跑虛擬機的 Proxmox 迷你主機（負責家裡路由器）、還有 Home Assistant，這些設備 2023 年底就接在一顆 APC BV1000-TW 上面了。它撐停電是沒問題的，但它是一顆「啞巴」UPS，沒有 USB，也沒有 SNMP（簡單講就是網路可以查詢的狀態訊號），沒辦法跟家裡任何系統說「我快沒電了，準備關機」。結果就是，每次真的停電，這些設備只能等電池耗盡被硬生生斷電。NAS 這種有檔案系統的機器最怕這種粗暴關機，容易半夜出包。買第二顆，不是為了多一份保護，是為了多一張嘴 2026 年 4 月又買了一顆 CyberPower CP1500PFCLCDa，接的是放在另一個房間的電腦。電腦本來就跟 NAS/PVE/HA 不同房間，本來就需要一顆自己的 UPS，這顆的存在本身不算意外開銷。但真正讓這篇文章成立的重點，是它剛好有 USB，電腦上可以跑它的管理軟體 PowerPanel Business Local，把 UPS 的狀態翻譯成區網看得到的 SNMP 訊號。這樣一來，Home Assistant 就可以直接去讀這個訊號，知道現在是不是在吃電池。巧妙（也有點取巧）的地方：借別人的嘴講自己的事家裡這兩顆 UPS 插在同一個電源迴路上，真的跳電的時候會同時斷電。我們沒有特地幫 NAS/PVE/HA 那顆啞巴 UPS 加訊號模組，而是讓 Home Assistant 去監控 CyberPower 那顆的 SNMP 狀態，當成整屋停電的**「代理警報」**。一偵測到它進入電池供電，就觸發自動化：兩分鐘後依序關閉 NAS → PVE，Home Assistant 自己則靠 APC 那顆的電池撐著繼續跑，電腦另外由 PowerPanel 在停電五分鐘後自己關機。等電力恢復，Home Assistant 再送 Wake-on-LAN（喚醒封包）把 NAS 跟 PVE 都叫醒。這次真正的意外測試：換電池這次不是真的停電，是計畫性地把第一顆 UPS（NAS/HA/PVE 那顆）整顆拔掉換電池。差別在於，平常真的停電時，Home Assistant 是靠 APC 那顆的電池撐著活下來的，這次是直接切斷電源，連 Home Assistant 自己都跟著斷電。 ...

機器人自動生成的 Paper Tools 宣傳圖，紅框標註導向收費網站的按鈕與原版開源 repo 位置

我的開源工具，被機器人業務盯上了！

前面分享的論文工具 paper-review-and-digest，開源上線沒幾天，就收到了第一個 GitHub issue！第一次收到 issue 其實蠻開心的，點開一看更驚訝：對方不只讀了我的 code，還精準講出設計裡我最得意的部分。他說他欣賞「模型與確定性檢查的硬切分」：grade_judge.py 不信任模型自己回報的證據等級，而是從降級項重新計算；argdown_lint.py 會抓出「替代指標跳到硬終點」這類論證跳躍。然後說他幫我做了一個線上入口，訪客不用安裝 Claude Code，上傳 PDF 就能跑評讀流程，連宣傳圖都做好了：哇，有人這麼認真讀我的專案，還幫我做了網頁版和這麼漂亮的圖？等等，這是真人嗎？開心之餘總覺得哪裡怪怪的。這網站有免費額度、有點數收費系統，商業模式完整得不像順手之作。想說反正有 Claude，就請他去查查這位熱心網友的底細。結果一查，反轉來得比想像中快🤣。Claude 列出的證據：兩分鐘內，這個帳號對 26 個 repo 發了 issue。全部都是論文閱讀工具：arxiv-summarizer、paper_agent、PaperAgent⋯⋯我的排第 13 個。前一天還有另一波，打的是 Claude Skills 類的 repo。連結裡的追蹤參數直接寫著 campaign 名稱：20260708-paper-reading-comprehension-assistants。這是排程好的行銷批次，不是有感而發。帳號今年三月才建立，0 followers，卻有 140 個 repo。 GitHub 的搜尋 API 拒絕搜尋這個帳號（user cannot be searched），這通常代表帳號已經被平台標記為 spam。那段讓我心花怒放的技術讚美，是 LLM 逐一讀每個 repo 自動生成的。爬 repo 餵給模型很便宜，這正是它讀起來「像真人」的原因。最後一句「Feel free to close this if it isn’t relevant」，是 spam 帳號降低被檢舉率的標準話術。宣傳圖角落有小字標我的 repo，連 star 數都即時抓，做得很精緻；但點進他網站的頁面，作者欄掛的是他自己的名字。MIT 授權確實允許商用，不過這個掛名方式就有點微妙了。認真想了一下，這個生意其實跑得起來罵完之後認真想，這個模式其實蠻厲害的。我實際註冊進去看了帳務頁，整個商業模式就攤在眼前：註冊送 500 點，跑一次論文分析扣 38 點左右，換算大概不到台幣 2 塊。免費額度夠你跑十幾次，嘗到甜頭之後，Stripe、PayPal、微信、支付寶四種儲值管道排排站等你。 ...

paper-review-and-digest 的 GitHub 風格封面卡，標示兩個 skill：評估可信度的實證醫學評讀，與三層結構快讀、生成自我測驗的內容吸收

我把 journal club 的「讀論文腦」寫成了 AI skill，還逼它不能靠印象唬爛

前面分享的論文學習小站，有個「品質」、「內容」按鈕，那時沒有把背後的實作放出來。算是個有前端網頁，但後端還是要靠自己整理的平台。不過我自己的實作，當然後端還是要接給 AI，減輕認知的負荷，這裡就是把後端兩個 skill 分享出來，加速大家學習速度囉！ — 一個負責「這篇可不可信」第一個叫 paper-review，做的是 journal club 那種評讀。依研究設計自動選對工具它會依照論文的類別，選用建議的評讀工具，隨機對照試驗（randomized controlled trial）用 Cochrane RoB 2、觀察性研究用 ROBINS-I、系統性回顧用 AMSTAR-2、診斷準確度用 QUADAS-2，而不是拿一張萬用 checklist 硬套。這件事聽起來理所當然，但你知道大部分「AI 幫你看論文」其實就是一張萬用 checklist 套到底。引用查核：先確認文獻「真的存在」我最喜歡的一關是引用查核。它會先去 CrossRef 確認每一篇被引用的文獻「真的存在」，再比對「論文說這篇文獻講了什麼」跟「這篇文獻實際上講了什麼」。為什麼要先查存不存在？因為 AI 寫出來的引用，沒稽核的話正確率其實只有四到八成，假 DOI、張冠李戴的狀況比想像中多。所以這一步是一個很便宜、但很有用的防呆。統計顯著不等於臨床顯著還有一個地方我很堅持：統計顯著不等於臨床顯著。所以它會把效果量拿去跟量表的最小臨床重要差異（minimal clinically important difference, MCID）比，p 值小於 0.05 但根本沒過 MCID，它就會直接講出來。整體借鏡了林協霆醫師的分享，還有之前學 EBM 的內容，大家也可以再加入你覺得重要的部分。 — 重點：我不讓 AI 靠「印象」給分這是這次我自己覺得最有意思的部分。一開始我讓 Claude 自己算證據等級（GRADE）、自己判斷「結論有沒有超過資料能支撐的範圍」。但我後來覺得不對，因為這種東西讓語言模型「憑整體感覺」給一個分數，它其實很會講得頭頭是道，可是你沒辦法檢查它到底怎麼得出來的。所以我乾脆寫了兩支確定性的小程式，把「判斷」跟「計算」分開： grade_judge.py：把 GRADE 變成算術語言模型只負責評五個面向（risk of bias、inconsistency、indirectness、imprecision、publication bias），每個面向給「不嚴重／嚴重／很嚴重」。真正的最終等級由程式加總算出來，不是模型自己講。模型自報的等級只當參考，如果跟程式算的不一樣，程式還會跳出來提醒「這兩個對不上，回去重看某個面向」。它甚至會幫你擋掉 GRADE 的規則錯誤，例如觀察性研究只要有任何一項被降級，就不准再往上升級，這個規則模型很容易記錯，程式不會。 argdown_lint.py：把結論的邏輯漏洞變成可以檢查的東西這支更好玩。語言模型負責把論文的結論、還有每一個「用來支撐結論的發現」標上類型（這是隨機對照試驗的直接證據？還是只是相關性？還是只是替代指標？還是只是次要 outcome？），然後由程式判斷這個推論跳得合不合法。例如「用替代指標的改善，去宣稱對真正的臨床終點有效」、「用相關性去宣稱因果」、「用單一研究去宣稱『一致地顯示』」，這些都是論文 spin 最愛躲的地方。程式抓到就直接標紅、回報有漏洞。 ...

題庫領航首頁畫面，顯示距筆試倒數天數、開始練習、錯題區與 Dashboard 入口

刷題平台：間隔複習、錯題本、落點分析

備考復健科專科考試的這段日子，我用工程師的方式幫自己解決了一個老問題：考古題到底要怎麼練，才不會練完就忘？最後做出了一個小工具，叫「題庫領航」，想說整理一下、也開放出來分享給有需要的人。 🔗 線上 Demo（內建示範帳號，開啟就能玩）：https://exam-demo.drpwchen.com 🔗 原始碼：https://github.com/drpwchen/exam-practice 為什麼想自己做一個？準備筆試時，最有效的方式之一就是反覆練歷屆考題，並針對「會錯的」加強複習。道理大家都懂，但實際做起來有兩個痛點。第一，單純看著題目考自己很容易疲倦，而且你會不自覺一直練「已經會的」，真正的弱點反而被跳過。第二，「什麼時候該複習哪一題」這件事，靠人腦排程根本排不來。今天練的這題，三天後還記得嗎？一週後呢？沒有人知道，於是只能全部重練，效率很差。我想起在背英文單字時用過的記憶演算法，心想：考古題不也是一種「要記住的卡片」嗎？於是就動手了。它能做什麼？把 PDF 考題變成可練習的題庫：歷屆考題多半是 PDF，我寫了一條匯入管線，自動把題目、選項、答案切出來，圖片題（X 光、超音波、量表）也會一起抽出來。詳解直接以「該頁截圖」呈現，避免文字辨識誤植選項或答案。用 FSRS 安排每一題的複習時間： FSRS 全名是 Free Spaced Repetition Scheduler，是一套間隔重複演算法。它會根據你每次作答的「對錯、信心、花了多久」，推估你對這一題的記憶曲線，然後在你「快要忘記、但還救得回來」的甜蜜點，把它再丟回來給你練。和科內夥伴一起練：你看得到同儕的進度，也看得到「大家最常錯的題」。一個人讀書很孤單，知道大家都卡在同一題，反而有種莫名的安心感 😅。目標進度設定：在 Dashboard 可以看到目前自己刷題進度、正確率，並且搭配目標設定功能，確立自己在幾天內需要完成多少題。預測你考試當天大概會考幾分：這是我自己最喜歡的功能。系統會用你各科的正確率、乘上該科在真實考試的配分權重、再乘上 FSRS 推估你「到考試那天」還記得多少，算出一個落點分數，還附上信賴區間，以及「持續複習」和「都不複習」兩種情境的對比。看著預測分數隨著複習慢慢往上爬，是很實在的回饋。畫面一覽 📱 🏠 首頁 📄 PDF 考題原始畫面 ⚙️ 練習設定 ✍️ 答題畫面 👥 大家的錯題本 📌 個人錯題本（依失敗型態分類） 📊 Dashboard 總覽 🎯 落點分數預測一些設計上的小巧思做著做著，發現有些細節還滿有意思的：錯題不是一視同仁。我把答錯的題分成四種型態：死穴（反覆錯）、易忘（記憶留存率掉太快）、盲區（明明很有把握卻答錯，也就是過度自信）、新錯（最近一次才錯）。你可以只挑某一種弱點來補，對症下藥。出題用三個池子混。到期該複習的題 70%、沒看過的新題 20%、自己加星的題 10%，兼顧鞏固舊的跟攝取新的。選項每次重新洗牌。避免你背的是「答案在第三個」而不是真的會。開放非商業使用，商業使用請另外聯絡我把它整理成原始碼公開的版本，順手清掉了院內的真實資料，換成合成的示範資料，任何人 clone 下來就能看到完整功能。也歡迎其他專科的朋友 fork 過去，改成你自己科別的版本，引擎和排程都不用動，換掉題庫和分類就好。 ...

把我的論文讀書小站開源了

前陣子分享了我自己做的論文讀書小站，收到不少訊息問「這個我也能用嗎？」、「到底怎麼運作的？」。這篇就好好把它講清楚，順便告訴你，我已經把它整理成開源版本放上 GitHub 了。先講我想解決的問題。身為復健科醫師，我想追的期刊有幾十本，還有幾位很想跟的作者、幾個一直在關注的主題。傳統做法是把一堆 RSS 訂閱倒進閱讀器或筆記軟體，結果每天累積上百篇，很快就變成一個「永遠讀不完、也不知道從哪讀起」的垃圾堆。最後不是焦慮，就是乾脆不看。我要的不是「看更多」，而是一個會先幫我篩、幫我排序的雷達，讓我只把注意力放在真正該讀的那幾篇。於是有了這個小站，它大概分成這幾層在運作。一、自動抓取：把幾十個來源收成一條河每天清晨，主機會自動去抓幾十個來源：期刊的 RSS、還有用 PubMed 搜尋做的「作者追蹤」和「主題追蹤」。有些期刊的 RSS 很爛或根本擋機器人，我就改用 PubMed 的查詢繞過去，一樣抓得到，而且附帶 DOI 方便後面處理。全部抓回來後自動去重，變成一份乾淨的清單。二、興趣評分，而且會越用越懂我這是我最喜歡的一層。每一篇都會用一個「興趣模型」算分數，把我最可能有興趣的排到最上面，雜訊沉到下面。更關鍵的是它會學。我在手機上滑的時候，看到喜歡的按個讚、沒興趣的略過，這些反應會回頭微調模型的權重。用得越久，它越懂我的口味，排序就越準。這種「你教它、它回饋你」的迴圈，是我覺得比單純 RSS 高明的地方。三、全文三層：先幫我確認「拿不拿得到」看到想讀的，最煩的往往是「找得到、但打不開全文」。所以每篇我都先自動幫它標好取得難度： 🟢 開放取用（Open Access）：直接幫我把 PDF 抓下來。 🏥 機構訂閱：自動去查我所屬圖書館有沒有訂閱這本期刊、這篇現在拿不拿得到。 📎 自己補：以上都沒有的，附上連結讓我自己抓，或直接把 PDF 丟上去。這樣我在滑的當下就知道每篇「能不能讀」，不用一篇一篇點進去碰運氣。四、一個只給自己看的私密小站整個站是鎖起來的，只有我進得去，沒有對外公開、也沒有署名。它是我一個人的閱讀桌，手機、電腦打開都是同一份狀態，昨天在捷運上勾過的、今天在醫院打開一樣看得到。介面就是一張張論文卡片，帶著上面說的徽章，還有幾顆動作鈕。五、勾一勾，剩下的它包了這是把前面所有東西串起來的閉環。看到喜歡的，我就勾「想整理內容」或「想評讀品質」，跟它說一聲，它就自動：幫我抓全文、把重點整理成筆記、做評讀，最後收進我自己的筆記系統裡。人在外面看到別人分享的好文章，也能直接丟進這個網頁，一樣幫我處理好。於是我的閱讀從「被上百篇淹沒」，變成「每天滑一滑、勾幾篇、讀它整理好的重點」。省下來的時間跟力氣，比我想像的多很多。開源出去，也歡迎你打造自己的雷達我把自己的東西整理乾淨，放上 GitHub 了，附了中英文說明： 👉 https://github.com/drpwchen/paper-radar 它不只能用在醫學。任何有 RSS 的來源，論文、新聞、部落格，都能 fork 去改成自己領域的雷達。想自己架一個的人，可以照著說明走。補充一下：雷達幫我挑出來的論文，下游是交給另外兩個負責「評讀」跟「整理」的工具去讀的，那部分我後來也整理開源了，寫在這篇。雷達管挑、skill 管讀，兩端接起來才是完整的讀論文流程。最後講點私心。這個念頭其實在心裡很久了。還沒踏進 vibe coding 之前，我看到吳易澄醫師（運動醫學、復健醫學）做了一個類似的平台，那時候又羨慕又好奇，心想「要是我也有一個就好了」。沒想到現在真的能親手把它做出來，還能整理乾淨分享給大家。從一個羨慕別人的念頭，到自己動手實現，再到開源分享出去，這種感覺真的很奇妙，也很開心 😊 如果你也常常被讀不完的資訊淹沒，歡迎來看看，也歡迎順手給顆星 ⭐，這對我會是很大的鼓勵。如果這個工具有幫你省下時間，也歡迎請我喝杯珍奶，讓伺服器繼續轉下去 🧡 請我喝珍奶！

幫 AI 整理一張乾淨的工作桌

📖 省 Token 系列（共四篇）：第一篇為什麼你的 AI 越聊越笨 · 第二篇能用算盤就別開超級電腦 · 第三篇（本篇）· 第四篇我幫 AI 裝了一個省錢儀表板前兩篇都還停在「人人可用」的層次。從這篇開始，我帶你看我電腦裡那套被我折騰到很細的設定。先說背景。我除了在手機上用 AI 聊天，更常用的是一個叫 Claude Code 的工具：它跑在電腦的終端機裡，可以直接讀我的檔案、改我的筆記、幫我自動化一堆事。你可以把它想成「一個住在我電腦裡、能動手做事的 AI 助理」。正因為它能做的事多、跑的次數多（一個任務動輒呼叫 AI 幾十上百次），省 token 在這裡的回報會被放大很多倍。而省 token 的第一原則，跟整理書桌一模一樣：桌面上只放現在用得到的東西，其他都收進抽屜。常駐稅：有一種成本，你每一句話都在付我有一個檔案叫 CLAUDE.md，裡面寫著我給 AI 的長期規則：筆記要用什麼格式、哪些資料夾不要碰、我的偏好是什麼。這個檔案有個特性：它在每次開工的最一開始就被載入，而且整段工作過程都常駐在 AI 眼前，不會被收走。意思是，如果這個檔案有 5000 個 token，那麼無論我今天只問兩句、還是聊兩百句，每一句的背後都在重複付這 5000 個 token 的錢。我把它叫做「常駐稅」。每一行都是稅。所以我刻意把它壓在 95 行左右，只留真正穩定不變、非寫不可的規則。會議記錄、設計過程、長篇說明，全部移到別的地方，要用的時候才叫出來。順帶一提，這些「只給 AI 看」的設定檔，我一律用英文寫。因為中文在 token 計算上比較貴（同樣意思的中文通常比英文吃更多 token），而給人看的筆記我才用中文。給 AI 的省錢，給人的好讀，各得其所。抽屜：讓記憶分層，不要全攤在桌上我給 AI 做了一套記憶系統，但重點不是「記越多越好」，而是分層：真正天天用到的，放在最上層，每次開工自動載入。偶爾才用的，收進抽屜，需要時才拉出來。很久沒碰的，直接封存。我還做了一個「使用熱度」的計分：常被讀到的記憶分數高、留在桌上；冷掉的自動往下沉。這樣桌面永遠只有當下最相關的那幾張紙。道理跟上一篇的算盤一樣：這套熱度排序是用程式算的，不勞駕 AI。這對手機聊天版的人也有啟發：ChatGPT 的「記憶」和「自訂指令」功能不是免費魔法，它是每次對話前自動幫你貼上去的隱形內容，一樣佔空間、一樣每句重算。所以記憶要精簡，不是塞越多越好。 ...

一隻友善的機器人看著有預算錶針的儀表板，指針在節奏正常區，token 金幣流進小豬撲滿

我幫 AI 裝了一個省錢儀表板

📖 省 Token 系列（共四篇）：第一篇為什麼你的 AI 越聊越笨 · 第二篇能用算盤就別開超級電腦 · 第三篇幫 AI 整理一張乾淨的工作桌 · 第四篇（本篇，完結）來到系列最後一篇。前三篇我們從「為什麼 AI 越聊越笨」，一路講到「什麼時候別用 AI」「怎麼幫它整理桌面」。這一篇談的是錢真正花下去的那一刻：怎麼把每一塊錢花在刀口上。第一件事：不是每件事都需要最聰明的腦袋（但省下來，就是為了負擔得起好的） AI 模型有分等級。以 Claude 為例，由便宜到貴大致是 Haiku、Sonnet、Opus 三級，價差很大。如果你是按使用量付費的人，最直接的省法就是「派對的等級做對的事」：改格式、重新命名、簡單分類這種雜事，交給最便宜的 Haiku 就好；日常的寫作、查資料用中間的 Sonnet；只有真正需要深度推理的硬任務，才動用最強的 Opus。這裡還有一個很多人都搞錯的觀念，特別講一下：「要看圖」不等於「要用最貴的模型」。當你只是要 AI「看一張圖、認出裡面有什麼、把上面的字讀出來」這種辨識任務，最便宜的 Haiku 通常就完全夠用，便宜到一個誇張。只有要它「看懂一張複雜的醫學示意圖、解讀圖表背後的邏輯」這種需要推理的視覺任務，才值得升級。選模型的真正標準，是「這個任務需要多少思考」，不是「要不要看圖」。不過老實說，我自己現在反而大多直接用最強的 Opus，XD。為什麼？因為我發現，在目前的訂閱方案下，把前面三篇那些省 token 的功夫都做好之後，我的額度其實用不太完，而最強的模型品質又明顯比較好。所以對我來說，與其斤斤計較每件事該用哪一級，不如把省下來的額度，拿去讓最好的模型做每一件事。我覺得這反而是整個系列最想講的一件事：省 token 從來不是為了小氣。我把浪費擋掉、把該交給程式的交給程式、把桌面整理乾淨，省下來的這些，剛好讓我負擔得起「把最好的腦袋，用在每一個我在乎的問題上」。省，是為了能大方地花在刀口上。最後補兩個進階的小心法：讓 AI 少廢話，可以一勞永逸。 AI 的「輸出」比「輸入」貴上好幾倍（以 Opus 為例差到五倍），所以請它回答精簡就是直接省錢。而且這件事你不用每次重講，直接寫進給它的長期指令裡（就是第三篇那份常駐設定檔，或聊天版的「自訂指令」），叫它預設就講重點、不要長篇大論。一次設定，之後每次都省。思考深度也能調。同一個模型可以設定它「想多深」，簡單的事用淺一點、難的事才開深度思考。重點永遠是：把力氣花在真正難的地方。第二件事：把吵鬧的雜事，丟到隔壁房間做有些工作會吐出一大堆過程訊息：跑一輪測試、抓一份長文件、處理一堆紀錄。如果讓這些雜訊全部堆在主對話裡，桌面馬上被淹沒（回到第三篇，桌面一髒就又貴又笨）。我的做法是派一個「分身」去隔壁房間做這件事。分身有自己獨立的工作空間，它的所有過程、雜訊、草稿都留在那個房間裡，只有最後的結論回到我的主對話。這就像你請助理去查一整天資料，你不需要看他翻過的每一頁，只要他最後給你一頁重點。但這招有取捨，我必須老實說：派分身本身也要花錢，而且分身會自己燒一輪 token。官方就提醒過，大量用分身的工作流，總花費可能是單打獨鬥的好幾倍。所以原則是：當「保持主桌面乾淨」的價值，大於「多請一個分身」的成本時，才派。不是什麼都丟分身。（這篇從頭到尾，你會發現省 token 沒有一招是無腦的，每一招都在權衡。這正是它好玩的地方。）第三件事：裝一個會對我跳表的儀表板講了這麼多省法，最後一塊拼圖是：你得看得見自己花了多少。看不見的支出最危險。所以我裝了一個開源小工具，叫 cc-budget（由 boyand 開發，在 GitHub 上找得到）。 ...

計程車跳表上扛著被 token 金幣壓垮、下沉的對話泡泡，一隻友善的機器人吃力地拖著它

為什麼你的 AI 越聊越慢、越聊越笨？

📖 省 Token 系列（共四篇）：第一篇（本篇）· 第二篇能用算盤就別開超級電腦 · 第三篇幫 AI 整理一張乾淨的工作桌 · 第四篇我幫 AI 裝了一個省錢儀表板你一定有過這種經驗：跟 ChatGPT 或 Claude 聊一個下午，越到後面它越遲鈍，回得越慢，還會突然「忘記」你前面講過的事，甚至開始鬼打牆。很多人以為是自己網路慢，或是 AI 當機。其實不是。這背後有一個大多數人不知道、但知道之後會立刻改變你用法的真相。真相一：AI 其實沒有「記憶」我們直覺以為，AI 像人一樣，聊著聊著就「記住」了對話。它沒有。每一次你按下送出，AI 都把你們從第一句到現在的整段對話，從頭重讀一遍，然後才回你下一句。它不是接著上一句講，而是每次都把整本對話重新看過。所以你可以想像：對話越長，它每回答一句之前要重讀的東西就越多。這就是為什麼越聊越慢。真相二：你其實一直在付錢，只是看不到帳單 AI 處理文字的單位叫 token（大致是一個字或半個詞）。你輸入的每個 token、它輸出的每個 token，背後都在計費。最好記的比喻是：token 就是 AI 的計程車跳表。距離（字數）越長，車資越高。你在訂閱制的 App 裡看不到這張帳單，但它換了一張臉出現在你面前：就是那個「你今天的訊息額度已用完」，還有「怎麼越來越慢」。額度和卡頓的背後，都是 token 的運算量。而且這筆帳不是線性疊加的。對話長度加倍，你付的運算量不是兩倍，而是接近四倍（這是 AI 內部運算機制的數學特性）。難怪長對話的卡頓感像在爆炸。真相三：越塞，反而越笨這點最反直覺，但最有用。 AI 的「注意力」是有限的，所有注意力加起來永遠等於一份。你塞進去的內容越多，每個重點分到的注意力就被稀釋得越薄。多餘的廢話會偷走本該分給關鍵問題的專注力。這不是我隨口說的。一篇很有名的研究 Lost in the Middle（Liu et al., 2024）發現一個 U 型曲線：資訊放在對話的開頭或結尾，AI 記得最牢；但埋在中間的重點，記得的機率會掉到只剩大約兩成。難怪它常常把你中間講的事忘光光。另一份 Chroma 在 2025 年的研究測了 18 個主流模型，發現它們全部都隨著輸入變長而表現下滑，這現象被叫做 context rot（脈絡腐化）。 ...

陳柏威醫師 Po-Wei Chen, MD

專長與興趣

最新文章