TL;DR
- 本文解決:想用自己的手機跑 LLM,但不知道要裝什麼 app、能跑多大的模型、能不能進開發工作流
- 推薦給:好奇手機算力極限的工程師、想在離線環境用 AI 的人、評估 on-device AI 可行性的開發者
- 讀完你會知道:PocketPal AI / LLMFarm / MLC Chat 三大主流 app 怎麼選、iPhone 15 Plus 真實能跑哪些模型、為什麼「手機算力幫電腦」是死路
📌 目錄
🧠 手機跑 LLM 真的有人在用嗎
先說結論:有,但「跑得動」跟「實用」是兩回事。
2026 年 5 月的現況:iOS / Android 都有成熟的本地 LLM app,旗艦機種 1B-3B 量級的模型可以跑出堪用速度。PocketPal AI 是 a-ghorbani/pocketpal-ai 維護的開源 app,2025 年 1 月上線、2026 年 4 月時 iOS + Android 累計 500K+ 下載,是目前最熱門的選擇。
但「最熱門」不代表「主流」。真正讓所有 iPhone 用戶都在「跑 on-device AI」的其實是 Apple Intelligence——Apple 在系統內塞了一個約 3B 參數的 foundation model,限 iPhone 15 Pro 以上(A17 Pro / M1+)才支援。多數人在用 on-device AI 卻不自覺,因為它包裝在「摘要通知」「改寫訊息」這類功能裡。
主動裝 app 在手機跑 LLM 的,目前還是小眾,集中在三種人:
⚖️ 三大主流 app 比較
iOS 平台有三個常被推薦的選項:PocketPal AI、LLMFarm、Private LLM。Android 主流是 PocketPal AI、MLC Chat、Google AI Edge Gallery。
| 功能 | PocketPal AI | LLMFarm | MLC Chat |
|---|---|---|---|
| 平台 | iOS + Android | iOS + macOS | Android(iOS 有但較舊) |
| 引擎 | llama.cpp | llama.cpp + ggml | TVM Unity + NPU |
| 模型格式 | GGUF | GGUF | MLC 編譯後格式 |
| HuggingFace 直接抓 | ✓ | △(手動) | ✗ |
| NPU 加速 | ✗(CPU/Metal) | ✗ | ✓(Snapdragon Hexagon) |
| 內建 benchmark | ✓ | △ | ✗ |
| 免費 | ✓ | ✓ | ✓ |
| License | MIT | MIT | Apache 2.0 |
- iOS 首選 PocketPal AI:UI 最友善、可直接從 HuggingFace 抓模型、內建 benchmark 可實測自己手機的極限
- 想試多種引擎的工程師選 LLMFarm:更彈性、可調參數多、但 UI 沒 PocketPal 親切
- Android 旗艦選 MLC Chat:唯一吃得到 NPU 加速,在 Galaxy S25 Ultra 上跑 Qwen3 1.7B 可衝到 ~40 tok/s(CPU-only 同機種只 8-12 tok/s)
⚡ iPhone 15 Plus 真實能跑什麼模型
這是最容易誤導的部分。網路上很多文章寫「iPhone 跑 LLM 沒問題」,但沒講清楚是哪一代、跑多大、什麼速度。
依據 PromptQuorum 2026 mobile LLM 報告 與 Argmax iPhone 17 inference benchmark:
| 機種 | 晶片 | RAM | 跑 3B 模型速度 | 實用性 |
|---|---|---|---|---|
| iPhone 17 | A19 Pro | 12GB | ~14 tok/s | 堪用 |
| iPhone 16 (非 Pro) | A18 | 8GB | ~3 tok/s | 卡 |
| iPhone 15 Plus | A16 | 6GB | 預估 5-8 tok/s | 吃緊 |
| iPhone 14 Pro | A16 | 6GB | 同 15 Plus | 吃緊 |
結論:iPhone 15 Plus 的甜蜜點是 1B-2B 模型,不是 3B。 推薦這幾個:
| 模型 | 大小(Q4) | 跑速預估 | 適合場景 |
|---|---|---|---|
| Llama 3.2 1B Instruct | ~700MB | 20-30 tok/s | 翻譯、改寫、簡單問答 |
| Qwen3 1.7B | ~1.2GB | 15-25 tok/s | 中文對話 |
| Gemma 2 2B | ~1.6GB | 10-15 tok/s | 通用、Google 出品 |
| Phi-3.5 mini 3.8B | ~2.3GB | 5-8 tok/s | 邏輯/coding 偏強,但會慢 |
跑速數字是依 A16 vs A18 比例外推,實測請用 PocketPal 內建 benchmark 自己跑一次,不同 iOS 版本與後台狀態都會影響。
🚀 PocketPal AI 從 0 開始安裝
前置需求
| 項目 | 用途 | 怎麼確認 |
|---|---|---|
| iPhone(iOS 16+) | 安裝 app | 設定 → 一般 → 關於本機 |
| 至少 4GB 可用儲存空間 | 模型檔下載用(1.5GB 模型 + buffer) | 設定 → 一般 → iPhone 儲存空間 |
| Apple ID | App Store 安裝 | 設定頂部頭像 |
| 穩定 WiFi | 首次下載模型(300MB-2GB) | 設定 → Wi-Fi |
| (可選)HuggingFace 帳號 | 抓 gated 模型用,公開模型不需要 | huggingface.co |
+ 號 → Add from Hugging FaceLlama-3.2-1B-Instruct-GGUF → 選 bartowski/Llama-3.2-1B-Instruct-GGUF → 挑 Q4_K_M 版本(檔案約 770MB)→ Download驗證裝起來了
在 Chat 輸入:請用一句話介紹你自己
預期:3-10 秒內出現回應,畫面下方顯示 tok/s 數字
如果沒看到 tok/s 數字 → 模型沒 load 成功,回 Models 重點一次 Load。
內建 benchmark 跑一次(強烈建議)
主選單 → Benchmark → 選剛下載的模型 → Start。會跑出三個數字:
- Prompt processing:模型「吃」你輸入內容的速度
- Token generation:模型「吐字」的速度(這是你日常感受到的速度)
- Memory usage:跑這個模型佔多少 RAM
✍️ 我實際試的模型與 prompt
裝完之後我跑了三個情境,分享給你參考。
情境一:離線翻譯
Prompt: 把下面這段話翻成自然的英文:
「我下週要去日本出差,幫我訂一間京都車站附近的旅館,預算單晚 1 萬日圓內。」
Llama 3.2 1B 回應(~20 tok/s):
"I'm going on a business trip to Japan next week. Could you book me a hotel
near Kyoto Station for under 10,000 yen per night?"
評:可用。語法正確、語氣自然,飛航模式下能跑就贏。
情境二:把口語訊息改成正式 email
Prompt: 把這段 LINE 訊息改成正式商業 email:
「老師我下週請假喔 因為要去婚禮 之後補課可以嗎」
Qwen3 1.7B 回應(~15 tok/s):
(生出一封 200 字 email,稱謂、請假事由、補課請求都有)
評:結構完整,但用詞偏中規中矩,不夠俐落。3B 以上會更好,但 1.7B 已堪用。
情境三:請它寫 coding
Prompt: 寫一個 Python function 算費氏數列第 n 項,要 O(n)
Phi-3.5 mini 3.8B 回應(~6 tok/s,明顯比前兩個慢):
(正確產出 iterative 版本 + 簡單註解)
評:1B 模型寫不出正確的,需要 3B+ 才穩。但 6 tok/s 真的慢,你會邊看它打字邊覺得不如直接打開 ChatGPT。
真實使用建議:
- 翻譯 / 改寫 / 簡單問答 → 1B 模型,速度感受最好
- 中文場景 → Qwen3 系列(阿里出,中文 native)優於 Llama
- 寫 code / 邏輯推理 → 3B 以上才堪用,但要忍受慢
- 連續對話超過 5 輪 → context 變長後速度明顯掉,定期開新對話
🔥 踩到的坑
裝起來後實際用,這幾個坑很容易讓人氣噗噗,先講免得你被嚇到。
坑 1:手機發燙、電量狂掉
實測連續對話 10-15 分鐘,手機背蓋明顯燙手、電量大概掉 5-10%。ItsFoss 在 Snapdragon 8 Gen 2 上的測試是 90 分鐘掉 50% 電。
為什麼: LLM 推論 CPU/GPU/Neural Engine 全速跑,跟玩 3A 遊戲類似的負擔。
解法: 沒有,這是物理限制。對策:
- 用完隨手退出 app(PocketPal 有 auto offload,但有時會殘留)
- 不要邊充電邊跑(雙重發熱會更快觸發降頻)
- 重度使用配無線充電板 + 風扇
坑 2:長對話越來越慢
對話 context 超過 2K tokens 之後,token generation 速度會掉 30-50%。
為什麼: Attention 計算量隨 context 長度二次方成長,手機算力撐不住。
解法: 養成「一個話題開一個新對話」的習慣,不要把所有對話塞同一個 session。PocketPal 主選單 → 左上「+」開新對話。
坑 3:模型載入失敗 / app 被系統殺
6GB RAM 的 iPhone 15 Plus 跑 2B 以上模型,只要切到別的 app 一段時間,回來 PocketPal 通常要重新載入模型(5-10 秒等待)。
錯誤訊息範例:
Model not loaded. Tap to reload.
為什麼: iOS 記憶體吃緊時會把 background app 的 memory 釋放掉,PocketPal 的模型是 in-memory 狀態。
解法: 跑 LLM 時不要同時開大量 app(特別是相機、地圖、瀏覽器多分頁),或乾脆接受「每次回來等 5 秒重 load」的事實。
坑 4:Q4 量化在複雜推理上會崩
ItsFoss 文章提到「4-bit 模型在複雜推理上會 struggle,需要 8-bit 才穩」。我自己測也是,3B 模型 Q4 寫遞迴函式偶爾會 off-by-one。
解法: 如果你的手機 RAM 夠(8GB+),考慮抓 Q5_K_M 或 Q8_0 版本,犧牲一點速度換準確度。iPhone 15 Plus 6GB 沒這個本錢,乖乖用 1B 模型。
💻 手機算力能不能餵電腦
很多人裝完手機 LLM 之後會冒這個念頭:「手機閒置時間長,能不能讓電腦 call 手機的模型,當算力共享?」
結論:技術上可行,實務上沒意義。
| 比較項 | 手機跑 LLM | 電腦跑 LLM(Ollama) |
|---|---|---|
| 速度(7B 模型) | 跑不動 | 50-100 tok/s(M1 以上) |
| 速度(3B 模型) | 5-14 tok/s | 80-150 tok/s |
| 上下文上限 | 2K-4K 後變慢 | 32K+ 輕鬆 |
| 發熱 / 電池 | 嚴重 | 沒事 |
| 同時用其他 app | 容易被系統殺 | 沒影響 |
如果你的真實需求是「閒置算力不要浪費」,更划算的方向是:
qwen2.5-coder:7b 或 qwen3:8b,接 Continue.dev 進 VS Code 當 inline completion,省 Copilot 月費💰 時間成本拆解與心法
把這次「裝手機 LLM 玩玩看」的成本攤開:
| 階段 | 時間 |
|---|---|
| 裝 PocketPal AI + 下載第一個模型 | 5-10 分鐘 |
| 試 10 個 prompt 感受速度 | 15 分鐘 |
| 跑 benchmark + 換模型測試 | 20 分鐘 |
| 接受「這就是上限」並回去用雲端 LLM | 5 秒 |
📅 如果你裝完想再玩深一點: 試試把 Mac 裝起 Ollama,跑 qwen2.5-coder:7b,再透過 Tailscale 從手機 PocketPal 接過去——這樣手機當 thin client,背後是電腦的算力,相當於自己的 ChatGPT。這條路才是「手機 + 本地 LLM」真正划算的玩法。
❓ 常見問題
用手機跑本地 LLM 跟用 ChatGPT App 差在哪?
完全不同等級的東西。ChatGPT App 是把問題送到 OpenAI 的雲端伺服器(GPT-4 / GPT-5 等 200B+ 參數模型),回傳結果。手機本地 LLM 是在你的手機 CPU/GPU 直接跑 1B-3B 參數模型,速度慢、智能差很多,但完全離線、隱私 100% 留在手機。
iPhone 15 Plus 6GB RAM 真的能跑嗎?會不會壞機?
能跑,1B-2B 模型完全沒問題,跑 3B 會吃緊但不會壞機,iOS 會自動管理記憶體。長期重度使用唯一的擔憂是電池壽命——LLM 推論是高負載,跟玩遊戲一樣,每天跑 1 小時持續半年才會明顯感受到電池健康度下降。
Apple Intelligence 跟 PocketPal 差在哪?要不要兩個都裝?
不衝突。Apple Intelligence 是 iOS 內建、深度整合到通知摘要 / 訊息改寫 / Siri,限 iPhone 15 Pro 以上才支援。PocketPal 是獨立 app,所有 iPhone 都能裝,可自己挑模型、看 token 速度、跑 benchmark。Apple Intelligence 是「無感的便利」,PocketPal 是「主動的實驗」。
我手機 LLM 能不能用來開發 / 餵電腦呼叫?
技術可行,實務沒意義。手機算力遠輸電腦,跑 3B 也只有電腦的 1/5-1/10 速度,還要解 IP / port / 電池管理。反過來做才對:電腦跑 Ollama,手機當遠端 client。如果你的真實需求是閒置算力榨乾,把預算投在桌機 RAM 升級比較划算。
Android 也能裝嗎?選哪個 app?
可以。Android 旗艦(Snapdragon 8 Gen 3 以上、12GB+ RAM)首選 MLC Chat——唯一吃得到 Snapdragon Hexagon NPU 加速,跑 Qwen3 1.7B 可衝到 ~40 tok/s。中階手機或不在意 NPU 的,用跨平台的 PocketPal AI 介面比較好。Google AI Edge Gallery 也是選項,跑 Google 自家 Gemma 系列。
🔗 延伸資源
- PocketPal AI GitHub — 原始開源 repo,issue 區可看其他人手機的 benchmark
- LLMFarm 官網 — iOS + macOS 替代方案
- MLC LLM 官方 — Android NPU 優化引擎
- Apple Foundation Models 官方介紹 — 想了解 Apple Intelligence 背後 3B 模型的設計
- Hugging Face GGUF 模型搜尋 — PocketPal / LLMFarm 模型來源
- 本站相關文章:Karpathy LLM Wiki 跑兩週實測 — 想理解 LLM 底層概念