$ cat local-first-ai.md
/ 6分 #privacy #infrastructure

> 自分の道具を持つ人のためのローカルAI

— forge team

デフォルトはすぐに固まった。プロンプトは回線を渡り、誰か他人のGPUが答え、あなたのデータは他人のログに残る。これは大丈夫だ —— 大丈夫でなくなる日までは。一度大丈夫でなくなると、二度と大丈夫にはならない。

ローカルファーストAIは、もう一つのデフォルトだ。モデルはあなたの箱の中で動く。プロンプトは外に出ない。返答にかかるコストは電気代であって、クレジットではない。

理由は三つある。古い議論だ。今でも正しい。

1. 所有権

2019年、Ink & Switchが「Local-first software: you own your data, in spite of the cloud」を発表した。Kleppmann、Wiggins、van Hardenberg、McGranaghan。彼らは七つの理想を挙げる —— スピナー無しに即応すること、作業が一つのデバイスに閉じ込められないこと、ネットワークはオプションであること、シームレスな共同作業、長期保存性、デフォルトでセキュリティとプライバシーが守られること、そして最終的な所有権とコントロール。主張は「クラウドは悪だ」ではない。主張は、作業のプライマリコピーは自分が制御する機械上に置くべきだ、ということだ。クラウドは同期先であって、家主ではない。

これをAIに当てはめる。「作業」とは、あなたのプロンプト、コンテキストウィンドウ、モデルに渡しているドキュメント、会話ログのことだ。プライマリコピーはあなたのいる場所にあるべきだ。ベンダーが畳んでも、道具は動き続ける。値上げされても、道具は動き続ける。「あなたの業界はもう対象外です」と言われても、道具は動き続ける。これが推論に適用された「長期保存性」だ。

2. プライバシー

セルフホスト推論は、「データが箱から出ない」と正直に言える唯一のデプロイ形態だ。セルフホストvsクラウドLLMの業界レビューは同じ観察に何度も戻ってくる。規制対象データが絡む場合 —— GDPR、HIPAA、SOC 2 —— 他人のサーバーに残っている監査ログを正当に説明することはできない。PII検出、出力検証、プロンプト記録 —— すべて信頼境界の内側に留まる。

これがコンプライアンスの枠組み。個人の枠組みはもっと単純だ。見知らぬ他人のターミナルに貼り付けたくないものは、リモートモデルにも貼り付けるな。ローカルモデルは、その「見知らぬ他人のターミナル」が自分のものになっている状態に近い。

3. レイテンシと、電気代としてのトークンコスト

ローカルはもう遅くない。

最近のベンチマーク(SitePoint, 2026)によれば、Ollamaは単一ストリームでLlama 3.1 8B(Q4_K_M)を約62 tok/sで配信する —— 一方vLLM FP16は71 tok/s。13%の差。大部分は量子化の差であって、アーキテクチャの差ではない。Ollamaはllama.cppのカーネルに乗っており、それ自体が同じ設定で素のllama.cppから2〜8%以内に収まっている。Apple Silicon上の70Bモデルでは、絶対値ではさらに差が縮まる。人間が応答を読んでいる限り、違いは感じない。

感じるのはこちらだ。ネットワーク往復は無い。レートリミットも無い。イテレートしている間に「呼び出しごとの0.000なんとかドル」が積み上がることも無い。次のプロンプトの限界費用は、計算に使う電気代だけだ。これが使い方を変える。節約しなくなる。バッチしなくなる。ただ試すようになる。

結局のところ

ローカルファーストAIは純粋主義のテストではない。クラウドモデルは今でも大きく、ロングテールのタスクで強く、一発勝負のリサーチクエリには正しい選択肢だ。ハイブリッドが現実的なスタンスだ。デフォルトはローカル、クラウドはプロンプトごとにオプトイン、データはあなたが明示的に送信しない限り箱から出ない。

forgeが採っているのはその形だ。ローカルモデル、プロンプト無制限、テレメトリ無し。クラウドはフラグであり、デフォルトではない。

道具はあなたのものだ。道具はあなたの家の中で動く。作業はあなたの家の中に留まる。

ソフトウェアとは、かつてそういうものだった。もう一度、そうなれる。

出典