新しいGPUに手を出す前に、少しだけ待ってください。
「ローカルLLMを動かす」と聞くと、最初に気にするのは大抵GPUの性能とVRAM容量です。RTX 4090、RTX 5090、VRAM 24GB。そういった言葉が並びます。確かにGPUは効きます。ただ、効いてくるのは、メモリが足りてモデルが綺麗にロードできた後の話です。買う前に詰まるポイントのほうが多いです。
最初に詰まるのは、実はGPU性能ではありません。VRAM、ストレージ速度、量子化、ドライバ、コンテキスト長。この辺りを順番に潰してからでも、GPU選びで失敗しません。
1. メモリ容量が、本体価格を決める
ローカルLLMの挙動を一番左右するのは、メモリです。GPUの計算速度より先に、メモリがボトルネックになる頻度のほうが高いと感じます。
量子化済みモデルのメモリ目安は、だいたい次のようになります。
- 7Bクラス(Llama 3 8B、Gemma 2 9B):4GB前後
- 13Bクラス(Llama 2 13B、Qwen 2.5 14B):8GB前後
- 70Bクラス(Llama 3 70B):40GB前後
これにKVキャッシュ、OSやアプリのワーキングメモリが加わります。12GB RAMのミニPC(Ryzen 7 5700U)でLlama 3 8Bのq4_K_Mを動かしたとき、ブラウザを数枚開いている状態だと、生成が1トークン1.5秒くらいまで落ちました。スワップが入り始めているはずです。
結論を先に書くと、VRAM/RAMの合計が「モデルの公称サイズ + 2GB」ないと、まともに動きません。GPUを買い足す前に、自分の環境で動かしたいモデルがメモリに載るかを先に確認するのが先です。
2. ストレージの速度が、待ち時間を変える
意外に見落とされがちなのが、ストレージです。NVMe SSDとSATA SSDとHDDでは、モデルのロード時間に2倍以上の差が出ます。7Bクラスで10秒と30秒、70Bクラスになると数十秒と数分の差が開きます。
llama.cppはmmapでモデルを読むため、ストレージのランダムアクセス性能がそのまま効いてきます。NVMe SSDに換装しただけで、トークン生成速度は速くならないのに、起動時の待ち時間は減るという経験をしました。地味に効きます。
3. 量子化は、q4_K_Mかq5_K_Mから入る
Hugging Faceでgguf形式のモデルをダウンロードすると、q2_K、q3_K_M、q4_K_M、q5_K_M、q6_K、q8_0といった量子化レベルのファイルが並んでいます。数字が小さいほどメモリ消費は少ないですが、生成品質も落ちます。
q2_Kとq3_K_Mは、明確に日本語の読みやすさが落ちます。q6_K以上は元のモデルとの差が体感で分からなくなる代わりに、メモリがq4_K_Mの倍近くなります。スイートスポットは、q4_K_Mかq5_K_Mです。
ベンチマークサイトやコミュニティの出力例を確認してから、自分のユースケースにあった量子化を選ぶのが良いです。
4. レイヤーを分けるときは、量子化を一段下げるほうが速い
VRAMに乗り切らないとき、llama.cppやOllamaはレイヤー単位でのGPU/CPU分配に対応しています。30層のうち20層をGPU、10層をCPU、という設定が可能です。
ただし、PCIe経由でCPUにオフロードしたレイヤーは、VRAM上にあるレイヤーより明確に遅くなります。一部をオフロードするくらいなら、量子化を一段下げて全部GPUに載せるほうが、結果として速くなることが多いです。
5. ドライバは、遊ぶ前に更新する
WindowsでNVIDIAのGPUを使う場合、CUDA Toolkitとドライバを最新にしておくのが基本です。古いドライバだと、起動は成功するけど推論が異常に遅いという、地味に時間を溶かすパターンがあります。
AMDの場合はROCmの対応が限られるため、Vulkanバックエンドが無難です。Apple SiliconはMetalが標準で動きます。
6. コンテキスト長は、長ければいいわけではない
最後に、コンテキスト長です。設定で4096から32768に変えるだけで、KVキャッシュだけで8GB以上追加で消費するケースがあります。
長文を扱いたいなら、最初からその分のメモリを積む必要があります。生成品質を保ちたいなら、コンテキスト長は短めに、必要ならRAGで分割するほうがメモリ効率は良いです。
まとめ
GPUを買い足すのは、メモリ・ストレージ・量子化・ドライバの四点を確認したあとでも遅くありません。逆の見方をすると、この四点を見てからGPUを見ると、選ぶべきVRAM容量が具体的に見えるようになります。
12GB RAMのミニPCで詰まるなら、VRAM 16GB以上を積んだRTX 4060 Ti 16GBが現実的な落としどころです。自分の環境と用途を先に固めて、それに合うGPUを選ぶ。ローカルLLMは、案外この順番で始めると遠回りしません。