Yapısal AI RAM & VRAM Hesaplama
Çalıştıracağınız yerel yapay zeka (LLM) model mimarisini işleyerek, sisteminizde olması gereken minimum ve ideal bellek kütlesini saptayan teknik istasyon.
Model Parametreleri
Yapay Zeka Bellek Dağılım Matrisi
Yerel Yapay Zeka (Local LLM) Modellerinde RAM ve VRAM Neden Önemlidir?
Yapay zeka modellerini (Ollama, Llama 3, Qwen, Mistral) uzak sunucular yerine kendi bilgisayarınızda (lokal donanımınızda) çalıştırmak, veri gizliliği and çevrimdışı kullanım açısından muazzam bir özgürlük sunar. Ancak bu modeller devasa birer matematiksel matris kütlesidir. Modelin çalışabilmesi için tüm bu ağırlıkların (weights) bilgisayarın Sistem RAM'ine veya çok daha hızlı olan ekran kartı belleğine (VRAM - Video RAM) doğrusal olarak yüklenmesi zorunludur. Bellek yetersiz kaldığında model ya hiç açılmaz ya da saniyede ürettiği token sayısı (T/s) çöküşe geçer.
Model Parametresi ve Kuantizasyon (Sıkıştırma) Hesap Algoritması
Bir yapay zeka modelinin bellek bütçesini belirleyen iki temel doğrusal varyasyon vardır: Parametre Sayısı (7B, 14B, 70B) ve Kuantizasyon Seviyesi (Hassasiyet). Sıkıştırılmamış ham bir model (FP16), parametre başına 2 bayt bellek tüketir. Örneğin, 7 milyar parametreli (7B) ham bir model kafadan 14 GB belleğe ihtiyaç duyar. Kuantizasyon (Q4_K_M veya Q8) lojiği devreye girdiğinde, bu ağırlıklar 4-bit veya 8-bit seviyesine sıkıştırılarak bellek ihtiyacı doğrusal olarak düşürülür. Hesapci.org VIP Teknik Terminali, sistem mimariniz için gereken saf donanım kalkanını saniyede hesaplar.
VRAM yetersiz kalırsa local yapay zeka modeli çalışır mı?
Evet, eğer Ollama veya llama.cpp tabanlı bir altyapı kullanıyorsanız, modelin bir kısmı VRAM'e, kalan kısmı ise sistem RAM'ine (CPU) yüklenerek çalıştırılabilir (Split modu). Ancak CPU kanalı VRAM'e göre çok daha hantal olduğu için modelin yanıt verme hızı (Token per Second) ciddi oranda düşer.
Local kod asistanları (Qwen2.5-Coder vb.) için ideal RAM ne kadar olmalıdır?
7B veya 14B parametreli gelişmiş kodlama modellerini akıcı and takılmadan çalıştırabilmek için en az 12 GB VRAM'e sahip bir ekran kartı (RTX 4000 serisi vb.) veya birleşik belleğe sahip en az 32 GB RAM'li bir sistem mimarisi önerilir.
Kuantizasyon (Sıkıştırma) modelin zekasını düşürür mü?
4-bit veya 5-bit sıkıştırmalar (Q4_K_M, Q5_K_M) bellek tüketimini yarı yarıya düşürürken, modelin mantıksal and semantik zekasında insan gözüyle fark edilemeyecek kadar küçük (yüzde 1-2 civarı) bir sapma yaratır. Bu nedenle lokal sistemlerde en optimal tercih kuantize modellerdir.