Porta l'intelligenza artificiale sul tuo hardware, senza dipendere dal cloud.
::: info
Eseguire modelli in locale permette di garantire la massima privacy, eliminare i costi di abbonamento e lavorare offline. È la scelta ideale per processare dati sensibili o codice proprietario.
:::
Ollama è il Docker dei modelli linguistici. È leggero, gira in background e offre una CLI (Command Line Interface) potentissima.
ollama run llama3.1Un'interfaccia grafica (GUI) intuitiva per esplorare modelli da Hugging Face.
La velocità di un modello locale dipende principalmente dalla VRAM della scheda video:
| Risorsa | Target Minimo | Target Consigliato |
|---|---|---|
| GPU | 8GB VRAM (Modelli 7B/8B) | 12GB+ VRAM (Modelli 14B+) |
| RAM | 16GB | 32GB+ |
| Storage | SSD (I modelli pesano 5-10GB l'uno) | NVMe |
In ambito programmazione (Python/C++), i modelli più efficaci al momento sono:
Per usare l'AI come uno strumento di sistema, puoi concatenare i comandi:
cat script.py | ollama run llama3.1 "Trova i bug in questo codice Python"