Como Rodar Uma Inteligência Artificial Localmente em uma VPS

ia em vps

Hospedar sua própria inteligência artificial deixou de ser privilégio de grandes corporações com datacenters milionários. Com o amadurecimento de ferramentas open source como Ollama e Open WebUI, qualquer pessoa pode montar um ecossistema completo de IA em um servidor virtual privado (VPS) — com privacidade total, tokens ilimitados e custo fixo previsível.

Neste guia, você vai aprender o passo a passo completo: desde a escolha do hardware até a instalação do Ollama, configuração da interface web Open WebUI, seleção dos melhores modelos para cada cenário e, claro, as medidas essenciais de segurança e otimização. Vamos direto ao ponto.


econsulters

Por que Rodar IA em uma VPS?

Antes de colocar a mão no terminal, vale entender as vantagens dessa abordagem:

  • Privacidade absoluta: Seus dados e prompts nunca saem do seu servidor — essencial para setores como saúde, finanças e jurídico.
  • Custo previsível: Enquanto APIs de IA cobram por token consumido, a VPS tem valor fixo mensal. Para volumes médios de uso, a economia pode chegar a 60-80%.
  • Sem limites artificiais: Nada de “você atingiu o limite de mensagens”. O uso é restrito apenas pelo hardware contratado.
  • Controle total: Você decide quais modelos usar, quando atualizá-los e como integrá-los a outras ferramentas self‑hosted, como o n8n.

Uma VPS funciona perfeitamente para inferência (uso de modelos já treinados) e fine‑tuning leve. Para treinar modelos do zero, você precisaria de infraestrutura com GPU dedicada.


Pré‑Requisitos de Hardware e Software

O Mínimo Recomendado

RecursoMínimoRecomendado
CPU4 vCPUs (x86_64)8+ vCPUs
RAM16 GB32 GB ou mais
Armazenamento50 GB SSD100 GB NVMe
Sistema OperacionalUbuntu 22.04 / 24.04Ubuntu 24.04 LTS
GPU (opcional)NVIDIA com 8 GB+ VRAM

Esses valores são o ponto de partida para rodar modelos de 7 bilhões de parâmetros com quantização de 4 bits (q4_K_M), que ocupam cerca de 4‑5 GB de RAM.

vps linux

Qual VPS Escolher?

O mercado oferece diversas opções. Considere:

  • Hostinger: Planos a partir de R$ 54,99/mês para 4 vCPUs, 16 GB RAM e 200 GB NVMe. Já oferece template pronto com Ollama + Open WebUI + Llama 3.1 pré‑instalados.
  • DigitalOcean: Ideal para desenvolvedores que querem flexibilidade total.
  • Hetzner: Excelente custo‑benefício, especialmente nos planos com GPU dedicada.
  • AWS EC2 / Azure: Para quem precisa de GPU sob demanda, instâncias como g6e.xlarge (NVIDIA L4) funcionam muito bem com Ollama.

Dica: Se você não tem GPU, não se preocupe — modelos otimizados rodam em CPU, apenas com latência maior.


Passo a Passo da Instalação

Método 1: Instalação Direta no Ubuntu (Recomendado para Iniciantes)

  1. Conecte‑se via SSH ao seu VPS:bashssh root@seu-ip
  2. Atualize o sistema:bashsudo apt update && sudo apt upgrade -y
  3. Instale o Ollama com o script oficial:bashcurl -fsSL https://ollama.com/install.sh | sudo sh
  4. Verifique a instalação:bashollama –version
  5. Baixe seu primeiro modelo (ex.: Llama 3.1 8B):bashollama pull llama3.1:8b
  6. Teste no terminal:bashollama run llama3.1:8b

Pronto! O Ollama já está respondendo. Por padrão, a API fica em http://localhost:11434.

ddr host

Método 2: Docker Compose (Para Maior Controle)

O Docker isola o ambiente e facilita atualizações. Crie um arquivo docker-compose.yml:

version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    ports:
      - "11434:11434"
    environment:
      - OLLAMA_KEEP_ALIVE=10m
      - OLLAMA_NUM_THREADS=4       # Ajuste conforme seus núcleos
      - OLLAMA_MAX_LOADED_MODELS=2
    volumes:
      - ./ollama_data:/root/.ollama
    restart: unless-stopped
    deploy:
      resources:
        limits:
          cpus: '4.0'
          memory: 8G

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - ./open-webui_data:/app/backend/data
    restart: unless-stopped
    depends_on:
      - ollama

Suba os serviços:

docker compose up -d

Acesse http://seu-ip:3000 para usar o chat via navegador.

Método 3: Templates Prontos (Caminho Mais Rápido)

Provedores como a Hostinger já oferecem templates com tudo configurado — Docker, Ollama, Open WebUI e o modelo Llama 3.1. Basta selecionar o template “Ollama” ao criar o VPS e aguardar 10 minutos. Ao final, você acessa a interface web diretamente.


vps hostinger

Interface Gráfica: Open WebUI

O Open WebUI entrega uma experiência visual muito similar ao ChatGPT, mas 100% auto‑hospedada. Principais recursos:

  • Chat multimodelo: Troque entre diferentes LLMs com um clique.
  • Upload de arquivos: Processamento de documentos, PDFs, imagens (modelos multimodais).
  • Histórico persistente: Conversas armazenadas no seu servidor.
  • Gestão de usuários: Crie contas para sua equipe com permissões personalizadas.
  • Conexão com APIs externas: Combine modelos locais com serviços como Gemini 2.5 Flash para tarefas pesadas — o melhor dos dois mundos.

Quais Modelos Escolher para Sua VPS?

A escolha do modelo depende do seu hardware e do idioma. Aqui está um resumo prático (todos quantizados em 4 bits):

ModeloRAM NecessáriaPontos Fortes
Llama 3.1 8B~5 GBEquilíbrio geral, melhor ecossistema e tutoriais
Qwen 2.5 7B/14B4‑10 GBExcelente para português e tarefas de código (versão Coder)
DeepSeek‑R1 14B~10 GBRaciocínio lógico‑matemático excepcional
Mistral Small~5 GBLeve e rápido, ideal para VPS sem GPU
Gemma 3 7B~5 GBBoa performance em CPU para tarefas simples

Dica para falantes de português: O Qwen 2.5 foi treinado com grande volume de dados multilíngues e apresenta resultados superiores em nosso idioma quando comparado a modelos do mesmo tamanho.

Para baixar qualquer um deles:

ollama pull qwen2.5:14b

Otimização de Performance

Ajuste de Threads (CPU)

Defina a variável de ambiente OLLAMA_NUM_THREADS com o número de núcleos físicos do seu processador. Isso evita sobrecarga desnecessária e reduz a latência:

export OLLAMA_NUM_THREADS=4

No Docker, já incluímos essa variável no docker-compose.yml.

hostoo

Contexto e Quantização

  • Reduza o tamanho da janela de contexto (num_ctx) se não precisar de conversas muito longas. O padrão é 2048 tokens; diminuir para 1024 libera RAM.
  • Prefira sempre modelos quantizados (q4_K_M). Eles oferecem o melhor equilíbrio entre qualidade de resposta e consumo de memória.

GPU vs CPU

Se você dispõe de GPU NVIDIA, instale os drivers e o nvidia-container-toolkit. O Ollama ativa a aceleração automaticamente. Em setups sem GPU, foque em modelos de até 8B com baixa quantização — eles rodam a velocidades aceitáveis (5‑15 tokens/segundo).


🔒 Segurança: Não Deixe Sua IA Exposta

⚠️ Alerta: Por padrão, o Ollama escuta em 0.0.0.0:11434, o que significa que qualquer pessoa na internet pode acessar sua API se você não configurar o firewall corretamente.

Medidas Essenciais

  1. Feche a porta 11434 do mundo externo:bashsudo ufw allow 22/tcp # SSH sudo ufw allow 3000/tcp # Open WebUI sudo ufw deny 11434 # Bloqueia acesso externo à API Ollama sudo ufw enableApenas o Open WebUI (porta 3000) precisa ficar acessível.
  2. Use um proxy reverso com autenticação:
    Coloque o Nginx ou Caddy na frente do Open WebUI e adicione autenticação básica ou OAuth2.
  3. Não use senhas padrão:
    Na primeira execução do Open WebUI, crie imediatamente uma conta administrador com senha forte.
  4. Mantenha HTTPS:
    Com o Certbot (Let’s Encrypt), você obtém SSL gratuito em minutos:bashsudo apt install certbot python3-certbot-nginx -y sudo certbot –nginx -d seu-dominio.com

bravulink

Conclusão

Montar seu próprio servidor de IA em uma VPS é mais simples do que parece — e os benefícios em privacidade e economia de custos são reais. Com OllamaOpen WebUI e um modelo bem escolhido, você tem em mãos uma plataforma privada, escalável e pronta para produção.

O ecossistema open source não para de evoluir: projetos como RamaLama (gerenciamento de containers de IA) e vLLM (inferência de alto desempenho) já apontam para um futuro onde rodar IA própria será tão trivial quanto instalar um app no celular.

Que tal começar hoje? Em menos de 30 minutos você transforma sua VPS em uma central de inteligência artificial — sem depender de ninguém.