Cada vez más personas están ejecutando LLMs directamente en sus PCs para reducir costos de suscripción y tener mayor privacidad y control sobre sus proyectos. Con nuevos y avanzados open weight models y herramientas gratuitas para correrlos localmente, más usuarios quieren experimentar con IA directamente en su laptop o escritorio. Las GPU GeForce RTX aceleran estas experiencias, ofreciendo un rendimiento ágil y veloz. Y con las actualizaciones de Project G-Assist, los usuarios de laptops ya pueden empezar a usar comandos de voz y texto con IA para controlar su PC.
El blog más reciente de RTX A9I Garage de NVIDIA muestra cómo estudiantes, entusiastas de la IA y desarrolladores pueden comenzar a usar LLMs en PCs hoy mismo:
- Ollama: Una de las formas más accesibles para empezar. Esta herramienta de código abierto ofrece una interfaz sencilla para ejecutar e interactuar con LLMs. Los usuarios pueden arrastrar y soltar PDFs en los prompts, mantener chats conversacionales e incluso probar flujos de trabajo multimodales que combinan texto e imágenes.
- AnythingLLM: Construye un asistente personal de IA. Funciona sobre Ollama y permite cargar notas, presentaciones o documentos para crear un tutor que genera cuestionarios y tarjetas de estudio para cursos, privado, rápido y gratuito.
- LM Studio: Explora docenas de modelos. Basado en el popular framework llama.cpp, ofrece una interfaz fácil de usar para correr modelos localmente. Los usuarios pueden cargar diferentes LLMs, chatear en tiempo real e incluso montarlos como local API endpoints para integrarlos en proyectos personalizados.
- Project G-Assist: Controla tu PC con IA. Con las últimas actualizaciones, los usuarios de PC ya pueden usar comandos de voz o texto para ajustar la batería, ventiladores y configuraciones de rendimiento.
Los avances más recientes en GeForce RTX AI PCs incluyen:
- Ollama obtiene un gran impulso de rendimiento en GeForce RTX: Las últimas actualizaciones incluyen hasta 50% más rendimiento optimizado para OpenAI’s gpt-oss-20B y hasta 60% más rápido en los modelos Gemma 3, además de una programación de modelos más inteligente para reducir problemas de memoria y mejorar la eficiencia en múltiples GPU.
- Llama.cpp y GGML optimizados para GeForce RTX: Las últimas mejoras ofrecen inferencia más rápida y eficiente en GPUs RTX, incluyendo soporte para el modelo NVIDIA Nemotron Nano v2 9B, Flash Attention activado por defecto y optimizaciones con núcleos CUDA.
- Descarga la actualización G-Assist v0.1.18 a través de la NVIDIA App, con nuevos comandos para usuarios de laptops y mejor calidad en las respuestas.
- Microsoft lanzó Windows ML con NVIDIA TensorRT para aceleración RTX, logrando hasta un 50% más de rapidez en inferencia, despliegue más ágil y soporte para LLMs, diffusion y otros tipos de modelos en PCs con Windows 11.