LM Studio acelera el rendimiento de LLM con las GPU NVIDIA GeForce RTX y CUDA 12.8

9 May, 2025

La última versión de la aplicación de escritorio incluye herramientas de desarrollo mejoradas, controles de modelos y mayor rendimiento para GPU RTX.

A medida que los casos de uso de IA continúan expandiéndose —desde resúmenes de documentos hasta agentes de software personalizados—, desarrolladores y entusiastas buscan formas más rápidas y flexibles de ejecutar modelos de lenguaje grandes (LLM).

Ejecutar modelos localmente en PC con GPU NVIDIA GeForce RTX permite inferencias de alto rendimiento, mayor privacidad de datos y control total sobre el despliegue e integración de IA. Herramientas como LM Studio —de prueba gratuita— hacen esto posible, ofreciendo una forma sencilla de explorar y construir con LLM en hardware propio.

LM Studio se ha convertido en una de las herramientas más adoptadas para inferencia local de LLM. Basado en el entorno de ejecución de alto rendimiento llama.cpp, la aplicación permite ejecutar modelos completamente offline y también funciona como puntos finales de API compatibles con OpenAI para integrarlos en flujos de trabajo personalizados.

El lanzamiento de LM Studio 0.3.15 trae mejoras de rendimiento para GPU RTX gracias a CUDA 12.8, reduciendo significativamente los tiempos de carga y respuesta de los modelos. La actualización también incluye nuevas funciones para desarrolladores, como el uso mejorado de herramientas mediante el parámetro «tool_choice» y un editor de prompts del sistema rediseñado.

Estas mejoras optimizan el rendimiento y la usabilidad de LM Studio —ofreciendo el mayor rendimiento hasta ahora en PCs con IA RTX. Esto se traduce en respuestas más rápidas, interacciones ágiles y mejores herramientas para construir e integrar IA localmente.

Donde las aplicaciones cotidianas se encuentran con la aceleración de IA

LM Studio está diseñado para la flexibilidad —ideal tanto para experimentación casual como para integración total en flujos de trabajo personalizados. Los usuarios pueden interactuar con modelos mediante una interfaz de chat de escritorio o activar el modo desarrollador para exponer puntos finales de API compatibles con OpenAI. Esto facilita la conexión de LLMs locales con flujos de trabajo en aplicaciones como VS Code o agentes de escritorio personalizados.

Por ejemplo, LM Studio puede integrarse con Obsidian, una popular aplicación de gestión de conocimiento basada en markdown. Usando complementos desarrollados por la comunidad como Text Generator y Smart Connections, los usuarios pueden generar contenido, resumir investigaciones y consultar sus notas —todo impulsado por LLMs locales ejecutados a través de LM Studio. Estos complementos se conectan directamente al servidor local de LM Studio, permitiendo interacciones de IA rápidas y privadas sin depender de la nube.

La actualización 0.3.15 agrega nuevas capacidades para desarrolladores, incluido un control más granular sobre el uso de herramientas mediante el parámetro «tool_choice» y un editor de prompts del sistema mejorado para manejar prompts más largos o complejos.

El parámetro tool_choice permite a los desarrolladores controlar cómo los modelos interactúan con herramientas externas —ya sea forzando una llamada a una herramienta, desactivándola por completo o permitiendo que el modelo decida dinámicamente. Esta flexibilidad es especialmente útil para construir interacciones estructuradas, flujos de generación aumentada por recuperación (RAG) o pipelines de agentes. En conjunto, estas actualizaciones mejoran tanto la experimentación como los casos de uso en producción para desarrolladores que trabajan con LLM.

LM Studio admite una amplia gama de modelos abiertos —incluyendo Gemma, Llama 3, Mistral y Orca— y varios formatos de cuantización, desde 4 bits hasta precisión completa.

Los casos de uso comunes incluyen RAG, chats multiturno con ventanas de contexto largas, preguntas y respuestas basadas en documentos y pipelines de agentes locales. Y al usar servidores de inferencia local acelerados por la biblioteca de software llama.cpp con RTX de NVIDIA, los usuarios en PC con IA RTX pueden integrar LLM locales con facilidad.

Ya sea optimizando la eficiencia en un sistema compacto con RTX o maximizando el rendimiento en un escritorio de alto rendimiento, LM Studio ofrece control total, velocidad y privacidad —todo en RTX.

Experimenta el máximo rendimiento en GPU RTX

El núcleo de la aceleración de LM Studio es llama.cpp —un entorno de ejecución de código abierto diseñado para inferencias eficientes en hardware de consumo. NVIDIA colaboró con las comunidades de LM Studio y llama.cpp para integrar varias mejoras que maximizan el rendimiento de las GPU RTX.

Las optimizaciones clave incluyen:

Habilitación de gráficos CUDA: Agrupa múltiples operaciones de GPU en una sola llamada de CPU, reduciendo la sobrecarga de la CPU y mejorando el rendimiento del modelo hasta un 35%.
Kernels CUDA de atención flash: Aumenta el rendimiento hasta un 15% al optimizar cómo los LLMs procesan la atención —una operación crítica en modelos transformadores. Esta optimización permite ventanas de contexto más largas sin aumentar los requisitos de memoria o computación.
Compatibilidad con las últimas arquitecturas RTX: La actualización de LM Studio a CUDA 12.8 garantiza compatibilidad con toda la gama de PCs con IA RTX —desde las GeForce RTX 20 Series hasta las GPU NVIDIA Blackwell, ofreciendo a los usuarios flexibilidad para escalar sus flujos de trabajo de IA local desde laptops hasta escritorios de alta gama.

Con un controlador compatible, LM Studio se actualiza automáticamente al entorno de ejecución CUDA 12.8, permitiendo tiempos de carga de modelos significativamente más rápidos y un mayor rendimiento general.

Estas mejoras ofrecen inferencias más fluidas y respuestas más rápidas en toda la gama de PCs con IA RTX —desde laptops ligeras hasta escritorios y estaciones de trabajo de alto rendimiento.

Comienza con LM Studio

LM Studio se puede descargar gratis y funciona en Windows, macOS y Linux. Con el lanzamiento 0.3.15 y optimizaciones continuas, los usuarios pueden esperar mejoras constantes en rendimiento, personalización y usabilidad —haciendo que la IA local sea más rápida, flexible y accesible.

Los usuarios pueden cargar un modelo mediante la interfaz de chat de escritorio o activar el modo desarrollador para exponer una API compatible con OpenAI.

LM Studio admite presets de modelos, varios formatos de cuantización y controles para desarrolladores como tool_choice para inferencia ajustada. Para quienes deseen contribuir, el repositorio GitHub de llama.cpp se mantiene activamente y evoluciona con mejoras de rendimiento impulsadas por la comunidad y NVIDIA.

Cada semana, la serie de blogs RTX AI Garage destaca innovaciones de IA impulsadas por la comunidad y contenido para quienes deseen aprender más sobre microservicios NVIDIA NIM y AI Blueprints, así como sobre la construcción de agentes de IA, flujos creativos, humanos digitales, aplicaciones de productividad y más en PCs y estaciones de trabajo con IA

Share on Facebook

LM Studio acelera el rendimiento de LLM con las GPU NVIDIA GeForce RTX y CUDA 12.8

Donde las aplicaciones cotidianas se encuentran con la aceleración de IA

Comienza con LM Studio

Buscador Prensa

Clientes

[email protected]

Uso de cookies