Text to Image Generation with MLX Stable Diffusion / Generación de Imágenes desde Texto con MLX Stable Diffusion
This project implements a text-to-image generation system using Stable Diffusion optimized for Apple Silicon through MLX. It provides both a Jupyter notebook interface and a Gradio web UI for generating images from text descriptions.
- Optimized for Apple Silicon using MLX framework
- Uses Stable Diffusion 2.1 base model
- Includes model quantization for better performance
- Supports both simple and advanced generation parameters
- Interactive web interface with Gradio
- macOS with Apple Silicon
- Python 3.9+
- Clone the repository to your local machine
- Install the required dependencies using pip and the requirements.txt file
Option 1: Using Jupyter Notebook
- Start Jupyter Notebook on your local machine
- Open the text_to_image.ipynb notebook
Option 2: Direct Gradio Interface
- Run
python app.py
- Prompt: Text description of the desired image
- Negative Prompt: What you don't want in the image
- Steps: Number of denoising steps (higher = better quality, slower generation)
- Guidance Scale: How closely to follow the prompt (higher = more faithful, less creative)
- Seed: For reproducible results
Este proyecto implementa un sistema de generación de imágenes a partir de texto utilizando Stable Diffusion optimizado para Apple Silicon mediante MLX. Proporciona tanto una interfaz de Jupyter notebook como una interfaz web Gradio para generar imágenes a partir de descripciones textuales.
- Optimizado para Apple Silicon usando el framework MLX
- Utiliza el modelo base Stable Diffusion 2.1
- Incluye cuantización del modelo para mejor rendimiento
- Soporta parámetros de generación simples y avanzados
- Interfaz web interactiva con Gradio
- macOS con Apple Silicon
- Python 3.9+
Opción 1: Usando Jupyter Notebook
- Iniciar Jupyter Notebook en su máquina local
- Abrir el notebook text_to_image.ipynb
Opción 2: Interfaz Gradio Directa
- Ejecutar
python app.py
- Prompt: Descripción textual de la imagen deseada
- Prompt Negativo: Lo que no deseas en la imagen
- Pasos: Número de pasos de eliminación de ruido (mayor = mejor calidad, generación más lenta)
- Guidance Scale: Qué tanto seguir el prompt (mayor = más fiel, menos creativo)
- Seed: Para resultados reproducibles