Microsoft continúa con su impresionante serie de éxitos en el ámbito de la inteligencia artificial y ha anunciado hoy el lanzamiento de tres nuevos modelos en la serie Phi-3.5. Estos modelos, que se destacan por sus avanzadas funciones de multimodalidad y multilingüismo, tienen como objetivo seguir revolucionando el mercado de aplicaciones basadas en IA. Los modelos se han puesto a disposición bajo una licencia MIT con la marca de Microsoft en Hugging Face y ofrecen a los desarrolladores de todo el mundo la posibilidad de utilizar, adaptar y desarrollar libremente estas tecnologías innovadoras.
Los tres modelos – Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct y Phi-3.5-vision-instruct – cubren una amplia gama de aplicaciones, desde tareas básicas hasta tareas altamente complejas. Cada modelo está optimizado para requisitos específicos, como el razonamiento rápido y preciso o el procesamiento de datos de texto e imagen en tareas multimodales.
El modelo Phi-3.5 Mini Instruct, equipado con 3.8 mil millones de parámetros, es un modelo ligero, desarrollado específicamente para su uso en entornos con limitaciones de memoria o capacidad de cálculo. Muestra un rendimiento impresionante en tareas que requieren razonamiento complejo, como la generación de código, la resolución de problemas matemáticos y consulta basada en lógica. A pesar de su tamaño compacto, supera a otros modelos de su clase en el benchmark RepoQA, como el Llama-3.1-8B-instruct, especialmente en tareas que requieren comprensión de contextos largos.
El modelo Phi-3.5 MoE (Mixture of Experts) es el primero de su tipo en el portafolio de Microsoft. Combina diferentes tipos de modelos, cada uno especializado en distintas tareas, y puede así afrontar tareas complejas de inteligencia artificial de manera eficiente. Con 42 mil millones de parámetros activos, ofrece un rendimiento escalable y soporta contextos de hasta 128,000 tokens. Supera de manera impresionante al GPT-4o mini en el benchmark MMLU de 5-shot en áreas como STEM, humanidades y ciencias sociales, lo que subraya su versatilidad y capacidad de rendimiento.
El modelo Phi-3.5 Vision Instruct integra capacidades de procesamiento de texto e imagen, lo que lo hace ideal para tareas como procesamiento de imágenes general, reconocimiento óptico de caracteres y resúmenes de video. Con soporte para contextos de hasta 128k tokens, este modelo puede manejar tareas visuales complejas y multifacéticas. Microsoft destaca que el modelo fue entrenado con una combinación de conjuntos de datos sintéticos y de acceso público, centrados en datos de alta calidad y con una intensa carga de razonamiento.
Todos los tres modelos de la serie Phi-3.5 se publicaron bajo una licencia MIT, lo que subraya el compromiso de Microsoft con el apoyo a la comunidad de código abierto. Esta licencia permite a los desarrolladores usar, modificar y distribuir el software libremente, respetando al mismo tiempo las exenciones de responsabilidad de Microsoft y otros titulares de derechos de autor.
El lanzamiento de los modelos Phi-3.5 representa un avance significativo en el desarrollo de IA multilingüe y multimodal. Con estos modelos, Microsoft ofrece a los desarrolladores la posibilidad de integrar capacidades de IA de vanguardia en sus aplicaciones, fomentando la innovación tanto en el ámbito comercial como en el de la investigación.