Microsoft erweitert KI-Portfolio mit neuen Phi-3.5-Modellen: Ein großer Schritt in Richtung leistungsstarker Multimodalität

Eulerpool News 27 ago 2024, 11:01

Microsoft continúa con su impresionante serie de éxitos en el ámbito de la inteligencia artificial y ha anunciado hoy el lanzamiento de tres nuevos modelos en la serie Phi-3.5. Estos modelos, que se destacan por sus avanzadas funciones de multimodalidad y multilingüismo, tienen como objetivo seguir revolucionando el mercado de aplicaciones basadas en IA. Los modelos se han puesto a disposición bajo una licencia MIT con la marca de Microsoft en Hugging Face y ofrecen a los desarrolladores de todo el mundo la posibilidad de utilizar, adaptar y desarrollar libremente estas tecnologías innovadoras.

Los tres modelos – Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct y Phi-3.5-vision-instruct – cubren una amplia gama de aplicaciones, desde tareas básicas hasta tareas altamente complejas. Cada modelo está optimizado para requisitos específicos, como el razonamiento rápido y preciso o el procesamiento de datos de texto e imagen en tareas multimodales.

El modelo Phi-3.5 Mini Instruct, equipado con 3.8 mil millones de parámetros, es un modelo ligero, desarrollado específicamente para su uso en entornos con limitaciones de memoria o capacidad de cálculo. Muestra un rendimiento impresionante en tareas que requieren razonamiento complejo, como la generación de código, la resolución de problemas matemáticos y consulta basada en lógica. A pesar de su tamaño compacto, supera a otros modelos de su clase en el benchmark RepoQA, como el Llama-3.1-8B-instruct, especialmente en tareas que requieren comprensión de contextos largos.

El modelo Phi-3.5 MoE (Mixture of Experts) es el primero de su tipo en el portafolio de Microsoft. Combina diferentes tipos de modelos, cada uno especializado en distintas tareas, y puede así afrontar tareas complejas de inteligencia artificial de manera eficiente. Con 42 mil millones de parámetros activos, ofrece un rendimiento escalable y soporta contextos de hasta 128,000 tokens. Supera de manera impresionante al GPT-4o mini en el benchmark MMLU de 5-shot en áreas como STEM, humanidades y ciencias sociales, lo que subraya su versatilidad y capacidad de rendimiento.

El modelo Phi-3.5 Vision Instruct integra capacidades de procesamiento de texto e imagen, lo que lo hace ideal para tareas como procesamiento de imágenes general, reconocimiento óptico de caracteres y resúmenes de video. Con soporte para contextos de hasta 128k tokens, este modelo puede manejar tareas visuales complejas y multifacéticas. Microsoft destaca que el modelo fue entrenado con una combinación de conjuntos de datos sintéticos y de acceso público, centrados en datos de alta calidad y con una intensa carga de razonamiento.

Todos los tres modelos de la serie Phi-3.5 se publicaron bajo una licencia MIT, lo que subraya el compromiso de Microsoft con el apoyo a la comunidad de código abierto. Esta licencia permite a los desarrolladores usar, modificar y distribuir el software libremente, respetando al mismo tiempo las exenciones de responsabilidad de Microsoft y otros titulares de derechos de autor.

El lanzamiento de los modelos Phi-3.5 representa un avance significativo en el desarrollo de IA multilingüe y multimodal. Con estos modelos, Microsoft ofrece a los desarrolladores la posibilidad de integrar capacidades de IA de vanguardia en sus aplicaciones, fomentando la innovación tanto en el ámbito comercial como en el de la investigación.

Microsoft erweitert KI-Portfolio mit neuen Phi-3.5-Modellen: Ein großer Schritt in Richtung leistungsstarker Multimodalität

Reconoce acciones infravaloradas de un vistazo.

Noticias

OPEP+ extiende recortes de producción: los precios del petróleo suben más del 2%

KPMG despide a 330 empleados en el departamento de auditoría de EE. UU. a pesar del crecimiento de los ingresos

Xiaomi ataca a Tesla con el lujoso coche eléctrico deportivo SU7 Ultra

Raras abejas detienen los planes de Meta para un centro de datos de IA impulsado por energía nuclear

BlackRock solicita la implementación de la estructura de clases múltiples de ETFs de Vanguard.