AI
Microsoft rozšiřuje své portfolio AI s novými modely Phi-3.5: Velký krok směrem k výkonné multimodalitě
Microsoft představil tři nové modely série Phi-3.5, které na cestě k vedoucí pozici ve vývoji AI znamenají významné pokroky.
Microsoft pokračuje ve své působivé sérii úspěchů v oblasti umělé inteligence a dnes oznámil vydání tří nových modelů v sérii Phi-3.5. Tyto modely, které se vyznačují pokročilými funkcemi multimodality a mnohojazyčnosti, mají za cíl dále revolucionizovat trh aplikací založených na umělé inteligenci. Modely byly poskytnuty na platformě Hugging Face pod licencí MIT s logem Microsoftu a nabízejí vývojářům po celém světě možnost tyto inovativní technologie volně využívat, upravovat a dále rozvíjet.
Tři modely – Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct a Phi-3.5-vision-instruct – pokrývají širokou škálu aplikací, od základních až po vysoce komplexní úlohy. Každý model je optimalizován pro specifické požadavky, jako například rychlé a přesné rozhodování nebo zpracování textových a obrazových dat v multimodálních úlohách.
Das Phi-3.5 Mini Instruct Modell, vybavené 3,8 miliardy parametry, je lehký model vyvinutý speciálně pro použití v prostředích s omezenou pamětí nebo výpočetním výkonem. Ukazuje působivé výkony v úlohách vyžadujících silné uvažování, jako je generování kódu, řešení matematických problémů a logicko-založené dotazy. Navzdory své kompaktní velikosti překonává na benchmarku RepoQA jiné modely své třídy, jako je Llama-3.1-8B-instruct, zejména v úlohách vyžadujících porozumění dlouhých kontextů.
Model Phi-3.5 MoE (Mixture of Experts) je prvním svého druhu v portfoliu Microsoftu. Kombinuje různé typy modelů, z nichž každý je specializovaný na různé úkoly, a díky tomu může efektivně zvládat komplexní úlohy umělé inteligence. S 42 miliardami aktivních parametrů nabízí škálovatelný výkon a podporuje kontexty až do 128 000 tokenů. Výrazně překonává GPT-4o mini v 5-shot MMLU benchmarku v oblastech jako STEM, humanitní a sociální vědy, což podtrhuje jeho univerzálnost a výkon.
Phi-3.5 Vision Instruct Model integruje schopnosti zpracování textu a obrazu, což z něj činí ideální nástroj pro úkoly, jako jsou obecné zpracování obrazu, optické rozpoznávání znaků a shrnutí videa. S podporou kontextových délek 128 000 tokenů může tento model zvládat složité, víceúrovňové vizuální úkoly. Microsoft zdůrazňuje, že model byl trénován na kombinaci syntetických a veřejně dostupných datových sad, přičemž důraz byl kladen na vysoce kvalitní data náročná na logické uvažování.
Všechna tři modely série Phi-3.5 byly vydány pod licencí MIT, což zdůrazňuje závazek společnosti Microsoft podporovat open-source komunitu. Tato licence umožňuje vývojářům volně používat, upravovat a šířit software, přičemž musí zároveň dodržovat vyloučení odpovědnosti společnosti Microsoft a dalších držitelů autorských práv.
Uvedení modelů Phi-3.5 představuje významný pokrok ve vývoji multijazyčných a multimodálních umělých inteligencí. Tyto modely poskytují vývojářům od společnosti Microsoft možnost integrovat špičkové schopnosti umělé inteligence do svých aplikací, čímž podporují inovace jak v komerční, tak v výzkumné oblasti.