في ديسمبر 2024 ، Microsoft قدم PHI-4، نموذج لغة صغير (SLM) مع أحدث أداء في فئته. اليوم ، تقوم Microsoft بتوسيع عائلة PHI-4 مع نموذجين جديدين: PHI-4-Multimodal و PHI-4-MINI.
يدعم نموذج PHI-4-Multimodal الجديد الكلام والرؤية والنص في وقت واحد ، بينما يركز PHI-4-MINI على المهام القائمة على النص.
PHI-4-Multimodal هو نموذج معلمة 5.6b وهو أيضًا أول نموذج لغة Microsoft متعدد الوسائط يدمج الكلام والرؤية ومعالجة النص في بنية واحدة موحدة. بالمقارنة مع الطرز الأخرى الموجودة على أحدث طراز ، بما في ذلك Gemini 2.0 Flash و Gemini 2.0 Flash Lite ، يحقق PHI-4-Multimodal أداءً أفضل على معايير متعددة ، كما ترون في الجدول أدناه.
في المهام المتعلقة بالكلام ، يتفوق PHI-4-Multimodal على نماذج الكلام المتخصصة مثل Whisperv3 و SechlessM4T-V2-LARGE في كل من التعرف على الكلام التلقائي (ASR) وترجمة الكلام (ST). تنص شركة Microsoft على أن هذا النموذج حقق المركز الأعلى على اللوحة المتصدر OpenASR المعانقة بمعدل خطأ في الكلمات المثير للإعجاب بنسبة 6.14 ٪.
في المهام المتعلقة بالرؤية ، حقق PHI-4-Multimodal أداءً قوياً في الرياضيات والمنطق العلمي. في إمكانات متعددة الوسائط الشائعة ، مثل فهم المستندات والمخططات ، والمعرف الضوئي ، والعلوم البصرية ، يطابق هذا النموذج الجديد أو يتجاوز النماذج الشائعة مثل Gemini-2-flash-lite-preview و Claude-3.5-sonnet.
PHI-4-MINI هو نموذج معلمة 3.8B ويتفوق على العديد من LLMs الشهيرة الأكبر في المهام المستندة إلى النص ، بما في ذلك التفكير والرياضيات والترميز ومتابعة التعليمات ، ومكتب الوظائف.
لضمان أمان وسلامة هذه النماذج الجديدة ، أجرت Microsoft اختبارًا مع خبراء الأمن الداخلي والخارجي ، باستخدام استراتيجيات صاغها فريق Microsoft AI Red (AIRT). يمكن نشر كل من نماذج PHI-4-MINI و PHI-4-Multimodal على الجهاز عند تحسين وقت تشغيل ONNX لتوافر المنصات عبر المنصات ، مما يجعلها مناسبة لسيناريوهات منخفضة التكلفة ومنخفضة الكلية.
كل من طرازات PHI-4-Multimodal و PHI-4-MINI متاحة الآن للمطورين في مسبك AI AI ، ووجه المعانقة ، وكتالوج NVIDIA API. يمكن للمطورين الذهاب من خلال ورقة فنية لرؤية مخطط تفصيلي لاستخدامات النماذج الموصى بها وقيودها.
تمثل نماذج PHI-4 الجديدة تطورات كبيرة في الذكاء الاصطناعي الفعال ، مما يجلب قدرات قوية متعددة الوسائط ونص على مجموعة متنوعة من تطبيقات الذكاء الاصطناعى.