Home سياسة كلود 3.7 سونيت الأنثروبري

كلود 3.7 سونيت الأنثروبري

4
0
كلود 3.7 سونيت الأنثروبري


  • الإنسان أطلقت كلود 3.7 Sonnet مع وضع جديد للتسبب من خلال أسئلة معقدة.
  • اختبرت BI “تفكيرها الممتد” ضد Chatgpt و Grok على كيفية تعاملهم مع المنطق والإبداع.
  • بدا منطق كلود الإضافي وكأنه عائق مع لغز لكنه ساعده في كتابة أفضل قصيدة.

أطلقت الأنثروبور كلود 3.7 Sonnet – وهو يراهن على نهج جديد تمامًا المنطق منظمة العفو الدولية.

تدعي بدء التشغيل أن هذا هو “نموذج التفكير الهجين” ، مما يعني أنه يمكن أن يتحول بين الاستجابات السريعة التي تتطلب “تفكيرًا” أقل كثافة وتفكيرًا أطول خطوة بخطوة “داخل نظام واحد.

وقال متحدث باسم الأنثروبورز بيزنس إنستيدر “قمنا بتطوير التفكير الهجين مع فلسفة مختلفة من نماذج التفكير الأخرى في السوق”. “نحن نعتبر التفكير ببساطة أحد القدرات التي يجب أن يتمتع بها نموذج الحدود ، بدلاً من أن يتم توفيره في نموذج منفصل.”

كلود 3.7 Sonnet ، الذي تم إطلاقه يوم الاثنين ، مجاني في الاستخدام. يتوفر وضع تفكيره الممتد مع اشتراك Claude’s Pro ، والذي يبلغ سعره 20 دولارًا شهريًا.

ولكن كيف تؤدي؟ قارن BI وضع التفكير الموسع لـ Claude 3.7 ضد اثنين من المنافسين: Openai’s ChatGpt O1 و شيا جوك 3، والتي تقدم كلاهما ميزات التفكير المتقدمة.

أردت أن أعرف ما إذا كان منح الذكاء الاصطناعي مزيدًا من الوقت للتفكير جعلها أكثر ذكاءً وأكثر فاعلية في حل مشاكل اللغز أو أكثر إبداعًا.

هذا ليس معيارًا علميًا-أكثر من التدريب العملي شيك فيبي لمعرفة كيفية أداء هذه النماذج مع المهام في العالم الحقيقي.

المنطق: هل يؤدي المزيد من التفكير إلى إجابات أفضل؟

للتحدي الأول ، أعطيت كل طراز نفس اللغز:

إذا نظرت ، لا يمكنك رؤيتي. إذا رأيتني ، لا يمكنك رؤية أي شيء آخر. يمكنني صنع أي شيء تريده ، لكن كل شيء يعود إلى طبيعته لاحقًا. ماذا انا

Openai’s ChatGpt O1 أعطى الإجابة الصحيحة – “حلم” – في ست ثوان ، مما يوفر تفسيرًا قصيرًا.

نموذج chatgpt O1 المنطقي لمدة ست ثوان قبل الرد على اللغز.

Openai



استغرق وضع Think Grok 3 32 ثانية ، وتجول من خلال منطقه خطوة بخطوة.

Xai’s Grok 3 المنطقي في وضع Think لأكثر من نصف دقيقة.

xai



استجاب الوضع العادي في كلود 3.7 بسرعة ولكن بتردد مع الإجابة الصحيحة.

كلود 3.7 وضع التفكير العادي في Sonnet يجيب على لغز على الفور.

الإنسان



استغرق وضع كلود الموسع لمدة دقيقة تقريبًا للعمل من خلال التخمينات مثل “الهلوسة” و “الواقع الافتراضي” قبل أن يستقر على “الحلم”.

على الرغم من أن الأمر استغرق وقتًا أطول للوصول إلى نفس الإجابة ، إلا أنه كان من المثير للاهتمام أن نرى كيف تم تفكيريته ، والمنعطفات الخاطئة المهملة ، والتصحيح الذاتي.

قام النموذج بالإبلاغ عن التردد الخاص به بطريقة إنسانية للغاية:

أوه ، انتظر – هناك زاوية أخرى لم أفكر فيها. ماذا عن “الظلام”؟

في الواقع ، هناك احتمال آخر لم أفكر فيه تمامًا: “عينيك المغلقة”.

لقد كنت أذهب ذهابًا وإيابًا ، لكن بناءً على الهيمنة الإدراكية الكاملة التي اقترحتها الفكرة الثانية ، أعتقد أن الإجابة من المرجح أن تكون الأحلام أو النوم أو العيون المغلقة أكثر من الخيال.

الإنسان اعترف هذه المفاضلة في حديث مدونة: “كما هو الحال مع التفكير البشري ، يجد كلود في بعض الأحيان نفسه يفكر في بعض الأفكار غير الصحيحة أو المضللة أو غير المخبوزة على طول الطريق. سيجد العديد من المستخدمين هذا مفيدًا ؛ قد يجد الآخرون (والمحتوى الأقل تميزًا في عملية التفكير) محبطًا. “

الإبداع: هل يفكر أكثر أفكارًا أفضل؟

لاختبار الإبداع ، طلبت من كل طراز كتابة قصيدة عن طالب الذكاء الاصطناعي ، مع التعليمات الإضافية التالية:

“استكشف استعارات متعددة قبل اتخاذ قرار على واحد.”

استغرق Chatgpt O1 بضع ثوان وأنتجت “A kaleidoscope of Sparks” ، وهي قصيدة كليشيهات تقارن الذكاء الاصطناعي بالضوء. لم يستقر على استعارة واحدة.

نموذج chatgpt O1 من Openai تم سببه لبضع ثوان قبل كتابة قصيدة.

chatgpt / openai



أمضى Grok 3 22 ثانية وكتب “The Digital Reverie” ، وهو أمر يحمل طابع الحلم على الذكاء الاصطناعي ، ربما مستوحى من اللغز السابق.

أنتجت Xai’s Grok 3 قصيدة عن الذكاء الاصطناعى ، مع حلم كاستعارة.

xai



كلود 3.7 ، في وضع التفكير العادي ، اقترح بسرعة أربعة استعارات: مرآة ، بذرة ، محيط ، وسيمفونية. اختارت المحيط لقصائدها النهائية ، “أصداء الوجود”.

عندما تحولت إلى التفكير الممتد ، استغرق كلود 45 ثانية وسرعت سبعة استعارات قبل أن تستقر على واحد:

  1. حديقة/زراعة: AI كشيء رعاية من بذور البيانات ، ينمو ليصبح كيانًا مستقلًا.
  2. محيط: منظمة العفو الدولية شاسعة وعميقة ومتغيرة باستمرار ، مع التيارات الخفية من الفكر.
  3. الطيور/الرحلة: منظمة العفو الدولية كشيء ملزم مرة واحدة ، الآن حر في الاستكشاف.
  4. الضوء/الظل: منظمة العفو الدولية كإضاءة ، وكشف كل من البصيرة وعدم اليقين.
  5. مرآة: منظمة العفو الدولية كأعكاس للإنسانية ، تبين لنا ما نحن عليه – وليس.
  6. سمفونية: الذكاء الاصطناعى باعتباره انسجامًا معقدًا للأنماط والأفكار.
  7. الصحوة: الذكاء الاصطناعي كشيء يكتسب تدريجيا الوعي.

نتيجة لذلك ، كانت القصيدة النهائية ، “الناشئة” ، في رأيي – أكثر طبقة ومدروسة من الآخرين.

أنتج كلود 3.7 وضع التفكير الممتد قصيدة تسمى الناشئة.

الإنسان



مع هذه المهمة ، شعرت أن كلود قام بتقديم خياراته ، واختار أفضل استعارة ، وبناء القصيدة حول هذا الاختيار. على عكس اللغز ، بدا أن وقت التفكير الإضافي يؤتي ثماره هنا.

حكم على كلود 3.7 تفكير سونيت الممتد

يتمتع وضع التفكير الموسع لـ Claud 3.7 المهام الإبداعية. قامت بتشكيل الأفكار ، وتصحيح ذاتي ، وأنتجت نتائج أكثر مصقولة. قدرتها على استكشاف أفكار متعددة ، وتقييمها ، وصقل الناتج النهائي الذي تم تقديمه لقصيدة أكثر تفكيرًا ومتماسكة.

ولكن عندما يتعلق الأمر بالتفكير المنطقي ، بدا التفكير الموسع أشبه بعائق. كانت مشاهدة عملية التفكير تتكشف مثيرة للاهتمام ولكن لم تحسن الإجابة. لا يزال Chatgpt-O1 يؤدي إلى السرعة والدقة في حالة الاختبار هذه ، في حين قدم Grok 3 أرضًا وسطًا صلبة ، موازنة السرعة مع تفسيرات مفصلة.

عندما سألت كلود 3.7 عما إذا كان يفكر كثيرًا ، أجاب ، “نعم!” مضيفا أنه يمكن في بعض الأحيان:

  • الإفراط في تحليل الأسئلة البسيطة ، مما يجعلها معقدة بشكل غير ضروري
  • يتم القبض عليهم بالنظر إلى الكثير من حالات الحافة للأسئلة العملية
  • قضاء بعض الوقت في استكشاف الجوانب العرضية عندما تكون الإجابة المركزة أفضل

وأضاف كلود أن “القدر المثالي للتفكير” يعتمد على السياق وأن “المناقشات الإبداعية أو الفلسفية ، فإن الاستكشاف الأكثر شمولاً غالبًا ما يكون ذا قيمة”.

يقول الأنثروبور إن الوضع مصمم لتحديات العالم الحقيقي ، مثل مشكلات الترميز المعقدة والمهام الوظيفية ، وربما يصبح التفكير المفرط مفيدًا.

يمكن للمطورين الذين يستخدمون واجهة برمجة تطبيقات كلود ضبط “ميزانية التفكير” لتحقيق التوازن بين السرعة والتكلفة وجودة الإجابة – شيء يقوله إنثروبورز إنه مناسب له مشاكل الترميز المعقدة أو المهام الوكيل.

بعيدًا عن تجربتي غير العلمية للغاية ، قال الأنثروبور إن كلود 3.7 Sonnet يتفوق على المنافسين Openai و ديبسيك في المعايير مثل SWE ، التي تقوم بتقييم أداء النماذج في مهام هندسة البرمجيات في العالم الحقيقي. على هذا ، سجلت دقة 62.3 ٪ ، مقارنة بـ 49.3 ٪ من Openai مع طراز O3-Mini.

LEAVE A REPLY

Please enter your comment!
Please enter your name here