Web Analytics
واتس آب ، فيسبوك ، أنترنت ، شروحات تقنية حصرية - المحترف شكوك حول استخدام DeepSeek لمخرجات Gemini في تدريب نموذجها الجديد R1-0528

شكوك حول استخدام DeepSeek لمخرجات Gemini في تدريب نموذجها الجديد R1-0528


جدل جديد يحيط بشركة DeepSeek الصينية وسط اتهامات باستخدام بيانات من نماذج منافسة


في خطوة مثيرة للجدل ضمن السباق العالمي لتطوير الذكاء الاصطناعي، أثار الإصدار الأحدث من نموذج DeepSeek الصيني، المسمى “R1-0528”، اهتمامًا واسعًا بعد أن أظهر أداءً قويًا في اختبارات الرياضيات والبرمجة. غير أن الشكوك بدأت تتصاعد بشأن مصادر البيانات التي تم استخدامها في تدريبه، وسط ترجيحات بأنها قد تكون مستمدة من نماذج “Gemini” التي تطورها Google.


هذه الشبهات بدأت تتشكل بعدما نشر المطور الأسترالي سام بيتش، عبر منصة X، منشورًا يشير فيه إلى أن النموذج الجديد يعتمد في مخرجاته على أنماط لغوية وأساليب صياغة شديدة التشابه مع تلك التي يستخدمها نموذج Gemini 2.5 Pro. ورغم غياب أدلة دامغة، فقد أشار مطور آخر يعمل تحت اسم مستعار ويقود مشروع “SpeechMap” لتقييم حرية التعبير في الذكاء الاصطناعي، إلى أن تسلسل الاستنتاجات أو ما يعرف بـ”آثار التفكير” لدى نموذج DeepSeek يُحاكي بشكل لافت آلية التفكير الخاصة بـGemini.


يُذكر أن هذه ليست أول مرة تُتهم فيها DeepSeek بالاستفادة من بيانات نماذج منافسة. ففي ديسمبر الماضي، لاحظ بعض المطورين أن إصدارها السابق “V3” كان في بعض الحالات يُعرّف عن نفسه على أنه “ChatGPT”، ما أثار الشكوك بشأن احتمال استخدامه بيانات محادثات تعود لمنصة OpenAI.


وقد أشارت OpenAI سابقًا لصحيفة “فاينانشال تايمز” إلى رصدها مؤشرات تفيد باستخدام DeepSeek لتقنية “التقطير” (Distillation)، وهي تقنية تُستخدم لاستخلاص المعرفة من نماذج متقدمة. كما كشفت وكالة بلومبرغ أن Microsoft، الشريك الرئيسي لـOpenAI، لاحظت في أواخر عام 2024 أنشطة غير اعتيادية تضمنت سحب كميات ضخمة من البيانات من حسابات مطورين في OpenAI، يُعتقد أن لها صلة بـDeepSeek.


وبرغم انتشار تقنية التقطير واستخدامها على نطاق واسع، فإن OpenAI تمنع قانونيًا الاستفادة من نواتج نماذجها في تطوير نماذج منافسة، مما يجعل هذه الادعاءات خطيرة في حال ثبوتها.


ويُرجع خبراء صعوبة التحقق من مصدر البيانات إلى ظاهرة "تلوث الإنترنت" بالمحتوى الذي ينتجه الذكاء الاصطناعي، حيث تملأ المقالات الرديئة التي تُنتج آليًا منصات مثل Reddit وX، مما يُعقّد عملية تنقية بيانات التدريب والتمييز بين البيانات الأصلية والمُصنعة.


وفي هذا السياق، أوضح ناثان لامبرت، الباحث في معهد AI2، أن الشركات مثل DeepSeek قد تلجأ لتوليد كميات ضخمة من البيانات الاصطناعية باستخدام نماذج متقدمة نظرًا لامتلاكها ميزانيات كبيرة ولكن موارد حوسبة محدودة، مما يجعل التقطير وسيلة لتعويض نقص وحدات معالجة الرسوميات.


وردًا على هذه التحديات، بدأت شركات كبرى في مجال الذكاء الاصطناعي بتشديد الضوابط لحماية نماذجها. ففي أبريل الماضي، فرضت OpenAI آلية تحقق من الهوية على المؤسسات الراغبة باستخدام نماذجها المتقدمة، تتضمن تقديم بطاقة هوية حكومية من دول محددة — وهو إجراء يستثني الصين.


من جانبها، اتجهت Google مؤخرًا إلى تقنين الوصول إلى ما يُعرف بـ”آثار التفكير” في نماذجها عبر منصة AI Studio، لتقييد إمكانية استنساخها. كما أعلنت شركة Anthropic في مايو أنها ستتبع نفس النهج لحماية تقنياتها من التكرار أو التطفل.


ورغم تصاعد الجدل، لم تصدر Google حتى الآن أي تعليق رسمي على هذه المزاعم، في حين أفادت وسائل إعلام أنها تواصلت مع الشركة للحصول على رد، مع وعود بتحديث المعلومات فور توفرها.

نموذج الاتصال

الاسم

بريد إلكتروني *

رسالة *