تخطي إلى المحتوى

مجموعة بيانات ImageNet

ImageNet عبارة عن قاعدة بيانات واسعة النطاق للصور المشروحة والمصممة للاستخدام في أبحاث التعرف البصري على الأجسام. تحتوي على أكثر من 14 مليون صورة، مع شرح كل صورة باستخدام مجموعات WordNet المتشابهة، مما يجعلها واحدة من أوسع الموارد المتاحة لتدريب نماذج التعلم العميق في مهام رؤية الكمبيوتر.

نماذج ImageNet المدربة مسبقًا

النموذج الحجم
(بالبكسل)
acc
top1
acc
top5
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B) عند 224
YOLO11n-cls 224 70.0 89.4 5.0 ± 0.3 1.1 ± 0.0 1.6 0.5
YOLO11s-cls 224 75.4 92.7 7.9 ± 0.2 1.3 ± 0.0 5.5 1.6
YOLO11m-cls 224 77.3 93.9 17.2 ± 0.4 2.0 ± 0.0 10.4 5.0
YOLO11l-cls 224 78.3 94.3 23.2 ± 0.3 2.8 ± 0.0 12.9 6.2
YOLO11x-cls 224 79.5 94.9 41.4 ± 0.9 3.8 ± 0.0 28.4 13.7

الميزات الرئيسية

  • تحتوي ImageNet على أكثر من 14 مليون صورة عالية الدقة تغطي آلاف فئات الكائنات.
  • تم تنظيم مجموعة البيانات وفقًا لتسلسل WordNet الهرمي، حيث يمثل كل synset فئة.
  • تستخدم ImageNet على نطاق واسع للتدريب وقياس الأداء في مجال رؤية الكمبيوتر، وخاصةً لمهام تصنيف الصور و اكتشاف الكائنات.
  • كانت مسابقة ImageNet Large Scale Visual Recognition Challenge (ILSVRC) السنوية فعالة في تطوير أبحاث رؤية الكمبيوتر.

هيكل مجموعة البيانات

يتم تنظيم مجموعة بيانات ImageNet باستخدام التسلسل الهرمي لـ WordNet. تمثل كل عقدة في التسلسل الهرمي فئة، ويتم وصف كل فئة بواسطة synset (مجموعة من المصطلحات المترادفة). يتم ترميز الصور في ImageNet بواحد أو أكثر من synsets، مما يوفر موردًا غنيًا لتدريب النماذج على التعرف على الكائنات المختلفة وعلاقاتها.

تحدي ImageNet للتعرف البصري واسع النطاق (ILSVRC)

كانت مسابقة ImageNet Large Scale Visual Recognition Challenge (ILSVRC) السنوية حدثًا مهمًا في مجال رؤية الكمبيوتر. لقد وفرت منصة للباحثين والمطورين لتقييم الخوارزميات والنماذج الخاصة بهم على مجموعة بيانات واسعة النطاق مع مقاييس تقييم موحدة. أدت ILSVRC إلى تطورات كبيرة في تطوير نماذج التعلم العميق لتصنيف الصور واكتشاف الكائنات ومهام رؤية الكمبيوتر الأخرى.

التطبيقات

تُستخدم مجموعة بيانات ImageNet على نطاق واسع لتدريب وتقييم نماذج التعلم العميق في مهام رؤية الكمبيوتر المختلفة، مثل تصنيف الصور، واكتشاف الكائنات، وتحديد موقع الكائنات. تم تطوير بعض architectures الشائعة للتعلم العميق، مثل AlexNet و VGG و ResNet، وتمت مقارنتها باستخدام مجموعة بيانات ImageNet.

الاستخدام

لتدريب نموذج التعلم العميق على مجموعة بيانات ImageNet لعدد 100 epoch بحجم صورة 224 × 224، يمكنك استخدام مقتطفات التعليمات البرمجية التالية. للحصول على قائمة شاملة بالحجج المتاحة، ارجع إلى صفحة التدريب الخاصة بالنموذج.

مثال على التدريب

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

عينات من الصور والشروحات التوضيحية

تحتوي مجموعة بيانات ImageNet على صور عالية الدقة تغطي آلاف فئات الكائنات، مما يوفر مجموعة بيانات متنوعة وواسعة النطاق لتدريب وتقييم نماذج رؤية الكمبيوتر. فيما يلي بعض الأمثلة على الصور من مجموعة البيانات:

صور عينة لمجموعة البيانات

يوضح المثال تنوع وتعقيد الصور في مجموعة بيانات ImageNet، مما يسلط الضوء على أهمية وجود مجموعة بيانات متنوعة لتدريب نماذج رؤية الكمبيوتر القوية.

الاقتباسات والإقرارات

إذا كنت تستخدم مجموعة بيانات ImageNet في عملك البحثي أو التطويري، فيرجى الاستشهاد بالورقة التالية:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

نود أن نعرب عن تقديرنا لفريق ImageNet، بقيادة Olga Russakovsky و Jia Deng و Li Fei-Fei، لإنشاء مجموعة بيانات ImageNet والحفاظ عليها كمورد قيم لمجتمع التعلم الآلي وأبحاث رؤية الكمبيوتر. لمزيد من المعلومات حول مجموعة بيانات ImageNet ومنشئيها، تفضل بزيارة موقع ImageNet على الويب.

الأسئلة الشائعة

ما هي مجموعة بيانات ImageNet وكيف يتم استخدامها في مجال رؤية الكمبيوتر؟

مجموعة بيانات ImageNet عبارة عن قاعدة بيانات واسعة النطاق تتكون من أكثر من 14 مليون صورة عالية الدقة مصنفة باستخدام WordNet synsets. يتم استخدامه على نطاق واسع في أبحاث التعرف البصري على الكائنات، بما في ذلك تصنيف الصور واكتشاف الكائنات. توفر التعليقات التوضيحية لمجموعة البيانات وحجمها الهائل موردًا غنيًا لتدريب نماذج التعلم العميق. والجدير بالذكر أنه تم تدريب نماذج مثل AlexNet و VGG و ResNet وقياسها باستخدام ImageNet، مما يدل على دورها في تطوير رؤية الكمبيوتر.

كيف يمكنني استخدام نموذج YOLO مُدرَّب مسبقًا لتصنيف الصور على مجموعة بيانات ImageNet؟

لاستخدام نموذج Ultralytics YOLO المدرب مسبقًا لتصنيف الصور على مجموعة بيانات ImageNet، اتبع الخطوات التالية:

مثال على التدريب

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

للحصول على تعليمات تدريب أكثر تعمقًا، راجع صفحة التدريب الخاصة بنا.

لماذا يجب عليّ استخدام نماذج Ultralytics YOLO11 المدربة مسبقًا لمشاريع مجموعة بيانات ImageNet الخاصة بي؟

توفر نماذج Ultralytics YOLO11 المدربة مسبقًا أداءً حديثًا من حيث السرعة و الدقة لمهام الرؤية الحاسوبية المختلفة. على سبيل المثال، تم تحسين نموذج YOLO11n-cls، بدقة top-1 تبلغ 70.0% ودقة top-5 تبلغ 89.4%، للتطبيقات في الوقت الفعلي. تقلل النماذج المدربة مسبقًا من الموارد الحسابية المطلوبة للتدريب من البداية وتسريع دورات التطوير. تعرف على المزيد حول مقاييس أداء نماذج YOLO11 في قسم نماذج ImageNet المدربة مسبقًا.

كيف يتم تنظيم مجموعة بيانات ImageNet، ولماذا هي مهمة؟

يتم تنظيم مجموعة بيانات ImageNet باستخدام التسلسل الهرمي لـ WordNet، حيث تمثل كل عقدة في التسلسل الهرمي فئة موصوفة بواسطة synset (مجموعة من المصطلحات المترادفة). يسمح هذا الهيكل بتعليقات توضيحية مفصلة، مما يجعله مثاليًا لتدريب النماذج على التعرف على مجموعة واسعة من الكائنات. إن تنوع وثراء التعليقات التوضيحية لـ ImageNet يجعلها مجموعة بيانات قيمة لتطوير نماذج تعلم عميق قوية وقابلة للتعميم. يمكن العثور على مزيد من المعلومات حول هذا التنظيم في قسم هيكل مجموعة البيانات.

ما الدور الذي تلعبه مسابقة ImageNet Large Scale Visual Recognition Challenge ‏(ILSVRC) في مجال رؤية الكمبيوتر؟

كانت مسابقة ImageNet السنوية للتعرف البصري واسع النطاق (ILSVRC) محورية في دفع عجلة التقدم في مجال رؤية الكمبيوتر من خلال توفير منصة تنافسية لتقييم الخوارزميات على مجموعة بيانات موحدة واسعة النطاق. وهي توفر مقاييس تقييم موحدة، مما يعزز الابتكار والتطوير في مجالات مثل تصنيف الصور، واكتشاف الكائنات، وتقسيم الصور. وقد دفعت المسابقة باستمرار حدود الممكن باستخدام تقنيات التعلم العميق ورؤية الكمبيوتر.



📅 تم الإنشاء منذ سنة واحدة ✏️ تم التحديث منذ 4 أشهر

تعليقات