YOLOE: رؤية أي شيء في الوقت الحقيقي

Q: What types of prompts can I use with YOLOE?

يدعم YOLOE ثلاثة أنواع من المطالبات: تسمح لك هذه المرونة بتكييف YOLOE مع سيناريوهات مختلفة دون إعادة تدريب النموذج، مما يجعله مفيدًا بشكل خاص للبيئات الديناميكية حيث تتغير متطلبات الكشف بشكل متكرر.

مقدمة

خيارات المطالبة بخيارات YOLOE

YOLOE (رؤية أي شيء في الوقت الحقيقي) هو تقدم جديد في نماذج YOLO القابلة للتطبيق بدون أي لقطة، والمصممة للكشف عن المفردات المفتوحة وتجزئتها. على عكس نماذج YOLO السابقة التي تقتصر على فئات ثابتة، يستخدم YOLOE مطالبات نصية أو صور أو مفردات داخلية، مما يتيح الكشف في الوقت الفعلي عن أي فئة من فئات الكائنات. تم تصميم YOLOE استنادًا إلى YOLOv10 ومستوحى من YOLO ويحقق YOLOE أداءً متطورًا من دون أي لقطات مع الحد الأدنى من التأثير على السرعة والدقة.

شاهد: كيفية استخدام YOLOE مع حزمة Ultralytics Python : فتح المفردات ورؤية أي شيء في الوقت الفعلي 🚀

مقارنةً بنماذج YOLO السابقة، يعزز YOLOE الكفاءة والدقة بشكل كبير. فهو يتحسن بمقدار +3.5 نقطة مكرر عن YOLO على نظام LVIS مع استخدام ثلث موارد التدريب فقط وتحقيق سرعات استدلال أسرع بمقدار 1.4 مرة. يتفوق YOLOE-v8-large، الذي تم ضبطه بدقة على COCO، على YOLOv8 بمقدار 0.1 ميغابايت، باستخدام وقت تدريب أقل بحوالي 4 أضعاف. وهذا يوضح التوازن الاستثنائي بين دقة YOLOE وكفاءته وتعدد استخداماته. تستكشف الأقسام أدناه بنية YOLOE، والمقارنات المعيارية، والتكامل مع Ultralytics Ultralytics.

نظرة عامة على الهندسة المعمارية

هندسة YOLOE المعمارية

يحتفظ YOLOE بهيكل YOLO القياسي - عمود فقري تلافيفي (مثل CSP-Darknet) لاستخراج الميزات، وعنق (مثل PAN-FPN) للاندماج متعدد النطاقات، ورأس كشف منفصل وخالٍ من الارتكاز (كما في YOLO11) يتنبأ بالكائنات والفئات والمربعات بشكل مستقل. يقدم YOLOE ثلاث وحدات جديدة تتيح الكشف عن المفردات المفتوحة:

محاذاة المنطقة-النص القابلة لإعادة التحديد (RepRTA): يدعم الكشف عن النص الموجه بالنص من خلال تنقيح تضمينات النص (على سبيل المثال، من CLIP) عبر شبكة مساعدة صغيرة. عند الاستدلال، تُطوى هذه الشبكة في النموذج الرئيسي، مما يضمن عدم وجود أي نفقات زائدة. وبالتالي، يكتشف YOLOE كائنات عشوائية ذات تسميات نصية (على سبيل المثال، "إشارة مرور" غير مرئية) دون عقوبات وقت التشغيل.
أداة تشفير الموجه المرئي المنشط دلاليًا (SAVPE): يُمكِّن الاكتشاف الموجه المرئي عبر فرع تضمين خفيف الوزن. بالنظر إلى صورة مرجعية، يقوم SAVPE بتشفير ميزات دلالية وتنشيطية، وتكييف النموذج لاكتشاف الأجسام المتشابهة بصريًا - وهي قدرة اكتشاف من لقطة واحدة مفيدة للشعارات أو أجزاء محددة.
التباين البطيء في المنطقة-المطالبة (LRPC): في الوضع الخالي من المطالبات، يقوم YOLOE بالتعرّف على المجموعة المفتوحة باستخدام التضمينات الداخلية المدرّبة على مفردات كبيرة (أكثر من 1200 فئة من LVIS و Objects365). بدون مطالبات خارجية أو برامج ترميز خارجية، يحدد YOLOE الكائنات من خلال تضمين البحث عن التشابه، والتعامل بكفاءة مع مساحات التسمية الكبيرة عند الاستدلال.

بالإضافة إلى ذلك، يدمج YOLOE تجزئة المثيل في الوقت الحقيقي من خلال توسيع رأس الكشف مع فرع التنبؤ بالقناع (على غرار YOLACT أو YOLOv8)، مما يضيف الحد الأدنى من النفقات العامة.

والأهم من ذلك، لا تقدم وحدات YOLOE ذات العالم المفتوح أي تكلفة استدلالية عند استخدامها كرأس YOLO عادي مغلق المجموعة. بعد التدريب، يمكن إعادة ضبط معلمات YOLOE بعد التدريب في رأس YOLO القياسي، مع الحفاظ على عمليات التشغيل المتماثلة والسرعة (على سبيل المثال، مطابقة YOLO11 بالضبط).

النماذج المتوفرة والمهام المدعومة وأوضاع التشغيل

يوضح هذا القسم تفاصيل النماذج المتاحة مع أوزانها المحددة المدربة مسبقًا والمهام التي تدعمها وتوافقها مع أوضاع التشغيل المختلفة مثل الاستدلال والتحقق من الصحة والتدريب والتصدير، ويُشار إليها بالرمز ✅ للأوضاع المدعومة و❌ للأوضاع غير المدعومة.

نماذج الموجهات النصية/المرئية

نوع الموديل	الأوزان المدربة مسبقاً	المهام المدعومة	الاستدلال	التحقق من الصحة	التدريب	التصدير
YOLOE-11S	yoloe-11s-seg.pt	تجزئة المثيل	✅	✅	✅	✅
YOLOE-11M	yoloe-11m-seg.pt	تجزئة المثيل	✅	✅	✅	✅
YOLOE-11L	yoloe-11l-seg.pt	تجزئة المثيل	✅	✅	✅	✅
YOLOE-v8S	yoloe-v8s-seg.pt	تجزئة المثيل	✅	✅	✅	✅
YOLOE-v8M	yoloe-v8m-seg.pt	تجزئة المثيل	✅	✅	✅	✅
YOLOE-v8L	yoloe-v8l-seg.pt	تجزئة المثيل	✅	✅	✅	✅

موديلات مجانية موجه مجاني

نوع الموديل	الأوزان المدربة مسبقاً	المهام المدعومة	الاستدلال	التحقق من الصحة	التدريب	التصدير
YOLOE-11S-PF	yoloe-11s-seg-pf.pt	تجزئة المثيل	✅	✅	✅	✅
YOLOE-11M-PF	yoloe-11m-seg-pf.pt	تجزئة المثيل	✅	✅	✅	✅
YOLOE-11L-PF	yoloe-11l-seg-pf.pt	تجزئة المثيل	✅	✅	✅	✅
YOLOE-v8S-PF	yoloe-v8s-seg-pf.pt	تجزئة المثيل	✅	✅	✅	✅
YOLOE-v8M-PF	yoloe-v8m-seg-pf.pt	تجزئة المثيل	✅	✅	✅	✅
YOLOE-v8L-PF	yoloe-v8l-seg-pf.pt	تجزئة المثيل	✅	✅	✅	✅

أمثلة على الاستخدام

من السهل دمج نماذج YOLOE في تطبيقات Python الخاصة بك. يوفر Ultralytics واجهة برمجة تطبيقاتPython سهلة الاستخدام وأوامرCLI لتبسيط عملية التطوير.

استخدام القطار

الضبط الدقيق على مجموعة البيانات المخصصة

مثال على ذلك

الضبط الدقيقالفحص الخطي

from ultralytics import YOLOE
from ultralytics.models.yolo.yoloe import YOLOEPESegTrainer

model = YOLOE("yoloe-11s-seg.pt")

model.train(
    data="coco128-seg.yaml",
    epochs=80,
    close_mosaic=10,
    batch=128,
    optimizer="AdamW",
    lr0=1e-3,
    warmup_bias_lr=0.0,
    weight_decay=0.025,
    momentum=0.9,
    workers=4,
    device="0",
    trainer=YOLOEPESegTrainer,
)

from ultralytics import YOLOE
from ultralytics.models.yolo.yoloe import YOLOEPESegTrainer

model = YOLOE("yoloe-11s-seg.pt")
head_index = len(model.model.model) - 1
freeze = [str(f) for f in range(0, head_index)]
for name, child in model.model.model[-1].named_children():
    if "cv3" not in name:
        freeze.append(f"{head_index}.{name}")

freeze.extend(
    [
        f"{head_index}.cv3.0.0",
        f"{head_index}.cv3.0.1",
        f"{head_index}.cv3.1.0",
        f"{head_index}.cv3.1.1",
        f"{head_index}.cv3.2.0",
        f"{head_index}.cv3.2.1",
    ]
)

model.train(
    data="coco128-seg.yaml",
    epochs=2,
    close_mosaic=0,
    batch=16,
    optimizer="AdamW",
    lr0=1e-3,
    warmup_bias_lr=0.0,
    weight_decay=0.025,
    momentum=0.9,
    workers=4,
    device="0",
    trainer=YOLOEPESegTrainer,
    freeze=freeze,
)

توقع الاستخدام

يدعم YOLOE كلاً من المطالبة النصية والمرئية. استخدام المطالبات سهل ومباشر - فقط قم بتمريرها من خلال predict كما هو موضح أدناه:

مثال على ذلك

موجه نصيموجه مرئيمجاناً

تسمح لك المطالبات النصية بتحديد الفئات التي ترغب في اكتشافها من خلال الأوصاف النصية. يوضح الرمز التالي كيف يمكنك استخدام YOLOE للكشف عن الأشخاص والحافلات في الصورة:

from ultralytics import YOLOE

# Initialize a YOLOE model
model = YOLOE("yoloe-11l-seg.pt")  # or select yoloe-11s/m-seg.pt for different sizes

# Set text prompt to detect person and bus. You only need to do this once after you load the model.
names = ["person", "bus"]
model.set_classes(names, model.get_text_pe(names))

# Run detection on the given image
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

تسمح لك المطالبات المرئية بتوجيه النموذج من خلال عرض أمثلة مرئية للفئات المستهدفة بدلاً من وصفها في النص.

إن visual_prompts تأخذ الوسيطة قاموسًا بمفتاحين: bboxes و cls. كل مربع محدَّد في bboxes بإحكام مثالًا للكائن الذي تريد أن يكتشفه النموذج، والمدخل المقابل في cls يحدد تسمية الفئة لهذا المربع. يخبر هذا الاقتران النموذج، "هذا هو شكل الفئة X - والآن ابحث عن المزيد من أمثالها."

معرّفات الفئة (cls) في visual_prompts تُستخدم لربط كل مربع محدد بفئة محددة داخل مطالبتك. إنها ليست تسميات ثابتة، بل هي معرّفات مؤقتة تقوم بتعيينها لكل مثال. الشرط الوحيد هو أن معرّفات الفئات يجب أن تكون متسلسلة، بدءًا من 0. يساعد هذا النموذج على ربط كل مربع بالفئة الخاصة به بشكل صحيح.

يمكنك توفير مطالبات مرئية مباشرةً داخل نفس الصورة التي تريد تشغيل الاستدلال عليها. على سبيل المثال:

import numpy as np

from ultralytics import YOLOE
from ultralytics.models.yolo.yoloe import YOLOEVPSegPredictor

# Initialize a YOLOE model
model = YOLOE("yoloe-11l-seg.pt")

# Define visual prompts using bounding boxes and their corresponding class IDs.
# Each box highlights an example of the object you want the model to detect.
visual_prompts = dict(
    bboxes=np.array(
        [
            [221.52, 405.8, 344.98, 857.54],  # Box enclosing person
            [120, 425, 160, 445],  # Box enclosing glasses
        ],
    ),
    cls=np.array(
        [
            0,  # ID to be assigned for person
            1,  # ID to be assigned for glassses
        ]
    ),
)

# Run inference on an image, using the provided visual prompts as guidance
results = model.predict(
    "ultralytics/assets/bus.jpg",
    visual_prompts=visual_prompts,
    predictor=YOLOEVPSegPredictor,
)

# Show results
results[0].show()

أو يمكنك تقديم أمثلة من صورة مرجعية منفصلة باستخدام refer_image الحجة. في هذه الحالة، فإن bboxes و cls في visual_prompts يجب أن تصف الأجسام الموجودة في الصورة المرجعية، وليس الصورة الهدف التي تقوم بعمل تنبؤات عليها:

ملاحظة

إذا كان source مقطع فيديو أو دفق، يستخدم النموذج تلقائيًا الإطار الأول كإطار refer_image. وهذا يعني أن visual_prompts على ذلك الإطار الأولي لمساعدة النموذج على فهم ما يبحث عنه في بقية الفيديو. بدلًا من ذلك، يمكنك تمرير أي إطار محدد بشكل صريح كإطار refer_image للتحكم في الأمثلة المرئية التي يستخدمها النموذج كمرجع.

import numpy as np

from ultralytics import YOLOE
from ultralytics.models.yolo.yoloe import YOLOEVPSegPredictor

# Initialize a YOLOE model
model = YOLOE("yoloe-11l-seg.pt")

# Define visual prompts based on a separate reference image
visual_prompts = dict(
    bboxes=np.array([[221.52, 405.8, 344.98, 857.54]]),  # Box enclosing person
    cls=np.array([0]),  # ID to be assigned for person
)

# Run prediction on a different image, using reference image to guide what to look for
results = model.predict(
    "ultralytics/assets/zidane.jpg",  # Target image for detection
    refer_image="ultralytics/assets/bus.jpg",  # Reference image used to get visual prompts
    visual_prompts=visual_prompts,
    predictor=YOLOEVPSegPredictor,
)

# Show results
results[0].show()

يمكنك أيضًا تمرير عدة صور مستهدفة لتشغيل التنبؤ عليها:

import numpy as np

from ultralytics import YOLOE
from ultralytics.models.yolo.yoloe import YOLOEVPSegPredictor

# Initialize a YOLOE model
model = YOLOE("yoloe-11l-seg.pt")

# Define visual prompts using bounding boxes and their corresponding class IDs.
# Each box highlights an example of the object you want the model to detect.
visual_prompts = dict(
    bboxes=[
        np.array(
            [
                [221.52, 405.8, 344.98, 857.54],  # Box enclosing person
                [120, 425, 160, 445],  # Box enclosing glasses
            ],
        ),
        np.array([[150, 200, 1150, 700]]),
    ],
    cls=[
        np.array(
            [
                0,  # ID to be assigned for person
                1,  # ID to be assigned for glasses
            ]
        ),
        np.array([0]),
    ],
)

# Run inference on multiple image, using the provided visual prompts as guidance
results = model.predict(
    ["ultralytics/assets/bus.jpg", "ultralytics/assets/zidane.jpg"],
    visual_prompts=visual_prompts,
    predictor=YOLOEVPSegPredictor,
)

# Show results
results[0].show()

يتضمن YOLOE أيضًا نماذج خالية من المطالبات تأتي مع مفردات مدمجة. لا تتطلب هذه النماذج أي مطالبات وتعمل مثل نماذج YOLO التقليدية. بدلاً من الاعتماد على التسميات أو الأمثلة المرئية التي يقدمها المستخدم، فإنها تكتشف الكائنات من قائمة محددة مسبقًا تضم 4585 فئة بناءً على مجموعة العلامات المستخدمة في نموذج التعرف على أي شيء بالإضافة إلى (RAM++).

from ultralytics import YOLOE

# Initialize a YOLOE model
model = YOLOE("yoloe-11l-seg-pf.pt")

# Run prediction. No prompts required.
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

استخدام فال

مثال على ذلك

موجه نصيموجه مرئيموجه مجاناً

from ultralytics import YOLOE

# Create a YOLOE model
model = YOLOE("yoloe-11l-seg.pt")  # or select yoloe-11s/m-seg.pt for different sizes

# Conduct model validation on the COCO128-seg example dataset
metrics = model.val(data="coco128-seg.yaml")

يكون افتراضيًا باستخدام مجموعة البيانات المتوفرة لاستخراج التضمينات المرئية لكل فئة.

from ultralytics import YOLOE

# Create a YOLOE model
model = YOLOE("yoloe-11l-seg.pt")  # or select yoloe-11s/m-seg.pt for different sizes

# Conduct model validation on the COCO128-seg example dataset
metrics = model.val(data="coco128-seg.yaml", load_vp=True)

بدلاً من ذلك، يمكننا استخدام مجموعة بيانات أخرى كمجموعة بيانات مرجعية لاستخراج التضمينات المرئية لكل فئة. لاحظ أن مجموعة البيانات المرجعية هذه يجب أن تحتوي على نفس الفئات تمامًا مثل مجموعة البيانات المقدمة.

from ultralytics import YOLOE

# Create a YOLOE model
model = YOLOE("yoloe-11l-seg.pt")  # or select yoloe-11s/m-seg.pt for different sizes

# Conduct model validation on the COCO128-seg example dataset
metrics = model.val(data="coco128-seg.yaml", load_vp=True, refer_data="coco.yaml")

from ultralytics import YOLOE

# Create a YOLOE model
model = YOLOE("yoloe-11l-seg.pt")  # or select yoloe-11s/m-seg.pt for different sizes

# Conduct model validation on the COCO128-seg example dataset
metrics = model.val(data="coco128-seg.yaml")

يتم تبسيط التحقق من صحة النموذج على مجموعة بيانات على النحو التالي:

تدريب النماذج الرسمية

إعداد مجموعات البيانات

ملاحظة

يحتاج تدريب نماذج YOLOE الرسمية إلى شروح مقطعية لبيانات التدريب، إليك السيناريو المقدم من الفريق الرسمي التي تحوّل مجموعات البيانات إلى شروح توضيحية مقطعية مدعومة ب نماذج SAM2.1. أو يمكنك تنزيل ملف Processed Segment Annotations في الجدول التالي المقدم من الفريق الرسمي.

بيانات القطار

مجموعة البيانات	النوع	العينات	الصناديق	التعليقات التوضيحية للكشف الخام	التعليقات التوضيحية للجزء المعالج
كائنات365v1	الكشف	609k	9621k	كائنات365_تدريب_365.json	كائنات365_تدريب_سيغم.json
GQA	التأريض	621k	3681k	final_mixed_train_train_no_coco.json	final_mixed_train_train_no_coco_segm.json
فليكر 30 ك	التأريض	149k	641k	final_flickr_flickr_separateGT_train.json	final_flickr_flickr_separateGT_train_train_segm.json

بيانات فال

مجموعة البيانات	النوع	ملفات التعليقات التوضيحية
LVIS مينيفال	الكشف	مينيفال.txt

إطلاق التدريب من الصفر

ملاحظة

Visual Prompt يتم ضبط النماذج بناءً على النماذج المدربة جيدًا Text Prompt الموديلات.

مثال على ذلك

موجه نصيموجه مرئيموجه مجاناً

from ultralytics import YOLOE
from ultralytics.models.yolo.yoloe import YOLOESegTrainerFromScratch

data = dict(
    train=dict(
        yolo_data=["Objects365.yaml"],
        grounding_data=[
            dict(
                img_path="../datasets/flickr/full_images/",
                json_file="../datasets/flickr/annotations/final_flickr_separateGT_train_segm.json",
            ),
            dict(
                img_path="../datasets/mixed_grounding/gqa/images",
                json_file="../datasets/mixed_grounding/annotations/final_mixed_train_no_coco_segm.json",
            ),
        ],
    ),
    val=dict(yolo_data=["lvis.yaml"]),
)

model = YOLOE("yoloe-11l-seg.yaml")
model.train(
    data=data,
    batch=128,
    epochs=30,
    close_mosaic=2,
    optimizer="AdamW",
    lr0=2e-3,
    warmup_bias_lr=0.0,
    weight_decay=0.025,
    momentum=0.9,
    workers=4,
    trainer=YOLOESegTrainerFromScratch,
    device="0,1,2,3,4,5,6,7",
)

بما أن SAVPE يجب تحديث الوحدة النمطية أثناء التدريب. تحويل نموذج موجه النص المدرّب جيدًا إلى نموذج الكشف واعتماد خط أنابيب الكشف بتكلفة تدريب أقل. لاحظ أن هذه الخطوة اختيارية، يمكنك البدء مباشرةً من التجزئة أيضًا.

import torch

from ultralytics import YOLOE

det_model = YOLOE("yoloe-11l.yaml")
state = torch.load("yoloe-11l-seg.pt")
det_model.load(state["model"])
det_model.save("yoloe-11l-seg-det.pt")

ابدأ التدريب:

from ultralytics import YOLOE
from ultralytics.models.yolo.yoloe import YOLOESegVPTrainer

data = dict(
    train=dict(
        yolo_data=["Objects365.yaml"],
        grounding_data=[
            dict(
                img_path="../datasets/flickr/full_images/",
                json_file="../datasets/flickr/annotations/final_flickr_separateGT_train_segm.json",
            ),
            dict(
                img_path="../datasets/mixed_grounding/gqa/images",
                json_file="../datasets/mixed_grounding/annotations/final_mixed_train_no_coco_segm.json",
            ),
        ],
    ),
    val=dict(yolo_data=["lvis.yaml"]),
)

model = YOLOE("yoloe-11l-seg.pt")
# replace to yoloe-11l-seg-det.pt if converted to detection model
# model = YOLOE("yoloe-11l-seg-det.pt")

# freeze every layer except of the savpe module.
head_index = len(model.model.model) - 1
freeze = list(range(0, head_index))
for name, child in model.model.model[-1].named_children():
    if "savpe" not in name:
        freeze.append(f"{head_index}.{name}")

model.train(
    data=data,
    batch=128,
    epochs=2,
    close_mosaic=2,
    optimizer="AdamW",
    lr0=16e-3,
    warmup_bias_lr=0.0,
    weight_decay=0.025,
    momentum=0.9,
    workers=4,
    trainer=YOLOESegVPTrainer,  # use YOLOEVPTrainer if converted to detection model
    device="0,1,2,3,4,5,6,7",
    freeze=freeze,
)

التحويل مرة أخرى إلى نموذج التجزئة بعد التدريب. مطلوب فقط إذا قمت بتحويل نموذج التجزئة إلى نموذج كشف قبل التدريب.

from copy import deepcopy

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.yaml")
model.load("yoloe-11l-seg.pt")

vp_model = YOLOE("yoloe-11l-vp.pt")
model.model.model[-1].savpe = deepcopy(vp_model.model.model[-1].savpe)
model.eval()
model.save("yoloe-11l-seg.pt")

على غرار تدريب الموجه المرئي، بالنسبة للنموذج الخالي من الموجهات النصية لا يوجد سوى تضمين الموجهات النصية المتخصصة التي تحتاج إلى تحديث أثناء التدريب. تحويل نموذج المطالبة النصية المدربة جيدًا إلى نموذج كشف واعتماد خط أنابيب الكشف بتكلفة تدريب أقل. لاحظ أن هذه الخطوة اختيارية، يمكنك البدء مباشرةً من التجزئة أيضًا.

import torch

from ultralytics import YOLOE

det_model = YOLOE("yoloe-11l.yaml")
state = torch.load("yoloe-11l-seg.pt")
det_model.load(state["model"])
det_model.save("yoloe-11l-seg-det.pt")

ابدأ التدريب:

from ultralytics import YOLOE

data = dict(
    train=dict(
        yolo_data=["Objects365.yaml"],
        grounding_data=[
            dict(
                img_path="../datasets/flickr/full_images/",
                json_file="../datasets/flickr/annotations/final_flickr_separateGT_train_segm.json",
            ),
            dict(
                img_path="../datasets/mixed_grounding/gqa/images",
                json_file="../datasets/mixed_grounding/annotations/final_mixed_train_no_coco_segm.json",
            ),
        ],
    ),
    val=dict(yolo_data=["lvis.yaml"]),
)

model = YOLOE("yoloe-11l-seg.pt")
# replace to yoloe-11l-seg-det.pt if converted to detection model
# model = YOLOE("yoloe-11l-seg-det.pt")

# freeze layers.
head_index = len(model.model.model) - 1
freeze = [str(f) for f in range(0, head_index)]
for name, child in model.model.model[-1].named_children():
    if "cv3" not in name:
        freeze.append(f"{head_index}.{name}")

freeze.extend(
    [
        f"{head_index}.cv3.0.0",
        f"{head_index}.cv3.0.1",
        f"{head_index}.cv3.1.0",
        f"{head_index}.cv3.1.1",
        f"{head_index}.cv3.2.0",
        f"{head_index}.cv3.2.1",
    ]
)

model.train(
    data=data,
    batch=128,
    epochs=1,
    close_mosaic=1,
    optimizer="AdamW",
    lr0=2e-3,
    warmup_bias_lr=0.0,
    weight_decay=0.025,
    momentum=0.9,
    workers=4,
    trainer=YOLOEPEFreeTrainer,
    device="0,1,2,3,4,5,6,7",
    freeze=freeze,
    single_cls=True,  # this is needed
)

التحويل مرة أخرى إلى نموذج التجزئة بعد التدريب. مطلوب فقط إذا قمت بتحويل نموذج التجزئة إلى نموذج كشف قبل التدريب.

from copy import deepcopy

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
model.eval()

pf_model = YOLOE("yoloe-11l-seg-pf.pt")
names = ["object"]
tpe = model.get_text_pe(names)
model.set_classes(names, tpe)
model.model.model[-1].fuse(model.model.pe)

model.model.model[-1].cv3[0][2] = deepcopy(pf_model.model.model[-1].cv3[0][2]).requires_grad_(True)
model.model.model[-1].cv3[1][2] = deepcopy(pf_model.model.model[-1].cv3[1][2]).requires_grad_(True)
model.model.model[-1].cv3[2][2] = deepcopy(pf_model.model.model[-1].cv3[2][2]).requires_grad_(True)
del model.model.pe
model.save("yoloe-11l-seg-pf.pt")

مقارنة أداء YOLOE

يطابق YOLOE أو يتجاوز دقة نماذج YOLO ذات المجموعة المغلقة على المعايير القياسية مثل COCO، دون المساس بالسرعة أو حجم النموذج. يقارن الجدول أدناه بين YOLOE-L (المبني على YOLO11) ونماذج YOLOv8 ونماذج YOLO11 المقابلة:

الطراز	COCO _mAP50-95	سرعة الاستدلال (T4)	المعلمات	GFLOPs (640 بكسل)
YOLOv8 (مجموعة مغلقة)	52.9%	9.06 مللي ثانية (110 إطارات في الثانية)	43.7 M	165.2 B
YOLO11 (مجموعة مغلقة)	53.5%	6.2 مللي ثانية (130 إطارًا في الثانية)	26.2 M	86.9 B
YOLOE-L (سيارة نقل مفتوح)	52.6%	6.2 مللي ثانية (130 إطارًا في الثانية)	26.2 M	86.9 ^B†

^† لدىYOLO11 و YOLOE-L بنيتان متطابقتان (تم تعطيل وحدات المطالبة في YOLO11)، مما يؤدي إلى سرعة استدلال متطابقة وتقديرات GFLOP مماثلة.

يحقق YOLOE-L نسبة 52.6% من mAP، متفوقًا على YOLOv8(52.9%) بمعلمات أقل بنسبة 40% تقريبًا (26 مليونًا مقابل 43.7 مليونًا). تعالج الصور بدقة 640 × 640 في 6.2 مللي ثانية (161 إطارًا في الثانية) مقارنةً بـ YOLOv8 التي تبلغ 9.06 مللي ثانية (110 إطارًا في الثانية)، مما يسلط الضوء على كفاءة YOLO11. والأهم من ذلك أن وحدات YOLOOE ذات المفردات المفتوحة لا تتكبد أي تكلفة استدلالية، مما يدل على تصميم "لا مقايضة مجانية".

بالنسبة لمهام اللقطة الصفرية والنقل، يتفوق YOLOE على YOLOE-small على YOLO بمقدار +3.5 نقطة وصول باستخدام موارد تدريب أقل بمقدار 3 أضعاف. كما أن ضبط YOLOE-L من LVIS إلى COCO يتطلب أيضًا وقت تدريب أقل بـ 4 أضعاف من YOLOv8 مما يؤكد كفاءته وقدرته على التكيف. يحافظ YOLOE كذلك على سرعة YOLO المميزة، حيث يحقق أكثر من 300 إطار في الثانية على GPU T4 وحوالي 64 إطارًا في الثانية على iPhone 12 عبر CoreML وهو مثالي لعمليات النشر على الحافة والجوال.

ملاحظة

الشروط المعيارية: نتائج YOLOE مأخوذة من نماذج تم تدريبها مسبقًا على Objects365 وGoldG وLVIS، ثم تم ضبطها أو تقييمها على COCO. تأتي أفضلية YOLOE الطفيفة على YOLOv8 من التدريب المسبق المكثف. وبدون هذا التدريب المفتوح، يتطابق YOLOE مع نماذج YOLO ذات الحجم المماثل، مما يؤكد دقة SOTA ومرونة العالم المفتوح دون عقوبات في الأداء.

مقارنة مع النماذج السابقة

يقدم YOLOE تطورات ملحوظة مقارنةً بنماذج YOLO السابقة وأجهزة الكشف عن المفردات المفتوحة:

YOLOE مقابل YOLOv5:
YOLOv5 يوفر توازنًا جيدًا بين السرعة والدقة ولكنه يتطلب إعادة تدريب للفئات الجديدة ويستخدم رؤوسًا قائمة على المراسي. على النقيض من ذلك، فإن YOLOE خالٍ من المراسي ويكتشف الفئات الجديدة ديناميكيًا. يحقق YOLOE، الذي يعتمد على تحسينات YOLOv8 دقة أعلى (52.6% مقابل 50% تقريبًا من دقة YOLOv5 على COCO) ويدمج تجزئة النماذج، على عكس YOLOv5.
YOLOE مقابل YOLOv8:
تمديد YOLOE YOLOv8المعاد تصميمه، محققًا دقة مماثلة أو متفوقة(52.6% من دقة المعالجة الكلية مع حوالي 26 مليون معلمة مقابل 52.9% من دقة YOLOv8 مع حوالي 44 مليون معلمة). يقلل بشكل كبير من وقت التدريب بسبب التدريب المسبق الأقوى. يتمثل التقدم الرئيسي في قدرة YOLOE في العالم المفتوح، حيث يكتشف الأجسام غير المرئية (على سبيل المثال،"سكوتر الطيور" أو"رمز السلام") عبر المطالبات، على عكس تصميم YOLOv8 ذي المجموعة المغلقة.
YOLOE مقابل YOLO11:
YOLO11 تحسينات على YOLOv8 مع تحسين الكفاءة وتقليل عدد المعلمات (تخفيض بنسبة 22% تقريبًا). يرث YOLOE هذه المكاسب مباشرةً، ويطابق سرعة الاستدلال في YOLO11 وعدد المعلمات (حوالي 26 مليون معلمة)، مع إضافة اكتشاف المفردات المفتوحة وتجزئتها. في سيناريوهات المجموعة المغلقة، يعادل YOLOE YOLO11 لكنه يضيف بشكل حاسم القدرة على التكيف لاكتشاف الفئات غير المرئية، مما يحقق قدرةYOLO11 + قدرة العالم المفتوح دون المساس بالسرعة.
YOLOE مقابل كاشفات المفردات المفتوحة السابقة:
اعتمدت نماذج المفردات المفتوحة السابقة (GLIP و OWL-ViT و YOLO) اعتمادًا كبيرًا على محولات لغة الرؤية، مما أدى إلى بطء في الاستدلال. يتفوق YOLOE على هذه النماذج في دقة اللقطة الصفرية (على سبيل المثال، +3.5 نقطة في YOLO مقابل YOLO) بينما يعمل أسرع بـ 1.4 مرة مع موارد تدريب أقل بكثير. مقارنةً بالمناهج القائمة على المحولات (على سبيل المثال: GLIP)، يوفر YOLOE استدلالًا أسرع من حيث الحجم، مما يسد فجوة الدقة والكفاءة في اكتشاف المجموعة المفتوحة.

وباختصار، يحافظ YOLOE على سرعة وكفاءة YOLO المشهورة، ويتفوق على سابقيه في الدقة، ويدمج التجزئة، ويقدم اكتشافًا قويًا للعالم المفتوح، مما يجعله متعدد الاستخدامات وعمليًا بشكل فريد.

حالات الاستخدام والتطبيقات

تتيح خاصية YOLOE للكشف عن المفردات المفتوحة وتجزئتها تطبيقات متنوعة تتجاوز النماذج التقليدية للفئات الثابتة:

اكتشاف الأجسام في العالم المفتوح:
مثالية للسيناريوهات الديناميكية مثل الروبوتات، حيث تتعرف الروبوتات على الأجسام التي لم يسبق رؤيتها باستخدام المطالبات، أو أنظمة الأمن التي تتكيف بسرعة مع التهديدات الجديدة (مثل العناصر الخطرة) دون إعادة التدريب.
اكتشاف اللقطات القليلة واللقطة الواحدة:
باستخدام المطالبات المرئية (SAVPE)، يتعلم YOLOE بسرعة الأجسام الجديدة من صور مرجعية واحدة - وهو مثالي للفحص الصناعي (تحديد الأجزاء أو العيوب على الفور) أو المراقبة المخصصة، مما يتيح عمليات البحث المرئية بأقل قدر من الإعداد.
المفردات الكبيرة والتعرف طويل الذيل:
تتفوق YOLOE، المجهزة بمفردات تضم أكثر من 1000 فئة، في مهام مثل مراقبة التنوع البيولوجي (الكشف عن الأنواع النادرة) أو مجموعات المتاحف أو مخزون التجزئة أو التجارة الإلكترونية، حيث تتعرف على العديد من الفئات بشكل موثوق دون تدريب مكثف لكل فئة.
الكشف والتجزئة التفاعلية:
يدعم YOLOE التطبيقات التفاعلية في الوقت الحقيقي مثل استرجاع الفيديو/الصور القابل للبحث، والواقع المعزز (AR)، وتحرير الصور بشكل حدسي، مدفوعًا بمدخلات طبيعية (نص أو مطالبات مرئية). يمكن للمستخدمين عزل الكائنات أو تحديدها أو تحريرها بشكل ديناميكي باستخدام أقنعة التجزئة بدقة.
التوسيم الآلي للبيانات والتمهيد:
يسهّل YOLOE إنشاء مجموعة بيانات سريعة من خلال توفير مربع حدودي أولي وشروح تجزئة أولية، مما يقلل بشكل كبير من جهود وضع العلامات البشرية. وهي ذات قيمة خاصة في تحليل مجموعات الوسائط الكبيرة، حيث يمكنها تحديد الكائنات الموجودة تلقائيًا، مما يساعد في بناء نماذج متخصصة بشكل أسرع.
تجزئة أي كائن:
يوسع إمكانيات التجزئة لتشمل الأجسام العشوائية من خلال المطالبات - وهو مفيد بشكل خاص للتصوير الطبي أو الفحص المجهري أو تحليل صور الأقمار الصناعية، وتحديد البنى تلقائيًا وتجزئتها بدقة دون نماذج متخصصة مدربة مسبقًا. على عكس نماذج مثل SAMيتعرف YOLOE على الكائنات ويجزئها تلقائيًا في نفس الوقت، مما يساعد في مهام مثل إنشاء المحتوى أو فهم المشهد.

عبر جميع حالات الاستخدام هذه، تتمثل الميزة الأساسية لـ YOLOE في تعدد الاستخدامات، حيث توفر نموذجًا موحدًا للكشف والتعرف والتجزئة عبر السيناريوهات الديناميكية. تضمن كفاءته الأداء في الوقت الفعلي على الأجهزة ذات الموارد المحدودة، وهو مثالي للروبوتات والقيادة الذاتية والدفاع وما بعدها.

نصيحة

اختر وضع YOLOE بناءً على احتياجاتك:

وضع المجموعة المغلقة: لمهام الفئة الثابتة (السرعة والدقة القصوى).
الوضع الموجه: إضافة كائنات جديدة بسرعة عبر مطالبات نصية أو مرئية.
وضع المجموعة المفتوحة بدون موجه: الكشف العام عبر العديد من الفئات (مثالي للفهرسة والاكتشاف).

في كثير من الأحيان، يؤدي الجمع بين الأنماط - مثل الاكتشاف الخالي من المطالبات متبوعًا بالمطالبات المستهدفة - إلى الاستفادة من إمكانات YOLOE الكاملة.

التدريب والاستدلال

يتكامل YOLOE بسلاسة مع واجهة برمجة تطبيقاتUltralytics Python و CLIعلى غرار نماذج YOLO الأخرىYOLOv8 YOLO). إليك كيفية البدء بسرعة:

التدريب والاستدلال باستخدام YOLOE

PythonCLI

from ultralytics import YOLO

# Load pre-trained YOLOE model and train on custom data
model = YOLO("yoloe-11s-seg.pt")
model.train(data="path/to/data.yaml", epochs=50, imgsz=640)

# Run inference using text prompts ("person", "bus")
model.set_classes(["person", "bus"])
results = model.predict(source="test_images/street.jpg")
results[0].save()  # save annotated output

هنا، يتصرف YOLOE مثل الكاشف القياسي افتراضيًا ولكنه يتحول بسهولة إلى الكشف الفوري عن طريق تحديد الفئات (set_classes). تحتوي النتائج على مربعات محدودة، وأقنعة وتسميات.

# Training YOLOE on custom dataset
yolo train model=yoloe-11s-seg.pt data=path/to/data.yaml epochs=50 imgsz=640

# Inference with text prompts
yolo predict model=yoloe-11s-seg.pt source="test_images/street.jpg" classes="person,bus"

مطالبات CLI (classes) توجيه YOLOE بشكل مشابه Python set_classes. تتطلب المطالبة المرئية (الاستعلامات القائمة على الصور) حاليًا واجهة برمجة تطبيقات Python .

المهام الأخرى المدعومة

المصادقة: تقييم الدقة بسهولة باستخدام model.val() أو yolo val.
التصدير: تصدير نماذج YOLOE (model.export()) إلى ONNX و TensorRT وما إلى ذلك، مما يسهل عملية النشر.
التتبع: يدعم YOLOE تتبع الأجسام (yolo track) عند تكاملها، مفيدة لتتبع الفصول المدفوعة في مقاطع الفيديو.

ملاحظة

يتضمن YOLOE تلقائياً أقنعة التجزئة في نتائج الاستدلال (results[0].masks)، مما يبسّط المهام الدقيقة بالبكسل مثل استخراج الأجسام أو القياس دون الحاجة إلى نماذج منفصلة.

الشروع في العمل

قم بإعداد YOLOE بسرعة مع Ultralytics باتباع الخطوات التالية:

التثبيت: تثبيت حزمة Ultralytics أو تحديثها:
```
pip install -U ultralytics
```
تنزيل أوزان YOLOE: تتوفر نماذج YOLOE المدربة مسبقًا (على سبيل المثال، متغيرات YOLOE-v8-S/L، YOLOE-11) من إصدارات YOLOE GitHub. ما عليك سوى تنزيل .pt لتحميله إلى فئةYOLO الخاصة بـ Ultralytics .
متطلبات الأجهزة:
- الاستدلال: GPU الموصى بهاNVIDIA مع ≥4-8 جيجابايت VRAM). تعمل النماذج الصغيرة بكفاءة على وحدات معالجة الرسومات المتطورة (مثل Jetson) أو وحدات المعالجة المركزية بدقة أقل.
- التدريب: يتطلب ضبط YOLOE على البيانات المخصصة عادةً GPUومات واحدة فقط. يتطلب التدريب المسبق واسع النطاق للمفردات المفتوحة (LVIS/Objects365) الذي استخدمه المؤلفون حوسبة كبيرة (8× وحدات معالجة رسومات RTX 4090).
التكوين: تستخدم تكوينات YOLOE ملفات Ultralytics YAML القياسية. التكوينات الافتراضية (على سبيل المثال, yoloe-11s-seg.yaml) تكفي عادة، ولكن يمكنك تعديل العمود الفقري أو الفئات أو حجم الصورة حسب الحاجة.

تشغيل YOLOE:

الاستدلال السريع (خالية من الفورية):
```
yolo predict model=yoloe-11s-seg-pf.pt source="image.jpg"
```

الكشف الموجه (مثال موجه نصي):

from ultralytics import YOLO

model = YOLO("yoloe-11s-seg.pt")
names = ["bowl", "apple"]
model.set_classes(names, model.get_text_pe(names))
results = model.predict("kitchen.jpg")
results[0].save()

نصائح التكامل:
- أسماء الفصول: تستخدم نواتج YOLOE الافتراضية فئات LVIS؛ استخدام set_classes() لتحديد التسميات الخاصة بك.
- السرعة: ليس لدى YOLOE أي نفقات عامة ما لم يتم استخدام المطالبات. المطالبات النصية لها تأثير ضئيل؛ والمطالبات المرئية أكثر قليلاً.
- الاستدلال الدفعي: مدعومة مباشرة (model.predict([img1, img2])). بالنسبة للمطالبات الخاصة بالصور، قم بتشغيل الصور بشكل فردي.

توفر وثائقUltralytics المزيد من الموارد. يتيح لك YOLOE استكشاف إمكانات العالم المفتوح القوية بسهولة داخل نظام YOLO المألوف.

نصيحة

نصيحة احترافية: لزيادة دقة اللقطة الصفرية لـ YOLOE إلى أقصى حد، قم بالضبط الدقيق من نقاط التحقق المتوفرة بدلاً من التدريب من الصفر. استخدم كلمات مطالبة تتماشى مع تسميات التدريب الشائعة (انظر فئات LVIS) لتحسين دقة الكشف.

الاستشهادات والشكر والتقدير

إذا كانت YOLOE قد ساهمت في بحثك أو مشروعك، يُرجى الاستشهاد بالورقة البحثية الأصلية التي كتبها كل من آو وانغ وليهاو ليو وهوي تشين وزيجيا لين وجونغونغ هان وغويغوانغ دينغ من جامعة تسينغهوا:

BibTeX

@misc{wang2025yoloerealtimeseeing,
      title={YOLOE: Real-Time Seeing Anything},
      author={Ao Wang and Lihao Liu and Hui Chen and Zijia Lin and Jungong Han and Guiguang Ding},
      year={2025},
      eprint={2503.07465},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.07465},
}

لمزيد من القراءة، يمكن الاطلاع على ورقة YOLOE الأصلية على موقع arXiv. يمكن الوصول إلى شفرة مصدر المشروع والموارد الإضافية عبر مستودع GitHub الخاص بهم.

الأسئلة الشائعة

كيف يختلف YOLOE عن YOLO

في حين أن كلاً من YOLOE و YOLO يُمكِّنان الكشف عن المفردات المفتوحة، فإن YOLOE يُقدم العديد من المزايا. يُحقق YOLOE دقة أعلى بمقدار 3.5 نقطة مئوية على نظام LVIS مع استخدام موارد تدريب أقل بمقدار 3 أضعاف، ويعمل أسرع بمقدار 1.4 ضعف من YOLO. يدعم YOLOE أيضًا ثلاثة أوضاع مطالبة (نصية، ومرئية، ومفردات داخلية)، بينما يركز YOLO بشكل أساسي على المطالبات النصية. بالإضافة إلى ذلك، يشتمل YOLOOE على إمكانات تجزئة مثيل مدمجة، مما يوفر أقنعة دقيقة بالبكسل للكائنات المكتشفة دون نفقات إضافية.

هل يمكنني استخدام YOLOE كنموذج YOLO عادي؟

نعم، يمكن أن يعمل YOLOE تمامًا مثل نموذج YOLO القياسي دون أي عقوبة أداء. عند استخدام YOLOE في وضع المجموعة المغلقة (بدون مطالبات)، يتم إعادة ضبط وحدات YOLOE ذات المفردات المفتوحة في رأس الكشف القياسي، مما يؤدي إلى سرعة ودقة مماثلة لنماذج YOLO11 المكافئة. هذا يجعل YOLOE متعدد الاستخدامات للغاية - يمكنك استخدامه ككاشف تقليدي للحصول على أقصى سرعة ثم التبديل إلى وضع المفردات المفتوحة فقط عند الحاجة.

ما أنواع المطالبات التي يمكنني استخدامها مع YOLOE؟

يدعم YOLOE ثلاثة أنواع من المطالبات:

مطالبات نصية: تحديد فئات الكائنات باستخدام لغة طبيعية (على سبيل المثال، "شخص"، "إشارة مرور"، "دراجة بخارية للطيور")
مطالبات بصرية: توفير صور مرجعية للأجسام التي تريد اكتشافها
المفردات الداخلية: استخدم المفردات المدمجة في YOLOE التي تضم أكثر من 1200 فئة دون الحاجة إلى مطالبات خارجية

تسمح لك هذه المرونة بتكييف YOLOE مع سيناريوهات مختلفة دون إعادة تدريب النموذج، مما يجعله مفيدًا بشكل خاص للبيئات الديناميكية حيث تتغير متطلبات الكشف بشكل متكرر.

كيف يتعامل YOLOE مع تجزئة المثيل؟

يدمج YOLOE تجزئة المثيل مباشرةً في بنيته من خلال توسيع رأس الكشف بفرع التنبؤ بالقناع. هذا النهج مشابه لنهج YOLOv8 ولكنه يعمل مع أي فئة كائنات مُطالبة. يتم تضمين أقنعة التجزئة تلقائيًا في نتائج الاستدلال ويمكن الوصول إليها عبر results[0].masks. هذا النهج الموحّد يلغي الحاجة إلى نماذج منفصلة للكشف والتجزئة، مما يسهّل سير العمل للتطبيقات التي تتطلب حدودًا دقيقة للأجسام بالبكسل.

كيف يتعامل YOLOE مع الاستدلال مع المطالبات المخصصة؟

على غرار YOLO يدعم YOLOE استراتيجية "المطالبة ثم الكشف" التي تستخدم مفردات غير متصلة بالإنترنت لتعزيز الكفاءة. يتم ترميز المطالبات المخصصة مثل التسميات التوضيحية أو فئات كائنات محددة مسبقًا وتخزينها كمفردات غير متصلة بالإنترنت. يعمل هذا النهج على تبسيط عملية الكشف دون الحاجة إلى إعادة التدريب. يمكنك تعيين هذه المطالبات ديناميكيًا داخل النموذج لتخصيصه لمهام كشف محددة:

from ultralytics import YOLO

# Initialize a YOLOE model
model = YOLO("yoloe-11s-seg.pt")

# Define custom classes
names = ["person", "bus"]
model.set_classes(names, model.get_text_pe(names))

# Execute prediction on an image
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

📅 تم إنشاؤه منذ 2 أشهر ✏️ تم التحديث منذ 1 شهر

YOLOE: رؤية أي شيء في الوقت الحقيقي

مقدمة

نظرة عامة على الهندسة المعمارية

النماذج المتوفرة والمهام المدعومة وأوضاع التشغيل

نماذج الموجهات النصية/المرئية

موديلات مجانية موجه مجاني

أمثلة على الاستخدام

استخدام القطار

الضبط الدقيق على مجموعة البيانات المخصصة

توقع الاستخدام

استخدام فال

تدريب النماذج الرسمية

إعداد مجموعات البيانات

إطلاق التدريب من الصفر

مقارنة أداء YOLOE

مقارنة مع النماذج السابقة

حالات الاستخدام والتطبيقات

التدريب والاستدلال

المهام الأخرى المدعومة

الشروع في العمل

الاستشهادات والشكر والتقدير

الأسئلة الشائعة

كيف يختلف YOLOE عن YOLO

هل يمكنني استخدام YOLOE كنموذج YOLO عادي؟

ما أنواع المطالبات التي يمكنني استخدامها مع YOLOE؟

كيف يتعامل YOLOE مع تجزئة المثيل؟

كيف يتعامل YOLOE مع الاستدلال مع المطالبات المخصصة؟

التعليقات