İçeriğe geç

YOLO12: Dikkat Merkezli Nesne Algılama

Genel Bakış

YOLO12, önceki YOLO modellerinde kullanılan geleneksel CNN tabanlı yaklaşımlardan ayrılan, ancak birçok uygulama için gerekli olan gerçek zamanlı çıkarım hızını koruyan, dikkat merkezli bir mimari sunar. Bu model, dikkat mekanizmalarındaki ve genel ağ mimarisindeki yeni metodolojik yenilikler sayesinde, gerçek zamanlı performansı korurken, son teknoloji nesne algılama doğruluğuna ulaşır.



İzle: Ultralytics Paketi ile Nesne Algılama için YOLO12 Nasıl Kullanılır | YOLO12 Hızlı mı Yoksa Yavaş mı? 🚀

Temel Özellikler

  • Alan Dikkat Mekanizması: Geniş alıcı alanları verimli bir şekilde işleyen yeni bir kendi kendine dikkat yaklaşımı. Karmaşık işlemlerden kaçınarak ve geniş bir etkili alıcı alanı koruyarak, özellik haritalarını yatay veya dikey olarak l eşit büyüklükteki bölgelere (varsayılan olarak 4) böler. Bu, standart kendi kendine dikkate kıyasla hesaplama maliyetini önemli ölçüde azaltır.
  • Residual Efficient Layer Aggregation Networks (R-ELAN): Özellikle daha büyük ölçekli dikkat merkezli modellerde optimizasyon zorluklarını ele almak için tasarlanmış, ELAN tabanlı geliştirilmiş bir özellik toplama modülü. R-ELAN şunları sunar:
    • Ölçeklendirme ile blok düzeyinde artık bağlantılar (katman ölçeklendirmeye benzer).
    • Yeniden tasarlanmış bir özellik toplama yöntemi, darboğaz benzeri bir yapı oluşturur.
  • Optimize Edilmiş Dikkat Mimarisi: YOLO12, YOLO çerçevesiyle daha fazla verimlilik ve uyumluluk için standart dikkat mekanizmasını kolaylaştırır. Bunlar şunları içerir:
    • Bellek erişim yükünü en aza indirmek için FlashAttention kullanılıyor.
    • Daha temiz ve hızlı bir model için pozisyonel kodlamayı kaldırma.
    • MLP oranını (tipik 4'ten 1,2 veya 2'ye) ayarlayarak dikkat ve ileri besleme katmanları arasındaki hesaplamayı daha iyi dengelemek.
    • İyileştirilmiş optimizasyon için yığılmış blokların derinliğinin azaltılması.
    • Hesaplama verimlilikleri için (uygun olan yerlerde) evrişim işlemlerinden yararlanma.
    • Konumsal bilgileri örtük olarak kodlamak için dikkat mekanizmasına 7x7 ayrılabilir bir evrişim ("konum algılayıcı") eklenmesi.
  • Kapsamlı Görev Desteği: YOLO12, bir dizi temel bilgisayar görüşü görevini destekler: nesne algılama, örnek segmentasyonu, görüntü sınıflandırması, poz tahmini ve yönlendirilmiş nesne algılama (OBB).
  • Gelişmiş Verimlilik: Hız ve doğruluk arasında iyileştirilmiş bir denge sergileyerek, birçok önceki modele kıyasla daha az parametreyle daha yüksek doğruluk sağlar.
  • Esnek Dağıtım: Uç cihazlardan bulut altyapısına kadar çeşitli platformlarda dağıtım için tasarlanmıştır.

YOLO12 karşılaştırma görselleştirmesi

Desteklenen Görevler ve Modlar

YOLO12, çeşitli bilgisayar görüşü görevlerini destekler. Aşağıdaki tablo, her biri için etkinleştirilen görev desteğini ve operasyonel modları (Çıkarım, Doğrulama, Eğitim ve Dışa Aktarma) gösterir:

Model Türü Görev Çıkarım Doğrulama Eğitim Dışa aktar
YOLO12 Algılama
YOLO12-seg Segmentasyon
YOLO12-pose Poz
YOLO12-cls Sınıflandırma
YOLO12-obb OBB

Performans Metrikleri

YOLO12, tüm model ölçeklerinde önemli doğruluk iyileştirmeleri gösterirken, önceki en hızlı YOLO modellerine kıyasla hızda bazı ödünler vermektedir. Aşağıda, COCO doğrulama veri kümesinde nesne algılama için nicel sonuçlar bulunmaktadır:

Algılama Performansı (COCO val2017)

Performans

Model boyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT
(ms)
parametreler
(M)
FLOP'lar
(B)
Karşılaştırma
(mAP/Hız)
YOLO12n 640 40.6 - 1.64 2.6 6.5 +%2,1 /-%9 (YOLOv10n'ye kıyasla)
YOLO12s 640 48.0 - 2.61 9.3 21.4 +%0,1 /%42 (RT-DETRv2'ye kıyasla)
YOLO12m 640 52.5 - 4.86 20.2 67.5 +%1,0 /-%3 (YOLO11m'ye kıyasla)
YOLO12l 640 53.7 - 6.77 26.4 88.9 +%0,4 /-%8 (YOLO11l'ye kıyasla)
YOLO12x 640 55.2 - 11.79 59.1 199.0 +%0,6 /-%4 (YOLO11x'e kıyasla)
  • Çıkarım hızı, TensorRT FP16 kesinliğiyle bir NVIDIA T4 GPU'da ölçülmüştür.
  • Karşılaştırmalar, mAP'deki göreli iyileşmeyi ve hızdaki yüzde değişimini gösterir (pozitif daha hızlıyı, negatif daha yavaşyı gösterir). Karşılaştırmalar, mevcut olduğunda YOLO10, YOLO11 ve RT-DETR için yayınlanan sonuçlara göre yapılmıştır.

Kullanım Örnekleri

Bu bölüm, YOLO12 ile eğitim ve çıkarım örnekleri sunmaktadır. Bunlar ve diğer modlar ( Doğrulama ve Dışa Aktarma dahil) hakkında daha kapsamlı belgeler için, özel Tahmin ve Eğitim sayfalarına başvurun.

Aşağıdaki örnekler YOLO12 Detect modellerine (nesne algılama için) odaklanmaktadır. Diğer desteklenen görevler (segmentasyon, sınıflandırma, yönlendirilmiş nesne algılama ve poz tahmini) için ilgili göreve özgü belgelere bakın: Segment, Classify, OBB ve Pose.

Örnek

Önceden eğitilmiş *.pt modelleri (kullanarak PyTorch) ve yapılandırma *.yaml dosyaları YOLO() Python'da bir model örneği oluşturmak için sınıf:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO12n model
model = YOLO("yolo12n.pt")

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLO12n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

Komut Satırı Arayüzü (CLI) komutları da mevcuttur:

# Load a COCO-pretrained YOLO12n model and train on the COCO8 example dataset for 100 epochs
yolo train model=yolo12n.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained YOLO12n model and run inference on the 'bus.jpg' image
yolo predict model=yolo12n.pt source=path/to/bus.jpg

Temel İyileştirmeler

  1. Gelişmiş Özellik Çıkarımı:

    • Alan Dikkat: Geniş alıcı alanlarını verimli bir şekilde işler, hesaplama maliyetini azaltır.
    • Optimize Edilmiş Denge: Dikkat ve ileri besleme ağı hesaplamaları arasında geliştirilmiş denge.
    • R-ELAN: R-ELAN mimarisini kullanarak özellik toplamayı geliştirir.
  2. Optimizasyon Yenilikleri:

    • Artık Bağlantılar: Özellikle daha büyük modellerde eğitimi dengelemek için ölçeklendirme ile artık bağlantılar sunar.
    • Gelişmiş Özellik Entegrasyonu: R-ELAN içinde özellik entegrasyonu için geliştirilmiş bir yöntem uygular.
    • FlashAttention: Bellek erişim yükünü azaltmak için FlashAttention'ı içerir.
  3. Mimari Verimlilik:

    • Azaltılmış Parametreler: Önceki birçok modele kıyasla doğruluğu korurken veya iyileştirirken daha düşük bir parametre sayısına ulaşır.
    • Basitleştirilmiş Dikkat: Konumsal kodlamadan kaçınarak basitleştirilmiş bir dikkat uygulaması kullanır.
    • Optimize Edilmiş MLP Oranları: Hesaplama kaynaklarını daha etkili bir şekilde tahsis etmek için MLP oranlarını ayarlar.

Gereksinimler

Ultralytics YOLO12 uygulaması, varsayılan olarak FlashAttention gerektirmez. Ancak, FlashAttention isteğe bağlı olarak derlenebilir ve YOLO12 ile kullanılabilir. FlashAttention'ı derlemek için aşağıdaki NVIDIA GPU'lardan birine ihtiyaç vardır:

Alıntılar ve Teşekkürler

Araştırmanızda YOLO12 kullanıyorsanız, lütfen University at Buffalo ve University of Chinese Academy of Sciences tarafından yapılan orijinal çalışmaya atıfta bulunun:

@article{tian2025yolov12,
  title={YOLOv12: Attention-Centric Real-Time Object Detectors},
  author={Tian, Yunjie and Ye, Qixiang and Doermann, David},
  journal={arXiv preprint arXiv:2502.12524},
  year={2025}
}

@software{yolo12,
  author = {Tian, Yunjie and Ye, Qixiang and Doermann, David},
  title = {YOLOv12: Attention-Centric Real-Time Object Detectors},
  year = {2025},
  url = {https://github.com/sunsmarterjie/yolov12},
  license = {AGPL-3.0}
}

SSS

YOLO12, yüksek doğruluğu korurken gerçek zamanlı nesne tespitini nasıl başarır?

YOLO12, hız ve doğruluğu dengelemek için çeşitli temel yenilikler içermektedir. Alan Dikkat mekanizması, standart kendi kendine dikkat mekanizmasına kıyasla hesaplama maliyetini azaltarak geniş alıcı alanları verimli bir şekilde işler. Artık Verimli Katman Toplama Ağları (R-ELAN), daha büyük dikkat merkezli modellerdeki optimizasyon zorluklarını ele alarak özellik toplamayı geliştirir. FlashAttention kullanımı ve konum kodlamasının kaldırılması dahil olmak üzere Optimize Edilmiş Dikkat Mimarisi, verimliliği daha da artırır. Bu özellikler, YOLO12'nin birçok uygulama için çok önemli olan gerçek zamanlı çıkarım hızını korurken en son teknoloji doğruluğu elde etmesini sağlar.

YOLO12 hangi bilgisayar görüşü görevlerini destekliyor?

YOLO12, çok çeşitli temel bilgisayar görüşü görevlerini destekleyen çok yönlü bir modeldir. Nesne algılama, örnek segmentasyonu, görüntü sınıflandırması, poz tahmini ve yönlendirilmiş nesne algılama (OBB) (ayrıntılara bakın) konularında mükemmeldir. Bu kapsamlı görev desteği, YOLO12'yi robotik ve otonom sürüşten tıbbi görüntüleme ve endüstriyel denetime kadar çeşitli uygulamalar için güçlü bir araç haline getirir. Bu görevlerin her biri Çıkarım, Doğrulama, Eğitim ve Dışa Aktarma modlarında gerçekleştirilebilir.

YOLO12, diğer YOLO modelleri ve RT-DETR gibi rakiplerle nasıl karşılaştırılır?

YOLO12, YOLOv10 ve YOLO11 gibi önceki YOLO modellerine kıyasla tüm model ölçeklerinde önemli doğruluk iyileştirmeleri gösterirken, en hızlı önceki modellere kıyasla hızda bazı ödünler vermektedir. Örneğin, YOLO12n, COCO val2017 veri kümesinde YOLOv10n'e göre +%2,1 ve YOLOv11n'e göre +%1,2 mAP iyileştirmesi elde etmektedir. RT-DETR gibi modellerle karşılaştırıldığında, YOLO12s +%1,5 mAP iyileştirmesi ve önemli bir +%42 hız artışı sunmaktadır. Bu metrikler, YOLO12'nin doğruluk ve verimlilik arasındaki güçlü dengesini vurgulamaktadır. Ayrıntılı karşılaştırmalar için performans metrikleri bölümüne bakın.

YOLO12'yi çalıştırmak için, özellikle FlashAttention'ı kullanmak için, donanım gereksinimleri nelerdir?

Varsayılan olarak, Ultralytics YOLO12 uygulaması FlashAttention gerektirmez. Ancak, bellek erişim yükünü en aza indirmek için FlashAttention isteğe bağlı olarak derlenebilir ve YOLO12 ile birlikte kullanılabilir. FlashAttention'ı derlemek için aşağıdaki NVIDIA GPU'larından birine ihtiyaç vardır: Turing GPU'ları (örn. T4, Quadro RTX serisi), Ampere GPU'ları (örn. RTX30 serisi, A30/40/100), Ada Lovelace GPU'ları (örn. RTX40 serisi) veya Hopper GPU'ları (örn. H100/H200). Bu esneklik, kullanıcıların donanım kaynakları izin verdiğinde FlashAttention'ın avantajlarından yararlanmasını sağlar.

YOLO12 için kullanım örneklerini ve daha ayrıntılı belgeleri nerede bulabilirim?

Bu sayfa, eğitim ve çıkarım için temel kullanım örnekleri sunmaktadır. Doğrulama ve Dışa Aktarma dahil olmak üzere bu ve diğer modlar hakkında kapsamlı dokümantasyon için, özel Tahmin ve Eğitim sayfalarına bakın. Göreve özgü bilgiler (segmentasyon, sınıflandırma, yönlendirilmiş nesne algılama ve poz tahmini) için ilgili belgelere bakın: Segment, Sınıflandır, OBB ve Poz. Bu kaynaklar, YOLO12'yi çeşitli senaryolarda etkili bir şekilde kullanmak için derinlemesine rehberlik sağlar.



📅 4 ay önce oluşturuldu ✏️ 19 gün önce güncellendi

Yorumlar