Conjunto de Dados ImageNet
ImageNet é um banco de dados em larga escala de imagens anotadas, projetado para uso em pesquisas de reconhecimento visual de objetos. Ele contém mais de 14 milhões de imagens, com cada imagem anotada usando synsets WordNet, tornando-o um dos recursos mais extensos disponíveis para treinar modelos de deep learning em tarefas de visão computacional.
Modelos Pré-treinados ImageNet
Modelo | tamanho (pixels) |
acc top1 |
acc top5 |
Velocidade CPU ONNX (ms) |
Velocidade T4 TensorRT10 (ms) |
parâmetros (M) |
FLOPs (B) a 224 |
---|---|---|---|---|---|---|---|
YOLO11n-cls | 224 | 70.0 | 89.4 | 5.0 ± 0.3 | 1.1 ± 0.0 | 1.6 | 0.5 |
YOLO11s-cls | 224 | 75.4 | 92.7 | 7.9 ± 0.2 | 1.3 ± 0.0 | 5.5 | 1.6 |
YOLO11m-cls | 224 | 77.3 | 93.9 | 17.2 ± 0.4 | 2.0 ± 0.0 | 10.4 | 5.0 |
YOLO11l-cls | 224 | 78.3 | 94.3 | 23.2 ± 0.3 | 2.8 ± 0.0 | 12.9 | 6.2 |
YOLO11x-cls | 224 | 79.5 | 94.9 | 41.4 ± 0.9 | 3.8 ± 0.0 | 28.4 | 13.7 |
Principais Características
- ImageNet contém mais de 14 milhões de imagens de alta resolução abrangendo milhares de categorias de objetos.
- O conjunto de dados é organizado de acordo com a hierarquia WordNet, com cada synset representando uma categoria.
- ImageNet é amplamente utilizado para treinamento e benchmarking no campo da visão computacional, particularmente para tarefas de classificação de imagem e detecção de objetos.
- O ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual tem sido fundamental para o avanço da pesquisa em visão computacional.
Estrutura do Conjunto de Dados
O conjunto de dados ImageNet é organizado usando a hierarquia WordNet. Cada nó na hierarquia representa uma categoria, e cada categoria é descrita por um synset (uma coleção de termos sinônimos). As imagens no ImageNet são anotadas com um ou mais synsets, fornecendo um recurso rico para treinar modelos para reconhecer vários objetos e seus relacionamentos.
Desafio de Reconhecimento Visual em Larga Escala ImageNet (ILSVRC)
O desafio anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) tem sido um evento importante no campo da visão computacional. Ele forneceu uma plataforma para pesquisadores e desenvolvedores avaliarem seus algoritmos e modelos em um conjunto de dados em larga escala com métricas de avaliação padronizadas. O ILSVRC levou a avanços significativos no desenvolvimento de modelos de aprendizado profundo para classificação de imagens, detecção de objetos e outras tarefas de visão computacional.
Aplicações
O dataset ImageNet é amplamente utilizado para treinar e avaliar modelos de aprendizado profundo em várias tarefas de visão computacional, como classificação de imagens, detecção de objetos e localização de objetos. Algumas arquiteturas populares de aprendizado profundo, como AlexNet, VGG e ResNet, foram desenvolvidas e avaliadas usando o dataset ImageNet.
Utilização
Para treinar um modelo de aprendizado profundo no conjunto de dados ImageNet por 100 épocas com um tamanho de imagem de 224x224, você pode usar os seguintes trechos de código. Para uma lista abrangente de argumentos disponíveis, consulte a página de Treinamento do modelo.
Exemplo de Treinamento
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224
Amostras de Imagens e Anotações
O conjunto de dados ImageNet contém imagens de alta resolução abrangendo milhares de categorias de objetos, fornecendo um conjunto de dados diversificado e extenso para treinar e avaliar modelos de visão computacional. Aqui estão alguns exemplos de imagens do conjunto de dados:
O exemplo demonstra a variedade e complexidade das imagens no conjunto de dados ImageNet, destacando a importância de um conjunto de dados diversificado para treinar modelos de visão computacional robustos.
Citações e Agradecimentos
Se você usar o conjunto de dados ImageNet em seu trabalho de pesquisa ou desenvolvimento, por favor, cite o seguinte artigo:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
Gostaríamos de agradecer à equipe ImageNet, liderada por Olga Russakovsky, Jia Deng e Li Fei-Fei, por criar e manter o conjunto de dados ImageNet como um recurso valioso para a comunidade de pesquisa de aprendizado de máquina e visão computacional. Para obter mais informações sobre o conjunto de dados ImageNet e seus criadores, visite o site do ImageNet.
FAQ
O que é o conjunto de dados ImageNet e como ele é usado em visão computacional?
O conjunto de dados ImageNet é um banco de dados em larga escala que consiste em mais de 14 milhões de imagens de alta resolução categorizadas usando synsets WordNet. É amplamente utilizado em pesquisas de reconhecimento visual de objetos, incluindo classificação de imagens e detecção de objetos. As anotações e o grande volume do conjunto de dados fornecem um recurso rico para treinar modelos de aprendizado profundo. Notavelmente, modelos como AlexNet, VGG e ResNet foram treinados e avaliados usando o ImageNet, mostrando seu papel no avanço da visão computacional.
Como posso usar um modelo YOLO pré-treinado para classificação de imagens no conjunto de dados ImageNet?
Para usar um modelo Ultralytics YOLO pré-treinado para classificação de imagens no conjunto de dados ImageNet, siga estes passos:
Exemplo de Treinamento
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224
Para obter instruções de treinamento mais detalhadas, consulte nossa página de Treinamento.
Por que devo usar os modelos pré-treinados Ultralytics YOLO11 para meus projetos de conjunto de dados ImageNet?
Os modelos pré-treinados Ultralytics YOLO11 oferecem desempenho de última geração em termos de velocidade e precisão para várias tarefas de visão computacional. Por exemplo, o modelo YOLO11n-cls, com uma precisão top-1 de 70,0% e uma precisão top-5 de 89,4%, é otimizado para aplicações em tempo real. Os modelos pré-treinados reduzem os recursos computacionais necessários para o treinamento do zero e aceleram os ciclos de desenvolvimento. Saiba mais sobre as métricas de desempenho dos modelos YOLO11 na seção Modelos Pré-treinados ImageNet.
Como o conjunto de dados ImageNet é estruturado e por que ele é importante?
O conjunto de dados ImageNet é organizado usando a hierarquia WordNet, onde cada nó na hierarquia representa uma categoria descrita por um synset (uma coleção de termos sinônimos). Essa estrutura permite anotações detalhadas, tornando-o ideal para treinar modelos para reconhecer uma ampla variedade de objetos. A diversidade e a riqueza de anotações do ImageNet o tornam um conjunto de dados valioso para desenvolver modelos de aprendizado profundo robustos e generalizáveis. Mais sobre esta organização pode ser encontrado na seção Estrutura do Conjunto de Dados.
Qual o papel do ImageNet Large Scale Visual Recognition Challenge (ILSVRC) na visão computacional?
O desafio anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) tem sido fundamental para impulsionar os avanços na visão computacional, fornecendo uma plataforma competitiva para avaliar algoritmos em um conjunto de dados padronizado e em larga escala. Ele oferece métricas de avaliação padronizadas, promovendo a inovação e o desenvolvimento em áreas como classificação de imagens, detecção de objetos e segmentação de imagens. O desafio tem continuamente ultrapassado os limites do que é possível com o aprendizado profundo e as tecnologias de visão computacional.