Gerenciamento de Conjuntos de Dados com Ultralytics HUB-SDK
Bem-vindo à documentação de Gerenciamento de Conjuntos de Dados do Ultralytics HUB-SDK! 👋
O gerenciamento eficiente de conjuntos de dados é crucial no machine learning. Seja você um cientista de dados experiente ou um iniciante, saber como lidar com as operações do conjunto de dados pode otimizar seu fluxo de trabalho. Esta página aborda o básico da realização de operações em conjuntos de dados usando o Ultralytics HUB-SDK em Python. Os exemplos fornecidos ilustram como obter, criar, atualizar, excluir e listar conjuntos de dados, e também como obter um URL para acesso ao conjunto de dados e fazer upload de conjuntos de dados.
Vamos mergulhar de cabeça! 🚀
Obter um Conjunto de Dados por ID
Para buscar um conjunto de dados específico rapidamente usando seu ID exclusivo, use o trecho de código abaixo. Isso permite que você acesse informações essenciais, incluindo seus dados.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>") # Replace with your actual Dataset ID
print(dataset.data) # This prints the dataset information
Para mais detalhes sobre o Datasets
classe e seus métodos, consulte o Referência para hub_sdk/modules/datasets.py
.
Criar um Conjunto de Dados
Para criar um novo conjunto de dados, defina um nome amigável para seu conjunto de dados e use o create_dataset
método, conforme mostrado abaixo:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define your dataset properties
data = {"meta": {"name": "My Dataset"}} # Replace 'My Dataset' with your desired dataset name
# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")
Veja o arquivo create_dataset
método na referência da API para mais informações.
Atualizar um Conjunto de Dados
À medida que os projetos evoluem, você pode precisar modificar os metadados do seu conjunto de dados. Isso é tão simples quanto executar o seguinte código com os novos detalhes:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Obtain the dataset
dataset = client.dataset("<Dataset ID>") # Insert the correct Dataset ID
# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}}) # Modify 'Updated Name' as required
print("Dataset updated with new information.")
O update
O método fornece mais detalhes sobre a atualização de conjuntos de dados.
Excluir um Conjunto de Dados
Para remover um conjunto de dados, seja para organizar seu espaço de trabalho ou porque não é mais necessário, você pode excluí-lo permanentemente invocando o delete
método:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>") # Ensure the Dataset ID is specified
# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")
Para obter mais informações sobre as opções de exclusão, incluindo exclusões permanentes, consulte o delete
documentação do método.
Listar Conjuntos de Dados
Para navegar pelos seus conjuntos de dados, liste todos os seus conjuntos de dados com paginação. Isso é útil quando se lida com um grande número de conjuntos de dados.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results) # Show the datasets on the current page
# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)
# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)
O DatasetList
A classe fornece mais detalhes sobre como listar e paginar conjuntos de dados.
Obter URL do Armazenamento
Esta função busca uma URL para acesso ao armazenamento do conjunto de dados, facilitando o download de arquivos do conjunto de dados ou artefatos armazenados remotamente.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>") # Replace Dataset ID with the actual dataset ID
# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)
O get_download_link
A documentação do método fornece detalhes adicionais.
Fazer Upload do Conjunto de Dados
Carregar seu conjunto de dados é simples. Defina o ID do seu conjunto de dados e o caminho do arquivo e, em seguida, use o upload_dataset
função:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset
dataset = client.dataset("<Dataset ID>") # Substitute with the real dataset ID
# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>") # Specify the correct file path
print("Dataset has been uploaded.")
O upload_dataset
O método fornece mais detalhes sobre o carregamento de conjuntos de dados. Você também pode aprender sobre o relacionado DatasetUpload
classe.
Lembre-se de verificar novamente os IDs do seu conjunto de dados e os caminhos dos arquivos para garantir que tudo funcione sem problemas.
Se você encontrar algum problema ou tiver alguma dúvida, nossa equipe de suporte está aqui para ajudar. 🤝
Boas manipulações de dados e que seus modelos sejam precisos e perspicazes! 🌟