Ting

Ting

满怀希望就会所向披靡

YOLO-World:Real-Time Open-Vocabulary Object Detection

Abstract

提出问题

  • 由于预定义和训练过的对象一般是图像类,YOLO系列在开放场景适用性低

成果

  • 团队通过在较大数据集的视觉语言建模和预训练增强了YOLO开放词汇表检测功能
  • RepVL-PAN & region-text contrasitive loss 增强了视觉和语言信息的交互
  • 在没有直接训练样本的情况下,模型能高效地识别或检测较大范围内的新的对象类别

数据集

  • 使用LVIS dataset
  • 结果:在LVIS数据集上取得了35.4的平均精度(AP),同时在V100硬件上达到了52.0帧每秒(FPS)
  • 对比:在准确性和处理速度上都优于许多当前最先进的方法

Introduction

  • 主流的视觉-语言检测模型和YOLO-World对比,YOLO-World在FPS(v100)上提速20倍,并且在平均精度上和主流模型差不多甚至更好。

数据评估方法:1. 精度——LVIS minival的固定的AP 2. 推理速度——NVIDIA V100 w/o TensorRT

0%