버클리 딥드라이브(BDD110K) 데이터세트
BDD100K 데이터셋은 자율주행을 위한 10가지 지각 과업에 대해 주석이 달린 100,000개의 비디오로 구성된, 가장 크고 가장 다양한 주행 비디오 데이터셋입니다. 이 글은 AI 번역본입니다. 오역이 있을 수 있으니 댓글로 알려 주세요.
Created on September 12|Last edited on September 12
Comment
BDD100K 데이터셋이란?
그 BDD100K 데이터셋 (비버클리 디짙 디는 100,000개의 동영상을 자율주행 인지 과제 10종으로 주석화한, 규모가 가장 크고 다양성이 높은 주행 영상 데이터셋이다. 여기에는 도로 객체 탐지와 차선 탐지 등이 포함된다.
이 크라우드소싱 데이터셋은 도시 도로, 주거 지역, 고속도로 등 다양한 장면 유형을 아우르는 고해상도 이미지와 GPS/IMU 데이터를 포함하며, 하루 중 서로 다른 시간대에 기록된 다양한 기상 조건을 포괄합니다.
각 비디오의 10초 지점 프레임에는 이미지 관련 작업 주석이 달리고, 전체 시퀀스는 추적 작업에 사용됩니다. BDD100K는 현실적인 주행 시나리오를 포괄하며, 공개된 관심 범주의 외관 변이와 포즈 구성에서 나타나는 “롱테일”을 더 폭넓게 포착합니다. 확장 가능한 주석 형식.
시작하기 전에, 이번에 다룰 내용은 다음과 같습니다:"
이번에 다룰 BDD100K 내용
BDD100K 데이터셋이란?이번에 다룰 BDD100K 내용BDD100K 데이터셋 일반 정보데이터셋 구조(클릭하여 펼치기)BDD100K 데이터셋이 지원하는 작업이미지 태깅차선 검출주행 가능 영역 분할도로 객체 감지추천 자료
BDD100K 데이터셋 일반 정보
데이터셋 구조(클릭하여 펼치기)
BDD100K 데이터셋이 지원하는 작업
BDD100K 데이터셋이 지원하는 작업을 간단히 정리하면 다음과 같습니다.
이미지 태깅
BDD100K 데이터셋은 제공합니다 이미지 수준 주석 여섯 가지 날씨 조건, 여섯 가지 장면 유형, 그리고 하루 중 세 가지 구분된 시간대를 기준으로 합니다. 눈과 비와 같은 극한 기상 조건에 대한 주석도 대량으로 포함되어 있습니다. 또한 데이터셋에는 낮과 밤 비디오 주석의 수가 대체로 비슷한 비율로 포함되어 있습니다.
좀 더 구체적으로 살펴보면, 이 데이터셋에는 다음이 포함됩니다:
- 날씨: 맑음, 흐림, 눈, 비, 안개, 부분적으로 흐림, 미정
- 장면: 터널, 주거 지역, 주차장, 도시 거리, 주유소, 고속도로, 미정
- 시간대: 낮, 밤, 새벽/황혼, 미정

차선 검출
차선 검출은 카메라 영상에서 도로의 차선을 찾아내는 작업입니다. 이는 차선 기반 내비게이션과 고해상도(HD) 지도 모델링 등 자율 주행의 여러 요소에 필수적입니다.
BDD100K 데이터셋의 풍부한 주석은 다음의 세 가지 하위 과제를 위한 차선 라벨을 제공합니다:
차선 범주
0: crosswalk1: double other2: double white3: double yellow4: road curb5: single other6: single white7: single yellow8: background
차선 방향
0: parallel1: vertical2: background
차선 스타일
0: solid1: dashed2: background
주행 가능 영역 분할
차선 수준 주석 외에도 BDD100K 데이터셋은 주행 가능 영역 분할 작업을 위해서도 구성되어 있습니다. 구체적으로, 이 데이터셋에는 두 가지 서로 다른 범주에 대한 주석이 제공합니다.
- 직접 주행 가능 영역: 직접 주행 가능 영역은 운전자가 현재 주행하고 있는 표면을 뜻합니다. 또한 운전자가 다른 차량보다 우선권을 가지거나 통행권이 부여된 구역을 의미합니다.
- 대체 주행 가능 영역: 대체 주행 가능 영역은 현재 주행 중이지 않지만 차선을 변경하면 주행할 수 있는 구역을 의미합니다.
직접 주행 가능 영역과 대체 주행 가능 영역은 겉보기에는 구분하기 어렵지만, 기능적으로는 서로 다르며 알고리즘이 장애물과 장면 맥락을 인식할 것을 요구합니다.
도로 객체 감지
동영상의 10초 시점 프레임에는 자율 주행 도메인에서 흔히 등장하는 10가지 객체에 대한 바운딩 박스 주석이 제공됩니다. 그 결과 다음과 같은 2차원 객체 주석을 갖춘 100,000장의 이미지가 생성됩니다.
1: pedestrian2: rider3: car4: truck5: bus6: train7: motorcycle8: bicycle9: traffic light10: traffic sign
의미론적 분할
이미지 분할에서 하나의 이미지는 두 가지 주요 구성 요소로 이루어집니다: 사물 그리고 배경.
사물 이미지에서 개별적으로 셀 수 있는 객체(예: 사람, 꽃, 새, 동물 등)에 해당하며, 배경 비슷한 질감의 셀 수 없는 영역(또는 반복되는 패턴)을 나타냅니다(예: 도로, 하늘, 잔디).
픽셀 수준 시맨틱 세그먼트 에 대한 주석 배경 데이터셋의 1만 장 이미지에 대해 제공됩니다. 다만, 과거 사양으로 인한 이유로 모든 이미지에 해당하는 동영상이 있는 것은 아니며, 상당한 중복이 있음에도 불구하고 이는 10만 장 이미지의 진부분집합이 아닙니다.
0: road1: sidewalk2: building3: wall4: fence5: pole6: traffic light7: traffic sign8: vegetation9: terrain10: sky11: person12: rider13: car14: truck15: bus16: train17: motorcycle18: bicycle
파놉틱 세그멘테이션
같은 1만 장의 이미지에는 장면의 각 픽셀에 시맨틱 레이블과 고유한 인스턴스 식별자가 부여된 통합 이미지 세그멘테이션 주석도 포함되어 있습니다. 중첩된 주석 간 불일치는 객체 인스턴스를 우선시하는 방식으로 해결하며, 우선순위는 각 인스턴스를 식별하는 데 있습니다. 사물 …보다 배경.
데이터셋에는 다음과 같은 다양한 파놉틱 세그멘테이션 주석이 제공됩니다. 레이블 0–30은 다음을 나타냅니다 배경 반면 31–40은 …을 나타냅니다 사물.
0: unlabeled1: dynamic2: ego vehicle3: ground4: static5: parking6: rail track7: road8: sidewalk9: bridge10: building11: fence12: garage13: guard rail14: tunnel15: wall16: banner17: billboard18: lane divider19: parking sign20: pole21: polegroup22: street light23: traffic cone24: traffic device25: traffic light26: traffic sign27: traffic sign frame28: terrain29: vegetation30: sky31: person32: rider33: bicycle34: bus35: car36: caravan37: motorcycle38: trailer39: train40: truck
다중 객체 추적
비디오에서 객체의 시간적 연관을 이해하는 데 도움을 주기 위해 BDD100K 데이터셋에는 약 40만 프레임으로 구성된 2,000개의 비디오가 포함되어 있습니다. 각 비디오는 약 40초 길이이며 5 fps로 주석이 달려 있어, 비디오당 약 200 프레임이 생성됩니다. 객체 검출 과제의 최초 8개 클래스에 대해 130.6K개의 트랙 아이덴티티와 3.3M개의 바운딩 박스가 주석으로 제공됩니다.
이 데이터셋은 복잡한 차폐와 재등장 패턴을 보입니다. 총 49,418회의 차폐가 관측되었으며, 트랙 3.51개마다 한 번의 차폐가 발생합니다.
다중 객체 추적 및 세분화
자율주행 차량 개발에서 MOTS의 목표는 혼잡한 장면에서 여러 객체를 세분화하고 추적하는 것입니다. 1만 4천여 개 프레임과 12만 9천 개 주석을 포함한 90개 비디오에 대해 풍부하고 촘촘한 주석이 제공됩니다. 객체 추적 과제와 동일한 8개 클래스가 주석으로 표시되어 있습니다.
자세 추정
BDD100K 데이터셋에서는 사람과 보행자에 대해 자세 추정과 검출을 돕기 위해 18개의 서로 다른 키포인트로 주석을 제공합니다. 전체 100,000개의 샘플 프레임 중 약 1만 프레임에 관절 키포인트 주석이 포함되어 있습니다.
0: head1: neck2: right_shoulder3: right_elbow4: right_wrist5: left_shoulder6: left_elbow7: left_wrist8: right_hip9: right_knee10: right_ankle11: left_hip12: left_knee13: left_ankle14: right_hand15: left_hand16: right_foot17: left_foot
추천 자료
Object Detection for Autonomous Vehicles (A Step-by-Step Guide)
Digging into object detection and perception for autonomous vehicles using YOLOv5 and Weights & Biases
The Semantic KITTI Dataset
Semantic-Kitti is a large semantic segmentation and scene understanding dataset developed for LiDAR-based autonomous driving. But what it is and what is it for?
The Waymo Open Dataset
The Waymo Open Dataset is a perception and motion planning video dataset for self-driving cars. It’s composed the perception and motion planning datasets.
The PandaSet Dataset
PandaSet is a high-quality autonomous driving dataset that boasts the most number of annotated objects among 3d scene understanding datasets.
The nuScenes Dataset
nuScenes is a large-scale 3D perception dataset for Autonomous Driving provided by motional. The dataset has 3D bounding boxes for 1000 scenes.
The Woven Planet (Lyft) Level 5 Dataset
In this article, we'll be exploring the Woven Planet (Lyft) Level 5 dataset. We'll look at what it is as well as the autonomous vehicle tasks and techniques it supports
Add a comment