Waymo Open 데이터셋
Waymo Open Dataset은 자율주행차를 위한 지각과 모션 플래닝 비디오 데이터셋입니다. 이 데이터셋은 지각 데이터셋과 모션 플래닝 데이터셋으로 구성되어 있습니다. 이 글은 AI 번역본입니다. 오역이 있을 수 있으니 댓글로 알려 주세요.
Created on September 12|Last edited on September 12
Comment
Waymo Open Dataset란 무엇인가?
Waymo Open Dataset은 자율주행차를 위한 지각과 모션 플래닝 비디오 데이터셋으로, 고해상도 센서 데이터를 포함합니다. 이 데이터셋은 두 개의 별도 데이터셋으로 구성되어 있으며 — the 지각 데이터셋 그리고 모션 플래닝 데이터셋.
지각 데이터셋 도시 및 교외의 다양한 지역에서 수집된, 정밀하게 동기화되고 보정된 고품질 LiDAR 및 카메라 데이터로 구성된 20초 길이의 장면 1,150개로 이루어져 있습니다. 여기에는 고해상도 센서 데이터와 함께 2,030개의 세그먼트에 대한 라벨, 키포인트 라벨, 2D–3D 연계 라벨, 3D 시맨틱 세그멘테이션 라벨, 2D 비디오 파놉틱 세그멘테이션 라벨이 포함됩니다.
모션 플래닝 이 데이터셋에는 103,354개 세그먼트에 대한 객체 궤적과 해당 3D 지도가 포함되어 있습니다. 10 Hz로 기록된 20초 길이의 장면이 10만 개 이상으로, 총 1,750km 도로에서 570시간이 넘는 고유 데이터를 제공하며, 다양한 지리적 조건에서 차량, 보행자, 자전거 이용자 간의 흥미로운 상호 관계를 포착합니다.
Waymo Open Dataset에서 다루는 내용
Waymo Open Dataset란 무엇인가? Waymo Open Dataset에서 다루는 내용Waymo Open Dataset 일반 정보데이터셋 구조Waymo Open Dataset에서 지원하는 작업모션 예측상호작용 예측점유 및 흐름 예측3D 시맨틱 세그멘테이션3D 객체 감지실시간 3D 감지3D 추적2D 감지2D 추적추천 읽을거리
Waymo Open Dataset 일반 정보
데이터셋 구조
모션 예측: 모션 데이터셋은 샤딩된 형태로 제공됩니다 TFRecord 형식 파일에는 포함되어 있습니다 프로토콜 버퍼 데이터. 이 데이터셋은 총 103,354개의 세그먼트로 구성되며, 각 세그먼트에는 10 Hz로 수집된 20초 분량의 객체 트랙과 해당 구역의 지도 데이터가 포함됩니다. 각 세그먼트는 5초가 겹치도록, 1초의 히스토리와 8초의 미래 데이터를 포함한 9초 길이의 윈도로 추가 분할됩니다.
데이터셋의 각 레코드에는 다음 필드가 포함됩니다:
scenario_id - A unique string identifier for this scenario.timestamps_seconds - Repeated field containing timestamps for each step in the Scenario starting at zero.tracks - Repeated field containing tracks for each object.id - A unique numeric ID for each object.object_type - The type of object for this track (vehicle, pedestrian, or cyclist).states - Repeated field containing the state of the object for each time step containing its 3D position, velocity, heading, dimensions, and a valid flag.dynamic_map_states - Repeated field containing traffic signal states across time steps such that dynamic_map_states[i] occurs at timestamps_seconds[i]lane_states - Repeated field containing the set of traffic signal states and the IDs of lanes they control (indexes into the map_features field) for a given time step.map_features - Repeated field containing the set of map data for the scenario. This includes lane centers, lane boundaries, road boundaries, crosswalks, speed bumps, and stop signs. Map features are defined as 3D polylines or polygons. See the map proto definitions for full details.sdc_track_index - The track index of the autonomous vehicle in the scene.objects_of_interest - Repeated field containing indices into the tracks field of objects determined to have behavior that may be useful for research training.tracks_to_predict - Repeated field containing a set of indices into the tracks field indicating which objects must be predicted. This field is provided in the training and validation sets only. These are selected to include interesting behavior and a balance of object types.current_time_index - The index into timestamps_seconds for the current time. All steps before this index are history data and all steps after this index are future data. Predictions are to be made at the current time.
지각: The 지각 데이터셋 이미지, 비디오, 라이다 데이터를 포함하며 3D 바운딩 박스, 2D 바운딩 박스, 키포인트, 2D–3D 대응, 3D 시맨틱 세그멘테이션, 2D 비디오 파놉틱 세그멘테이션에 대한 주석이 제공됩니다. 다음 객체에는 3D 레이블이 포함됩니다: 차량, 보행자, 자전거 이용자, 표지판.
Waymo Open Dataset에서 지원하는 작업
Waymo Open Dataset에서 지원하는 작업은 다음과 같습니다:
모션 예측
모션 예측에서는 해당 지도 위에 있는 모든 에이전트의 1초 분량 이력을 제공받고, 최대 8개의 에이전트에 대해 향후 8초 동안의 위치를 예측해야 합니다. 예측 결과는 소프트 최대 평균 정밀도(mAP).
모든 지표는 먼저 객체를 객체 유형별로 버킷팅한 뒤 계산됩니다. 그런 다음 유형별로 지표를 산출합니다. 각 객체 유형에 대한 지표(최소 평균 변위 오차, 최종 평균 변위 오차, 미스 레이트, 오버랩 비율, 그리고 mAP)는 3초, 5초, 8초 시점에서 모두 산출됩니다. 이 작업과 관련된 추가 세부 사항은에서 확인할 수 있습니다. 여기.
상호작용 예측
상호작용 예측 는 에이전트들 사이의 상호작용을 예측하는 작업입니다. 상호작용 예측은 주변 에이전트의 행동을 예측하고 선제적으로 파악하며, 주어진 장면의 문맥을 이해하는 데 매우 중요합니다.
점유 및 흐름 예측
점유 및 흐름 예측 은 동작 예측을 위한 새롭고 효과적인 표현입니다. 이는 향후 점유 격자 지도를 역방향 운동 흐름으로 워핑한 것으로 구성되며, 해당 흐름과 함께하는 시공간 격자 집합을 형성합니다.
점유 흐름장 예측은 예측된 흐름을 통해 각 참여자의 추적 가능성을 유지하면서, 교통 참여자들의 미래 동작에 대한 불확실성을 포함한 풍부한 분포를 포착합니다. 이 과제에서도 장면 내 여러 에이전트의 1초 분량의 이력을 제공받으며, 향후 8초 동안 차량에 한정하여 미래 점유와 흐름(운동)을 예측해야 합니다. 모든 예측은 조감도(BEV)에서의 고밀도 격자 형태로 제공됩니다.
Waymo Open Dataset에는 다음의 서로 연관된 3가지 하위 과제에 대한 데이터가 포함되어 있습니다:
3D 시맨틱 세그멘테이션
3D 시맨틱 세그멘테이션 은 자율주행차를 포함한 다양한 응용 분야에서 핵심적인 머신러닝 과제입니다. 이 과제의 목표는 LiDAR 포인트 클라우드나 기타 3D 센서 데이터를 사용해 씬 안의 서로 다른 동질적 객체들을 구분해 내는 것입니다.
Waymo Open Dataset에서는 하나 이상의 LiDAR 레인지 이미지와 이에 대응하는 카메라 이미지를 제공받고, 각 LiDAR 포인트에 대해 시맨틱 클래스 레이블을 산출하는 과제를 수행합니다.
주석에는 다음의 23개 클래스가 제공됩니다:
1: Car2: Truck3: Bus4: Motorcyclist5: Bicyclist6: Pedestrian Sign7: Traffic Light8: Pole9: Construction Cone10: Bicycle11: Motorcycle12: Building13: Vegetation14: Tree Trunk15: Curb16: Road17: Lane Marker18: Walkable19: Sidewalk20: Other Ground21: Other Vehicle22: Undefined
3D 객체 감지
이것은 a 3D 객체 감지 과제의 변형 LiDAR 데이터가 없는 경우에 해당합니다. 다중 카메라로 촬영된 씬의 하나 이상의 이미지를 제공받고, 씬 내 객체들에 대한 3D 바운딩 박스를 예측하는 과제를 수행합니다.
각 씬의 매 프레임마다 보정된 카메라 이미지에 대한 바운딩 박스가 제공됩니다. 특정 프레임의 바운딩 박스를 예측할 때는 이전 모든 프레임을 자유롭게 사용할 수 있습니다.
실시간 3D 감지
실시간 3D 감지는 객체 감지의 변형 자율주행 차량에서 모델의 지��� 시간을 낮추는 데 초점을 둡니다. 주어진 씬의 객체들에 대해 3D 바운딩 박스를 예측하기 위해 LiDAR 데이터와 카메라 이미지를 활용할 수 있습니다.
3D 추적
3D 추적은 다중 객체 추적 과제입니다. 이 과제에서는 시간에 따른 LiDAR와 카메라 데이터 시퀀스가 주어지며, 특정 씬의 여러 프레임에 걸쳐 객체의 3D 바운딩 박스와 프레임 간 연관 관계를 산출해야 합니다.
차량, 보행자, 자전거 이용자에 대해서는 구체적인 주석이 제공되며, 그 외의 객체들은 다음과 같이 라벨링됩니다. all_ns다중 객체 추적 정확도와 정밀도는 이 과제에서 모델을 평가하는 데 사용할 수 있는 지표 중 일부입니다.
2D 감지
2D 감지는 자율주행에서 가장 표준적인 머신러닝 과제 중 하나입니다. 이 과제에서는 2D 카메라 이미지 집합이 주어지며, 장면에 있는 다양한 객체의 바운딩 박스를 예측해야 합니다.
다음 객체 유형에 대한 주석이 제공됩니다:
1: Vehicle2: Pedestrian3: Cyclist4: Sign
2D 추적
2D 추적에서는 시간 순서의 카메라 이미지 시퀀스가 주어지고, 장면 내 객체에 대한 2D 바운딩 박스를 예측하는 과제를 수행합니다. 앞선 예시와 마찬가지로 주석은 Vehicles, Pedestrians, Cyclist, Sign 클래스에 대해 제공됩니다.
추천 읽을거리
The Berkeley Deep Drive (BDD110K) Dataset
The BDD100K dataset is the largest and most diverse driving video dataset with 100,000 videos annotated for 10 different perception tasks in autonomous driving.
The PandaSet Dataset
PandaSet is a high-quality autonomous driving dataset that boasts the most number of annotated objects among 3d scene understanding datasets.
The nuScenes Dataset
nuScenes is a large-scale 3D perception dataset for Autonomous Driving provided by motional. The dataset has 3D bounding boxes for 1000 scenes.
The Semantic KITTI Dataset
Semantic-Kitti is a large semantic segmentation and scene understanding dataset developed for LiDAR-based autonomous driving. But what it is and what is it for?
The Woven Planet (Lyft) Level 5 Dataset
In this article, we'll be exploring the Woven Planet (Lyft) Level 5 dataset. We'll look at what it is as well as the autonomous vehicle tasks and techniques it supports
The Many Datasets of Autonomous Driving
Below we'll explore the datasets used to train autonomous driving systems to perform the various tasks required of them.
Add a comment