Skip to main content

Waymo Open 데이터셋

Waymo Open Dataset은 자율주행차를 위한 지각과 모션 플래닝 비디오 데이터셋입니다. 이 데이터셋은 지각 데이터셋과 모션 플래닝 데이터셋으로 구성되어 있습니다. 이 글은 AI 번역본입니다. 오역이 있을 수 있으니 댓글로 알려 주세요.
Created on September 12|Last edited on September 12

Waymo Open Dataset란 무엇인가?

Waymo Open Dataset은 자율주행차를 위한 지각과 모션 플래닝 비디오 데이터셋으로, 고해상도 센서 데이터를 포함합니다. 이 데이터셋은 두 개의 별도 데이터셋으로 구성되어 있으며 — the 지각 데이터셋 그리고 모션 플래닝 데이터셋.
지각 데이터셋 도시 및 교외의 다양한 지역에서 수집된, 정밀하게 동기화되고 보정된 고품질 LiDAR 및 카메라 데이터로 구성된 20초 길이의 장면 1,150개로 이루어져 있습니다. 여기에는 고해상도 센서 데이터와 함께 2,030개의 세그먼트에 대한 라벨, 키포인트 라벨, 2D–3D 연계 라벨, 3D 시맨틱 세그멘테이션 라벨, 2D 비디오 파놉틱 세그멘테이션 라벨이 포함됩니다.
모션 플래닝 이 데이터셋에는 103,354개 세그먼트에 대한 객체 궤적과 해당 3D 지도가 포함되어 있습니다. 10 Hz로 기록된 20초 길이의 장면이 10만 개 이상으로, 총 1,750km 도로에서 570시간이 넘는 고유 데이터를 제공하며, 다양한 지리적 조건에서 차량, 보행자, 자전거 이용자 간의 흥미로운 상호 관계를 포착합니다.

Waymo Open Dataset에서 다루는 내용



Waymo Open Dataset 일반 정보

데이터셋 구조

이 데이터셋은 두 개의 별도 데이터셋으로 구성되어 있습니다 모션 예측 및 지각.
모션 예측: 모션 데이터셋은 샤딩된 형태로 제공됩니다 TFRecord 형식 파일에는 포함되어 있습니다 프로토콜 버퍼 데이터. 이 데이터셋은 총 103,354개의 세그먼트로 구성되며, 각 세그먼트에는 10 Hz로 수집된 20초 분량의 객체 트랙과 해당 구역의 지도 데이터가 포함됩니다. 각 세그먼트는 5초가 겹치도록, 1초의 히스토리와 8초의 미래 데이터를 포함한 9초 길이의 윈도로 추가 분할됩니다.
데이터셋의 각 레코드에는 다음 필드가 포함됩니다:
scenario_id - A unique string identifier for this scenario.
timestamps_seconds - Repeated field containing timestamps for each step in the Scenario starting at zero.
tracks - Repeated field containing tracks for each object.
id - A unique numeric ID for each object.
object_type - The type of object for this track (vehicle, pedestrian, or cyclist).
states - Repeated field containing the state of the object for each time step containing its 3D position, velocity, heading, dimensions, and a valid flag.
dynamic_map_states - Repeated field containing traffic signal states across time steps such that dynamic_map_states[i] occurs at timestamps_seconds[i]
lane_states - Repeated field containing the set of traffic signal states and the IDs of lanes they control (indexes into the map_features field) for a given time step.
map_features - Repeated field containing the set of map data for the scenario. This includes lane centers, lane boundaries, road boundaries, crosswalks, speed bumps, and stop signs. Map features are defined as 3D polylines or polygons. See the map proto definitions for full details.
sdc_track_index - The track index of the autonomous vehicle in the scene.
objects_of_interest - Repeated field containing indices into the tracks field of objects determined to have behavior that may be useful for research training.
tracks_to_predict - Repeated field containing a set of indices into the tracks field indicating which objects must be predicted. This field is provided in the training and validation sets only. These are selected to include interesting behavior and a balance of object types.
current_time_index - The index into timestamps_seconds for the current time. All steps before this index are history data and all steps after this index are future data. Predictions are to be made at the current time.

모션 예측 데이터셋과 관련된 더 자세한 내용은 해당 사이트에서 확인��� 수 있습니다 웹사이트
지각: The 지각 데이터셋 이미지, 비디오, 라이다 데이터를 포함하며 3D 바운딩 박스, 2D 바운딩 박스, 키포인트, 2D–3D 대응, 3D 시맨틱 세그멘테이션, 2D 비디오 파놉틱 세그멘테이션에 대한 주석이 제공됩니다. 다음 객체에는 3D 레이블이 포함됩니다: 차량, 보행자, 자전거 이용자, 표지판. 

Waymo Open Dataset에서 지원하는 작업

Waymo Open Dataset에서 지원하는 작업은 다음과 같습니다:

모션 예측

모션 예측에서는 해당 지도 위에 있는 모든 에이전트의 1초 분량 이력을 제공받고, 최대 8개의 에이전트에 대해 향후 8초 동안의 위치를 예측해야 합니다. 예측 결과는 소프트 최대 평균 정밀도(mAP).
모든 지표는 먼저 객체를 객체 유형별로 버킷팅한 뒤 계산됩니다. 그런 다음 유형별로 지표를 산출합니다. 각 객체 유형에 대한 지표(최소 평균 변위 오차, 최종 평균 변위 오차, 미스 레이트, 오버랩 비율, 그리고 mAP)는 3초, 5초, 8초 시점에서 모두 산출됩니다. 이 작업과 관련된 추가 세부 사항은에서 확인할 수 있습니다. 여기.

상호작용 예측

상호작용 예측 는 에이전트들 사이의 상호작용을 예측하는 작업입니다. 상호작용 예측은 주변 에이전트의 행동을 예측하고 선제적으로 파악하며, 주어진 장면의 문맥을 이해하는 데 매우 중요합니다.
Waymo Open Dataset에서는 1초 분량의 트랙이 주어지며, 상호작용하는 에이전트 쌍의 향후 8초 동안의 공동 미래 위치를 예측해야 합니다. 

점유 및 흐름 예측

점유 및 흐름 예측 은 동작 예측을 위한 새롭고 효과적인 표현입니다. 이는 향후 점유 격자 지도를 역방향 운동 흐름으로 워핑한 것으로 구성되며, 해당 흐름과 함께하는 시공간 격자 집합을 형성합니다.
점유 흐름장 예측은 예측된 흐름을 통해 각 참여자의 추적 가능성을 유지하면서, 교통 참여자들의 미래 동작에 대한 불확실성을 포함한 풍부한 분포를 포착합니다. 이 과제에서도 장면 내 여러 에이전트의 1초 분량의 이력을 제공받으며, 향후 8초 동안 차량에 한정하여 미래 점유와 흐름(운동)을 예측해야 합니다. 모든 예측은 조감도(BEV)에서의 고밀도 격자 형태로 제공됩니다.
Waymo Open Dataset에는 다음의 서로 연관된 3가지 하위 과제에 대한 데이터가 포함되어 있습니다:
  • 향후 점유 예측모든 차량 그런 존재합니다 현재 시점에서 , 향후 8초 동안
  • 향후 점유 예측모든 차량 그런 존재하지 않습니다 현재 시점에서 , 향후 8초 동안
  • 향후 흐름 예측모든 차량, 현재 시점에서 관측되었거나 가려진 , 향후 8초 동안
자세한 내용은 여기에서 확인하세요 여기.

3D 시맨틱 세그멘테이션

3D 시맨틱 세그멘테이션 은 자율주행차를 포함한 다양한 응용 분야에서 핵심적인 머신러닝 과제입니다. 이 과제의 목표는 LiDAR 포인트 클라우드나 기타 3D 센서 데이터를 사용해 씬 안의 서로 다른 동질적 객체들을 구분해 내는 것입니다.
Waymo Open Dataset에서는 하나 이상의 LiDAR 레인지 이미지와 이에 대응하는 카메라 이미지를 제공받고, 각 LiDAR 포인트에 대해 시맨틱 클래스 레이블을 산출하는 과제를 수행합니다.
주석에는 다음의 23개 클래스가 제공됩니다:
1: Car
2: Truck
3: Bus
4: Motorcyclist
5: Bicyclist
6: Pedestrian Sign
7: Traffic Light
8: Pole
9: Construction Cone
10: Bicycle
11: Motorcycle
12: Building
13: Vegetation
14: Tree Trunk
15: Curb
16: Road
17: Lane Marker
18: Walkable
19: Sidewalk
20: Other Ground
21: Other Vehicle
22: Undefined


3D 객체 감지

이것은 a 3D 객체 감지 과제의 변형 LiDAR 데이터가 없는 경우에 해당합니다. 다중 카메라로 촬영된 씬의 하나 이상의 이미지를 제공받고, 씬 내 객체들에 대한 3D 바운딩 박스를 예측하는 과제를 수행합니다.
각 씬의 매 프레임마다 보정된 카메라 이미지에 대한 바운딩 박스가 제공됩니다. 특정 프레임의 바운딩 박스를 예측할 때는 이전 모든 프레임을 자유롭게 사용할 수 있습니다.

실시간 3D 감지

실시간 3D 감지는 객체 감지의 변형 자율주행 차량에서 모델의 지��� 시간을 낮추는 데 초점을 둡니다. 주어진 씬의 객체들에 대해 3D 바운딩 박스를 예측하기 위해 LiDAR 데이터와 카메라 이미지를 활용할 수 있습니다.
그러나, 자격을 얻으려면 실시간 예측 챌린지 모델은 Nvidia Tesla V100 GPU에서 프레임당 70ms 미만의 추론 속도를 만족해야 합니다.

3D 추적

3D 추적은 다중 객체 추적 과제입니다. 이 과제에서는 시간에 따른 LiDAR와 카메라 데이터 시퀀스가 주어지며, 특정 씬의 여러 프레임에 걸쳐 객체의 3D 바운딩 박스와 프레임 간 연관 관계를 산출해야 합니다.
차량, 보행자, 자전거 이용자에 대해서는 구체적인 주석이 제공되며, 그 외의 객체들은 다음과 같이 라벨링됩니다. all_ns다중 객체 추적 정확도와 정밀도는 이 과제에서 모델을 평가하는 데 사용할 수 있는 지표 중 일부입니다.

2D 감지

2D 감지는 자율주행에서 가장 표준적인 머신러닝 과제 중 하나입니다. 이 과제에서는 2D 카메라 이미지 집합이 주어지며, 장면에 있는 다양한 객체의 바운딩 박스를 예측해야 합니다.
다음 객체 유형에 대한 주석이 제공됩니다:
1: Vehicle
2: Pedestrian
3: Cyclist
4: Sign
이 데이터셋의 리더보드에 모델을 제출하여 성능을 평가할 수 있습니다. 리더보드그들은 모델을 평가하기 위한 평균 정밀도. 

2D 추적

2D 추적에서는 시간 순서의 카메라 이미지 시퀀스가 주어지고, 장면 내 객체에 대한 2D 바운딩 박스를 예측하는 과제를 수행합니다. 앞선 예시와 마찬가지로 주석은 Vehicles, Pedestrians, Cyclist, Sign 클래스에 대해 제공됩니다.
해당 챌린지의 리더보드는 다음에서 확인할 수 있습니다 여기.

추천 읽을거리





이 글은 AI로 번역된 기사입니다. 오역이 의심되는 부분이 있으면 댓글로 알려주세요. 원문 보고서는 아래 링크에서 확인할 수 있습니다: 원문 보고서 보기