Skip to main content

nuScenes 데이터셋

nuScenes는 Motional이 제공하는 자율주행용 대규모 3D 인지 데이터셋입니다. 이 데이터셋은 1,000개의 장면에 대한 3D 바운딩 박스를 포함합니다. 이 글은 AI 번역본입니다. 오역이 있을 경우 댓글로 알려주세요.
Created on September 12|Last edited on September 12

nuScenes 데이터셋이란?

nuScenes 데이터셋에서 각 장면은 20초 길이로, 다양한 주행 조작, 교통 상황, 예기치 않은 행동들을 풍부하게 담고 있습니다. 모든 장면은 2 Hz 주기로 정밀한 3D 바운딩 박스로 주석화되어 있으며, 총 23개 객체 클래스를 포함합니다.
그 결과 학습용 28,130개, 검증용 6,019개, 테스트용 6,008개의 샘플이 제공됩니다. 이는 자율주행 차량의 전체 센서 스위트(카메라 6대, LiDAR 1대, RADAR 5대, GPS, IMU)에서 수집된 데이터를 제공하는 최초의 대규모 데이터셋입니다.

이번 글에서 다룰 nuScenes 내용




nuScenes 데이터셋 일반 정보

데이터셋 구조

이 데이터셋은 보정 정보, 지도, 차량 좌표 등 다양한 메타데이터를 포함하기 위해 여러 주석 및 소스 테이블로 구성된 관계형 데이터베이스 형태로 제공됩니다.
A 샘플 레코드 다음과 같습니다:
sample_data {
"token": <str> -- Unique record identifier.
"sample_token": <str> -- Foreign key. Sample to which this sample_data is associated.
"ego_pose_token": <str> -- Foreign key.
"calibrated_sensor_token": <str> -- Foreign key.
"filename": <str> -- Relative path to data-blob on disk.
"fileformat": <str> -- Data file format.
"width": <int> -- If the sample data is an image, this is the image width in pixels.
"height": <int> -- If the sample data is an image, this is the image height in pixels.
"timestamp": <int> -- Unix time stamp.
"is_key_frame": <bool> -- True if sample_data is part of key_frame, else False.
"next": <str> -- Foreign key. Sample data from the same sensor that follows this in time. Empty if end of scene.
"prev": <str> -- Foreign key. Sample data from the same sensor that precedes this in time. Empty if start of scene.
}

그리고 a 샘플 주석 다음과 같습니다:
sample_annotation {
"token": <str> -- Unique record identifier.
"sample_token": <str> -- Foreign key. NOTE: this points to a sample NOT a sample_data since annotations are done on the sample level taking all relevant sample_data into account.
"instance_token": <str> -- Foreign key. Which object instance is this annotating. An instance can have multiple annotations over time.
"attribute_tokens": <str> [n] -- Foreign keys. List of attributes for this annotation. Attributes can change over time, so they belong here, not in the instance table.
"visibility_token": <str> -- Foreign key. Visibility may also change over time. If no visibility is annotated, the token is an empty string.
"translation": <float> [3] -- Bounding box location in meters as center_x, center_y, center_z.
"size": <float> [3] -- Bounding box size in meters as width, length, height.
"rotation": <float> [4] -- Bounding box orientation as quaternion: w, x, y, z.
"num_lidar_pts": <int> -- Number of lidar points in this box. Points are counted during the lidar sweep identified with this sample.
"num_radar_pts": <int> -- Number of radar points in this box. Points are counted during the radar sweep identified with this sample. This number is summed across all radar sensors without any invalid point filtering.
"next": <str> -- Foreign key. Sample annotation from the same object instance that follows this in time. Empty if this is the last annotation for this object.
"prev": <str> -- Foreign key. Sample annotation from the same object instance that precedes this in time. Empty if this is the first annotation for this object.
}
관련 모든 테이블을 포함한 데이터 형식의 자세한 내용은 다음에서 확인할 수 있습니다 데이터 형식 데이터 제공자 섹션


nuScenes 데이터셋에서 지원하는 작업

다음은 nuScenes 데이터셋에서 지원하는 작업입니다:

3D 객체 감지

3D 객체 검출 10개 객체 범위에 바운딩 박스를 배치하고, 속성 집합과 현재 속도 벡터를 추정합니다. 각 클래스의 경우, 자차로부터의 거리가 멀어질수록 주석 밀도가 감소합니다. 범위별 주석 수는 달라집니다.
이 작업을 위해 주석이 달린 객체는 다음과 같습니다:
1: barrier
2: bicycle
3: bus
4: car
5: construction_vehicle
6: motorcycle
7: pedestrian
8: traffic_cone
9: trailer
10: truck

3D 객체 추적

3D 객체 추적 의 자연스러운 연장선입니다 객체 감지장면에서 객체를 감지하는 것뿐 아니라, 시간에 따라 이러한 객체를 추적하는 것이 과제입니다. nuScenes 데이터셋은 7개 범주에 대한 객체 주석을 제공합니다.
자차로부터의 반경이 커질수록 주석 수는 감소하지만, 반경별 주석 수는 클래스에 따라 달라집니다. 이 작업에서 주석이 달리는 객체는 다음과 같습니다 정적 객체는 포함하지 마세요 예를 들어 barrier, traffic_cone 그리고 construction_vehicle.
이 작업에는 다음과 같은 객체 주석이 포함됩니다:
1: bicycle
2: bus
3: car
4: motorcycle
5: pedestrian
6: trailer
7: truck

운동 예측

운동 예측 이 작업의 목표는 장면 내 자차의 향후 주행 궤적을 x–y 위치 시퀀스로 예측하는 것입니다. nuScenes 데이터셋에서는 예측 시퀀스가 6초 길이이며 2 Hz로 샘플링됩니다.

LiDAR 분할

의 목표는 LiDAR 분할은 3D LiDAR 포인트 클라우드 집합의 모든 포인트에 대해 해당 범주를 예측하는 과제입니다. 총 16개 범주가 있으며, 전경 10개 클래스와 배경 6개 클래스로 구성됩니다. 다음 클래스에 대한 어노테이션이 제공됩니다:
1: barrier
2: bicycle
3: bus
4: car
5: construction_vehicle
6: motorcycle
7: pedestrian
8: traffic_cone
9: trailer
10: truck
11: driveable_surface
12: other_flat
13: sidewalk
14: terrain
15: manmade
16: vegetation

파노픽 분할 및 추적

의 목표는 파노픽 분할 모든 포인트의 의미론적 범주와 추가적인 인스턴스 ID를 예측하는 것입니다 사물정지 프레임에 초점을 맞춥니다. 파노픽 트래킹은 여기에 더해 시간적 일관성과 픽셀 수준의 연속적 연관을 강제합니다.
두 과제 모두 16개 범주(10 사물 그리고 6 배경 클래스). 파노픽 품질 (PQ)는 파노픽 세분화 과제의 주요 순위 지표이며, 파노픽 트래킹 (PAT) 지표는 파노픽 트래킹 과제의 주요 순위 지표입니다.


추천 자료





이 글은 AI 번역본입니다. 오역이 있을 경우 댓글에서 알려주세요. 원문 보고서는 다음 링크에서 확인할 수 있습니다: 원문 보고서 보기