특집 리포트: W&B 임베딩 프로젝터
W&B의 Embedding Projector는 PCA, UMAP, t-SNE와 같은 일반적인 차원 축소 알고리즘을 사용해 다차원 임베딩을 2D 평면에 시각화할 수 있게 해줍니다. 이 글은 AI 번역본입니다. 번역상 오류가 의심되는 부분이 있으면 댓글로 알려주세요.
Created on September 15|Last edited on September 15
Comment
소개
임베딩은 사람, 이미지, 게시물, 단어 등과 같은 객체를 숫자 목록으로 표현하는 방법으로, 흔히 벡터라고도 합니다. 머신러닝과 데이터 사이언스의 다양한 활용 사례에서는 여러 접근법을 통해 임베딩을 생성할 수 있습니다. 이 페이지는 독자가 임베딩에 대해 이미 익숙하며, W&B 안에서 이를 시각적으로 분석하는 데 관심이 있다고 가정합니다.
코드
## https://scikit-learn.org/stable/datasets/toy_dataset.htmlimport wandbfrom sklearn.datasets import load_iris, load_diabetes, load_digits, load_wine, load_breast_cancerdef get_df_from_sklearn_dataset(loader_fn):ds = loader_fn(as_frame=True)df = ds.datadf["target"] = ds.targetcols = df.columns.tolist()df = df[cols[-1:] + cols[:-1]]if (loader_fn == load_digits):df["image"] = df.apply(lambda row: wandb.Image(row[1:].values.reshape(8, 8) / 16.0), axis=1)cols = df.columns.tolist()df = df[cols[-1:] + cols[:-1]]return dfdef get_all_dfs():return {name: get_df_from_sklearn_dataset(fn) for name, fn in ({"iris": load_iris,"diabetes": load_diabetes,"digits": load_digits,"wine": load_wine,"breast_cancer": load_breast_cancer,}).items()}wandb.init(project="toy_datasets")wandb.log(get_all_dfs())wandb.finish()
아이리스 데이터셋(150개 레코드 × 4차원 — 3클래스 분류)
와인 데이터셋(178개 레코드 × 13차원 — 3클래스 분류)
Diabetes 데이터셋(442개 레코드 × 10차원 — 회귀)
Breast Cancer 데이터셋(569개 레코드 × 30차원 — 이진 분류)
Digits 데이터셋(1797개 레코드 × 32×32 픽셀 — 10클래스 분류, 미디어 포함)
Add a comment