특집 리포트: W&B 임베딩 프로젝터

W&B의 Embedding Projector는 PCA, UMAP, t-SNE와 같은 일반적인 차원 축소 알고리즘을 사용해 다차원 임베딩을 2D 평면에 시각화할 수 있게 해줍니다. 이 글은 AI 번역본입니다. 번역상 오류가 의심되는 부분이 있으면 댓글로 알려주세요.

Tim Sweeney

Created on September 15|Last edited on September 15

Comment

﻿
소개임베딩은 사람, 이미지, 게시물, 단어 등과 같은 객체를 숫자 목록으로 표현하는 방법으로, 흔히 벡터라고도 합니다. 머신러닝과 데이터 사이언스의 다양한 활용 사례에서는 여러 접근법을 통해 임베딩을 생성할 수 있습니다. 이 페이지는 독자가 임베딩에 대해 이미 익숙하며, W&B 안에서 이를 시각적으로 분석하는 데 관심이 있다고 가정합니다.
﻿전체 문서는 여기에서 읽어보세요!
코드## https://scikit-learn.org/stable/datasets/toy_dataset.html
﻿
import wandb
from sklearn.datasets import load_iris, load_diabetes, load_digits, load_wine, load_breast_cancer
﻿
def get_df_from_sklearn_dataset(loader_fn):
  ds = loader_fn(as_frame=True)
  df = ds.data
  df["target"] = ds.target
  cols = df.columns.tolist()
  df = df[cols[-1:] + cols[:-1]]
  if (loader_fn == load_digits):
    df["image"] = df.apply(lambda row: wandb.Image(row[1:].values.reshape(8, 8) / 16.0), axis=1)
    cols = df.columns.tolist()
    df = df[cols[-1:] + cols[:-1]]
  return df
﻿
def get_all_dfs():
  return {name: get_df_from_sklearn_dataset(fn) for name, fn in ({
      "iris": load_iris,
      "diabetes": load_diabetes,
      "digits": load_digits,
      "wine": load_wine,
      "breast_cancer": load_breast_cancer,
  }).items()}
﻿
wandb.init(project="toy_datasets")
wandb.log(get_all_dfs())
wandb.finish()
아이리스 데이터셋(150개 레코드 × 4차원 — 3클래스 분류)
와인 데이터셋(178개 레코드 × 13차원 — 3클래스 분류)
Diabetes 데이터셋(442개 레코드 × 10차원 — 회귀)
Breast Cancer 데이터셋(569개 레코드 × 30차원 — 이진 분류)
Digits 데이터셋(1797개 레코드 × 32×32 픽셀 — 10클래스 분류, 미디어 포함)﻿
 이 글은 AI 번역��입니다. 오역이 있으면 댓글로 알려 주세요. 원문 보고서 링크는 다음과 같습니다: 원문 보고서 보기﻿
﻿

Add a comment