Функция потерь перекрестной энтропии: Обзор

Учебное пособие, в котором рассматривается функци�� потерь перекрестной энтропии, дополненное кодами PyTorch и Tensorflow, а также интерактивными визуализациями

Saurav Maheshkar, W&B Translations

Created on January 11|Last edited on February 11

Comment

Этот отчет является переводом «Cross Entropy Loss: An Overview » Saurav Maheshkar﻿
﻿Быстрый старт Tensorflow Colab | Быстрый старт PyTorch Colab﻿
﻿﻿РАЗДЕЛЫ﻿﻿РАЗДЕЛЫ👋 Знакомство с функцией потерь перекрестной энтропии🧑🏻‍🏫 Что такое кросс энтропийная потеряТеория🧑🏼‍💻 Код🥕 Реализация на основе Tensorflow🔥 Реализация на основе PyTorchЗаключение📚 Some Resources
﻿
﻿
👋 Знакомство с функцией потерь перекрестной энтропииОдной из наиболее распространенных функций потерь, используемой для обучения нейронных сетей, является функция потерь перекрестной энтропии. Рассмотрим деривацию и реализацию этой функции с помощью различных фреймворков, научимся способам входа и визуализации с помощью wandb.
﻿
🧑🏻‍🏫 Что такое кросс энтропийная потеряФункция потерь перекрестной энтропии – это метрика, позволяющая оценить, насколько хорошо функционирует модель классификации в машинном обучении. Потеря (или ошибка) оценивается как число, находящееся между 0 и 1, где 0 – идеальная модель. Цель, как правило, заключается в том, чтобы максимально приблизить вашу модель к 0.
Функцию потерь перекрестной энтропии часто считают взаимозаменяемой с логистической ошибкой (или логистической функцией потерь и иногда рассматриваемой как функция потерь бинарной перекрестной энтропии), но это не всегда корректно.
С другой стороны, функция потерь бинарной перекрестной энтропии сохраняет только одно значение. Это значит, что она будет сохранять только 0,5, а другое значение вероятности будет подразумеваться. Если первая вероятность была 0,7, то подразумевается, что вторая вероятность будет 0,3. При вычислениях используется логарифм (отсюда и название  – «логистическая функция потерь»).
В силу вышеуказанной причины функция потерь бинарной перекрестной энтропии (или логистическая функция потерь) используется в сценариях, предусматривающих два возможных результата, при этом нетрудно увидеть, где будет мгновенный сбой в случае двух или трех результатов. Функция потерь перекрестной энтропии часто применяется в моделях, в которых имеются три или более возможностей классификации.
ТеорияДавайте начнем с азов. В процессе глубокого обучения обычно используется градиентная стратегия оптимизации для обучения модели (скажем f(x)f(x)f(x)﻿)  с использованием некоторой функции потерь l (f(xi), yi)l \, (f(x_i), \, y_i)l(f(xi​),yi​)﻿, где (xi,yi)(x_i, y_i)(xi​,yi​)﻿ – определенная  пара ввода-вывода. Функция потерь позволяет модели определить, насколько она «неправильная» и на основании этой «неправильности» – улучшить себя. Это мера ошибки. Наша роль в процессе обучения заключается в минимизации этой ошибки/потери.
Роль функции потерь является весьма важной. Если некорректный вывод не «наказывается» должным образом, это может привести к задержке сходимости и повлиять на обучение.
Существует парадигма обучения, называемая оценкой по методу наибольшей вероятности, которая обучает модель оценивать ее параметры, чтобы изучить базовое распределение данных. Таким образом, мы используем функцию потерь, чтобы оценить, насколько хорошо модель соответствует распределению данных.
Используя перекрестную энтропию, можно оценить ошибку (или разницу) между двумя вероятностными распределениями.
Например, в случае бинарной классификации перекрестная энтропия определяется как:
l=−( y log(p)  +  (1−y) log(1−p) )l = - (\,y \, log(p)\,\,+ \,\, (1-y) \, log(1-p)\,)l=−(ylog(p)+(1−y)log(1−p))﻿
где:
﻿ppp﻿ – предсказанная вероятность и
﻿yyy﻿ – индикатор (0 или 1 в случае бинарной классификации)
Давайте пошагово рассмотрим, что происходит с определенной точкой данных. Предположим, что правильный индикатор - y = 1. В этом случае,  
l=−(  1×log(p)+(1−1)  log(1−p)  )l = - ( \, \,1 \times log(p) + (1 - 1) \, \, log (1- p) \, \,)l=−(1×log(p)+(1−1)log(1−p))﻿
l=−(  1×log(p)  )l = - ( \, \, 1 \times log(p) \, \,)l=−(1×log(p))﻿
Таким образом, значение потерь ll зависит от вероятности pp. Следовательно, наша функция потерь вознаграждает модель за правильный прогноз (высокое значение pp) с небольшими потерями. Однако, если вероятность ниже, значение ошибки будет высоким (большее отрицательное значение), и поэтому модель будет наказана за неправильный результат.
Простое расширение задачи множественной классификации (скажем, N классов) существует следующим образом:
−∑c=1Nyclog(pc)- \sum_{c=1}^{N} y_c log(p_c)−∑c=1N​yc​log(pc​)﻿
🧑🏼‍💻 КодВ этом разделе мы рассмотрим, как можно использовать функцию потерь перекрестной энтропии и в Tensorflow,  и в PyTorch, а также вход в wandb.
🥕 Реализация на основе Tensorflowimport tensorflow as tf
from wandb.keras import WandbCallback
﻿
def build_model():
    ...
﻿
    # Define the Model Architecture
    model = tf.keras.Model(inputs = ..., outputs = ...)
﻿
    # Define the Loss Function -> BinaryCrossentropy or CategoricalCrossentropy
    fn_loss = tf.keras.losses.BinaryCrossentropy() 
﻿
    model.compile(optimizer = ..., loss = [fn_loss], metrics= ... )
﻿
    return model
﻿
model = build_model()
﻿
# Create a W&B Run
run = wandb.init(...)
﻿
# Train the model, allowing the Callback to automatically sync loss
model.fit(... ,callbacks = [WandbCallback()])
﻿
# Finish the run and sync metrics
run.finish()
🔥 Реализация на основе PyTorchimport wandb
import torch.nn as nn
﻿
# Define the Loss Function
criterion = nn.CrossEntropyLoss()
﻿
# Create a W&B Run
run = wandb.init(...)
﻿
def train_step(...):
    ...
    loss = criterion(output, target)
﻿
    # Back-propagation
    loss.backward()
﻿
    # Log to Weights and Biases
    wandb.log({"Training Loss": loss.item()})
﻿
# Finish the run and sync metrics
run.finish()
﻿
Run set2
﻿
ЗаключениеНа этом мы завершаем краткое знакомство с функцией потерь перекрестной энтропии. Для получения информации о полном наборе характеристик wandb, пожалуйста, ознакомьтесь с кратким 5-минутным руководством.
📚 Some ResourcesЕсли вам интересно, почему мы должны использовать отрицательные логарифмические вероятности, посмотрите следующее видео. 🎥
Если вы хотите получить более строгое математическое объяснение, ознакомьтесь с заметкой в блоге (1) и заметкой в блоге (2) 🧾
Также обратите внимание на следующее видео:
﻿
﻿
﻿

Add a comment

Tags: Beginner, Domain Agnostic, Keras, PyTorch, Tutorial, Plots, Cross Entropy Loss, Exemplary

Iterate on AI agents and models faster. Try Weights & Biases today.

Функция потерь перекрестной энтропии: Обзор

﻿﻿РАЗДЕЛЫ﻿﻿

👋 Знакомство с функцией потерь перекрестной энтропии

🧑🏻‍🏫 Что такое кросс энтропийная потеря

Теория

🧑🏼‍💻 Код

🥕 Реализация на основе Tensorflow

🔥 Реализация на основе PyTorch

Заключение

📚 Some Resources

РАЗДЕЛЫ