如何处理训练样本不均衡的问题？

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

DeepGeGe 发布于2021-12

一般来说，可以从采样的角度或者损失函数的角度来缓解样本不均衡带来的问题，

从采样的角度来说：

1. 可以对样本根据类别进行动态采样，每个类别都设置不同的采样概率，保证不同类别的图片在同一个 minibatch 或者同一个 epoch 内，不同类别的训练样本数量基本一致或者符合自己期望的比例。

2. 可以使用过采样的方法，对图片数量较少的类别进行过采样。

DeepGeGe

已解决

2# 回复于2021-12

从损失函数的角度出发的话， 1. 可以使用 OHEM(online hard example miniing)的方法，对根据样本的 loss 进行筛选，筛选出 hard example 用于模型的梯度反传和参数更新。 2. 可以使用 Focal loss 的方法，对一些比较容易的样本的 loss 赋予较小的权重，对于难样本的 loss 赋予较大的权重，从而让容易样本的 loss 对网络整体的 loss 有贡献，但是又不会主导 loss。

展开

0

收藏

回复

全部评论(1)

DeepGeGe

#2 回复于2021-12

从损失函数的角度出发的话，

1. 可以使用 OHEM(online hard example miniing)的方法，对根据样本的 loss 进行筛选，筛选出 hard example 用于模型的梯度反传和参数更新。
2. 可以使用 Focal loss 的方法，对一些比较容易的样本的 loss 赋予较小的权重，对于难样本的 loss 赋予较大的权重，从而让容易样本的 loss 对网络整体的 loss 有贡献，但是又不会主导 loss。

1

回复

时间顺序
时间逆序