目标检测 (Object localization)

黎 浩然/ 16 9 月, 2023/ 机器学习/MACHINELEARNING, 目标检测/OBJECTDETECTION/ 0 comments

Object localization是在图像分类的基础上,除了识别图像中的主要对象外,还需要确定对象在图像中的位置。这通常通过在对象周围绘制一个边界框(bounding box)来实现。边界框的位置和大小由一组参数定义,包括边界框的中心点坐标 (bx, by)、高度 bh 和宽度 bw

在进行对象定位时,神经网络不仅输出对象的类别标签,还输出这四个边界框参数。如果我们定义图像中只有一个主要对象,那么这个问题就是“分类与定位”问题。

对于训练数据,我们不仅需要对象的类别标签,还需要边界框的参数值。这样,我们就可以使用监督学习来训练算法,使其不仅能输出类别标签,还能输出边界框的参数。

在定义目标标签 y 时,可以包括以下组件:

  1. pc:对象存在的概率,如果对象属于我们关心类别之一,pc = 1;如果是背景,pc = 0。
  2. bx, by, bh, bw:边界框的参数,定义了对象在图像中的位置和大小。
  3. c1, c2, c3:表示对象类别。如果pc = 1,则其中一个为 1 其余为 0。

对于损失函数,可以使用平方误差来衡量预测值与实际值的差异。如果对象存在 pc = 1,则损失是所有组件预测值与实际值的平方差的和;如果对象不存在 pc = 0,则损失只与 pc 的预测值有关,因为其它组件的值是不关心的。

最后,这种方法将神经网络的输出转化为一组实数,以描述图像中对象的位置,是计算机视觉领域中的一个强大的想法。这种方法不仅适用于对象定位,还可以用于其他计算机视觉任务。

Share this Post

Leave a Comment

您的邮箱地址不会被公开。 必填项已用 * 标注

*
*