阿鲲的博客 主修软件工程和算法模型,极客成长中

MTCNN网络

2020-09-15
jktian

阅读:


pro三大网络:

测试时:先生成图像金字塔,不同scale分别输入pnet 1. pnet:输入一个scale的完整图片,输出每个像素点(box的左坐标)的置信度和offset, 据此生成一堆bbox和offset 2. rnet: 输入一堆bbox(10x3x24x24),输出每个bbox的置信度和offset 3. onet:同rnet (每次通过网络都要调整bbox和resize)

窗口的一步步筛选:

pnet输出的是每个像素为左上角点画出的12x12窗口的置信度和offset

图像金字塔:一张图片对应一堆scale, 每个scale都得到一系列映射到原图坐标的bbox和offset. 所有scale映射到原图后都是bboxes

窗口初筛:根据置信度去除一部分窗口

窗口矫正:根据offset调整窗口坐标

窗口方阵化:长方形变正方形

窗口refine: 确保窗口小于图片大小

融合窗口:按照置信度排序,根据iou(交并比)融合

再探MTCNN

训练步骤,是要根据数据生成正负样本的,每个样本的labe有六个值。

pnet训练:根据ground-truth生成正负样本做输入,这样才有offset rnet/ onet训练:用上个网络的输出resize后做输入


Similar Posts

上一篇 概率与统计

下一篇 tf1到tf2的迁移

Comments