pro三大网络：

测试时：先生成图像金字塔，不同scale分别输入pnet 1. pnet：输入一个scale的完整图片，输出每个像素点（box的左坐标）的置信度和offset, 据此生成一堆bbox和offset 2. rnet: 输入一堆bbox（10x3x24x24），输出每个bbox的置信度和offset 3. onet：同rnet (每次通过网络都要调整bbox和resize)

窗口的一步步筛选：

pnet输出的是每个像素为左上角点画出的12x12窗口的置信度和offset

图像金字塔：一张图片对应一堆scale, 每个scale都得到一系列映射到原图坐标的bbox和offset. 所有scale映射到原图后都是bboxes

窗口初筛：根据置信度去除一部分窗口

窗口矫正：根据offset调整窗口坐标

窗口方阵化：长方形变正方形

窗口refine: 确保窗口小于图片大小

融合窗口：按照置信度排序，根据iou（交并比）融合

再探MTCNN

训练步骤，是要根据数据生成正负样本的，每个样本的labe有六个值。

pnet训练：根据ground-truth生成正负样本做输入，这样才有offset rnet/ onet训练：用上个网络的输出resize后做输入

MTCNN网络

pro三大网络：

窗口的一步步筛选：

再探MTCNN

Similar Posts

Comments