pro三大网络:
测试时:先生成图像金字塔,不同scale分别输入pnet 1. pnet:输入一个scale的完整图片,输出每个像素点(box的左坐标)的置信度和offset, 据此生成一堆bbox和offset 2. rnet: 输入一堆bbox(10x3x24x24),输出每个bbox的置信度和offset 3. onet:同rnet (每次通过网络都要调整bbox和resize)
窗口的一步步筛选:
pnet输出的是每个像素为左上角点画出的12x12窗口的置信度和offset
图像金字塔:一张图片对应一堆scale, 每个scale都得到一系列映射到原图坐标的bbox和offset. 所有scale映射到原图后都是bboxes
窗口初筛:根据置信度去除一部分窗口
窗口矫正:根据offset调整窗口坐标
窗口方阵化:长方形变正方形
窗口refine: 确保窗口小于图片大小
融合窗口:按照置信度排序,根据iou(交并比)融合
再探MTCNN
训练步骤,是要根据数据生成正负样本的,每个样本的labe有六个值。
pnet训练:根据ground-truth生成正负样本做输入,这样才有offset rnet/ onet训练:用上个网络的输出resize后做输入