显著性目标检测毕业论文

一、程明明等人的论文：Salient Object Detection: A Surve（简单归纳了文章中的我认为比较重要的部分）该论文旨在全面回顾突出显示目标检测的最新进展，并将其与其他密切相关领域（如通用场景分割，目标建议生成以及固定预测的显著性）相关联。主要内容涉及i）根源，关键概念和任务，ii）核心技术和主要建模趋势，以及iii）显著性物体检测中的数据集和评估指标。讨论并提出了未来的研究反向等开放性问题。 1.介绍 1．1 什么是显著性物体提到一般认为，良好的显著性检测模型应至少满足以下三个标准：1）良好的检测：丢失实际显著区域的可能性以及将背景错误地标记为显著区域应该是低的；2）高分辨率：显著图应该具有高分辨率或全分辨率以准确定位突出物体并保留原始图像信息；3）计算效率：作为其他复杂过程的前端，这些模型应该快速检测显著区域。显著物体检测历史（1）Itti等人提出的最早、经典的的显著模型。例如[24]一文掀起了跨认知心理学、神经科学和计算机视觉等多个学科的第一波热潮。（2）第二波热潮由刘等人的[25]，[55]和Achanta等人的[56]掀起，他们将显著性检测定义为二元分割问题，自此出现了大量的显著性检测模型。（3）最近出现了第三波热潮，卷积神经网络（CNN）[69]，特别是引入完全卷积神经网络[70]。与基于对比线索的大多数经典方法不同[1]，基于CNN的方法消除了对手工特征的需求减轻了对中心偏见知识的依赖，因此被许多科研人员所采用。基于CNN的模型通常包含数十万个可调参数和具有可变感受野大小的神经元。神经元具有较大的接受范围提供全局信息，可以帮助更好地识别图像中最显著的区域。CNN所能实现前所未有的性能使其逐渐成为显著性物体检测的主流方向。 2. 现状调查本节主要回顾三部分内容：1）显著性物体检测模型；2）应用；3）数据集。经典模型（非常详细）具有内在线索的基于块的模型有两个缺点：1）高对比度边缘通常突出而不是突出物体；2）凸显物体的边界不能很好地保存。为了克服这些问题，一些方法提出基于区域来计算显著性。两个主要优点：1）区域的数量远少于区块的数量，这意味着开发高效和快速算法的潜力；2）更多的信息功能可以从区域中提取，领先以更好的表现。具有内在线索的基于区域的模型（图4）基于区域的显著性模型的主要优势：1）采用互补先验，以提高整体性能，这是主要优势；2）与像素和色块相比，区域提供更复杂的线索（如颜色直方图），以更好地捕捉场景的显著对象；3）由于图像中的区域数量远小于像素数量，因此在生成全分辨率显著图时，区域级别的计算显著性可以显著降低计算成本。具有外部线索的模型（图5）其他经典模型（图6）局部化模型、分割模型、监督模式与无监督模式、聚合和优化模型基于深度学习的模型基于CNN（经典卷积网络）的模型 CNN大大降低了计算成本，多级特征允许CNN更好地定位检测到显著区域的边界，即使存在阴影或反射。但CNN特征的空间信息因为使用了MLP（多层感知器）而无法保留。基于FCN（完全卷积网络）的模型该模型具有保存空间信息的能力，可实现点对点学习和端到端训练策略，与CNN相比大大降低了时间成本。但在具有透明物体的场景、前景和背景之间的相同对比度以及复杂的背景等情况无法检测显著物体。元素： PI=像素，PA=补丁，PE=区域，前缀m和h分别表示多尺度和分层版本。假设： CP=中心先验，G=全局对比度，L=局部对比度，ED=边缘密度，B=背景先验，F=先验焦点，O=先验物体，CV=先验凸度，CS=中心环绕对比度，CLP=先验颜色，SD空间分布，BC=边界连通之前，SPS=稀疏噪声。聚合/优化： LN=线性，NL=非线性，AD=自适应，RI=分层，BA=贝叶斯，GMRF=高斯MRF，EM=能量最小化，LS=最小二乘解线索：GT=地面真值注释，SI=相似图像，TC=时间线索，SCO=显著性实现，DP=深度，LF=光场。对于显著性假设： P=通用属性，PRA=预注意线索，HD=高维特征空间中的判别性，SS=显著性相似性，CMP=显著性提示的互补，SP=采样概率，MCO=运动相干性，RP=重复性，RS=区域相似度，C=相应，DK=领域知识。其他： CRF=条件随机场，SVM=支持向量机，BDT=提升决策树，RF=随机森林 4 数据集和评估措施显著对象检测数据集早期的带有包围框的突出物体图像：MSRA-A和MSRA-B 使用像素方式的二进制掩码来注释显著对象：ASD和DUT-OMRON 具有复杂和杂乱背景中的多个对象的数据集:[22]、[23]、[26] 评估措施（5个）用S表示归一化为[0,255]的预测显著图，G是显著对象的地面正式二进制掩模（1）精确召回（PR）。首先将显著图S转化为二进制掩码M，然后通过将M与地面真值G进行比较来计算Precission和Recall：（2） F值：通常Precission和Recall都不能完全评估显著图的质量，为此提出F值作为Precission和Recall的非负权重的集权跳河平均：（3） ROC（Receiver Operating Characteristic）曲线：是以假正率（FP_rate）和假负率（TP_rate）为轴的曲线（4）ROC曲线下面积(AUC)：AUC越大性能越好（5）平均绝对误差（MAE）：进行更全面的比较。图12，比较流行的显著性对象检测数据集：二、传统显著性检测内容补充（论文中的分类和自己平时习惯不一致，所以重新收集资料整理了一下）常用显著性检测方法： 1. 认知模型几乎所有模型都直接或间接地受认知模型启发而来，其一大特点是与心理学和神经学相结合。Itti模型（使用三个特征通道：颜色、属性、方向）是这一类模型的代表，也是后来很多衍生模型的基础 2. 信息论模型本质是最大化来自所处视觉环境的信息，其中最有影响力的模型是AIM模型。 3. 图论模型基于图轮的显著性模型把眼动数据看成时间序列，使用了隐马尔科夫模型、动态贝叶斯网和条件随机场等方法。图模型可以对复杂的注意机制建模，因此能取得较好的预测能力，缺点在于模型的高复杂度，尤其涉及训练和可读性时。典型模型有：GBVS等 4. 频域模型基于频谱分析的显著性模型，形式简洁，易于解释和实现，并且在注意焦点预测和显著区域检测方面取得了很大的成功，但其生物合理性不是非常清楚。经典模型有：频谱残差的显著性检测模型（纯数学计算方法）。参考资料链接：三、基于深度学习的显著性检测内容补充（论文是2014年所写，关于深度学习部分不够完善，因此在此又补充了一下）基于深度学习的显著性目标检测研究发展初期从物体检测神经网络到OverFeat，一直难以取得理想的效果。2014年R-CNN的诞生成为第一个真正可以工业级应用的方案，其在VOC2007测试集的mAP提升至66%。但R-CNN框架仍然存在很多问题： 1) 训练分为多个阶段，步骤较为繁琐：微调网络+训练SVM+训练边框回归器 2) 训练耗时，占用磁盘空间大：5000张图片产生几百G的特征文件 3) 速度慢：使用GPU，VGG-16模型处理一张图像需要47s 截止目前，基于深度学习的显著性目标检测研究可以分为基于区域建议的深度学习目标检测和基于回归的深度学习目标检测两个类别。基于区域建议的深度学习目标检测方法有：R-CNN、SPP-net、FastR-CNN、Faster R-CNN、R-FCN等。 1) R-CNN(Regions with CNN features)重复计算，时间、空间代价较高； 2) SPP-net(Spatial Pyramid Pooling)强化了CNN的使用，允许输入大小不一致的图片，进一步强调了CNN特征计算前移、区域处理后移的思想，极大节省计算量，但不是端到端的模型且CNN特征提取没有联动调参数； 3) FastR-CNN的出现解决了前两者重复计算的问题，实现了区域建议到目标检测一端的卷积共享，首次提出的RoI Pooling技术极大地发挥区域后移的优势，加快了训练速度，采用VGG-16作为CNN网络模型，联动调用参数提升了实验效果，但是依然没有实现端到端的模型，对SS区域建议依赖严重； 4) Faster R-CNN弃用选择性搜索，提出了RPN网络来计算候选框，使用端到端的网络进行目标检测，无论在速度上还是在精度上，都得到了极大的提高，但在速度上并不能满足实时的需求，对每个建议分类计算量仍较大，功能上没有进入实例分割阶段。基于回归的深度学习目标检测方法有：YOLO、SSD、G-CNN、NMS等。 1) YOLO(You Only Look Once)将目标检测任务转换成回归问题，大大简化了检测的过程、加快了检测的速度，但预测目标窗口时使用的是全局信息，冗余度高，且没有区域建议机制后检测精度不高； 2) SSD（Single ShotMultibox Detector）预测某个位置时使用的是该位置周围的特征，结合YOLO的回归思想以及FasterR-CNN中的候选区域机制，既保持了YOLO速度快的特性，也保证了精确定位； 3) G-CNN着力于减少初始化建议数量，使数以万计的建议变成极少的初始格网，提升了检测速度； 4) NMS(Non Maximum Suppression)则通过迭代的形式去除重复候选框，取置信率最大的框。当前实际应用中，基于区域建议的深度学习目标检测使用更为广泛。当前基于深度学习的显著性检测研究方法： R-CNN系列显著性目标检测框架和YOLO显著性目标检测框架给了我们进行基于深度学习的目标检测两个基本框架。目前研究人员基于这些框架从其他方面入手提出一系列提高目标检测性能的方法。如：难样本挖掘、多层特征融合、使用上下文信息、更深网络学习的特征等。原文链接：

论文中显著性水平标注方法：（1）先将平均数由大到小排列（从上到下排列），在最大平均数后标记字母 a 。（2）用该平均数依...

不可以。经济类本科毕业论文的实证结果要么不显著，要么显著的部分低于20%的显著程度，在学术上很没有说服力，会影响论文通过。综上，经济类本科毕业论文10%显著性水平是不可以用得，不否和要求。

我的显著性目标检测论文

原文： Scalable Object Detection using Deep Neural Networks——学术范最近，深度卷积神经网络在许多图像识别基准上取得了最先进的性能，包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络，它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文，但如果不天真地复制每个实例的输出数量，就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型，它预测了一组与类无关的边界框，每个框有一个分数，对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例，并允许在网络的最高级别上进行跨类泛化。目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器，并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中，以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加，这个挑战变得更加困难，因为大多数方法都训练每个类单独的检测器。为了解决这个问题，人们提出了多种方法，从检测器级联到使用分割提出少量的对象假设。关于对象检测的文献非常多，在本节中，我们将重点讨论利用类不可知思想和解决可伸缩性的方法。许多提出的检测方法都是基于基于部件的模型，最近由于有区别学习和精心设计的特征，已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板，这是非常昂贵的。此外，它们在类的数量上是可伸缩的，这对像ImageNet这样的现代数据集来说是一个挑战。为了解决前一个问题，Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题，Song et al.使用了一个低维部件基，在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。另一种不同的工作，与我们的工作更接近，是基于对象可以本地化的想法，而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机，Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分，并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型，分割作为第一层，分割分类作为后续层。尽管它们编码了已证明的感知原理，但我们将表明，有更深入的模型，充分学习可以导致更好的结果。最后，我们利用了DeepLearning的最新进展，最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而，基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能，但由于单个掩模回归的成本，不能扩展到多个类。我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说，我们使用了深度神经网络(DNN)，它输出固定数量的包围盒。此外，它为每个盒子输出一个分数，表示这个盒子包含一个对象的网络信任度。为了形式化上述思想，我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值，可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸，以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的，后面跟着一个sigmoid。我们可以组合边界盒位置sli,i∈{1，…K}为一个线性层。同样，我们可以将所有置信区间ci,i∈{1，…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层在推理时，我们的算法生成kbound盒。在我们的实验中，我们使用ek = 100和K= 200。如果需要，我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此，它们可以通过后续的分类器进行分类，实现目标检测。由于盒子的数量非常少，我们可以提供强大的分类器。在我们的实验中，我们使用另一个dnn进行分类。我们训练一个DNN来预测每个训练图像的边界框及其置信度得分，以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子，对象被标记为boundingboxesgj,j∈{1，…，M}。在实践中，pre- dictionary的数量远远大于groundtruthboxm的数量。因此，我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置，以提高他们的匹配度，最大化他们的信心。与此同时，我们将剩余预测的置信度最小化，这被认为不能很好地定位真实对象。为了达到上述目的，我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1，如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为其中，我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外，我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为最终的损失目标结合了匹配损失和信心损失受式1的约束。α平衡了不同损失条款的贡献。对于每个训练例子，我们通过解决一个最佳的赋值x*的预测到真实的盒子约束执行赋值解决方案。这是二部匹配的一种变体，是一种多项式复杂度匹配。在我们的应用程序中，匹配是非常便宜的——每幅图像中标记的对象的数量少于一打，而且在大多数情况下只有很少的对象被标记。然后，通过反向传播优化网络参数。例如，反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的，但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类，并找到这样的聚类/质心，我们可以使用这些聚类/质心作为每个预测位置的先验。因此，鼓励学习算法为每个预测位置学习一个残差到一个先验。第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配，而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成，就会像之前一样计算目标的置信度。此外，位置预测损失也不变:对于任何一对匹配的(目标，预测)位置，其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配，并假设它促进了预测的多样化。需要注意的是，尽管我们以一种与类无关的方式定义了我们的方法，但我们可以将它应用于预测特定类的对象盒。要做到这一点，我们只需要在类的边框上训练我们的模型。此外，我们可以预测每个类的kbox。不幸的是，这个模型的参数数量会随着类的数量线性增长。此外，在一个典型的设置中，给定类的对象数量相对较少，这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此，我们认为我们的两步过程——首先本地化，然后识别——是一个更好的选择，因为它允许使用少量参数利用同一图像中多个对象类型的数据我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减，128的小批量，以及使用多个相同的网络副本进行并行分布式训练，从而实现更快的收敛。如前所述，我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外，使用非最大抑制对盒进行修剪，Jaccard相似度阈值为。然后，我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络，我们从训练集中生成了大约3000万幅图像，并对训练集中的每幅图像应用以下步骤。最后，样品被打乱。为了训练我们的本地化网络，我们通过对训练集中的每一幅图像应用以下步骤，从训练集中生成了大约3000万幅图像。对于每幅图像，我们生成相同数量的平方样本，使样本总数大约为1000万。对于每幅图像，样本被桶状填充，这样，对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例，都有相同数量的样本，其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中，我们没有探索任何非标准数据生成或正则化选项。在所有的实验中，所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成，其中包含了20种不同的对象类别的边界框。在我们的评估中，我们关注的是2007版VOC，为此发布了一个测试集。我们通过培训VOC 2012展示了结果，其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。我们在一个由1000万作物组成的数据集上训练分类器，该数据集重叠的对象至少为 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。在第一轮中，定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络，我们就可以得到上百个候选日期框。在对重叠阈值为的非最大抑制后，保留评分最高的前10个检测项，并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估，并用于计算精确查全曲线。首先，我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量，正如Pascal检测标准所定义的那样，与生成的包围框的数量相对比。在图1中，我们展示了使用VOC2012进行训练所获得的结果。此外，我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的，当使用10个边界框的预算时，我们可以用第一个模型本地化的对象，用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能，例如对象度算法达到42%[1]。此外，这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象，但当使用更高分辨率的图像作物时，我们获得了额外的提升。进一步，我们用21-way分类器对生成的包围盒进行分类，如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是，与先进水平相当。注意，我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是，可视化检测是通过仅使用最大中心方形图像裁剪，即使用全图像获得的。然而，我们设法获得了相对较小的对象，例如第二行和第二列的船，以及第三行和第三列的羊。在本工作中，我们提出了一种新的方法来定位图像中的对象，该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下，对1000个盒子进行非max-suppression，使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则，并学习在未见图像中预测这些位置。我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果，在这两个基准上，所提出的方法具有竞争力。此外，该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明，deepmultibox的方法是可扩展的，甚至可以在两个数据集之间泛化，就能够预测感兴趣的定位，甚至对于它没有训练的类别。此外，它能够捕获同一类物体的多种情况，这是旨在更好地理解图像的算法的一个重要特征。在未来，我们希望能够将定位和识别路径折叠到一个单一的网络中，这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下，双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估，每个评估的速度大约为1个CPU-sec(现代机器)。重要的是，这个数字并不与要识别的类的数量成线性关系，这使得所提出的方法与类似dpm的方法非常有竞争力。

目标检测论文整理最近开始看一些object detection的文章，顺便整理一下思路。排版比较乱，而且几乎所有图片都是应用的博客或论文，如有侵权请联系我。文章阅读路线参考目前已完成的文章如下，后续还会继续补充（其中加粗的为精读文章）：RCNNOverfeatMR-CNNSPPNetFast RCNNA Fast RCNNFaster RCNNFPNR-FCNMask RCNNYOLOYOLO 9000YOLO v3SSDDSSDR-SSDRetinaNet（focal loss）DSODCascade R-CNN（待续）吐槽一下，博客园的markdown竟然没有补齐功能，我还是先在本地补全再传上来吧。。。RCNN之前的故事Histogram of Gradient (HOG) 特征在深度学习应用之前，图像的特征是人工定义的具有鲁棒性的特征，如SIFT，HOG等，下面简要介绍一下HOG。8x8像素框内计算方向梯度直方图：HOG Pyramid特征金字塔，对于不同大小的物体进行适应，设计尺度不变性特征HOG特征 -> SVM分类DPM模型 Deformable Part Model加组件组合的HOG特征，组件间计算弹性得分，优化可变形参数如果没有弹性距离，就是BoW (Bag of Word)模型，问题很大，位置全部丢失:n个组件的DPM计算流程:Selective Search 思想过分割后基于颜色纹理等相似度合并,然后，过分割、分层合并、建议区域排序基于Selective Search + DPM/HoG + SVM的物体识别此时的框架就是RCNN的雏形，因为DPM就是基本由RBG和他导师主导，所以大神就是大神。AlexNet的图像分类（深度学习登场）2012年AlexNet赢得LSVRC的ImageNet分类竞赛。深度CNN结构用来图像特征提取。bounding-box regression 框回归BBR 在DPM时代就和SVM分类结合，一般直接使用线性回归，或者和SVR结合RCNN: Rich feature hierarchies for accurate object detection and semantic segmentationRCNN作为深度学习用于目标检测的开山之作，可以看出是基于Selective Search + DPM/HoG + SVM框架，只不过将是将手工特征转变为CNN提取特征，本文主要贡献如下：CNN用于object detection解决数据集不足的问题主要流程如下：regional preposals（selective research）CNN feature extractionSVM ClassificationNMSbounding-box regression（BBR）为啥能work？优秀的目标检测框架，region proposal 和 regression offset降低了目标检测的难度，强大的CNN特征提取器，代替传统的已经到瓶颈的手工特征迁移训练降低了对数据集的要求MR-CNN：Object detection via a multi-region & semantic segmentation-aware CNN modelMulti-Region的提出，开始对Box进一步做文章，相当于对Box进一步做增强，希望改进增强后的效果，主要改善了部分重叠交叉的情况。特征拼接后使得空间变大，再使用SVM处理，效果和R-CNN基本类似.OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks不得不说虽然OverFeat在但是比赛成绩不是太好，但是它的思想还是很有启发性的。OverFeat直接抛弃了Selective Search，采用CNN上slide windows来进行框推荐，并且把Bounding box Regression整合一起使用全连接层搞定，解决了后面一端的问题（取代了SVM分类器和BBR线性回归器），这个思想影响了后来的Fast RCNN。是第一个End to End 的目标检测模型，模型虽然简陋，但是可以验证网络强大的拟合能力注意整合目标检测的各项功能（分类，回归）。亮点：先用CNN得到feature map再做slide windows推荐区域，避免了特征重复计算。设计了End to End模型，方便优化和加快检测速度设计全卷积网络，并进行多尺度图像训练maxpool offset（没有Fast RCNN的ROI Pooling自然）为啥能work？可以看出OverFeat将不同的两个问题物体分类和位置回归采用了两个分支网络，共用前面的CNN特征表述，而CNN提取的特征正如OverFeat所言，是一种类似于SIFT，HOG等人工描述子的一种稳定的描述子（底层抽象），可以用于构建不同的任务（高层表述），也就是模型为什么能work的原因。SPPNetR-CNN和Overfeat都存在部分多尺度，重叠效果的问题。某种意义上，应对了HoG特征，这样对于物体来说类似BoW模型，我们知道DPM里面，是带有组件空间分布的弹性得分的，另外也有HoG Pyramid的思想。如何把Pyramid思想和空间限制得分加入改善多尺度和重叠的效果呢？ MR-CNN里面尝试了区域增强， Overfeat里面尝试了多尺度输入。但是效果都一般。这里我们介绍另外一个技术Spatial Pyramid Matching, SPM，是采用了空间尺度金字塔的特点。和R-CNN相比做到了先特征后区域，和Overfeat相比自带Multi-Scale。SPP pooling layer 的优势：解决了卷积层到全连接层需要固定图片大小的问题，方便多尺度训练。能够对于任意大小的输入产生固定的输出，这样使得一幅图片的多个region proposal提取一次特征成为可能。进一步强调了CNN特征计算前移，区域处理后移的思想，极大节省计算量也能看出文章还是强调用CNN做特征的提取，还是用的BBR和SVM完成回归和分类的问题Fast RCNN可以看出Fast RCNN结合了OverFeat和Sppnet的实现，打通了高层表述和底层特征之间的联系主要流程：任意size图片输入CNN网络，经过若干卷积层与池化层，得到特征图；在任意size图片上采用selective search算法提取约2k个建议框；根据原图中建议框到特征图映射关系，在特征图中找到每个建议框对应的特征框【深度和特征图一致】，并在RoI池化层中将每个特征框池化到H×W【VGG-16网络是7×7】的size；固定H×W【VGG-16网络是7×7】大小的特征框经过全连接层得到固定大小的特征向量；将上一步所得特征向量经由各自的全连接层【由SVD分解实现(全连接层加速)】，分别得到两个输出向量：一个是softmax的分类得分，一个是Bounding-box窗口回归；利用窗口得分分别对每一类物体进行非极大值抑制剔除重叠建议框其中ROI POOL层是将每一个候选框映射到feature map上得到的特征框经池化到固定的大小，其次用了SVD近似求解实现全连接层加速。这里需要注意的一点，作者在文中说道即使进行多尺度训练，map只有微小的提升，scale对Fast RCNN的影响并不是很大，反而在测试时需要构建图像金字塔使得检测效率降低。这也为下一步的多尺度改进埋下了伏笔。为啥能更好的work？也是结合了OverFeat的和SPPnet的work，同时规范了正负样本的判定（之前由于SVM和CNN对区域样本的阈值划分不同而无法统一网络，当然这只是其中的一个原因。更多的估计是作者当时没想到），将网络的特征抽取和分类回归统一到了一个网络中。A Fast RCNN： Hard Positive Generation via Adversary for Object Detection这篇论文是对,CMU与rbg的online hard example mining(OHEM)改进，hard example mining是一个针对目标检测的难例挖掘的过程，这是一个更充分利用数据集的过程。实际上在RCNN训练SVM时就已经用到，但是OHEM强调的是online，即如何在训练过程中选择样本。同期还有S-OHEM的改进。而随着但是GAN的火热，A-Fast-RCNN尝试生成hard example（使用对抗网络生成有遮挡和有形变的两种特征，分别对应网络ASDN和ASTN）结论如下：ASTN 和随机抖动（random jittering）做了对比，发现使用AlexNet，mAP分别是和，使用VGG16，mAP分别是和，ASTN 的表现都比比随机抖动效果好。作者又和OHEM对比，在VOC 2007数据集上，本文方法略好（ vs. ），而在VOC 2012数据集上，OHEM更好（ vs. ）。gan用于目标检测还没有很好的idea，这篇论文相当于抛砖引玉了。同时需要注意的一个问题，网络对于比较多的遮挡和形变情况识别情况更好；但是对于正常目标的特征抽象能力下降，所以有时候创造难例也要注意样本的数量。下面是一些由于遮挡原因造成的误判。Faster RCNN：Towards Real-Time Object Detection with Region Proposal Networks这篇文章标志着two-stage目标检测的相对成熟，其主要改进是对候选区域的改进，将候选区域推荐整合进了网络中。结合后面的一系列文章，可以马后炮一下它的缺点：虽然Faster RCNN已经共享了绝大部分卷积层运算，但是RoI之后还有部分ConvNet的计算，有没有可能把ROI之上的计算进一步前移？请看R-FCNFaster RCNN还是没有很好的解决多尺度问题，如何解决，请看FPNYOLO：You Only Look Once作者的论文简直是一股论文界的泥石流，作者本身是一个喜欢粉红小马的大叔，萌萌哒。实际上YOLO一直发展到v3都是简单粗暴的目标检测方法，虽然学术界模型繁杂多样，但是在实际应用工业应用上YOLO绝对是一个首选的推荐。YOLO v1版本现在看来真是简单粗暴，也印证了网络抽象的强大之处。可以看出作者没有受到太多前辈的影响，将对象检测重新定义为单个回归问题，直接从图像像素到边界框坐标和类概率（当然这也是一个缺少坐标约束也是一个缺点）。YOLO的明显缺点，如多尺度问题，密集物体，检测框耦合，直接回归坐标等在yolo 9000中也做了比较好的改进。SSD：Single Shot MultiBox DetectorSSD作为one stage的代表模型之一，省去了判断推荐候选区域的步骤(实际上可以认为one-stage就是以feature map cell来抽象代替ROI Pooling功能），虽然SSD和Faster RCNN在Anchor box上一脉相承，但是Faster RCNN却还是有一个推荐候选区域（含有物体的区域）的监督部分（注意后面其实也是整合到了最终Loss中），因此one-stage优势是更快，而含有区域推荐的two-stage目前是更加准确一些。（更看好one-stage，其实区域推荐不太符合视觉系统，但是可以简化目标检测问题），主要贡献：用多尺度feature map来预测，也生成了更多的default box检测框对每一类对象产生分数（低耦合，对比yolo）缺点：底层feature map高级语义不足（FPN)正负样本影响 (focal loss)feature map抽象分类和回归任务只用了两个卷积核抽象性不足（DSSD）为啥能更好的工作？SSD的出现对多尺度目标检测有了突破性进展，利用卷积层的天然金字塔形状，设定roi scale让底层学习小物体识别，顶层学习大物体识别FPN：feature pyramid networksSSD网络引入了多尺度feature map，效果显著。那Faster RCNN自然也不能落后，如何在Faster RCNN中引入多尺度呢？自然有FPN结构同时FPN也指出了SSD因为底层语义不足导致无法作为目标检测的feature map注意原图的候选框在Faster RCNN中只固定映射到同一个ROI Pooling中，而现在如果某个anchor和一个给定的ground truth有最高的IOU或者和任意一个Ground truth的IOU都大于，则是正样本。如果一个anchor和任意一个ground truth的IOU都小于，则为负样本。本文算法在小物体检测上的提升是比较明显的，另外作者强调这些实验并没有采用其他的提升方法（比如增加数据集，迭代回归，hard negative mining），因此能达到这样的结果实属不易。DSSD：Deconvolutional Single Shot Detector一个SSD上移植FPN的典型例子，作者主要有一下改动：将FPN的Upsampling变成deconv复杂了高层表述分支（分类，回归）网络的复杂度R-SSD：Enhancement of SSD by concatenating feature maps for object detection本文着重讨论了不同特征图之间的融合对SSD的影响（水论文三大法宝），这篇论文创新点不是太多，就不说了DSOD： Learning Deeply Supervised Object Detectors from Scratch这篇文章的亮点：提出来了不需要预训练的网络模型DSOD实际上是densenet思想+SSD，只不过并不是在base model中采用densenet，而是密集连接提取default dox的层，这样有一个好处：通过更少的连接路径，loss能够更直接的监督前面基础层的优化，这实际上是DSOD能够直接训练也能取得很好效果的最主要原因，另外，SSD和Faster RCNN直接训练无法取得很好的效果果然还是因为网络太深（Loss监督不到）或者网络太复杂。Dense Prediction Structure 也是参考的densenetstem能保留更多的信息，好吧，这也行，但是对效果还是有提升的。YOLO 9000：Better, Faster, Stronger很喜欢这个作者的论文风格，要是大家都这么写也会少一点套路，多一点真诚。。。。文章针对yolo做了较多的实验和改进，简单粗暴的列出每项改进提升的map。这个建议详细的看论文。下面列举几个亮点：如何用结合分类的数据集训练检测的网络来获得更好的鲁棒性将全连接层改为卷积层并结合了细粒度信息（passthrough layer）Multi-Scale TraningDimension Clustersdarknet-19更少的参数Direct locaion prediction对offset进行约束R-FCN：Object Detection via Region-based Fully Convolutional Networks本文提出了一个问题，base CNN网络是为分类而设计的（pooling 实际上是反应了位置的不变性，我一张人脸图片只要存在鼻子，两只眼睛，分类网络就认为它是人脸，这也就是Geoffrey Hinton 在Capsule中吐槽卷积的缺陷），而目标检测则要求对目标的平移做出准确响应。Faster RCNN是通过ROI pooling让其网络学习位置可变得能力的，再次之前的base CNN还是分类的结构，之前讲过R-FCN将Faster RCNN ROI提取出来的部分的卷积计算共享了，那共享的分类和回归功能的卷积一定在划分ROI之前，那么问题来了，如何设计让卷积对位置敏感？主要贡献：将用来回归位置和类别的卷积前置共享计算，提高了速度。巧妙设计score map（feature map）的意义（感觉设计思想和yolo v1最后的全连接层一样），让其何以获得位置信息，之后在经过ROI pooling和vote得到结果为啥能work？实际上rfcn的feature map设计表达目标检测问题的方式更加抽象（ROI pool前的feature map中每一个cell的channel代表定义都很明确），loss在监督该层时更能通过论文中关于ROI pool和vote设计，在不同的channel上获得高的响应，这种设计方式可能更好优化（这个是需要大量的实验得出的结论），至于前面的resnet-base 自然是抽象监督，我们本身是无法理解的，只是作为fintuning。实际上fpn的loss监督也是非常浅和明确的，感觉这种可以理解的优化模块设计比较能work。Focal Loss: Focal Loss for Dense Object Detection这篇文章实际上提供了另外一个角度，之前一直认为Single stage detector结果不够好的原因是使用的feature不够准确（使用一个位置上的feature），所以需要Roi Pooling这样的feature aggregation办法得到更准确的表示。但是这篇文章基本否认了这个观点，提出Single stage detector不好的原因完全在于：极度不平衡的正负样本比例: anchor近似于sliding window的方式会使正负样本接近1000：1，而且绝大部分负样本都是easy example，这就导致下面一个问题：gradient被easy example dominant的问题：往往这些easy example虽然loss很低，但由于数量众多，对于loss依旧有很大贡献，从而导致收敛到不够好的一个结果。所以作者的解决方案也很直接：直接按照loss decay掉那些easy example的权重，这样使训练更加bias到更有意义的样本中去。很直接地，如下图所示:实验中作者比较了已有的各种样本选择方式：按照class比例加权重：最常用处理类别不平衡问题的方式OHEM：只保留loss最高的那些样本，完全忽略掉简单样本OHEM+按class比例sample：在前者基础上，再保证正负样本的比例（1：3）Focal loss各种吊打这三种方式，coco上AP的提升都在3个点左右，非常显著。值得注意的是，3的结果比2要更差，其实这也表明，其实正负样本不平衡不是最核心的因素，而是由这个因素导出的easy example dominant的问题。RetinaNet 结构如下实际上就是SSD+FPN的改进版

论文里的目标值就是你要围绕什么目标写论文啊，要达到什么水平

显著性检测论文阅读整理

Silly significance tests: Tautological tests 上一篇博文已经论证：使用显著性检验去核查随机分配是否有效是毫无意义的。在本篇博文，我们在讨论另一种愚蠢的显著性检验：dividing participants into a ‘high X’ and a ‘low X’ group and then testing whether the groups differ with respect to ‘X’。我们经常会在研究论文中看到下面的表述：这是一个虚构的例子，但在应用语言学中上述程序比较常见：研究人员对被试进行分组，使得在某个变量上各组之间没有重叠（如任务表现、年龄），然后继续通过证明组间在该变量上存在显著差异来表明这种分组是合理的。这种做法并不一定是针对被试，有时研究者对刺激的选择（如：高频词vs 低频词）也遵循类似的逻辑。由于目前找不到更好的术语，姑且先称这种实践为重复显著性检验。正如其名，tautological tests之所以是愚蠢的，是因为他们不能告诉我们任何既正确又新鲜的信息。因为是我们自己创建了在某个变量上未重叠的被试或刺激分组，因而我们显然知道各组之间必定在该变量上存在差异。如果显著性检验未见有显著的p值，那么这更多告诉我们的是sample size的信息，而不是关于该变量上的组间差异的信息。这种non-informativeness tautological tests与之前讨论的 balance tests 有一些相似之处。在balance tests例子中，我们对一个不存在的差异进行检验（我们知道它并不存在）；当使用tautological tests时，我们对一个已知的差异进行检验。个人认为， tautological tests并不会对研究结果造成负面影响，但它使用无用的信息将研究报告弄得乱七八糟，并常常让人望而生畏。更严重的问题发生在 tautological significance tests之前：将一个连续变量离散化。将一个连续变量划分成不同组，会丢失一些有价值的信息。因此，与你在分析中使用原始变量相比，这会导致统计功效的降低。此外，分割点的选择是任意的，选择不同的分割点也会造成结果上的差异。研究者似乎普遍认为，为了明智地分析数据，他们需要进行分组。其潜在观点可能是分组比较（. ANOVAs）比涉及连续变量的分析（. linear regression）更正式和客观。或者研究人员可能认为，在处理更加复杂数据时，如具有交叉依赖结构的数据（. featuring both stimulus- and participant-related variables）或者数据呈现非线性，必需使用ANOVAs。想要消除这些错误观点的研究人员可以阅读 Harald Baayen 的一篇文章以及 2008 special issue of the Journal of Memory and Language 上的一些文章 (. the Baayen et al. and Jaeger papers)。如果你的数据显示非线性，而你希望通过将一个连续变量离散化进行解决时，我建议你首先看看 Michael Clark对 generalised additive models 的介绍，它可以解决非线性问题，或者你也可以尝试转换变量是否有可能使它们之间的关系近似线性。解决 tautological tests的方法也是非常简单。首先，我们应该扪心自问，真的有必要对连续变量进行分类吗？通常一个基于回归的分析是可行的。第二，如果出于某些原因不能执行回归分析，只需记住不要进行这种tautological tests。一个相关的，我们正在使用的显著性检验是，当研究者试图确保刺激或被试在不同条件下是可比的时候。例如，当调查词频对单词记忆的影响时，研究者常常希望确保高频词和低频词在除了词频外的其他属性上保持相似（如，单词长度）。尽管我不会将这种显著性检验称为愚蠢的，但它也不是最理想的做法。 Imai et al. 讨论了使用显著性检验去评估一个匹配程序是否成功，并反对这种做法。关于这个问题在后期会进一步讨论。而当前的关键信息非常简单：显著性检验不适合这种目的。

统计学是一门抽象难懂的学科，非统计学专业毕业人员一般很难做到精通。下文是我为大家整理的关于统计类论文投稿的范文，欢迎大家阅读参考!

医学统计学方法应用的错误解析

一、引言

医学由于其研究的复杂性和系统性，常需要应用严谨的统计学方法，由于有些作者对医学科研的统计学理论和方法的应用缺乏深刻了解，在医学论文中错误应用统计学方法的现象时有发生。统计学方法应用的错误直接导致统计结果的错误。例如统计学图表、统计学指标、统计学的显著性检验等。因此，正确应用统计学方法，并将所获得的结果进行正确的描述有助于单篇论著的质量提高，现将医学论文中统计学方法应用及其常见结果的错误解析如下。

二、医学论文统计学方法应用概况

医学论文的摘要是全文的高度浓缩[1]，主要由目的、方法、结果、结论组成。一般要求要写明主要的统计学方法、统计学研究结果和P值。一篇医学论文的质量往往通过摘要的统计学结果部分就能判断。统计学方法的选择和结果的表达直接影响单篇论著的科研水平。

(一)材料与方法部分

正文中，材料与方法部分必须对统计学方法的选择、应用、统计学显著性的设定进行明确说明。通过对统计学方法的描述，读者应该清楚论著的统计学设计思路。材料部分要清楚说明样本或病例的来源、入组和排除标准、样本量大小、研究组和对照组的设定条件、回顾性或者前瞻性研究、调查或者实验性研究、其他与研究有关的一般资料情况，其目的是表明统计学方法应用的合理性和可靠性，他人作相关研究时具备可重复性。方法部分应详细叙述研究组和对照组的不同处理过程、观察的具体指标、采用的测量技术，要具备可比较性和科学性，

方法部分还要专门介绍统计分析方法及其采用的统计软件。不同的数据处理要采用不同的方法，必须清楚的说明计数或者计量资料、两组或者多组比较、不同处理因素的关联性研究。常用的有两组间计量资料的t检验，多组间计量资料的F检验，计数资料的卡方检验，不同因素之间的相关分析和回归分析。有些遗传学研究方法还有专门的统计学方法，要在这里简要说明并给出参考文献，还要简单叙述统计方法的原理。统计学软件要清楚的说明软件的名称和版本号，如基于家系资料研究的版本。

(二)论文结果部分

论文结果部分要显示应用统计学方法得到的统计量[2]，所采用的统计学指标较多时，往往分开叙述。分组比较多时还要借助统计图表来准确表达统计结果。对于数据的精确度，除了与测量仪器的精密程度有关外，还与样本本身的均数有关，所得值的单位一般采用紧邻均数除以三为原则。均数和标准差的有效位数要和原始数据一致。标准差或标准误差有时需要增加一个位数，百分比一般保留一个小数。在统计软件中，分析结果往往精确度比较高，一般要采用四舍五入的方法使其靠近实验的实际情况，否则还会降低论文的可信度和可读性。

结果部分的统计表采用统一的“三线”表，表题中要注明均数、标准差等数据类型。表格中的数值要按照行和列进行顺序放置，要求整齐美观，不能出现错行现象。要明确标注观察的例数，得到的检验统计量。统计图可以直观的表达研究结果，如回归和相关分析的散点图可以显示个体值的散布情况。曲线图表达个体均值在不同组别随时间变化的情况或者不同条件下重复测量的结果。误差条图由均数加减标准误绘出，描述的是67%的置信区间，不是95%，提倡在误差条图采用95%的置信区间。

关于统计量，一般采用均数与标准差两个指标，均数不宜单独使用。使用均数的时候要明确变异指标标准差或者精确性指标标准误。关于百分比，分母的确定必须要符合逻辑，过小的样本会导致分母过小而出现百分比过大的情况。百分率的比较要写清两者中不同的变化，可以采用卡方检验。

1.假设检验的结果中，常见只写P值的情况，有时候会误导读者，也会隐藏计算失误的情况，因此写出具体的统计值，如F值、t值，可以增强可信度。对于率、相关系数、均数这类描述统计量，要清楚写明进行过统计学检验并将结果列出。P值一般取与作为检验显著性，对于结果的计算要求具体的P值，如P=或P=。

2.在对论文进行讨论时，作为统计学方法产生的结果往往要作为作者的主要观点支持其科学假设，对统计结果的正确解释至关重要。P值很大表明两组间没有差别属于大概率事件，P值很小表明两组间没有差别的概率很小。当P<，表明差异具有统计学意义。P值与观察的样本量的大小有关联，当样本量小的时候，数据之间的差别即使很大，P值也可能很大;当样本量大时，数据之间的差别即使很小，P值也可能显示有显著性差异。相关系数统计学意义的显著性也与相关系数的大小没有绝对的关联，有统计学意义的样本相关系数可能很小。因此，有统计学差异的描述并不一定意味着两组间差别很大，错判的危险性很大，显著性的检验为定性的结果，结合统计量大小方可判断是否具有专业意义。

变量间虚假的相关关系与变量随时间变化而变化相关，统计学意义的关联并不表示变量间一定存在因果关系。因果关系的确定要根据专业知识和采用的研究方法的不同来考量。使用回归方程进行分析，当两变量间具有显著性关系，但是从自变量推测因变量仍然不会很精确。相关或回归系数不能预测推测结果的精确程度，而只是预测一个可信区间。诊断性检验应用于人群发病率很低的疾病，灵敏度、特异度的高低对于明确疾病诊断并不能很肯定。“假阳性率”与“假阴性率”根据实际的需要不同要求并不一致，在疾病患病率很低时，出现假阳性也是正常的，要确诊疾病必须要与临床症状体征相结合。因此，这两个率的计算方法必须交待清楚。

三、医学论文统计学方法应用的常见错误分析

(一)“材料与方法”中的统计学方法应用的常见错误

“材料与方法”中统计学方法常见的问题主要为：对样本的选择或者研究对象的来源和分组描述很少或者过于简单。例如，临床入组病例分组只采用简单的随机分组，未描述随机分组的方法，未描述是否双盲双模拟，未设置空白对照组，分组后对性别、年龄、文化程度的描述未进行统计学检验，对于特殊的统计学方法没有详细交代;动物实验分组的随机化原则描述过于简单，没有具体说清完全随机、配对或分层随机分组等;统计分析方法没有任何说明采用的分析软件，有的只说明采用的分析软件而不交代在软件中采用的统计方法;没有说明原因的情况下出现样本量过于小等情况。

(二)“结果”统计学方法应用的常见错误

1.应用正确的统计学方法出现的结果表达并不一定正确。例如前文所述数据的精确度要求。医学论文常见错误中包括均数、标准差、标准误等统计学指标与原始数据应保留的小数位数不同;对于率、例数、比值、比值比、相对危险度等统计学指标保留的小数点位数过多;罕见疾病的发病率、患病率、现患率等指标没有选择好基数，导致结果没有整数位;相关系数、回归系数等指标保留的小数位数过多或者过少;常用的一些检验统计量，如F值、t值保留的位数不符合要求。

2.对统计学指标进行分析和计算时，一般采用计数资料和计量资料进行区分。计量资料常用三线表，在近似服从正态分布的前提下采用均数、标准差进行说明，如果不符合正态分布时，可以采用加对数或其他的处理方式使其近似正态分布，否则只能采用中位数和四分位数间距等指标进行描述。医学论文中常见未对数据进行正态分布检验的计算，影响统计结果的真实性和可信度。对于率、构成比等常用的计数资料指标，常见样本量过小的问题，采用率进行描述会影响统计结果的可靠性，采用绝对数进行说明会显得客观一些。还有一些文献将构成比误用为率，也是不可取的。

3.在判断临床疗效之一指标时，两组平均疗效有差别并不意味着两组的每一个个体都有效或无效，必须通过计算有效率进行计算。如比较某药物治疗糖尿病的疗效，服药一周后，研究组和对照组的对血糖降低值分别为 ± 和 ± ( P = 1) 。按空腹血糖值低于的疗效判定有效率，研究组和对照组的有效率分别为和，尽管平均疗效相差较多，但也要注意到该药物对部分患者无效()。对假设检验结果的统计学分析结果，P 值的表达提倡报告精确P值，如P = 或P = 等。目前的统计学分析软件均可自动计算精确的P 值。例如常用的SAS，SPSS等，只要提供原始数据，就可以计算出t值、F值和相应的自由度，并可获得精确的P值。

四、小结

提高医学论文中统计学方法的使用质量是编辑部值得重视的一项长期而又艰巨的工作[3]，医学论文中统计方法应用和统计结果的表达正确与否，不仅体现了论文的科学性和严谨性，而且对于提高期刊整体的学术质量，促进医学科学的发展和传播也有着重要作用[4]。

参考文献：

[1] 李敬文,吕相征,薛爱华.医学期刊评论性文章摘要的添加对期刊被引频次的影响[J].编辑学报,2011(23).

[2] 陈长生.生物医学论文中统计结果的表达及解释[J].细胞与分子免疫学杂志,2008(24).

[3] 潘明志.新时期复合型医学科技期刊编辑应具备的素质和能力[J].中国科技期刊研究,2011 (22).

统计学专业毕业现状分析与对策研究

本科毕业论文是高等学校人才培养计划的重要组成部分，是本科教学过程中最后一个重要的教学实践环节，是学士学位授予的一个重要依据。[1，2]然而，相较于其他教学环节，毕业论文没有受到足够的重视，从而导致该环节存在着一些问题。[3]本文将以中央民族大学统计学专业毕业论文为例，在分析其现状的基础上，找到问题并提出相应的建议。

中央民族大学统计学本科专业设置于2003年，目前已有六届毕业生。经过学院和学校层面的努力，统计学专业作为新办专业取得了较快发展，所培养的学生具有较好的专业能力和综合素质，近四成学生继续读研深造，就业的学生大都在专业对口的工作岗位上，就业率一直在85%左右。

本科毕业论文环节在培养方案中是6个学分。学生在第七学期开始选择指导教师以确定毕业论文题目。经过前6个学期的系统理论学习，统计学专业学生已基本掌握了统计学的基础理论和基本方法，具备了正确的统计思想和较强的统计软件应用能力，以及运用所学的理论和方法解决实际问题、文献检索和资料查询等综合能力。本科毕业论文的写作就是统计学专业学生将上述基础和能力进一步深化与升华的重要过程，从而培养学生的创新能力和实践能力，使学生的知识、技能和素质得到进一步的充实和提高，同时也是衡量学校教学质量和办学水平的重要指标。因此对如何提高毕业论文质量进行研究是必要和有意义的。[4]

一、统计学专业毕业论文质量的现状分析

从论文完成情况来看，每届的毕业论文基本都能达到论文教学环节的要求，通过对中央民族大学统计学专业2007～2011年四届毕业生的毕业论文进行分析，发现毕业论文及格率为。

从毕业论文研究的类型来看，主要分为两大类：理论研究型论文和实证型论文，理论研究型论文表现为总结和论述现有统计理论问题，表述理论研究的成果，或应用理论对现实问题进行分析、说明，并提出自己的思考;实证型论文主要表现为针对某一特定的实际目的或目标，运用所学统计的理论和方法，对经济、管理、金融、医学、生物、工程、环境等领域进行统计调查、统计信息管理、数量分析等。

从论文知识点范围的分析来看，学生论文绝大多数是统计专业问题，极少数是其他数学分支的问题。从中央民族大学历届统计学专业学生的毕业论文情况分析，发现毕业论文中研究其他数学分支的问题占总数的，主要包括：一是其他科目的应用研究(数学分析、常微分方程、运筹学及空间解析几何等)，占总数的。二是数学专业教育和数学思维的研究，占总数的。研究统计学专业问题的毕业论文占绝大部分，比例为，选题内容广泛且多为社会热点问题，涉及经济、社会、医疗卫生、教育发展、旅游、基础设施建设等多领域，由于受学校人文环境影响，很大比例的学生对少数民族地区的经济、社会、民生等问题进行了统计分析，约占总学生人数的。所使用的分析方法主要集中于抽样调查、回归分析、多元统计方法、聚类分析、判别分析等常用统计方法。

此外，统计分析显示学生成绩普遍偏高，统计学专业学生的毕业论文，尤其是实证类论文，存在着可以大量使用背景介绍和统计软件分析结果的特点，因此，一些论文没有创新性和学术含量，但具有较大的篇幅，与理学院其他专业的毕业论文成绩比较，其平均成绩相对较高，约分。

二、统计学专业毕业论文存在的问题

毕业论文的质量问题关系到本科人才的培养规格和目标，直接体现了学生本科阶段的学习成果，是衡量教学水平、学生毕业与学位资格认证的重要依据。通过对论文和考评结果的具体分析，发现学生的毕业论文在创新性、理论深度及论文写作常识多方面存在问题。具体表现为：

1.创新性不够

学生的毕业论文表现为理论性研究非常少，大都是实证型论文，并且多是简单的统计方法应用，缺少创新性研究和思考。从中央民族大学历届统计学专业学生的毕业论文来看，理论研究型论文只占，与实证型论文的比例为1︰，比例悬殊，体现了学生在毕业论文大的选题过程中，避重就轻，缺乏创新的特点。如每年都有一定数量的学生选择“我国人均GDP的预测”这类针对某经济指标进行预测的题目，论文的主要内容就是利用ARMA、灰色预测或者趋势外推方法等一种或多种方法对时间序列数据做简单建模和分析，论文没有对指标本身的意义以及国内国际的社会经济形势进行综合分析。这种方法简单套用性质的论文占有很大的比重。

2.选题过大、内容空泛，缺乏深入研究，存在抄袭、拼凑现象

有些学生在选择研究课题时，往往不能根据自身的专业知识结构特点和社会实践情况进行准确定位，只是一味的盲目的选择一些过大过空的社会热点问题，因此难以看到所要研究的问题的本质。如有的学生针对CPI做研究，没有深入了解问题的实质，只是收集了一些文献，很难提出自己的观点或研究角度，造成了材料堆积且过于散乱，论文变成了一些材料的简单拼凑。有些论文针对某一社会经济问题进行研究，论文的主题只是针对现有数据利用简单的统计方法进行分析，对数据的质量和可靠性以及方法的适用性不做针对性讨论，对所得的结论也不结合社会经济现实情况进行分析，导致论文质量不高。

3.相对前沿的分析方法利用较少

前沿的分析方法利用较少，通过毕业论文的写作，统计分析能力没有实质性提升。学生论文使用的统计方法主要集中于回归分析、聚类分析、判别分析、相关性分析等，其中回归分析方法占有非常大的比例，约，其他各统计方法使用的比例分别为：聚类分析为，判别分析为，相关性分析为，多元统计方法为，时间序列分析为，极少有学生使用教科书外的相对前沿的分析方法。

4.论文写作上存在结构不合理、没有相关研究介绍、创新点表述不清、参考文献不会正确标注等问题

从学生的毕业论文来看，论文写作不规范，专业性差。主要存在论文形式不规范、结构不合理、题目含糊、有些论文杂乱无章、口语化严重、可读性差等问题。

三、存在问题的原因分析

针对上述问题，统计学系通过对论文进行详细审查以及组织指导教师和学生座谈，发现毕业论文出现以上问题的主要原因包括以下几方面：

1.学生对论文不够重视

部分学生由于忙于考研学习而无暇顾及毕业论文的研究，还有部分学生由于忙于外出找工作、实习而无心认真撰写论文。论文撰写所需的必要时间难以得到保障，因此学生应付了事，从而无法保证论文的深度。此外，还有部分学生认为毕业论文只是一个教学环节，与考研的好坏无关，存在只要写了论文，教师都会让自己通过的侥幸心理，在思想上没有引起足够的重视。

2.缺乏指导教师的针对性指导

指导教师所带毕业生人数过多，使得导师的工作量呈现超负荷状态，无法保证每个学生毕业论文的质量，从而致使部分学生的论文规范性较差，没有对存在的问题反复修改，使得学生论文存在诸多问题。

3.学生的专业训练还不够

大部分本科生没有经历过论文的写作训练，写作水平较低，不了解学术论文的规范性及其格式，不知如何从科研的角度构思文章、组织材料、安排结构，使得相当一部分学生的毕业论文表达的观点不够准确清楚，论据亦不能很好地支持论点。另外，一些同学为了完成任务，直接将在网络中搜索到的资料不假思索的拼凑在一起，使得内容不成体系，观点混乱。

四、提高毕业论文质量的建议和实践

1.加强毕业论文重要性的宣传，提高学生的重视度

加强对毕业论文重要性的认识有助于提高本科生毕业论文的质量。通过讲座、课堂传授等形式，让学生意识到毕业论文的实践性和综合性是任何教学环节都不能替代的，是提高发现问题、分析问题、解决问题能力的有效途径，更是进行个人综合素质提高的必不可少的重要环节，[4]从而使学生在思想上认识到毕业论文的重要性，投入更多精力进行毕业论文设计。

2.选题和教师的科研项目相结合，提高论文的创新性

在选择课题时，为了能充分发挥学生的主观能动性，可以让学生根据自身的特点，与指导教师协商，结合导师的研究方向制定课题方案。统计学专业的教师一般除了申请国家自然科学基金和国家社会科学基金这类对理论性和创新性要求较高的项目以外，很多教师还主持或参加有相应的应用研究类项目。应用类项目大都需要实地调研(以及问卷涉及和数据分析)或者大量的数据分析和建模。引导学生参加这类项目来设计和完成自己的本科毕业论文，能够激发学生的科研热情和创新潜力。此外，鼓励和引导一些成绩较好，如让具备保研资格的学生参加教师的科研讨论班或者课题组，选择一些具有一定难度的理论问题进行研究，可以使学生了解本学科的发展方向和最新动态。最近两年，越来越多的学生，特别是具备了保研资格的学生，在大四上学期就能投入到项目和毕业论文的写作中。

3.重视平时实践教学环节，培养学生的实践能力、发现问题以及解决问题的能力

为了提高学生的学习兴趣以及对问题的分析、解决能力，广泛开展了丰富多彩的社会实践活动，使学生尽可能早地接触与本专业有关的实际工作，切身体会到如何将理论与实际相结合，了解本学科的实际业务，从而提高自主学习能力，加强专业知识的把握。结合学校的实际情况，积极鼓励学生在大二和大三阶段参加校级和国家级的全国大学生数学建模竞赛，申请“中央民族大学本科生研究训练计划项目”、“北京市大学生科学研究计划项目”和“国家大学生创新性试验计划项目”。项目的申请和实施以及研究报告的写作，对学生来说都是一个很好的锻炼。目前，统计学专业本科生的参与率在70%以上。此外，建立专业实习基地可以提高学生利用专业知识分析和解决实际问题的能力。这些环节的设计和实施都有力地保障了学生本科毕业论文的水平和质量。

4.加强学生科技论文写作训练

加强平时课堂上大作业的规范化，潜移默化培养学生科技论文的写作能力。通过平时的实践活动，如学生数学建模以及大学生创新实践等各类实践性项目来提高学生的论文写作能力。

5.实施激励措施，激发学生的兴趣和主动性

针对那些参与实际课题的学生，学院鼓励指导教师根据学生的完成情况以劳务费的形式给予其奖励，另外积极鼓励毕业论文质量优秀的学生进行投稿发表。此外，还需对答辩程序和评分标准进行规范化，建立优秀毕业论文指导教师和优秀毕业论文奖励制度，以形成积极的导向作用，充分调动指导教师和学生的积极性。

6.加强教师责任心，建立完善的机制

加强学生毕业论文的过程管理，从开题到中期检查严格执行，指导教师严格把关。为了保证学生与教师之间的沟通，学校可以通过建立师生信息反馈机制改善师生分离状态，为师生提供便利的沟通渠道，同时设置适当的教师激励制度，中央民族大学目前对教师指导本科毕业论文有额外的课时补贴。

弱监督学习的显著目标检测论文

地址：主要思路：这篇论文虽然是17年投的，19年TPAMI发表，但是论文的解决角度还是值得学习和借鉴的。从题目可以看出，这篇paper主要利用混合的监督信息，即强监督信息（包含目标边界框注释信息）和弱监督信息（只有图像标签信息）。作者把从源（强监督）域中学习到的目标知识迁移到目标（弱监督）域中。

强监督目标检测虽然在一些数据集上取得了显著的效果，比如PASCAL VOC和COCO，可是，现实世界中的目标类别成千上万，用强监督的方法就需要获取这些类别的边界框注释信息，这样的工作量太大且耗费人力。这样弱监督目标检测就应运而生，训练这样的目标检测器，我们只需要图像的标签信息（只告诉图像中存在的目标类别信息），并且这种数据很容易通过网络获取。

由于弱监督只有图像标签可以利用，所以弱监督目标检测常常被当作多事例学习（multiple instance learning（MIL））问题。但是这样就存在一个很大的问题，我们只有图像标签可是我们干的是目标检测的事，所以检测器无法得到目标区域的清晰定义，进而导致了这种方法训练出来的检测器可能包含如下图中所示的目标背景，或者只包含目标的一部分。

利用混合监督学习来解决弱监督中存在的问题。那森么是混合监督呢？就是你有一部分类别的数据是强监督的（称为源域），另外一部分类别数据是弱监督的（称为目标域）。并且这两份数据之间的类别没有交叠。而存在一种情况：一张图片中包含多个类别目标，这些目标分别属于这两个数据集，那么这张图片同时被两个数据集所有，可是对应的类别的目标的标注信息不同。

从图中可以发现论文方法主要分为两个部分： 1 :两个数据集一起训练，学习域不变（domain-invariant）的目标知识，即可以学习到恰好框住完整目标的能力； 2 :利用学习到的域不变目标知识辅助弱监督学习，从而使学习到的检测器能定位到完整目标。

论文中提到第一部分学习到的域不变目标知识拥有两个重要的特性： (1) 类别独立，能够很好的推广到未知的类别； (2) 目标敏感，能过可靠的剔除干扰边界框（包含背景或者只包含目标的一部分）。

通过方法结果图，我们可以看到这个训练模型包含两个分支：(1)目标预测 (2)域分类。从分支名字上，你们应该已经猜到作用了。(1)分支用于辨别目标框，(2)分支用于辨别图像属于哪个域。网络主要是靠损失函数指导学习，前面特征提取层我们就不多描述了，可能不了解的会问，这些框框是如何来的呢？其实结构图中的ROI模块其实就是Fast-RCNN中的Roi-Pooling，这些框是预先用选择搜索（select-search，SS）算法提前准备好的（我们称为proposals，可以翻译为候选框）。接下来我们主要分析这两个分支。

输入是中的proposals经过特征提取网络得到的特征向量，输出是维度为2的向量，用于判断是不是目标。首先给出损失函数：公式中符号解析：表示边界框的标签，通过与ground-truth（就是目标的真实边界框，人为的标注信息）计算intersection-over-union (IoU)得到，即两个框的相交面积/并集面积。如果IoU大于, ，即正样本。如果在[)之间，，即负样本。在一张图片中有很多冗余的框，肯定正样本框远远大于负样本框，为了平衡正负样本比例，限定选取正负样本比例为1：3总数64的边界框计算损失。（sigmoid函数）, 表示这个分支，表示第个边界框的特征向量，其实这个公式可以理解为：就是第个边界框的一个打分，则公式可以等效于。

论文中的domain-invariance就是通过这个分支实现的。不同于目标预测分支，这个分支的不仅考虑了中的边界框，也考虑了的边界框，输出也是一个维度为2的向量，就是图像属于或的打分。给出损失函数：损失函数与上一个分支功能一样，表示来自于的proposals是正样本; 表示来自于的proposals是负样本。

下面要说才是我认为最有意思的地方，可以看到方法结构图中这个分支有一个梯度取反。一般我们优化网络都会让损失收敛到0，即最小值优化，而作者在梯度方向传播到特征f前取反，这是为了最大值优化。最小值优化是为了让网络可以区分数据是来自哪一个域，作者取反操作就是为了让网络无法区分，从而实现domain-invariance。其实我感觉直接损失函数的负号去掉是一样的（欢迎指正）。

然后从和中都随机选取64个proposals计算损失。

下面我们讲方法的第二部分：利用学习到辨别目标的知识来训练一个弱监督检测器。这部分可以分为两个部分讲解：(1)如何利用目标知识(2)如何用的数据训练检测器

作者是采用中的目标预测分支，对中每一张图片的proposals进行打分，得到他们属于目标的分数，然后排序，取前15%当作目标框（一起当作一个"object bag"），剩余的75%作为干扰框（一起当作一个"distractor bag"）。注意这里只是区分是不是目标，并没有给出目标是哪一类。所以"object bag"中会有很多类型的目标。

作者使用的是Fast-RCNN的结构训练检测器（只包含分类分支），输出维度是K+1，K是类别数目。

为了更好的理解这里的训练过程，我们先举个栗子：输入图片1张，包含2000个SS生成的proposals，输入网络后得到1x2000x(K+1)矩阵。

如果我们要计算损失，是不是应该知道2000个框的类别标签，可是数据是没有边界框注释信息的，我们无法得到这2000个框的标签，我们肿么办？

肯定有人想到用上面得到的"object bag"和"distractor bag"制作标签呀，的确，作者就是这么干的。

首先这个2000个框已经被我们分成了目标和干扰两个包。首先给"distractor bag"一个标签，然后我们根据这个图像包含的目标类别对"object bag"给出对应的类别标签。

可是网络输出是每个框属于每一类的打分，你这给的都是包的标签，不对应呀？然后你肯定会想使用包中框的最高分作为包的打分不就行了。但是这样做就只是考虑了最大分框，作者给出了一个更好的计算方法：这样可以考虑包中所有的框。是包，是包中每个框的打分。

然后使用交叉商损失指导网络训练：

我个人感觉这篇论文最大的创新点就是把和的数据一起训练的方式。一般我们都会想的是用训练一个检测器，然后通过一种方式，用来得到中的pseudo-gt，然后训练检测器。可是这篇论文就不一样，感觉很有意思。想继续深入了解的小伙伴，可以阅读原文。

其实看官看到这里就可以结束。可是，本着从一而终的原则，我决定把实验也分析一遍。

其实这篇论文实验之前才5页，后面实验作者足足写了7页。。。看来实验才是重点，前面全是小菜。

实验主要可以分为三个部分：(1)数据集内部检测(2)数据集间检测(3)消融实验

实验的评价的标准主要：mAP和CorLoc。这里说一下，mAP肯定一般都知道，CorLoc一般都是弱监督的时候才会用。它是评价模型在训练集上的定位精度。就是检测到每一类中检测到的图片占的比例，怎么叫检测到呢？就是对于一样图片中的某一类，取检测的打分最高边界框，如果与ground-truth（标注的边界框）的IoU>就是检测正确。

实验开始之前，作者给出了三个基本的检测方法。由于论文的方法是由目标知识学习和弱监督检测训练两个子模块组成了混合监督整体方法，所以作者提出了分别对应两个子模块和整体方法的基本方法。

B-WSD ：基本的若监督检测方法------->对应的子模块 B-MSD ：基础的混合监督检测方法------->对应整体的方法 OOM-MSD ：用于混合监督检测的原始的目标学习模型------->对应的子模块

下面简要说一说后两个方法： B-MSD ：作者是先用Fast-RCNN基于训练一个强监督的检测器，然后用训练得到的模型参数初始化弱监督的检测器，然后用MIL的方式基于训练检测器。 OOM-MSD ：这部分作者就是把模型的子模块的域分类的分支去掉了，就是直接基于训练网络学习区分目标和干扰的知识。

就是把一个数据集按类别分为，。

作者使用PASCAL VOC 2007 和 ILSVRC2013来评价他的方法。

这里就只是以PASCAL VOC 2007为例吧，作者把trainval的数据按类别分为两部分，一共20类，前10类为，后10类为（根据字母排序选择的）。

当然啦，这些模型怎么训练的呢，这我要说的估计得照论文翻译了，还是感兴趣的孩童去看论文吧，哈哈哈。

还是贴图看一下模型的性能吧

这应该不用描述解释了吧。认真看图吧。（我是不会告诉你，我是认真读了一边作者分析再贴的图， :）滑稽脸）

这里作者把PASCAL VOC 2007 的trainval作为，ILSVRC2013作为。由于ILSVRC2013有200类包含PASCAL VOC 2007的20类，所以是180类，剔除了中的类别。

直接贴图，直接贴图

不得不佩服，作者做实验验证的能力。学习一波。

采用数据集间检测方式，都使用AlexNet

其实作者验证这个就是是否用那75%的proposals，作者把它丢掉，WSD的网络类别就是K了，训练了一个MSD-no-distractor的模型。

就是选取其他的值来训练，看哪个高。

作者选取了ILSVRC2013中人们创造的类别作为，PASCAL VOC 2007中自然界中的类别作为，进行训练。

所实话，作者真的很会来事，但是不得不佩服。

如果你更着我读到了这里，我不得不给你点个赞，其实笔者都快被你感动了，坚持一下马上就结束了。

其实我又看了下后面，好像还不能很快结束。。。你还得在坚持很久。 -_-# ，我继续码。

这里作者和其他的目标学习方法或者获得proposals的方法进行了比较。

目标学习模型其实就是给proposals打分，然后分包，只要有类是功能的方法应该就可以比较。

作者使用召回率来比较的。

实际是如何操作的呢？可以看上图中的横轴是百分比，这是怎么来的呢？是由SS生存的proposals按打分排序（ss算法本身对proposals会有个打分），然后取前5%，与ground-truth计算一遍IoU，大于就算是目标框，这些框的个数/选取的proposals，这个值就是recall值。

然后用这些方法训练WSD。

作者发现一个很有意思的现象：EdgeBox，Original Obj，Domain-invarint obj 三个的Recall在15%的时候都差不多，为什么上图的性能差距这么多，为森么？

然后自问自答：)

然后作者定义：正样本：IoU>= 局部目标：0

作者：快看，蓝色柱子，不要盯着绿色的看，我这是局部目标的比例，看我的方法多稳定。知道你们不懂，我给你举个例子 :）

我们来看0%~10% x轴，假设每个图片是2000个proposals 那么前15%就是300个proposals（那么其中就包含0~30个局部目标）。让我们来看 y轴，蓝bar是，那么5011个训练图片中有大约500的图片的局部目标是在范围0%~10%。可以看图中，随着局部目标比例的增加，其他方法的对应的图片比例都在增加，而论文方法反而在减少，说明论文方法可以很好的剔除局部目标。

作者还进一步解释了为什么15%中包含局部目标的比例少，因为在训练图片中还包含了很多不属于数据集类别的完整目标，可是完整目标是被我们当作背景的，但是在使用学习到的目标辨别知识是与目标类别无关的，所以15%会包含很多背景中存在的完整目标，进一步相对减少了局部目标的比例。在这里我不得不佩服作者脑回路清奇，我感觉我发现了这篇论文的另一个宝藏。如果你读到了这里，我该恭喜你。

作者也给出了效果图，来分析几个效果较差的类别。

自行感受有多差吧。

终于结束了，我写的都累了，默默心疼在看的你。希望你有所收获。第一次写blog，希望不是最后一次，以后应该陆续推出论文解读。

如果发现有问题，欢迎指正 _ 。

论文原文：

YOLO（you only look once）是继RCNN、faster-RCNN之后，又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下，解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比：

如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测，那么yolo则是更进一步，将目标区域预测与目标类别判断整合到单个神经网络模型中。各检测算法结构见下图：

每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息，其值是这样计算的：

其中如果有object落在一个grid cell里，第一项取1，否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

每个bounding box要预测(x, y, w, h)和confidence共5个值，每个网格还要预测一个类别信息，记为C类。即SxS个网格，每个网格除了要预测B个bounding box外，还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。（注意：class信息是针对每个网格的，即一个网格只预测一组类别而不管里面有多少个bounding box，而confidence信息是针对每个bounding box的。）

举例说明: 在PASCAL VOC中，图像输入为448x448，取S=7，B=2，一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示：

在test的时候，每个网格预测的class信息和bounding box预测的confidence信息相乘，就得到每个bounding box的class-specific confidence score:

等式左边第一项就是每个网格预测的类别信息，第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率，也有该box准确度的信息。

得到每个box的class-specific confidence score以后，设置阈值，滤掉得分低的boxes，对保留的boxes进行NMS（非极大值抑制non-maximum suppresssion）处理，就得到最终的检测结果。

1、每个grid因为预测两个bounding box有30维（30=2*5+20），这30维中，8维是回归box的坐标，2维是box的confidence，还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间，w,h除以图像的width和height也归一化到0-1之间。

2、对不同大小的box预测中，相比于大box预测偏一点，小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题，作者用了一个比较取巧的办法，就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解，小box的横轴值较小，发生偏移时，反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。

3、一个网格预测多个box，希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大，就负责哪个。这种做法称作box predictor的specialization。

4、损失函数公式见下图：

在实现中，最主要的就是怎么设计损失函数，坐标（x,y,w,h），confidence，classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足：

解决方法：

只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候，才会对box的coordinate error进行惩罚，而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。

作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段，采用网络中的前20卷积层，外加average-pooling层和全连接层。模型训练了一周，获得了top-5 accuracy为（ImageNet2012 validation set），与GoogleNet模型准确率相当。

然后，将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层，提高了模型输入分辨率（224×224->448×448）。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation，其它层使用 leaky rectified linear。

作者采用sum-squared error为目标函数来优化，增加bounding box loss权重，减少置信度权重，实验中，设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮，batch size为64，动量为，学习速率延迟为。Learning schedule为：第一轮，学习速率从缓慢增加到（因为如果初始为高学习速率，会导致模型发散）；保持速率到75轮；然后在后30轮中，下降到；最后30轮，学习速率为。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为；data augmentation包括：random scaling，translation，adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点：

1、 YOLO检测物体非常快

因为没有复杂的检测流程，只需要将图像输入到神经网络就可以得到检测结果，YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且，YOLO的mAP是之前其他实时物体检测系统的两倍以上。

2、 YOLO可以很好的避免背景错误，产生false positives

不像其他物体检测系统使用了滑窗或region proposal，分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息，因此YOLO在检测物体时能很好的利用上下文信息，从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比，YOLO的背景错误不到Fast-R-CNN的一半。

3、 YOLO可以学到物体的泛化特征

当YOLO在自然图像上做训练，在艺术作品上做测试时，YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征，从而迁移到其他领域。

尽管YOLO有这些优点，它也有一些缺点：

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好（尤其是密集的小物体，因为一个栅格只能预测2个物体）。

图像显著检测算法研究论文

随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文，欢迎阅读!

图像识别技术研究综述

摘要：随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解，由于图像在成像时受到外部环境的影响，使得图像具有特殊性，复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。

关键词：图像处理;图像识别;成像

中图分类号：TP391 文献标识码：A 文章编号：1009-3044(2013)10-2446-02

图像是客观景物在人脑中形成的影像，是人类最重要的信息源，它是通过各种观测系统从客观世界中获得，具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展，图像处理技术的应用也越来越广泛，并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段，比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等，在这些应用中，都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理，着重强调图像与图像之间进行的交换，主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性，使得图像处理和识别技术成为研究热点。

1 图像处理技术

图像处理(image processing)利用计算机对图像进行分析，以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理，而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声，将原始图像编程适于计算机进行特征提取的形式，主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。

1)图像采集，图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像，也包括一些动态图像，并可以将其转为数字图像，和文字、图形、声音一起存储在计算机内，显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

2)图像增强，图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化，数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分，使图像的主体结构更加明确，必须对图像进行改善，即图像增强。通过图像增强，以减少图像中的图像的噪声，改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量，使图像中的物体的轮廓更加清晰，细节更加明显。图像增强不考虑图像降质的原因，增强后的图像更加赏欣悦目，为后期的图像分析和图像理解奠定基础。

3)图像复原，图像复原也称图像恢复，由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊，为了提取比较清晰的图像需要对图像进行恢复，图像恢复主要采用滤波方法，从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建，该技术是从物体横剖面的一组投影数据建立图像。

4)图像编码与压缩，数字图像的显著特点是数据量庞大，需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频，那么必须对图像进行编码和压缩。目前，图像压缩编码已形成国际标准，如比较著名的静态图像压缩标准JPEG，该标准主要针对图像的分辨率、彩色图像和灰度图像，适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列，因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。

5)图像分割技术，图像分割是把图像分成一些互不重叠而又具有各自特征的子区域，每一区域是像素的一个连续集，这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位，然后把目标从背景中分离出来。目前，图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰，使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。

2 图像识别技术

图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述，描述是用数字或者符号表示图像或景物中各个目标的相关特征，甚至目标之间的关系，最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时，可以采用模板匹配模型。在某些具体的应用中，图像识别除了要给出被识别对象是什么物体外，还需要给出物体所处的位置和姿态以引导计算初工作。目前，图像识别技术已广泛应用于多个领域，如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有：

指纹识别

指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段，主要应用于身份验证。指纹识别是生物特征的一个部分，它具有不变性：一个人的指纹是终身不变的;唯一性：几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前，指纹识别技术与我们的现实生活紧密相关，如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。

人脸识别目前大多数人脸识别系统使用可见光或红外图像进行人脸识别，可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下，其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响，但由于红外线不能穿透玻璃，如果待识别的对象戴有眼镜，那么在图像识别时，眼部信息全部丢失，将严重影响人脸识别的性能[4]。

文字识别

文字识别是将模式识别、文字处理、人工智能集与一体的新技术，可以自动地把文字和其他信息分离出来，通过智能识别后输入计算机，用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档，如银行票据、文稿、各类公式和符号等自动录入，可以提供文字的处理效率，有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样，使得文字识别技术的研究遇到一定的阻碍。

3 结束语

人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事，但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下，图像识别技术取得了一定的成功，但在复杂的环境下，仍面临着许多问题：如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准，以及算法本身存在一定的局限性，这使得图像识别的最终结果不十分精确等。

参考文献：

[1] 胡爱明，周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用，2003，39(7)：90—91.

[2] 胡学龙.数字图像处理[M].北京：电子工业出版社，2011.

[3] 范立南，韩晓微，张广渊.图像处理与模式识别[M].北京：科学出版社，2007.

[4] 晓慧，刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用，2009，1(29)：8.

[5] 陈良育，曾振柄，张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用，2005，25(7)：1629-1631.

[6] Sanderson C，Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33，Martigny，Swizerland，2002.

点击下页还有更多>>>图像识别技术论文

之前也是为论文苦恼了半天，网上的范文和能搜到的资料，大都不全面，一般能有个正文就不错了，而且抄袭的东西肯定不行的，关键是没有数据和分析部分，我好不容易搞出来一篇，结果还过不了审。还好后来找到文方网，直接让专业人士帮忙，效率很高，核心的部分帮我搞定了，也给了很多参考文献资料。哎，专业的事还是要找专业的人来做啊，建议有问题参考下文方网吧下面是之前文方网王老师发给我的题目，分享给大家：基于深度学习的无人机地面小目标算法研究基于视觉的智能汽车面向前方车辆的运动轨迹预测技术研究模拟射击训练弹着点检测定位技术研究基于深度卷积神经网络的空中目标识别算法的研究基于可见光图像的飞行器多目标识别及位置估计无人驾驶车辆手势指令识别研究与实现车载毫米波雷达目标检测技术研究基于多传感融合的四足机器人建图方法中老年人群跌倒风险评估的数据采集系统基于深度学习的视觉SLAM闭环检测方法研究真实图片比较视觉搜索任务的年龄效应及对策研究室内复杂场景下的视觉SLAM系统构建与研究基于双目内窥镜的软组织图像三维重建学习资源画面色彩表征影响学习注意的研究毫米波雷达与机器视觉双模探测关键技术的研究语义地图及其关键技术研究多重影响因素下的语音识别系统研究基于卷积神经网络的自主空中加油识别测量技术研究基于视觉语义的深度估计、实例分割与重建重复视觉危险刺激——本能恐惧反应的“二态型”调控机制研究低成本视觉下的三维物体识别与位姿估计面向非规则目标的3D视觉引导抓取方法及系统研究基于物体识别地理配准的跨视频行人检测定位技术研究基于结构光的非刚体目标快速三维重建关键技术研究基于机器视觉的动物交互行为与认知状态分析系统关于单目视觉实时定位与建图中的优化算法研究动态场景下无人机SLAM在智慧城市中的关键技术研究面向视觉SLAM的联合特征匹配和跟踪算法研究基于深度学习的显著物体检测基于平面波的三维超声成像方法与灵长类动物脑成像应用研究基于物体检测和地理匹配的室内融合定位技术研究基于多模态信息融合的人体动作识别方法研究基于视觉惯性里程计的SLAM系统研究基于语义信息的图像/点云配准与三维重建基于种子点选取的点云分割算法研究基于深度学习的场景文字检测与识别方法研究基于运动上下文信息学习的室内视频烟雾预警算法研究基于深度学习的垃圾分类系统设计与实现面向手机部件的目标区域检测算法的设计与实现电路板自动光照检测系统的设计与实现基于机器视觉的工件识别与定位系统的设计与实现基于深度学习的物件识别定位系统的设计与实现基于视觉四旋翼无人机编队系统设计及实现基于视觉惯导融合的四旋翼自主导航系统设计与实现面向城市智能汽车的认知地图车道层生成系统基于深度学习的智能化无人机视觉系统的设计与仿真基于知识库的视觉问答技术研究基于深度学习的火灾视频实时智能检测研究结构化道路车道线检测方法研究基于机器视觉的带式输送机动态煤量计量研究基于深度学习的小目标检测算法研究基于三维激光与视觉信息融合的地点检索算法研究动态环境下仿人机器人视觉定位与运动规划方法研究瓷砖铺贴机器人瓷砖空间定位系统研究城市街景影像中行人车辆检测实现基于无线信号的身份识别技术研究基于移动机器人的目标检测方法研究基于深度学习的机器人三维环境对象感知基于特征表示的扩展目标跟踪技术研究基于深度学习的目标检测方法研究基于深度学习的复杂背景下目标检测与跟踪动态扩展目标的高精度特征定位跟踪技术研究掩模缺陷检测仪的图像处理系统设计复杂场景下相关滤波跟踪算法研究基于多层级联网络的多光谱图像显著性检测研究基于深度结构特征表示学习的视觉跟踪研究基于深度网络的显著目标检测方法研究基于深度学习的电气设备检测方法研究复杂交通场景下的视频目标检测基于多图学习的多模态图像显著性检测算法研究基于面部视频的非接触式心率检测研究单幅图像协同显著性检测方法研究轻量级人脸关键点检测算法研究基于决策树和最佳特征选择的神经网络钓鱼网站检测研究基于深度学习的场景文本检测方法研究 RGB-D图像显著及协同显著区域检测算法研究多模态融合的RGB-D图像显著目标检测研究基于协同排序模型的RGBT显著性检测研究基于最小障碍距离的视觉跟踪研究基于协同图学习的RGB-T图像显著性检测研究基于图学习与标签传播优化模型的图像协同显著性目标检测姿态和遮挡鲁棒的人脸关键点检测算法研究基于多模态和多任务学习的显著目标检测方法研究基于深度学习的交通场景视觉显著性区域目标检测基于生物视觉机制的视频显著目标检测算法研究基于场景结构的视觉显著性计算方法研究精神分裂症患者初级视觉网络的磁共振研究基于fMRI与TMS技术研究腹侧视觉通路中结构优势效应的加工脑机接口游戏神经可塑性研究基于YOLOV3算法的FL-YOLO多目标检测系统基于深度与宽度神经网络显著性检测方法研究基于深度学习的零件识别系统设计与研究基于对抗神经网络的图像超分辨算法研究基于深度学习复杂场景下停车管理视觉算法的研究与实现镍电解状态视觉检测与分析方法研究跨界训练对提升舞者静态平衡能力的理论与方法研究施工现场人员类型识别方法的研究与实现基于深度学习的自然场景文字检测方法研究基于嵌入式的交通标志识别器的设计基于视觉感知特性与图像特征的图像质量评价