论文发表百科

论文目标识别可以做检测吗

发布时间:2024-07-06 17:34:34

论文目标识别可以做检测吗

原文: Scalable Object Detection using Deep Neural Networks——学术范 最近,深度卷积神经网络在许多图像识别基准上取得了最先进的性能,包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络,它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文,但如果不天真地复制每个实例的输出数量,就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型,它预测了一组与类无关的边界框,每个框有一个分数,对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例,并允许在网络的最高级别上进行跨类泛化。 目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器,并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中,以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加,这个挑战变得更加困难,因为大多数方法都训练每个类单独的检测器。为了解决这个问题,人们提出了多种方法,从检测器级联到使用分割提出少量的对象假设。 关于对象检测的文献非常多,在本节中,我们将重点讨论利用类不可知思想和解决可伸缩性的方法。 许多提出的检测方法都是基于基于部件的模型,最近由于有区别学习和精心设计的特征,已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板,这是非常昂贵的。此外,它们在类的数量上是可伸缩的,这对像ImageNet这样的现代数据集来说是一个挑战。 为了解决前一个问题,Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题,Song et al.使用了一个低维部件基,在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。 另一种不同的工作,与我们的工作更接近,是基于对象可以本地化的想法,而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机,Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分,并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型,分割作为第一层,分割分类作为后续层。尽管它们编码了已证明的感知原理,但我们将表明,有更深入的模型,充分学习可以导致更好的结果。 最后,我们利用了DeepLearning的最新进展,最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而,基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能,但由于单个掩模回归的成本,不能扩展到多个类。 我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说,我们使用了深度神经网络(DNN),它输出固定数量的包围盒。此外,它为每个盒子输出一个分数,表示这个盒子包含一个对象的网络信任度。 为了形式化上述思想,我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值,可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸,以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的,后面跟着一个sigmoid。 我们可以组合边界盒位置sli,i∈{1,…K}为一个线性层。同样,我们可以将所有置信区间ci,i∈{1,…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层 在推理时,我们的算法生成kbound盒。在我们的实验中,我们使用ek = 100和K= 200。如果需要,我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此,它们可以通过后续的分类器进行分类,实现目标检测。由于盒子的数量非常少,我们可以提供强大的分类器。在我们的实验中,我们使用另一个dnn进行分类。 我们训练一个DNN来预测每个训练图像的边界框及其置信度得分,以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子,对象被标记为boundingboxesgj,j∈{1,…,M}。在实践中,pre- dictionary的数量远远大于groundtruthboxm的数量。因此,我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置,以提高他们的匹配度,最大化他们的信心。与此同时,我们将剩余预测的置信度最小化,这被认为不能很好地定位真实对象。为了达到上述目的,我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1,如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为 其中,我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外,我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为  最终的损失目标结合了匹配损失和信心损失 受式1的约束。α平衡了不同损失条款的贡献。 对于每个训练例子,我们通过解决一个最佳的赋值x*的预测到真实的盒子 约束执行赋值解决方案。这是二部匹配的一种变体,是一种多项式复杂度匹配。在我们的应用程序中,匹配是非常便宜的——每幅图像中标记的对象的数量少于一打,而且在大多数情况下只有很少的对象被标记。然后,通过反向传播优化网络参数。例如,反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的,但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类,并找到这样的聚类/质心,我们可以使用这些聚类/质心作为每个预测位置的先验。因此,鼓励学习算法为每个预测位置学习一个残差到一个先验。 第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配,而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成,就会像之前一样计算目标的置信度。此外,位置预测损失也不变:对于任何一对匹配的(目标,预测)位置,其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配,并假设它促进了预测的多样化。  需要注意的是,尽管我们以一种与类无关的方式定义了我们的方法,但我们可以将它应用于预测特定类的对象盒。要做到这一点,我们只需要在类的边框上训练我们的模型。此外,我们可以预测每个类的kbox。不幸的是,这个模型的参数数量会随着类的数量线性增长。此外,在一个典型的设置中,给定类的对象数量相对较少,这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此,我们认为我们的两步过程——首先本地化,然后识别——是一个更好的选择,因为它允许使用少量参数利用同一图像中多个对象类型的数据 我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减,128的小批量,以及使用多个相同的网络副本进行并行分布式训练,从而实现更快的收敛。如前所述,我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外,使用非最大抑制对盒进行修剪,Jaccard相似度阈值为。然后,我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络,我们从训练集中生成了大约3000万幅图像,并对训练集中的每幅图像应用以下步骤。最后,样品被打乱。为了训练我们的本地化网络,我们通过对训练集中的每一幅图像应用以下步骤,从训练集中生成了大约3000万幅图像。对于每幅图像,我们生成相同数量的平方样本,使样本总数大约为1000万。对于每幅图像,样本被桶状填充,这样,对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例,都有相同数量的样本,其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中,我们没有探索任何非标准数据生成或正则化选项。在所有的实验中,所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成,其中包含了20种不同的对象类别的边界框。在我们的评估中,我们关注的是2007版VOC,为此发布了一个测试集。我们通过培训VOC 2012展示了结果,其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。 我们在一个由1000万作物组成的数据集上训练分类器,该数据集重叠的对象至少为 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。 在第一轮中,定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络,我们就可以得到上百个候选日期框。在对重叠阈值为的非最大抑制后,保留评分最高的前10个检测项,并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估,并用于计算精确查全曲线。 首先,我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量,正如Pascal检测标准所定义的那样,与生成的包围框的数量相对比。在图1中,我们展示了使用VOC2012进行训练所获得的结果。此外,我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的,当使用10个边界框的预算时,我们可以用第一个模型本地化的对象,用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能,例如对象度算法达到42%[1]。此外,这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象,但当使用更高分辨率的图像作物时,我们获得了额外的提升。进一步,我们用21-way分类器对生成的包围盒进行分类,如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是,与先进水平相当。注意,我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是,可视化检测是通过仅使用最大中心方形图像裁剪,即使用全图像获得的。然而,我们设法获得了相对较小的对象,例如第二行和第二列的船,以及第三行和第三列的羊。 在本工作中,我们提出了一种新的方法来定位图像中的对象,该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下,对1000个盒子进行非max-suppression,使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则,并学习在未见图像中预测这些位置。 我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果,在这两个基准上,所提出的方法具有竞争力。此外,该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明,deepmultibox的方法是可扩展的,甚至可以在两个数据集之间泛化,就能够预测感兴趣的定位,甚至对于它没有训练的类别。此外,它能够捕获同一类物体的多种情况,这是旨在更好地理解图像的算法的一个重要特征。 在未来,我们希望能够将定位和识别路径折叠到一个单一的网络中,这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下,双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估,每个评估的速度大约为1个CPU-sec(现代机器)。重要的是,这个数字并不与要识别的类的数量成线性关系,这使得所提出的方法与类似dpm的方法非常有竞争力。

深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理。  目标检测可以理解为是物体识别和物体定位的综合 ,不仅仅要识别出物体属于哪个分类,更重要的是得到物体在图片中的具体位置。 2014年R-CNN算法被提出,基本奠定了two-stage方式在目标检测领域的应用。它的算法结构如下图 算法步骤如下: R-CNN较传统的目标检测算法获得了50%的性能提升,在使用VGG-16模型作为物体识别模型情况下,在voc2007数据集上可以取得66%的准确率,已经算还不错的一个成绩了。其最大的问题是速度很慢,内存占用量很大,主要原因有两个 针对R-CNN的部分问题,2015年微软提出了Fast R-CNN算法,它主要优化了两个问题。 R-CNN和fast R-CNN均存在一个问题,那就是 由选择性搜索来生成候选框,这个算法很慢 。而且R-CNN中生成的2000个左右的候选框全部需要经过一次卷积神经网络,也就是需要经过2000次左右的CNN网络,这个是十分耗时的(fast R-CNN已经做了改进,只需要对整图经过一次CNN网络)。这也是导致这两个算法检测速度较慢的最主要原因。 faster R-CNN 针对这个问题, 提出了RPN网络来进行候选框的获取,从而摆脱了选择性搜索算法,也只需要一次卷积层操作,从而大大提高了识别速度 。这个算法十分复杂,我们会详细分析。它的基本结构如下图 主要分为四个步骤: 使用VGG-16卷积模型的网络结构: 卷积层采用的VGG-16模型,先将PxQ的原始图片,缩放裁剪为MxN的图片,然后经过13个conv-relu层,其中会穿插4个max-pooling层。所有的卷积的kernel都是3x3的,padding为1,stride为1。pooling层kernel为2x2, padding为0,stride为2。 MxN的图片,经过卷积层后,变为了(M/16) x (N/16)的feature map了。 faster R-CNN抛弃了R-CNN中的选择性搜索(selective search)方法,使用RPN层来生成候选框,能极大的提升候选框的生成速度。RPN层先经过3x3的卷积运算,然后分为两路。一路用来判断候选框是前景还是背景,它先reshape成一维向量,然后softmax来判断是前景还是背景,然后reshape恢复为二维feature map。另一路用来确定候选框的位置,通过bounding box regression实现,后面再详细讲。两路计算结束后,挑选出前景候选框(因为物体在前景中),并利用计算得到的候选框位置,得到我们感兴趣的特征子图proposal。 卷积层提取原始图像信息,得到了256个feature map,经过RPN层的3x3卷积后,仍然为256个feature map。但是每个点融合了周围3x3的空间信息。对每个feature map上的一个点,生成k个anchor(k默认为9)。anchor分为前景和背景两类(我们先不去管它具体是飞机还是汽车,只用区分它是前景还是背景即可)。anchor有[x,y,w,h]四个坐标偏移量,x,y表示中心点坐标,w和h表示宽度和高度。这样,对于feature map上的每个点,就得到了k个大小形状各不相同的选区region。 对于生成的anchors,我们首先要判断它是前景还是背景。由于感兴趣的物体位于前景中,故经过这一步之后,我们就可以舍弃背景anchors了。大部分的anchors都是属于背景,故这一步可以筛选掉很多无用的anchor,从而减少全连接层的计算量。 对于经过了3x3的卷积后得到的256个feature map,先经过1x1的卷积,变换为18个feature map。然后reshape为一维向量,经过softmax判断是前景还是背景。此处reshape的唯一作用就是让数据可以进行softmax计算。然后输出识别得到的前景anchors。 另一路用来确定候选框的位置,也就是anchors的[x,y,w,h]坐标值。如下图所示,红色代表我们当前的选区,绿色代表真实的选区。虽然我们当前的选取能够大概框选出飞机,但离绿色的真实位置和形状还是有很大差别,故需要对生成的anchors进行调整。这个过程我们称为bounding box regression。 假设红色框的坐标为[x,y,w,h], 绿色框,也就是目标框的坐标为[Gx, Gy,Gw,Gh], 我们要建立一个变换,使得[x,y,w,h]能够变为[Gx, Gy,Gw,Gh]。最简单的思路是,先做平移,使得中心点接近,然后进行缩放,使得w和h接近。如下:我们要学习的就是dx dy dw dh这四个变换。由于是线性变换,我们可以用线性回归来建模。设定loss和优化方法后,就可以利用深度学习进行训练,并得到模型了。对于空间位置loss,我们一般采用均方差算法,而不是交叉熵(交叉熵使用在分类预测中)。优化方法可以采用自适应梯度下降算法Adam。 得到了前景anchors,并确定了他们的位置和形状后,我们就可以输出前景的特征子图proposal了。步骤如下: 1,得到前景anchors和他们的[x y w h]坐标。 2,按照anchors为前景的不同概率,从大到小排序,选取前pre_nms_topN个anchors,比如前6000个 3,剔除非常小的anchors。 4,通过NMS非极大值抑制,从anchors中找出置信度较高的。这个主要是为了解决选取交叠问题。首先计算每一个选区面积,然后根据他们在softmax中的score(也就是是否为前景的概率)进行排序,将score最大的选区放入队列中。接下来,计算其余选区与当前最大score选区的IOU(IOU为两box交集面积除以两box并集面积,它衡量了两个box之间重叠程度)。去除IOU大于设定阈值的选区。这样就解决了选区重叠问题。 5,选取前post_nms_topN个结果作为最终选区proposal进行输出,比如300个。 经过这一步之后,物体定位应该就基本结束了,剩下的就是物体识别了。 和fast R-CNN中类似,这一层主要解决之前得到的proposal大小形状各不相同,导致没法做全连接。全连接计算只能对确定的shape进行运算,故必须使proposal大小形状变为相同。通过裁剪和缩放的手段,可以解决这个问题,但会带来信息丢失和图片形变问题。我们使用ROI pooling可以有效的解决这个问题。 ROI pooling中,如果目标输出为MxN,则在水平和竖直方向上,将输入proposal划分为MxN份,每一份取最大值,从而得到MxN的输出特征图。 ROI Pooling层后的特征图,通过全连接层与softmax,就可以计算属于哪个具体类别,比如人,狗,飞机,并可以得到cls_prob概率向量。同时再次利用bounding box regression精细调整proposal位置,得到bbox_pred,用于回归更加精确的目标检测框。 这样就完成了faster R-CNN的整个过程了。算法还是相当复杂的,对于每个细节需要反复理解。faster R-CNN使用resNet101模型作为卷积层,在voc2012数据集上可以达到的准确率,超过yolo ssd和yoloV2。其最大的问题是速度偏慢,每秒只能处理5帧,达不到实时性要求。 针对于two-stage目标检测算法普遍存在的运算速度慢的缺点, yolo创造性的提出了one-stage。也就是将物体分类和物体定位在一个步骤中完成。 yolo直接在输出层回归bounding box的位置和bounding box所属类别,从而实现one-stage。通过这种方式, yolo可实现45帧每秒的运算速度,完全能满足实时性要求 (达到24帧每秒,人眼就认为是连续的)。它的网络结构如下图: 主要分为三个部分:卷积层,目标检测层,NMS筛选层。 采用Google inceptionV1网络,对应到上图中的第一个阶段,共20层。这一层主要是进行特征提取,从而提高模型泛化能力。但作者对inceptionV1进行了改造,他没有使用inception module结构,而是用一个1x1的卷积,并联一个3x3的卷积来替代。(可以认为只使用了inception module中的一个分支,应该是为了简化网络结构) 先经过4个卷积层和2个全连接层,最后生成7x7x30的输出。先经过4个卷积层的目的是为了提高模型泛化能力。yolo将一副448x448的原图分割成了7x7个网格,每个网格要预测两个bounding box的坐标(x,y,w,h)和box内包含物体的置信度confidence,以及物体属于20类别中每一类的概率(yolo的训练数据为voc2012,它是一个20分类的数据集)。所以一个网格对应的参数为(4x2+2+20) = 30。如下图 其中前一项表示有无人工标记的物体落入了网格内,如果有则为1,否则为0。第二项代表bounding box和真实标记的box之间的重合度。它等于两个box面积交集,除以面积并集。值越大则box越接近真实位置。 分类信息: yolo的目标训练集为voc2012,它是一个20分类的目标检测数据集 。常用目标检测数据集如下表: | Name | # Images (trainval) | # Classes | Last updated | | --------------- | ------------------- | --------- | ------------ | | ImageNet | 450k | 200 | 2015 | | COCO | 120K | 90 | 2014 | | Pascal VOC | 12k | 20 | 2012 | | Oxford-IIIT Pet | 7K | 37 | 2012 | | KITTI Vision | 7K | 3 | | 每个网格还需要预测它属于20分类中每一个类别的概率。分类信息是针对每个网格的,而不是bounding box。故只需要20个,而不是40个。而confidence则是针对bounding box的,它只表示box内是否有物体,而不需要预测物体是20分类中的哪一个,故只需要2个参数。虽然分类信息和confidence都是概率,但表达含义完全不同。 筛选层是为了在多个结果中(多个bounding box)筛选出最合适的几个,这个方法和faster R-CNN 中基本相同。都是先过滤掉score低于阈值的box,对剩下的box进行NMS非极大值抑制,去除掉重叠度比较高的box(NMS具体算法可以回顾上面faster R-CNN小节)。这样就得到了最终的最合适的几个box和他们的类别。 yolo的损失函数包含三部分,位置误差,confidence误差,分类误差。具体公式如下: 误差均采用了均方差算法,其实我认为,位置误差应该采用均方差算法,而分类误差应该采用交叉熵。由于物体位置只有4个参数,而类别有20个参数,他们的累加和不同。如果赋予相同的权重,显然不合理。故yolo中位置误差权重为5,类别误差权重为1。由于我们不是特别关心不包含物体的bounding box,故赋予不包含物体的box的置信度confidence误差的权重为,包含物体的权重则为1。 Faster R-CNN准确率mAP较高,漏检率recall较低,但速度较慢。而yolo则相反,速度快,但准确率和漏检率不尽人意。SSD综合了他们的优缺点,对输入300x300的图像,在voc2007数据集上test,能够达到58 帧每秒( Titan X 的 GPU ),的mAP。 SSD网络结构如下图: 和yolo一样,也分为三部分:卷积层,目标检测层和NMS筛选层 SSD论文采用了VGG16的基础网络,其实这也是几乎所有目标检测神经网络的惯用方法。先用一个CNN网络来提取特征,然后再进行后续的目标定位和目标分类识别。 这一层由5个卷积层和一个平均池化层组成。去掉了最后的全连接层。SSD认为目标检测中的物体,只与周围信息相关,它的感受野不是全局的,故没必要也不应该做全连接。SSD的特点如下。 每一个卷积层,都会输出不同大小感受野的feature map。在这些不同尺度的feature map上,进行目标位置和类别的训练和预测,从而达到 多尺度检测 的目的,可以克服yolo对于宽高比不常见的物体,识别准确率较低的问题。而yolo中,只在最后一个卷积层上做目标位置和类别的训练和预测。这是SSD相对于yolo能提高准确率的一个关键所在。 如上所示,在每个卷积层上都会进行目标检测和分类,最后由NMS进行筛选,输出最终的结果。多尺度feature map上做目标检测,就相当于多了很多宽高比例的bounding box,可以大大提高泛化能力。 和faster R-CNN相似,SSD也提出了anchor的概念。卷积输出的feature map,每个点对应为原图的一个区域的中心点。以这个点为中心,构造出6个宽高比例不同,大小不同的anchor(SSD中称为default box)。每个anchor对应4个位置参数(x,y,w,h)和21个类别概率(voc训练集为20分类问题,在加上anchor是否为背景,共21分类)。如下图所示: 另外,在训练阶段,SSD将正负样本比例定位1:3。训练集给定了输入图像以及每个物体的真实区域(ground true box),将default box和真实box最接近的选为正样本。然后在剩下的default box中选择任意一个与真实box IOU大于的,作为正样本。而其他的则作为负样本。由于绝大部分的box为负样本,会导致正负失衡,故根据每个box类别概率排序,使正负比例保持在1:3。SSD认为这个策略提高了4%的准确率 另外,SSD采用了数据增强。生成与目标物体真实box间IOU为 的patch,随机选取这些patch参与训练,并对他们进行随机水平翻转等操作。SSD认为这个策略提高了的准确率。 和yolo的筛选层基本一致,同样先过滤掉类别概率低于阈值的default box,再采用NMS非极大值抑制,筛掉重叠度较高的。只不过SSD综合了各个不同feature map上的目标检测输出的default box。 SSD基本已经可以满足我们手机端上实时物体检测需求了,TensorFlow在Android上的目标检测官方模型,就是通过SSD算法实现的。它的基础卷积网络采用的是mobileNet,适合在终端上部署和运行。 针对yolo准确率不高,容易漏检,对长宽比不常见物体效果差等问题,结合SSD的特点,提出了yoloV2。它主要还是采用了yolo的网络结构,在其基础上做了一些优化和改进,如下 网络采用DarkNet-19:19层,里面包含了大量3x3卷积,同时借鉴inceptionV1,加入1x1卷积核全局平均池化层。结构如下 yolo和yoloV2只能识别20类物体,为了优化这个问题,提出了yolo9000,可以识别9000类物体。它在yoloV2基础上,进行了imageNet和coco的联合训练。这种方式充分利用imageNet可以识别1000类物体和coco可以进行目标位置检测的优点。当使用imageNet训练时,只更新物体分类相关的参数。而使用coco时,则更新全部所有参数。 YOLOv3可以说出来直接吊打一切图像检测算法。比同期的DSSD(反卷积SSD), FPN(feature pyramid networks)准确率更高或相仿,速度是其1/3.。 YOLOv3的改动主要有如下几点:不过如果要求更精准的预测边框,采用COCO AP做评估标准的话,YOLO3在精确率上的表现就弱了一些。如下图所示。 当前目标检测模型算法也是层出不穷。在two-stage领域, 2017年Facebook提出了mask R-CNN 。CMU也提出了A-Fast-RCNN 算法,将对抗学习引入到目标检测领域。Face++也提出了Light-Head R-CNN,主要探讨了 R-CNN 如何在物体检测中平衡精确度和速度。 one-stage领域也是百花齐放,2017年首尔大学提出 R-SSD 算法,主要解决小尺寸物体检测效果差的问题。清华大学提出了 RON 算法,结合 two stage 名的方法和 one stage 方法的优势,更加关注多尺度对象定位和负空间样本挖掘问题。 目标检测领域的深度学习算法,需要进行目标定位和物体识别,算法相对来说还是很复杂的。当前各种新算法也是层不出穷,但模型之间有很强的延续性,大部分模型算法都是借鉴了前人的思想,站在巨人的肩膀上。我们需要知道经典模型的特点,这些tricks是为了解决什么问题,以及为什么解决了这些问题。这样才能举一反三,万变不离其宗。综合下来,目标检测领域主要的难点如下: 一文读懂目标检测AI算法:R-CNN,faster R-CNN,yolo,SSD,yoloV2 从YOLOv1到v3的进化之路 SSD-Tensorflow超详细解析【一】:加载模型对图片进行测试  YOLO              C#项目参考: 项目实践贴个图。

论文名称:Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间:2014年 论文地址: 针对问题: 从Alexnet提出后,作者等人思考如何利用卷积网络来完成检测任务,即输入一张图,实现图上目标的定位(目标在哪)和分类(目标是什么)两个目标,并最终完成了RCNN网络模型。 创新点: RCNN提出时,检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢,作者采用的是Selective Search候选区域提取算法,来获得当前输入图上可能包含目标的不同图像块,再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。 参考博客: 。 论文题目:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间:2014年 论文地址: 针对问题: 该论文讨论了,CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后,在网络后端组织两组卷积或全连接层,一组用于实现定位,输出当前图像上目标的最小外接矩形框坐标,一组用于分类,输出当前图像上目标的类别信息。也是以此为起点,检测网络出现基础主干网络(backbone)+分类头或回归头(定位头)的网络设计模式雏形。 创新点: 在这篇论文中还有两个比较有意思的点,一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的,而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制,那用1x1卷积来替换FC层,是否可行呢?作者在测试时通过将全连接层替换为1x1卷积核证明是可行的;二是提出了offset max-pooling,也就是对池化层输入特征不能整除的情况,通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练,然后切换分类头为回归头,再训练回归头的参数,最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。 参考博客: 论文题目:Scalable Object Detection using Deep Neural Networks 提出时间:2014年 论文地址: 针对问题: 既然CNN网络提取的特征可以直接用于检测任务(定位+分类),作者就尝试将目标框(可能包含目标的最小外包矩形框)提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。 创新点: 本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心,(800个anchor box)然后学习预测不考虑目标类别的二分类网络,背景or前景。用到了多尺度下的检测。 参考博客: 论文题目:DeepBox: Learning Objectness with Convolutional Networks 提出时间:2015年ICCV 论文地址: 主要针对的问题: 本文完成的工作与第三篇类似,都是对目标框提取算法的优化方案,区别是本文首先采用自底而上的方案来提取图像上的疑似目标框,然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序;而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点: 本文作者想通过CNN学习输入图像的特征,从而实现对输入网络目标框是否为真实目标的情况进行计算,量化每个输入框的包含目标的可能性值。 参考博客: 论文题目:AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间:2015年ICCV 论文地址: 主要针对的问题: 对检测网络的实现方案进行思考,之前的执行策略是,先确定输入图像中可能包含目标位置的矩形框,再对每个矩形框进行分类和回归从而确定目标的准确位置,参考RCNN。那么能否直接利用回归的思路从图像的四个角点,逐渐得到目标的最小外接矩形框和类别呢? 创新点: 通过从图像的四个角点,逐步迭代的方式,每次计算一个缩小的方向,并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。 参考博客: 论文题目:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间:2014年 论文地址: 针对问题: 如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络,在处理过程中就造成了图像块信息的损失。在实际的场景中,输入网络的目标尺寸很难统一,而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点: 作者提出的SPPnet中,通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸,在训练的时候,池化的操作还是通过滑动窗口完成的,池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。 参考博客 : 论文题目:Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间:2015年 论文地址: 针对问题: 既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位,本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点: 作者通过对输入网络的region进行一定的处理(通过数据增强,使得网络利用目标周围的上下文信息得到更精准的目标框)来增加网络对目标回归框的精度。具体的处理方式包括:扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置,使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性,从而提高了回归框的精度。 参考博客 : 论文题目:Fast-RCNN 提出时间:2015年 论文地址: 针对问题: RCNN中的CNN每输入一个图像块就要执行一次前向计算,这显然是非常耗时的,那么如何优化这部分呢? 创新点: 作者参考了SPPNet(第六篇论文),在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸,从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图,再将原图上用Selective Search算法得到的目标框映射到特征图上,避免了特征的重复提取。 参考博客 : 论文题目:DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间:2015年 论文地址: 主要针对的问题: 本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文,作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。 创新点: 作者在不同的激活层上以滑动窗口的方式生成了假设,并表明最终的卷积层可以以较高的查全率找到感兴趣的对象,但是由于特征图的粗糙性,定位性很差。相反,网络的第一层可以更好地定位感兴趣的对象,但召回率降低。 论文题目:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间:2015年NIPS 论文地址: 主要针对的问题: 由multibox(第三篇)和DeepBox(第四篇)等论文,我们知道,用CNN可以生成目标待检测框,并判定当前框为目标的概率,那能否将该模型整合到目标检测的模型中,从而实现真正输入端为图像,输出为最终检测结果的,全部依赖CNN完成的检测系统呢? 创新点: 将当前输入图目标框提取整合到了检测网络中,依赖一个小的目标框提取网络RPN来替代Selective Search算法,从而实现真正的端到端检测算法。 参考博客 :

本科论文检测可以识别封面吗

又到了一年的毕业季,一群即将进入社会的高年级学生仍在忙于实习和论文。对于硕士和博士论文,大学需要通过论文查重系统检测。对于本科生来说,大多数学校也通过抽查来检测本科论文。 剽窃太多,一旦发现超过20%,后果将是严重的。轻人推迟毕业,重人取消学位。尼玛努力上大学,学位证拿不到有多不舒服。那么,我们如何降低论文的查重率呢?让我们一起学习这些技巧。 科研机构有不同的检测标准,包括20%、30%和40%。然而,毕竟,软件是一种人工设置的机制,嵌入了检测算法。只要我们找到机制,通过简单的修改,我们就能成功地通过测试。 1.论文的段落和格式。 检测论文基本上需要上传整篇论文,论文检测软件会根据上传的论文格式进行区分,因此论文格式非常重要。不同段落的划分可能导致查重率不一样,我们可通过进行划分更多的小段落来降低剽窃率。 2.数据库。 论文查重主要对比的是毕业论文、互联网文献和期刊会议论文。一些论文数据库还包含一些书本内容。在这里,我想告诉你们,很多书还是不在论文查重数据库里。我们有时候引用一些书本知识,还是不会被检测到。 3.章节变换。 很多学生把论文章节进行了顺序变化,其实这样根本是不能有效降低论文查重率的,目前论文查重系统都有语义识别算法。 4.标注参考文献。 在论文检测软件中如何定义参考他人的文章和剽窃他人的文章。事实上,这很简单。我们的论文添加了一个参考相关文献的引用符号,只要我们进行正确的标注,就能够是被不检测重复率。

一般而言,知网检测,是要把文章内容的封面图给删除的,但这也是大伙儿非常容易忽略的一点。就是这样很多盆友在交了毕业论文以后察觉自己没有删掉封面图,便担忧起来,今日我就先给大伙儿讲下封面图为何最好是被删除,再再聊没有删掉封面图时的解决方案。明确提出中国知网论文检测时必须删掉封面图等内容,但假如忘记了删掉封面图呢,大伙儿实际上无需太担忧,实际上我还可以领着大伙儿了解一下,论文检测软件到底是如何运行的。实际上,知网论文检测系统,本人并不可以进到系统软件进行查重,但如今伴随着查重软件的系统化,论文检测系统还可以让每一个同学们都享有到工作效能。于是像上面所说的,查重时忘了删除封面也能起到作用,其实大家不用担心现在的查重软件已经很智能了。论文封面知网在查重的时候可自动剔除不算重复。一般而言,一些中国知网自助式论文查重网站,她们一般规定除掉封面图,一方面封面图基础不危害整体论文重复率,另一方面封面图一般都是有院校信息内容。中国知网自助检测服务平台是高等院校公共图书馆传送数据的,假如该公共图书馆中国知网账号检验到外校毕业论文,就会有很有可能到知网账号被禁封。所以最好在查重时将封面去掉,同时保证了隐私,这没什么影响。我同样走过学生时代,对其完成论文的流程也颇有了解,那时查重软件还不够完善,很多时候需要自己熬夜修改论文,所以说现在的查重软件更智能了,的确给同学们省了不少事。

论文查重标准重复率在10%-30%之间,不同学校查重率要求有一定差异,我们可以根据学校要求查重率来进行针对性江红,降重方法主要有以下几种。 1.文章的段落和格式变化。 论文检测基本上都是上传整篇文章,上传之后,先将论文检测软件分割成一部分,最后提交的稿件格式会严重影响抄袭率。对各段进行划分可能会导致无法检测到几十个单词的小段落。 2.数据库。 论文多半是针对已经可以发表的毕业设计论文,期刊论文,还有工作会议论文的独臂,有些数据库中还含有网络上的部分文章。下面就为大家介绍一下,很多图书都没有包含在数据库中。一个以前的朋友从一本书中摘录了大量的文字,但是还没有得到证实。可见,这种教学方法仍然是一个有效的。 3.章节转换。 许多人都会将论文章节顺序更改,或抽取不同章节来拼写,这对抄袭检测的效果几乎没有影响。多篇文章进行组合,可能可以让文章重复率降低。 4.参考文献标注。 在检测软件中,引用他人的文章和抄袭他人的文章我们需要进行标注。实际上也是非常简单,我们的论文中加入了一个参考相关文献的引用符号,这样查重系统就可以识别不计算全文查重率。 5.字数匹配。 论文进行抄袭检验管理制度发展相对较严格,只要我们多于12字符重复匹配,即视为抄袭。我们在写论文的时候,要规避与别人论文连续重复。

本科毕业论文除了参考文献不用查重以外,其他都要查重。

视频目标检测可以发论文吗

哎血泪教训一定要根据课题组现有基础和可以提供的平台决定,比如你师兄师姐在做什么,组里是否有GPU硬件和数据支持等。如果组里有传承是最好不过了,师兄师姐做过或在做的东西你选择的肯定不会错的,毕竟有人带头和指导~ 如果组里这两个方向都有人在做的话,建议和他们当面聊哈哈哈,利弊你自然就知道啦

能不能给我发一份呢?

数据科学专业的表示NLP需要的训练集太大了,也不好找。只能拿预训练模型针对特殊应用做二次开发,而且对硬件要求很高。图像/视频较NLP来说开放的训练集也好找,而且主题也很多,而且你自己编一个好实现又很实际的商用需求就比较好结题。

可以。mAP(meanAveragePrecision)是所有类AP的平均值,衡量多类别目标检测的好坏。不同的数据集或竞赛可能有不同的评估指标。

论文查重可以识别图标么

图片不会进行论文查重,因为首先要进行识别,但是现在的算法无法很有效的对于图片进行识别,所以论文查重不会对图片进行查重。论文查重主要是文字进行查重,一般的查重比例是5%-30%之间。详情可以看一下自己学校的论文查重比例。另外,有什么问题,可以追问,也可以直接点击头像,查看更多的论文相关问题。

以前的论文查重都只查论文文字内容,但是上个月开始知网已经研发出可以查论文图片和表格的查重系统。所以知网是可以查论文图片的,但是其他查重系统暂时还不能查重图片。如果你们学校用的知网,那么建议你给论文加图片的时候同样不要抄袭人家的图片。

会的,如果待检测论文中包含有表格数据部分,查重系统也会对其纯文本内容进行查重检测,若用户想要降低重复率而将内容放入表格中,查重系统仍然会对表格中的文字进行查重。因此当用户在点击开始上传按钮之前,需要确认待检测论文中有哪些部分不需要查重,在知网查重之前就需要将其余部分内容删除,以免发生查重结果和学校查重的结果不一致的情况。

毕业论文查重图片不会查。因为首先要进行识别,但是现在的算法无法很有效的对于图片进行识别,所以论文查重不会对图片进行查重。 论文查重主要是文字进行查重,一般的查重比例是5%-30%之间。详情可以看一下自己学校的论文查重比例。 扩展资料 论文是每个毕业生的'通行证,但是这通行证也是有哦要求的,如果光是有毕业论文也是不行的,必须是经过论文查重修改之后得到重复率符合学校要求的定稿论文,才能被学校认可。学位论文(设计)工作的完成是高校人才培养的关键环节,对于学生而言直接关乎能否顺利毕业和找到一份好工作,其重要性不言而喻。

高光谱图像目标识别检测本科论文

我对测绘学的认识学院:测绘学院 专业:测绘工程 班级:10级4班 姓名: 学号:作为武汉大学测绘学院测绘工程专业的一名大一新生,我很有幸上了由几位著名的两院院士及教授主讲的《测绘学概论》,在这个课堂上,我不仅见到了在我国乃至世界都非常著名的院士、教授、专家,还在他们独道精辟的讲解下认识了测绘学这门学科,了解学习了很多关于测绘学的知识及其发展前景。作为专业的基础,我从课堂、图书、网络等各个方面积极的了解测绘学,拓宽了我的知识面,使我认识到测绘不是他们所说的“冷门专业”“辛苦专业”,获益匪浅,使我加深了对测绘的兴趣。下面我将从几个方面讲述我对测绘学的认识及感想。测绘学古老而现代,绘学现在正在向一门刚兴起的学科—地球空间科学发展。测绘学是一门古老的学科,有着悠久的历史。测绘学的发展在世界上古史时代,就有利用测绘学智丽尼罗河泛滥后农田边界整理的传说。公元前7世纪,管仲在其所著《管子》一书中已收集了早期的地图27幅。公元前5世界至3世纪,我国已有利用磁石制成最早的指南工具“司南”的记载。公元前130年,西汉初期便有了《地形图》和《驻军图》,为目前所发现我国最早的地图。随着人类社会的进步和科学技术的不断发展,测绘学科的理论、技术、方法及其学科内涵也随之发生了很大的变化。尤其是在当代,由于空间技术、计算机技术、通信技术和地理信息技术的发展,测绘学的理论基础、工程技术体系、研究领域和科学目标与传统意义上的测绘学有了很大的不同。测绘学日益发展成为国内外正在兴起的一门新型学科——地球空间信息学(Geo-Spatial Information Science,简称Geomatics)测绘学的主要研究对象是地球(当然再未来将发展到外太空,研究其他的星球)。人类对地球形状认识的逐步深化,要求精确测定地球的形状和大小,从而促进了测绘学发展。因此,测绘学可以说是地球科学的一个分支。测绘学的研究成果是以地图为代表的信息产品,地图的演变及其制作过程、方法是测绘学进步的一个主要标志。测绘学获取观测数据的工具是测量仪器,测量学的发展很大程度上取决于测绘方法和测绘仪器的创造和改革。测绘仪器的发展经历了早期的游标经纬仪到小平板、大平板仪、水准仪、航空摄影机、摆仪、重力仪、全站仪,测量机器人,数字绘图机。成果也原来的手绘地图到数字地图,由原来的二维地图到现在的三维地图,四维地图,最近由武汉大学测绘遥感信息工程国家重点实验室研制的“天地图”这一伟大成果就是一个很好的代表。测绘学的科学地位和作用意义重大。在科学研究中的作用:测绘学在探索地球奥秘和规律、深入认识和研究地球的各种问题中发挥着重要的作用。现在的测量技术可以提供几乎任意时区域分辨率系列,具有检测瞬时地理事件如地壳运动,重力场的时空变化,地球的潮汐和自转等问题,这些观测成果可以用于地球内部物质的研究,尤其在解决地球物理方面可以起到辅助作用。测绘许饿在国民经济上的作用是广泛。丰富的地理信息是国民经济和社会信息化的重要基础,为构建“数字城市”“数字中国”提供了重要的资源。在现代化战争的今天,测绘学在武器的定位、发射、精确制导等方面发挥着不可代替的作用。另外在防灾减灾方面,测绘做出了不可磨灭的作用,2008年汶川特大地震中,测量所的的地图在救灾中起指导作用,减少了灾难等带来的重大损失。在以后的发展中,测绘在防灾、减灾上仍然将发挥它的作用,民政局非常重视测绘的作用。测绘学的分类。随着测绘科技的发展和时间的推移,在发展过程中形成大地测量学、普通测量学、摄影测量学、工程测量学、海洋测绘和地图制图学等分支学科。大地测量学研究和测定地球的形状、大小和地球重力场,以及地面点的几何位置的理论和方法。普通测量学 研究地球表面局部区域内控制测量和地形图测绘的理论和方法。局部区域是指在该区域内进行测绘时,可以不顾及地球曲率,把它当作平面处理,而不影响测图精度。摄影测量学 研究利用摄影机或其他传感器采集被测物体的图像信息,经过加工处理和分析,以确定被测物体的形状、大小和位置,并判断其性质的理论和方法。测绘大面积的地表形态,主要用航空摄影测量。工程测量学 研究工程建设中设计、施工和管理各阶段测量工作的理论、技术和方法。为工程建设提供精确的测量数据和大比例尺地图,保障工程选址合理,按设计施工和进行有效管理。海洋测绘 研究对海洋水体和海底进行测量与制图的理论和技术。为舰船航行安全、海洋工程建设提供保障。地图制图学 研究地图及其编制的理论和方法。下面我将就这几个分支按我理解简单叙述。大地测量学大地测量学是测绘学的一个分支。研究和测定地球形状、大小和地球重力场,以及测定地面点几何位置的学科。大地测量学中测定地球的大小,是指测定地球椭球的大小;研究地球形状,是指研究大地水准面的形状;测定地面点的几何位置,是指测定以地球椭球面为参考的地面点的位置。将地面点沿法线方向投影于地球椭球面上,用投影点在椭球面上的大地纬度和大地经度表示该点的水平位置,用地面点至投影点的法线距离表示该点的大地高程。这点的几何位置也可以用一个以地球质心为原点的空间直角坐标系中的三维坐标来表示。大地测量工作为大规模测制地形图提供地面的水平位置控制网和高程控制网,为用重力勘探地下矿藏提供重力控制点,同时也为发射人造地球卫星、导弹和各种航天器提供地面站的精确坐标和地球重力场资料。大地测量学的基本任务是1、研究全球,建立与时相依的地球参考坐标框架,研究地球形状及其外部重力场的理论与方法,研究描述极移固体潮及地壳运动等地球动力学问题,研究高精度定位理论与方法。2、 确定地球形状及其外部重力场及其随时间的变化,建立统一的大地测量坐标系,研究地壳形变(包括地壳垂直升降及水平位移),测定极移以及海洋水面地形及其变化等。研究月球及太阳系行星的形状及其重力场。3、建立和维持具有高科技水平的国家和全球的天文大地水平控制网和精密水准网以及海洋大地控制网,以满足国民经济和国防建设的需要。4、研究为获得高精度测量成果的仪器和方法等。5、研究地球表面向椭球面或平面的投影数学变换及有关的大地测量计算。6、研究大规模、高精度和多类别的地面网、空间网及其联合网的数学处理的理论和方法,测量数据库建立及应用等。几何大地测量学。19世纪起,许多国家都开展了全国天文大地测量工作,其目的并不仅是为求定地球椭球的大小,更主要的是为测制全国地形图的工作提供大量地面点的精确几何位置。为达此目的,需要解决一系列理论和技术问题,这就推动了几何大地测量学的发展。首先,为了检校天文大地测量的大量观测数据,消除其间的矛盾,并由此求出最可靠的结果和评定观测精度,法国的勒让德()于1806年首次发表了最小二乘法的理论。事实上,德国数学家和大地测量学家.高斯早在1794年已经应用了这一理论推算小行星的轨道。此后他又用最小二乘法处理天文大地测量结果,把它发展到了相当完善的程度,产生了测量平差法,至今仍广泛应用于大地测量。其次,三角形的解算和大地坐标的推算都要在椭球面上进行。高斯于1828年在其著作《曲面通论》中,提出了椭球面三角形的解法。关于大地坐标的推算,许多学者提出了多种公式。高斯还于1822年发表了椭球面投影到平面上的正形投影法,这是大地坐标换算成平面坐标的最佳方法,至今仍在广泛应用。另外,为了利用天文大地测量成果推算地球椭球长半轴和扁率,德国的.赫尔默特提出了在天文大地网中所有天文点的垂线偏差平方和为最小的条件下,解算与测区大地水准面最佳拟合的椭球参数及其在地球体中的定位的方法。以后这一方法被人称为面积法。物理大地测量学。法国的勒让德()于1806年首次发表了最小二乘法的理论。事实上,德国数学家和大地测量学家.高斯早在1794年已经应用了这一理论推算小行星的轨道。此后他又用最小二乘法处理天文大地测量结果,把它发展到了相当完善的程度,产生了测量平差法,至今仍广泛应用于大地测量。其次,三角形的解算和大地坐标的推算都要在椭球面上进行。关于大地坐标的推算,许多学者提出了多种公式。高斯还于1822年发表了椭球面投影到平面上的正形投影法,这是大地坐标换算成平面坐标的最佳方法,至今仍在广泛应用。另外,为了利用天文大地测量成果推算地球椭球长半轴和扁率,德国的.赫尔默特提出了在天文大地网中所有天文点的垂线偏差平方和为最小的条件下,解算与测区大地水准面最佳拟合的椭球参数及其在地球体中的定位的方法。以后这一方法被人称为面积法。卫星大地测量学。到了20世纪中叶,几何大地测量学和物理大地测量学都已发展到了相当完善的程度。但是,由于天文大地测量工作只能在陆地上实施,无法跨越海洋;重力测量在海洋、高山和荒漠地区也仅有少量资料,因此地球形状和地球重力场的测定都未得到满意的结果。直到1957年第一颗人造地球卫星发射成功之后,产生了卫星大地测量学,才使大地测量学发展到一个崭新的阶段。摄影测量学摄影测量学研究利用摄影机或其他传感器采集被测物体的图像信息,经过加工处理和分析,以确定被测物体的形状、大小和位置,并判断其性质的理论和方法。测绘大面积的地表形态,主要用航空摄影测量摄影测量学。根据地面获取影像时,摄影机安放的位置不同,摄影测量学可以分为航空摄影测量学、航天摄影测量与地面摄影测量。航空摄影测量:将摄影机安放在飞机上,对地面进行摄影,这是摄影最常用的方法。航空摄影测量所用的是一种专门的大幅面的摄影机又称航空摄影机。航天摄影测量学:随着航天、卫星、遥感技术的发展而发展的摄影测量技术,将摄影机安装在卫星上。近几年来,高分辨率卫星摄影的成功应用,已经成为国家基本地图测图、城市、土地规划的重要资源。近地摄影测量是将摄影机安装在地面上进行的摄影测量。摄影测量学的一些基本原理包括影象与物体的基本关系、影象与地图的关系、摄影机的内方位元素、外方位元素、共线方程、立体观测方法等。在影像上进行量测和解译,主要工作在室内进行,无需接触物体本身,因而很少受气候、地理等条件的限制;所摄影像是客观物体或目标的真实反映,信息丰富、形象直观,人们可以从中获得所研究物体的大量几何信息和物理信息;可以拍摄动态物体的瞬间影像,完成常规方法难以实现的测量工作;适用于大范围地形测绘,成图快、效率高;产品形式多样,可以生产纸质地形图、数字线划图、数字高程模型、数字正摄影像等。摄影测量学的研究方向。1、数字摄影测量:以航空影像和卫星米级高分辨率影像为数据源,扩展计算机立体相关理论与算法,发展立体几何模型确定和精化的新方法,以及研究困难地区数字立体测图的新技术;研究近景(地面)摄影测量中的数字相机的快速检校新算法,数字影像精确匹配问题,以及在工业生产过程自动监测和土木工程建筑物(如桥梁和隧道)形变监测中的问题。2.遥感技术及应用以多光谱、多分辨率和多时相卫星影像为数据源,研究地表变迁及地质调查的遥感新方法;研究地球资源(如土地利用)变化检测的有效方法,发展半自动或全自动化的遥感监测手段;开发监测城市环境污染和自然灾害(如洪水与森林、农作物病虫害)的实用遥感系统,等等。基于合成孔径雷达图像,开展干涉雷达(InSAR)等技术的地表三维重建、大范围精密地表形变(包括滑坡、城市沉降和地壳形变)探测和气象变化监测的研究。技术及应用研究车载CCD序列影像测图的方法和算法,为线性工程勘测和调查提供快速而有效的地面遥感测量手段;研究包括遥感(RS)、全球定位系统(GPS)和地理信息系统(GIS)在内的3S技术集成的模式和方法,为我国西部大开发的铁路、公路建设探索全新的勘测设计手段。地图制图学地图制图学是研究地图及其编制和应用的一门学科。它研究用地图图形反映自然界和人类社会各种现象的空间分布,相互联系及其动态变化,具有区域性学科和技术性学科的两重性,亦称地图学。 地图制图学的理论与技术。地图编制研究制作地图的理论和技术。主要包括:制图资料的选择、分析和评价,制图区域的地理研究,图幅范围和比例尺的确定,地图投影的选择和计算,地图内容各要素的表示法,地图制图综合的原则和实施方法,制作地图的工艺和程序,以及拟定地图编辑大纲等。地图整饰研究地图的表现形式。包括地图符号和色彩设计,地貌立体表示,出版原图绘制以及地图集装帧设计等。地图制印研究地图复制的理论和技术。包括地图复照、翻版、分涂、制版、打样、印刷、装帧等工艺技术。此外,地图应用也已成为地图制图学的一个组成部分。它主要研究地图分析、地图评价、地图阅读、地图量算和图上作。 地图制图学的发展趋势随着现代科学技术的发展,地图制图学也进入了新的发展阶段,其主要特点和趋势为:①地图制图学作为区域性学科,其重点已由普通地图制图转移到专题地图制图,并向综合制图、实用制图和系统制图的方向发展。②地图制图学作为技术性学科,正在向机助制图方向发展,有可能逐步代替延续几千年的手工编图的作业方法。③随着地图制图学同各学科间的相互渗透,产生了一些新的概念和理论。例如,以地图图形显示、传递、转换、存储、处理和利用空间信息为内容的地图信息论和地图传输论;研究经过地图图形模式化建立地图数学模型和数字模型的地图模式论;研究用图者对地图图形和色彩的感受过程和效果的地图感受论;研究和建立地图语言的地图符号学,等等。工程测量学工程测量学是研究工程建设和自然资源开发中各个阶段进行的控制和地形测绘、施工放样、变形监测的理论和技术的学科。测绘科学和技术(或称测绘学)是一门具有悠久历史和现代发展的一级学科。该学科无论怎样发展,服务领域无论怎样拓宽,与其他学科的交叉无论怎样增多或加强,学科无论出现怎样的综合和细分,学科名称无论怎样改变,学科的本质和特点都不会改变。工程测量学的理论平差理论。最小二乘法广泛应用于测量平差。最小二乘配置包括了平差、滤波和推估。附有限制条件的条件平差模型被称为概括平差模型,它是各种经典的和现代平差模型的统一模型。测量误差理论主要表现在对模型误差的研究上,主要包括:平差中函数模型误差、随机模型误差的鉴别或诊断;模型误差对参数估计的影响,对参数和残差统计性质的影响;病态方程与控制网及其观测方案设计的关系。由于变形监测网参考点稳定性检验的需要,导致了自由网平差和拟稳平差的出现和发展。观测值粗差的研究促进了控制网可靠性理论,以及变形监测网变形和观测值粗差的可区分性理论的研究和发展。针对观测值存在粗差的客观实际,出现了稳健估计(或称抗差估计);针对法方程系数阵存在病态的可能,发展了有偏估计。与最小二乘估计相区别,稳健估计和有偏估计称为非最小二乘估计。海洋测绘海洋测绘是以海洋水体和海底为对象所进行的测量和海图编制工作。主要包括海道测量、海洋大地测量、海底地形测量、海洋专题测量,以及航海图、海底地形图、各种海洋专题图和海洋图集等的编制。海洋测绘的基本理论与方法。测量方法主要包括海洋地震测量、海洋重力测量、海洋磁力测量、海底热流测量、海洋电法测量和海洋放射性测量。因海洋水体存在,须用海洋调查船和专门的测量仪器进行快速的连续观测,一船多用,综合考察。基本测量方式包括:①路线测量。即剖面测量。了解海区的地质构造和地球物理场基本特征。②面积测量。按任务定的成图比例尺,布置一定距离的测线网。比例尺越大,测网密度愈密。在海洋调查中,广泛采用无线电定位系统和卫星导航定位系统。海洋测量的基本理论、技术方法和测量仪器设备等,同陆地测量相比,有它自己的许多特点。主要是测量内容综合性强,需多种仪器配合施测,同时完成多种观测项目;测区条件比较复杂,海面受潮汐、气象等影响起伏不定;大多为动态作业,测者不能用肉眼通视水域底部,精确测量难度较大。一般均采用无线电导航系统、电磁波测距仪器、水声定位系统、卫星组合导航系统、惯性导航组合系统,以及天文方法等进行控制点的测定和测点的定位;采用水声仪器、激光仪器,以及水下摄影测量方法等进行水深测量和海底地形测量;采用卫星技术、航空测量以及海洋重力测量和磁力测量等进行海洋地球物理测量。现代测绘中的新技术随着电子信息技术、通信技术、网络技术等的飞速发展,测绘学也迎来发展的机遇与挑战。测量理论,测量方法,测量仪器的改进推动了测绘学科的发展,现在的测绘不但测量精度大大提高,测量时间大大的减少,劳动强度降低,测绘工作者也不再是人民眼中“农民工”。这些新技术包括:1、卫星导航定位技术。以美国的GPS,俄罗斯的GLONASS,中国的北斗以及在建的欧盟的GALILES为代表的的定位系统为测绘工作带来极大的方便,而且提高了精度。2、RS(遥感),他是一种不通过接触物体本身,用传感器采集目标的电磁波信息,经过处理、分析后识别目标物的现代科学技术。我们武汉大学在遥感方面实力强大,遥居亚洲第一。3、数字地图制图技术。4、GIS(地理信息系统)GIS地理信息系统是以地理空间数据库为基础,在计算机软硬件的支持下,运用系统工程和信息科学的理论,科学管理和综合分析具有空间内涵的地理数据,以提供管理、决策等所需信息的技术系统。简单的说,地理信息系统就是综合处理和分析地理空间数据的一种技术系统。5、3S集成技术。即GPS、GIS与RS技术的集成,是当前国内外发展的趋势。在3S技术的集成中,GPS主要用于实时快速的提供物体的空间位置;RS用于实时快速的提供大面积的地表物质及其环境的几何与物理信息,以及他们的各种变化;GIS则是对多种来源时空数据的综合处理分析和应用的平台。6、虚拟现实摸型技术,他是由计算机构成的高级人机交换系统。测绘学博大精深,我们对它的了解还很肤浅,但我相信在我们回在今后的学习工作中对它有更深的了解,并且,在不久的将来我们必将献身测绘事业,献身祖国的建设事业,成为一个21世纪合格的测绘工作者和祖国的建设的接班人!

目标探测和分类通常基于空间维、特征维、时序维和光谱维的四个层面。空间维记录了地物的空间分布、空间形态、空间属性、空间关系和空间变化等信息,是分类和目标探测最直观的数据来源。然而,受影像空间分辨率的限制,单纯依靠空间维的信息往往不能达到分类和探测的要求;特征维通过定义某种算子或对影像作某种数学变换,提取出影像的点、线、面等结构信息及其他特征,然后利用统计理论或非线性理论实现分类和目标探测;时序维通常是空间和时间的结合,利用空间特征结合时序特性,构建时序维,主要用于对时间序列数据进行变化监测和预测分析,通过分析相同地理空间上不同时间点的数据差异,发现异常,从而实现分类和目标探测;光谱维表达了影像每个像元在所有波段的灰度值,根据“异物异谱” 的原则,从地物的物理属性和微观特性入手,在高光谱维空间实现分类和目标探测,这也正是高光谱遥感的实质和独特之处。而高光谱影像分类和目标探测要解决的几个核心问题包括:

(1)光谱定量化

高光谱影像分类和目标探测以地物光谱与地物的物理、化学特征,物质组成成分的某种线性或非线性的定量化关系为基础。一般高光谱影像在采集的过程中都会受到传感器、大气传播、地形起伏、地球物理环境等各种因素的影响,其DN值与地物真实的反射率值并不一致。因此,将传感器获得的地物原始DN值与地物标准反射率值之间建立定量关系非常重要。

(2)光谱解混

真正的纯像元只能存在于理想状态下,混合像元普遍存在于遥感影像中,它的存在严重制约着分类和目标探测的精度。像元的混合一般有线性和非线性的方式。当视场中的端元地物以一定面积水平分布,并且彼此不交叉时,其光谱混合模型为线性的;当视场中的端元地物交叉分布,并且端元之间存在多次散射,其光谱混合模型为非线性的。

(3)降维和特征提取

高光谱影像精细划分的光谱波段为地物信息提取提供了极其丰富的信息,然而,大量的波段势必会造成信息的冗余,增加信息处理的复杂度。因此,对于高光谱影像分类和目标探测而言,高光谱数据降维(图)和特征提取显得尤为重要。传统的降维方法有主成分分析(Principal component analysis,PCA)、最小/最大自相关因子(Min/max auto- correlation factors,MAF)、最小噪声分离(Minimum noise fraction,MNF)、噪声调整的主成分分析(Noise-adjusted principal components,NAPC)、典型分析(Canonical analysis,CA)、独立成分分析(Independent component analysis,ICA)、投影寻踪(Projection pursuit,PP)、典型相关分析(Canonical correlation analysis,CCA)、非负矩阵分解(Non-negative ma-trix factorization,NMF)和非线性主成分分析(Kernel PCA,KPCA)等。目前比较先进的降维方法有利用机器学习中的流行学习算法(Manifold learning algorithm),如,新近发展起来的等距映射(ISOmetric feature Mapping,ISOMAP)、局部线性嵌入(Locally linear embed-ding,LLE)、拉普拉斯映射(Laplacian eigenmap)、局部切空间排列(Local tangent space a-lignment,LTSA)和多维尺度变换(Multi-dimensional scaling,MDS)等。

图 高光谱数据降维

(4)Hughes现象

在对高光谱影像进行监督分类时,经验表明,当训练样本数是光谱维数的100倍时,效果最佳。但对于上百个波段的影像来说,这通常是无法达到的。在训练样本数不变的情况下,分类精度会随着波段数的增加而先增后减。这就是高光谱影像分类中的Hughes现象(Hughes,1968),关于这一问题将在中详细阐述。

(5)低概率目标

目标在高光谱影像中以各种形式存在,如小概率、低出露,甚至有可能是亚像元,这些目标统称为低概率目标(low probability target),高光谱影像中的感兴趣目标往往以这种形式存在,同时这也是分类和目标探测的难点。

(6)处理效率

高光谱影像数据的海量信息决定了需要用并行运算等手段提高处理效率。并行运算是利用处理单元的集成来解决海量数据处理难题。其处理效率通常用加速比来表示,加速比定义为多个处理器的计算性能与单个处理器的计算性能的比值。NASA研制了便携式迷你集群,美国也研制了包含5120个处理器的地球模拟器用于解决这一问题。

相关百科
热门百科
首页
发表服务