基于GPU的快速Sobel边缘检测算法 (核心)0000

来源：易妖游戏网

第３６卷第１期２００９年１月文章编号：１００３—５０１Ｘ（２００９）０１—０００８—０５光电工程Ｏｐｔｏ—ＥｌｅｃｔｒｏｎｉｃＥｎｇｉｎｅｅｒｉｎｇＶ０１．３６，Ｎｏ．１Ｊａｎ．２００９基于ＧＰＵ的快速Ｓｏｂｅｌ边缘检测算法左颢睿１，一，张启衡１，徐勇１，一，赵汝进１，２（１．中国科学院光电技术研究所，成都６１０２０９；２．中国科学院研究生院，北京１０００３９）摘要：传统的Ｓｏｂｌｅ边缘检测算法的优化和实现都是针对常用处理器（ＣＰＵ、ＤＳＰ和ＦＰＧＡ等）提出的，难以应用在图像处理器（ＧＰＵ）上。本文提出了一种基于ＮＶＩＤＩＡ公司ＣＵＤＡ架构图形处理器（ＧＰＵ）的快速Ｓｏｂｅｌ边缘检测算法。快速算法根据ＧＰＵ的并行结构和硬件特点，采用了纹理存储技术、多点访问技术和对称计算技术三种加速技术，优化了数据存储结构，提高了数据访问效率，降低了算法复杂度。实验结果表明，快速算法充分利用了ＧＰＵ的并行处理能力，在处理４０９６ｘ４０９６分辨力的８位灰度图像时速度可达１９０ｆｐｓ，是基于ＣＰＵ实现的１２２倍．关键词：ＧＰＵ；ＣＯＤＡ；Ｓｏｂｅｌ；边缘检测中图分类号：ＴＰ３９１，ＴＰ９１１．７３文献标志码：ＡＦａｓｔＳｏｂｅｌＥｄｇｅＤｅｔｅｃｔｉｏｎＺＵＯＨａｏ．ｒｕｉｌ’２，ＺＨＡＮＧＡｌｇｏｒｉｔｈｍＢａｓｅｄｏｎＧＰＵＱｉ．ｈｅｎ９１，ＸＵＹｏｎ９１’２，ＺＨＡＯＲｕ－ｊｉｎｌ，２ｏｆＳｃｉｅｎｃｅｓ，Ｃｈｅｎｇｄｕ６１０２０９，Ｃｈｉｎａ；（１．ＩｎｓｔｉｔｕｔｅｏｆＯｐｔｉｃｓａｎｄＥｌｅｃｔｒｏｎｉｃｓ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙ２．ＧｒａｄｕａｔｅＳｃｈｏｏｌｏｆＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１０００３９，Ｃｈｉｎａ）ａｌｇｏｒｉｔｈｍｓｆｏｒｏｐｔｉｍｉｚａｔｉｏｎａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｗｈｉｃｈｗｅｒｅｄｅｓｉｇｎｅｄｆｏｒｎｏｔＡｂｓｔｒａｃｔ：ＴｈｅｔｒａｄｉｔｉｏｎａｌＳｏｂｌｅｅｄｇｅｄｅｔｅｃｔｉｏｎｃｏｍｍｏｎｐｒｏｃｅｓｓｏｒｓｕｃｈｆａｓｔＳｏｂｅｌａｓＣＰＵ，ＤＳＰａｎｄＦＰＧＡ，ｃｏｕｌｄｂｅｅｆｆｅｃｔｉｖｅｌｙａｐｐｌｉｅｄｏｎＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｏｒＵｎｉｔ（ＧＰＵ）．Ａｅｄｇｅｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｉｓｗｅｓ钮ｔｅｄｂａｓｅｄｔｈｅｔｏｏｎＮＶＩＤＡ，ｓＧＰＵｗｈｉｃｈｓｕｐｐｏｒｔＣｏｍｐｕｔｅＵｎｉｆｉｅｄＤｅ、，ｉｃｅＡｒｃｈｉｔｅｃｔｕｒｅ（ＣＵＤＡ）．ＯｎｉｎｔｒｏｄｕｃｅｓｔｈｒｅｅｓｔｏｒａｇｅｂａｓｉｓｏｆｔｈｅｐａｒａｌｌｅｌａｒｃｈｉｔｅｃｔｕｒｅａｎｄｈａｒｄｗａｒｅｃｈａｒａｃｔｅｒｉｓｔｉｃｏｆＧＰＵ，ｔｈｅｆａｓｔａｌｇｏｒｉｔｈｍｍｅｔｈｏｄｓｉｍｐｒｏｖｅｔｈｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｐｅｒｆｏｒｍａｎｃｅ：ＴｅｘｔｕｒｅＳｔｏｒａｇｅｔｅｃｈｎｏｌｏｇｙｏｐｔｉｍｉｚｅｓｔｈｅｄａｔａ８Ａ３ＣＣＳＳｓｔｒｕｃｔｕｒｅ，ｍｕｌｔｉｐｌｅｐｏｉｎｔｒｅｄｕｃｅｓｔｈｅｔｅｃｈｎｏｌｏｇｙｉｍｐｒｏｖｅｓｔｈｅｄａｔａａｃｃｅｓｓｅｆｆｉｃｉｅｎｃｙ，ａｎｄｓｙｍｍｅｔｒｙｃｏｍｐｕｔａｔｉｏｎｔｅｃｈｎｏｌｏｇｙｃｏｍｐｕｔａｔｉｏｎｃｏｍｐｌｅｘ．ＴｈｅｅｘｐｅｒｉｍｅｎｔｒｅｓｕｌｔｓｈｏｗｓｔｈａｔＧＰＵＣａｎｅｆｆｅｃｔｉｖｅｌｙｉｍｐｌｅｍｅｎｔｔｈｅｆａｓｔＣａｌｌａｌｇｏｒｉｔｈｍａｎｄｐｒｏｃｅｓｓｉｎｇｓｐｅｅｄｏｆ８－ｂｉｔ４０９６ｘ４０９６ｐｉｃｔｕｒｅｓｂｅｕｐｔｏ１９０ｆｐｓ，ｗｈｉｃｈｉｓ１２２ｔｉｍｅｓ‘ｆａｓｔｅｒｔｈａｎＣＰＵ－ｂａｓｅｄｉｍｐｌｅｍｅｎｔａｔｉｏｎ．Ｋｅｙｗｏｒｄｓ：ＧＰＵ；ＣＵＤＡ；Ｓｏｂｅｌ；ｅｄｇｅｄｅｔｅｃｔｉｏｎ０引言ＵｎｉｆｉｅｄＤｅｖｉｃｅ随着ＧＰＵ技术的快速发展，当前的ＧＰＵ已经具有很强的并行计算能力，浮点运算能力甚至可以达同代ＣＰＵ的１０倍以上¨１。同时，随着Ｎｖｉｄｉａ公司的ＣＵＤＡ（ＣｏｍｐｕｔｅＡｒｃｈｉｔｅｃｔｕｒｅ，统一计算设备架构）结构的推出，使得ＧＰＵ具有更好的可编程性，因此在诸如物理系统模拟ｉ２剖、金融建模［４－５１以及地球表面测绘№１等通用计算领域有着广泛的应用。如何充分利用ＧＰＵ的并行计算特点实现一些复杂运算的快速求解，已经成为当今的热点问题之一。边缘检测能够得到丰富的图像信息，广泛应用于目标跟踪、图像压缩和机器视觉等领域。Ｓｏｂｅｌ算子是一种基于梯度的边缘检测方法，检测效果较好，运算复杂度适中，在实时图像处理中常常被采用。然而收稿日期：２００８－０８＿０７Ｉ收到修改稿日期：２００８一１１．０３基金项目：８６３高技术项目作者简介：左颢睿（１９８卜），男（汉族），四川绵阳人。博士研究生，主要从事并行计算和图像复原的研究工作．Ｅ－ｍａｉｌ；ｚｕｏｈａｏｍｉ＠ｓｉｎａ．ｃｏｍ。万方数据２００９年１月左颢睿等：基于ＧＰＵ的快速Ｓｏｂｃｌ边缘检测算法９基于Ｓｏｂｅｌ算子的边缘检测算法包含二维相关运算ｕＪ，当图像分辨力较高时，运算量很大，如何降低算法的复杂度以及在特定硬件平台上提高算法的执行效率是当前研究的重点。文献［８】介绍了经典的算法优化方法，将二维Ｓｏｂｅｌ算子分解为二个一维向量分别进行运算，降低了约１／３的运算复杂度，适合并行实现。文献【９．１０】分别介绍了在ＦＰＧＡ和ＤＳＰ上高效实现算法的方法，文献［９］在计算四方向边缘检测时可高达２００Ｍｐｉｘｅｌ／ｓ。这些优化和实现的方法大都针对常用处理器（ＣＰＵ、ＤＳＰ和ＦＰＧＡ等）提出的，ＧＰＵ是新兴的处理平台，传统方法很难在ＧＰＵ上高效运行。因此本文结合ＧＰＵ的硬件结构和算法特点，从存储结构，数据访问和计算方法三个方面对经典Ｓｏｂｅｌ算法进行了优化，介绍了在ＧＰＵ上高效实现Ｓｏｂｌｅ边缘检测算法的方法。１Ｓｏｂｅｌ算子经典Ｓｏｂｅｌ边缘检测算子由图１所示的两个模板组成Ｕ１，一个核对应于垂直边缘，一个对应于水平边缘。对于图像中的每个点都用图ｌ中的两个模板做相关运算，对于输入数字图像工输出图像ｇ由下列公式得到：ｇ。可（ｆ一１，ｊ＋１）＋２ｆ（ｉ，ｊ＋１）＋ｆ（ｉ＋ｌ，＿，＋１）一ｆ（ｉ—ｌ，歹一１）一２ｆ（ｉ，Ｊ一１）一ｆ（ｉ＋ｌ，ｊ『一１）９２可Ｏ＋ｌ，Ｊ一１）＋２ｆ（ｉ＋ｌ，歹）＋ｆ（ｉ＋ｌ，ｊ＋１）一ｆ（ｉ一１，，一１）一２ｆ（ｉ—ｌ，＿，一１）一ｆ（ｉ—ｌ，Ｊ—１）ｇ＝Ｉｇ。Ｉ＋１９２（１）（２）（３）式中：ｇｌ，９２是垂直方向和水平方向的卷积，Ｓｌ是垂直方向算子，是是水平方向算子，１．Ｉ表示取绝对值，运算示意图如图２所示。图１Ｆｉｇ．１Ｓｏｂｅｌ边缘检测算子ＳｏｂｃｌｅｄｇｅｄｅｔｅｃｔｉｏｎｏｐｅｘａｔｏｒＦｉｇ．２图２Ｓｏｂｅｌ边缘检测算法示意图ｅｄｇｅｄｅｔｅｃｔｉｏｎＣｏｍｐｕｔａｔｉｏｎｏｆＳｏｂｌｅａｌｇｏｒｉｔｈｍ２用ＧＰＵ实现快速边缘检测算法２．１使用纹理（Ｔｅｘｔｕｒｅ）类型存储图像数据Ｓｏｂｌｅ边缘检测算法（简称边缘检测）是基于模板运算的，在计算时要使用当前输入点的８邻域数据，并且前点与后点之间的存储访问高度相关，如果使用普通存储类型，每次访问都要重新从全局存储器（ＧｌｏｂａｌＭｅｍｏｒｙ）中访问所有的数据，很多点被重复读取，访问效率低；同时模板运算会产生边界问题，即模板在图像的边缘时和通常的处理方式不同，这就需要设置边界处理条件，但是额外的条件语句会大大降低并行计算效率¨】，因此需要采用一种合适的数据存储方式。纹理类型（简称纹理）是ＧＰＵ定义的一种存储类型，为图像处理提供了优化，在图像处理中有广泛的应用，如图像去噪¨¨、图像卷积ｕ卅等。纹理具有一组高速的纹理缓存（ｔｅｘｔｕｒｅｃａｃｈｅ），能够保存最近访问的数据，从缓存中访问数据与访问ＧＰＵ寄存器的速度相当；通过设置纹理的属性，ＧＰＵ在访问纹理时能够自动进行边界条件的处理，如访问ｆ（－１，一１）可以直接返回／（０，Ｏ）的值。因此，在边缘检测时采用纹理存储方式，可以很好的满足应用的需求，纹理的其他特性详见【ｌ】。使用纹理非常简洁，首先使用ｃｕｄａＢｉｎｄＴｅｘｔｕｒｅＴｏＡｒｒａｙ０将保存图像数据的数组绑定到一个纹理对象，然后使用ｔｅｘ２Ｄ（）函数访问该纹理对象，就可利用纹理存储类型的特性对图像数据进行操作，需要注意的是纹理的只读特性，只能作为数据输入，不能用纹理作为输出。２．２多点访问技术万方数据１０光电工程第３６卷第１期从图２中可以看到，边缘检测每计算一个输出点，需要从存储器中读取９个数据。计算后这些数据就被丢弃，下一次计算需要重新从存储器中取点，很多点被重复读取，访问效率低。根据相关运算存储器的访问是层叠的特点，可以采用多点访问技术来提高数据的访问效率：ＧＰＵ一次读取多个连续的数据放置在寄存器中，后点计算重复访问放置在寄存器中的前点，无须重复访问全局存储器，处理后输出多个处理结果。由于ＧＰＵ从全局存储器访问一个数据需要约４００～６００个时钟周期，而直接从寄存器访问数据只需４个时钟周期，这就大大提高了ＧＰＵ的访问效率。访问方式如图３所示。从图３可以看到，当连续计算４个输出点时，共需访问１８个输入点，与原来的３６个点相比，减少了５０％的存储器访问。在输出图像数据时，每次生成的４个存储位置连续的８位数据（本文处理的图像数据为８位）可以看作一个３２位数据，在ＧＰＵ中，传输一个８位数据和传输３２位数据所需时间是相同的，因此每次输出４个点比输出１个点可以减少７５％的存储器访问。在垂直方向上读取多个点也有此性质，本文以行访问为例。需要注意的是每线程访问多个元素能有效提高存储访问效率，但Ｆｉｇ・３图３多点访问方式Ｍｕｌｔｉｐｌｅｐｏｉｎｔｓａｃｃｅｓｓｍｅｔｈｏｄ是占用更多的ＧＰＵ寄存器，特别在线程内部计算复杂时，会影响ＧＰＵ地并行性【ｌ】＇因此在程序设计时要兼顾访问效率和并行性，在后文中有进一步讨论。２．３对称计算技术Ｓｏｂｅｌ算子具有良好的对称性，如图ｌ中算子岛所示，算子的第一列和第三列仅仅是符号相反，在每次只计算一个输出点时由于输入各点取值不同，无法利用该对称性，但是在采用图３所示的多点输入多点输出方式时，计算输出点甙ｆ－卜２，力可以利用计算点ｇ（ｉ，力时得到的部分计算结果，计算图３中４个输出点的表达式如下：９２（ｆ＋ｍ，／）＝ｆ（ｉ＋ｍ＋１，Ｊ—１）＋２ｆ（ｆ＋ｍ＋１，／）＋ｆ（ｉ＋，行＋１，Ｊ＋１）一ｆ（ｉ＋ｍ—Ｊ，，／一１）一２ｆ（ｉ＋ｍ一１，Ｊ一１）一ｆ（ｉ＋ｍ一１，Ｊ一１）；０≤ｍ≤３（４）当ｍ－－０时式（４）前３项计算的结果与ｍ＝２时后３项计算结果互为相反值，ｍ＝ｌ与ｍ＝３时也有类似性质，计算时对这些项只需计算一次。采用对称计算后，在水平方向上，每计算４个输出点可以减少２列６个数据的乘加运算。利用Ｓｏｂｅｌ算子的对称性，在降低运算的复杂度的同时还减少了ＧＰＵ寄存器的使表１普通计算与对称计算ＧＰＵ寄存器使用数量和并发程度Ｔａｂｌｅ１ＧＰＵｒｅｇｉｓｔｅｒｓａｎｄｃｏｍｐｕｔａｔｉｏｎｒｅｓｏｕｒｃｅｕｓａｇｅｂｅｔｗｅｅｎｎｏｒｍａｌｃｏｍｐｕｔａｔｉｏｎａｎｄｓｙｍｍｅｔｒｙｃｏｍｐｕｔａｔｉｏｎ用数量，提高了ＧＰＵ的并行性。表ｌ列出了普通运算和利用对称性运算时每线程ＧＰＵ寄存器的使用情况以及系统的并发程度。从表１中可以看到，利用Ｓｏｂｅｌ算子的对称性，每线程输出４个或８个数据时，可以有效降低寄存器的使用数量，ＧＰＵ利用率得到提高，当每线程输出１６个数据时，由于线程内部计算复杂，需要缓存的中间变量过多，寄存器使用数量并没有减少。和多点访问技术类似，使用对称处理技术每线程输出更多的点，可以进一步减少运算的次数，但是会降低ＧＰＵ的并行性，因此不能无的增加每线程输出点的个数，应在４—８个间考虑。万方数据２００９年１月左颢睿等：基于ＧＰＵ的快速Ｓｏｂｅｌ边缘检测算法１ｌ２．４配置ＧＰＵ处理核心在ＧＰＵ中进行任何计算，都需要为计算配置一个处理核・Ｉ已，（Ｋｅｍｅｌ），用以对要处理问题的进行划分，配置项包括问题的分块（Ｂｌｏｃｋ）数ＧｒｉｄＤｉｍ以及每个分块内线程（Ｔｈ陀ａｄ）数ＢｌｏｃｋＤｉｍ。ＧｒｉｄＤｉｍ由问题的规模和处理方式来确定，在边缘检测中，图像中的每个点都要在其邻域内进行运算，通常是以行序对点进行处理，为了寻址方便，可以把图像的行数作为ＧｒｉｄＤｉｍ，例如处理Ⅳ（行）×朋【列）Ｍ坞的图像，Ⅳ即为ＧｒｉｄＤｉｍ的值，每个Ｂｌｏｃｋ处理１行图像数据。ＢｌｏｃｋＤｉｍ可以由ＣＵＤＡ提供的工具ＣＵＤＡＯｃｃｕｐａｎｃｙ惶６—鳓娥ｋＤｉ廿＝“－‘：一。Ｖ。１６８０１４４八八．卅２０８２７２ＧＰＵｐｅｒｆｏｒｍａｎｃｅｕｎｄｅｒ……一３３６４００ＤｌＵＣ＾■．几ＩＩＦＪ．—‘ＵＣａｌｃｕｌａｔｏｒ（简称Ｃａｌｃｕｌａｔｏｒ）得到，Ｃａｌｃｕｌａｔｏｒ以每线程占用的寄存器数目作为输入，可以得到不同ＢｌｏｃｋＤｉｍ取值下ＧＰＵ的性能曲线。当采用多点访问和对称计算技术后，每次输出４个数Ｏ４６４Ｔｈｒｅａｄｓｐｅｒｂｌｏｃｋ据，此时每线程占用２３个寄存器，在不同ＢｌｏｃｋＤｉｍ取值下ＧＰＵ的性能曲线如图４所示。从图４可以看到，当ＢｌｏｃｋＤｉｍ取值为６４或３２０时图４不同ＢｌｏｃｋＤｉｍ下ＧＰＵ的性能Ｆｉｇ．４ｄｉｆｆｅｒｅｎｔＢｌｏｃｋＤｉｍ（ＢｌｏｃｋＤｉｍ应是６４的整数倍‘１１），ＧＰＵ在理论上性能够达到最优。在实际情况中，性能受多方面因素的影响，如块切换，每线程的运算复杂度以及存储器访问延迟等，因此ＢｌｏｃｋＤｉｍ应根据实验结果在多个最优值间选取。根据上述分析，图５给出了基于Ｓｏｂｅｌ算子的边缘检测的处理核心的配置示意图。图５Ｆｉｇ．５ＧＰＵ处理核心配置示意图ＧＰＵＫｅｒｎｅｌｃｏｎｆｉｇｕｒａｔｉｏｎ３实验结果与分析本文所采用的实验平台为ＩｎｔｅｌＧＦ８８００Ｃｏｒｅ２Ｑ６６００，主频为２．４ＧＨｚ，系统内存为４Ｇ，显卡采用的是ＧｅＦｏｒｃｅＵｌｔｒａ，显卡内存为７６８Ｍ，显卡的核心频率为６１２ＭＨｚ。驱动的版本为６．１４．１１．６９０９，操作系统为ＷｉｎｄｏｗＳＸＰ，整个实现基于ＣＵＤＡＳＤＫｌ．１，实验数据为不同分辨力的８位ＭｘＭ灰度图像，ＧｒｉｄＤｉｍ＝尬ＢｌｏｃｋＤｉｍ＝６４。表２列出了在ＧＰＵ上和ＣＰＵ上执行Ｓｏｂｌｅ算子边缘检测的实验结果。从表２中可以得到如下结论：ａ）在ＧＰＵ上执行边缘检测算法相比ＣＰＵ有明显的加速效果。在处理４０９６×４０９６分辨力的图像时，加速比高达１２２倍。一方面因为ＧＰＵ高度的并行架构，能够同时处理多个数据，另一方面因为边缘检测算法有良好的可分块性和对称性，可以充分利用ＧＰＵ的并行架构，因此在处理类似表２不同分辨率图像边缘检测需要的时间Ｔａｂｌｅ２Ｔｉｍｅｃｏｓｔｏｆｄｉｆｆｅｒｅｎｔｒｅｓｏｌｕｔｉｏｎｐｉｃｔｕｒｅｓ问题时采用ＧＰＵ能够有效提高运算效率。ｂ）ＧＰＵ处理低分辨力图像的加速效果并不明显，对高分辨力图像效果较好。当Ｍ＝２５６与Ｍ＝－５１２时，万方数据光电工程第３６卷第１期两者的数据量差了４倍，所需的处理时间几乎相同。这种情况随着图像分辨力的提高得到改善，当Ｍ＝２０４８与Ｍ＝４０９６时，处理时间基本上与处理数据量成线性关系。这是因为分辨力较低时每个线程的运算量不充分，线程切换频繁，系统调度的开销占用了较多执行时间，当分辨力较高时，每线程处理数据增多，系统调度占用的执行时间也较∥¨‘１川。因此使用ＧＰＵ进行边缘检测时，在处理分辨力较高的图像（』畛４时能达到更高的性能。０９６）４结论通过采用纹理存储技术，多点访问技术以及对称计算技术，在ＧＰＵ上实现了基于Ｓｏｂｅｌ算子的边缘检测算法。对分辨力为４０９６×４０９６的图像进行处理时，速度可达１９０帧／秒，相比ＣＰＵ实时性有很大的提高。算法实现时采用的技术具有通用性，可以应用于类似的边缘检测算子如Ｐｒｅｗｉｔｔ算子和Ｋｉｒｓｃｈ算子，对于其他类型算法的ＧＰＵ实现也有借鉴作用。参考文献：【１】Ｎｖｉｄｉａ．ＮＶＩＤＩＡ【２】２ＴａｋａｈｉｒｏＣＵＤＡＰｒｏｇｒａｍｍｉｎｇＧｕｉｄｅｖｅｒｓｉｏｎ１．１［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ｎｖｉｄｉａ．ｃｏｒｒ＃ｏｂｊｅｃｆｆｅｕｄａ＿ｈｏｍｅ．ｈｔｍｌ，２００７．１１．ｏｎＨａｒａｄａ．Ｒｅａｌ－ＴｉｍｅＲｉｇｉｄＢｏｄｙＳｉｍｕｌａｔｉｏｎＧＰＵｓ【Ｇ］／／ＮＶＩＤＩＡ．ＧＰＵＧＥＭＳ３．ＡｄｄｉｓｏｎＷｅｓｌｅｙＰｒｏｆｅｓｓｉｏｎａｌ，２００７：６１１—６３２．［３】ＬａｒｓＮｙｌａｎｄ，ＭａｒｋＨａｒｒｉｓ，ＪａｎＰｒｉｎｓ．ＦａｓｔＮ－ＢｏｄｙＳｉｍｕｌａｔｉｏｎｗｉｔｈＣＵＤＡ【ｑ／／ＮＶＩＤＩＡ．ＧＰＵＧＥＭＳ３．ＡｄｄｉｓｏｎＷｅｓｌｅｙＰｒｏｆｅｓｓｉｏｎａｌ，２００７：６７７—６９６．【４】ＶｉｃｔｏｒＰｏｄｌｏｚｌｍｙｕｋ，ＭａｒｋＨａｒｒｉｓ．ＭｏｎｔｅＣａｒｌｏ２００７—１１—２１．ＯｐｔｉｏｎＰｒｉｃｉｎｇ［ＥＢ／ＯＬ，］．ｈｔｔｐ：／／ｗｗｗ．ｎｖｉｄｉａ．ｃｏｍ／ｏｂｊｅｅＶｃｕｄａｈｏｍｅ．ｈｔｍｌ，【５】ＶｉｃｔｏｒＰｏｄｌｏｚｈｎｙｕｋ，Ｂｌａｃｋ－Ｓｃｈｏｌｅｓｏｐｔｉｏｎｐｒｉｃｉｎｇ【ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ｎｖｉｄｉａ．ｃｏｍ／ｏｂｊｅｃｔ／ｃｕｄａｈｏｍｅ．ｈｔｍｌ，２００７．０４．０６ＣＵＤＡ［Ｇ】／／ＮＶＩＤＩＡ．ＧＰＵＧＥＭＳ３．Ａｄｄｉｓｏｎ【６】ＢｅｒｎａｒｄＤｅｓｃｈｉｚｅａｕｘ，Ｊｅａｎ—ＹｖｅｓＢｌａｎｃ．ＩｍａｇｉｎｇＥａｒｔｈ’ｓＳｕｂｓｕｒｆａｃｅＵｓｉｎｇＷｅｓｌｅｙＰｒｏｆｅｓｓｉｏｎａｌ，２００７：８３ｌ一８５０．【７】ＤａｖｉｓＬＳ．ＡＳｕｒｖｅｙｏｆＥｄｇｅＤｅｔｅｃｔｉｏｎＴｅｃｈｎｉｑｕｅｓ【Ｊ】．ＣＧＩＰ，１９７５（４）：２４８－２７０．【８】托马斯・布劳恩．并行图像处理［Ｍ】．李俊山，译．西安：西安交通大学出版社，２００３：２９－３１．【９】ＮａｔａｌｉａＫａｚａｋｏｖａ，ＭａｒｔｉｎＭａｒｇａｌａ，ＮｅｌｓｏｎＧＳｙｓｔｅｍ［ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓＤｕｒｄｌｅ．ＳｏｂｅｌＥｄｇｅＤｅｔｅｃｔｉｏｎＰｒｏｃｅｓｓｏｒＦｏｒＡＲｅａｌ－ＴｉｍｅＶｏｌｕｍｅＲｅｎｄｅｒｉｎｇｏｆｔｈｅ２００４ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍ，Ｍａｙ２３—２６，２００４，２：９１３—９１６．【ｌｏ】谭立勋，刘缠牢，李春燕．实时图像处翟中Ｓｏｂｅｌ算子的改进叨．弹箭与制导学报，２００６，２６（１）：２９１—２９３．ＴＡＮＬｉ－ｘｕｎ，ＬＩＵＣｈａｎ－ｌａｏ，ＬＩＣｈｕｎ。ｙａｈ．ＡｎＩｍｐｒｏｖｅｄＳｏｂｅｌＡｌｇｏｒｉｔｈｍｉｎＲｅａｌ—ｔｉｍｅＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ【Ｊ】．ＪｏｕｒｎａｌｏｆＰｒｏｊｅｃｔｉｌｅｓ，Ｒｏｃｋｅｔｓ，ＭｉｓｓｉｌｅｓａｎｄＧｕｉｄａｎｃｅ（Ｓ１６７３－９７２８），２００６，２６（１）：２９１—２９３．【１１】ＡｌｅｘａｎｄｅｒＫｈａｒｌａｍｏｖ，ＶｉｃｔｏｒＰｏｄｌｏｚｈｎｙｕｋ．ＩｍａｇｅＤｅｎｏｉｓｉｎｇ［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ｎｖｉｄｉａ．ｃｏｍ／ｏｂｊｅｃｔ／ｃｕｄａ＿ｈｏｍｅ．ｈｔｍｌ，２００７．０５一１６．［１２】ＶｉｃｔｏｒＰｏｄｌｏｚｈｎｙｕｋ．ＩｍａｇｅＣｏｎｖｏｌｕｔｉｏｎｗｉｔｈＰａｒａｌｌｅｌＲｅｄｕｃｔｉｏｎｉｎＣＵＤＡ［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ｎｖｉｄｉａ．ｅｏｍ／ｏｂｊｅｃｔ／ｃｕｄａ＿ｈｏｍｅ．ｈｔｍｌ，２００７—０１－０６．ＣＵＤＡ［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ｎｖｉｄｉａ．ｃｏｍ／ｏｂｊｅｃｔ／ｃｕｄａ＿ｈｏｍｅ．ｈｔｍｌ，２００７—１１．ｇｅｎｅｒａｌａｒｉｔｈｍｅｔｉｃｅｘｐｒｅｓｓｉｏｎｓ【Ｊ】．ＪｏｕｒｎａｌｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔｉｎｇ【１３】ＭａｒｋＨａｒｒｉｓ．Ｏｐｔｉｍｉｚｉｎｇ【１４】ＲｉｃｈａｒｄＰＢｒｅｎｔ．ＴｈｅｐａｒａｌｌｅｌｅｖａｌｕａｔｉｏｎｏｆＭａｃｈｉｎｅｒｙ（Ｓ０００４－５４１１），１９７４，２１：２０１—２０６．万方数据

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文