一、综合量化方法与编程计算(论文文献综述)
许柯[1](2021)在《深度神经网络加速器软硬件协同设计方法研究》文中研究表明深度神经网络(Deep Neural Network,DNN)在计算机视觉、自然语言处理、语音识别等领域取得了显着的成果。然而,高昂的计算和存储成本给基于DNN算法的部署,尤其是面向硬件资源有限的嵌入式设备,带来了巨大的挑战。近几年,关于神经网络压缩的研究逐渐成为学术界和工业界关注的热点方向。然而,部分压缩算法设计并没有与实际的加速器场景相结合,导致算法的理论压缩性能与实际硬件加速效果存在巨大差距。为了解决此问题,本文将模型剪枝、量化的压缩算法与基于现场可编程门阵列(Field-Programmable Gate Array,FPGA)的硬件架构设计相结合,实现了高吞吐率、低延时的DNN加速器。本文采用软硬件协同设计的方法,从硬件约束的压缩算法、算法硬件耦合优化、硬件设计适配压缩算法和系统级的目标检测加速器应用四个层次展开深入研究,主要的创新研究成果包括:(1)从硬件约束的压缩算法层面,本文以优化的遗传算法为基础,结合硬件约束对模型各层的剪枝率和量化位宽实现高效搜索。剪枝阶段,本文提出了基于模型参数量与计算量多目标优化策略,极大地缓解了因模型参数计算密度不同导致的模型剪枝结果不均衡的问题。实验表明,在Image Net数据集上,本文所提出的剪枝方案可以使Res Net50模型的计算量减少80%且没有精度损失;量化阶段,本文提出了基于小样本量化学习的快速评估方法,有效缓解了因量化损失导致的量化搜索评估与微调结果相关性差的问题并极大的提高了混合精度搜索的效率。在CIFAR-10和Image Net数据集上的实验结果表明,本文的混合精度方法优于其他的混合精度和均匀量化方法。(2)从算法硬件耦合优化层面,本文充分利用了剪枝模型的稀疏性和量化模型的数据独立性,提出了先累加后乘法的稀疏卷积(Accumulate-Before-Multiply Sparse Convolution,ABM-Sp Conv)计算方法。将传统的逐点乘累加(Multiply Accumulate,MAC)耦合卷积计算模式,通过合并同类项的方式拆解为累加与乘法操作解耦的两阶段卷积操作,然后根据模型权重的稀疏编码跳过零值计算,从理论上减少了卷积计算阶段乘法的计算次数,提高了稀疏卷积的计算效率和并行能力。(3)从硬件设计适配压缩算法层面,利用ABM-Sp Conv计算方法,本文提出了一个由“大”累加器阵列和“小”乘法器阵列组成的异构稀疏卷积计算单元,使其可以独立地执行累加和乘法两个阶段的卷积计算,以提供更大的灵活性来平衡FPGA片上逻辑和DSP(Digital Signal Processor)资源的利用。其次,本文采用异步的卷积设计,每个计算单元都有本地缓冲区和控制逻辑,可以独立执行具有不同工作负载的卷积任务,缓解了因稀疏数据的不规则性造成的计算负载不均衡的问题。最后,加速器采用全参数化的设计,利用自主开发的自动化设计空间探索引擎实现了从嵌入式平台到高性能FPGA板卡的部署。(4)从系统级的目标检测加速器应用层面,本文实现了一个基于YOLOv2的FPGA实时目标检测加速器系统。首先利用算子融合、剪枝、量化等压缩方法,实现了YOLOv2模型参数量20倍压缩,计算量7倍压缩。压缩模型在PASCAL VOC 2007数据集上保持74.45%的平均查准率均值(mean Average Precision,m AP)。然后,设计了包含最大池化在内的深度流水化稀疏硬件加速器架构。最后,借助参数空间探索将YOLOv2模型部署到Intel Arria-10 GX1150 FPGA板卡上,达到了72帧/秒的实时检测速度。
杨晓静[2](2021)在《圆筒型磨机中冲击和研磨两类机制的磨矿贡献及其量化分离》文中指出圆筒型磨机磨矿广泛应用于矿山、冶金、建材、化工等工业行业的固体矿产资源加工,提高磨机生产处理能力和优化调节磨矿产物粒度组成对于提高经济效益和资源回收利用率具有十分重要的意义。理论上,圆筒型磨机磨矿过程主要通过磨机筒体的转动提升磨矿介质对被磨物料施加冲击作用和研磨作用而使物料粒度尺寸减小,因此,磨矿介质的运动状况是影响磨矿效果的直接和关键因素。然而,磨机运转时磨矿介质的冲击作用和研磨作用同步并存、连续发生、分区施力、周期转化,使得两者的磨矿贡献难以分割和独立量化表征。这一状况无疑制约了有关磨矿过程和行为的理论解析及其“白箱”化进程,进而影响了磨矿模拟预测与优化实践。据此,本文从成分较简单的矿物磨矿入手,以石英、磁黄铁矿、黄铁矿三种矿物样品为研究对象,通过落重试验、研磨磨矿试验、抛落磨矿试验等方法,结合MATLAB编程和Origin函数拟合方法,借助磨矿总体平衡动力学理论,研究圆筒型磨机中冲击作用和研磨作用两类机制的磨矿特征以及两者在抛落磨矿中各自磨矿贡献率的量化分离与耦合变化特征。采用落重试验进行矿物样品冲击破碎特性研究,得到了三种矿物样品抵抗冲击破碎能力的硬度等级结果和表征冲击破碎特性的粒能关系方程,揭示了冲击比破碎能等因素对矿物样品破碎特性的影响规律,为磨矿总体平衡动力学模拟提供了最直接的破碎试验基础数据。三种矿物样品的落重破碎试验结果表明,冲击破碎产物的粒度组成分布范围宽,涵盖了从“0”到接近给料粒级尺寸的全部粒度尺寸;且冲击比破碎能存在临界值和“能垒”效应,其他因素的影响规律受冲击比破碎能的影响。在圆筒型磨机低速研磨磨矿试验中,通过改变给料粒度、样品种类、磨矿时间等磨矿影响因素,研究得到研磨磨矿的产物粒度分布结果和磨矿行为特征。结果表明,低速研磨磨矿是一个低能磨矿过程,其产物粒度组成与冲击破碎差异很大,突出表现为产物粒级分布不均,集中“两端”,即临近给料自身原始粒度的第二个粗粒级和-0.038 mm的微细颗粒,“磨削”特征明显。给料粒度和矿物样品种类影响研磨磨矿行为,从磨矿产物各细粒级生成速率看,矿物硬度越小,或给料粒级粒度越小,相同细粒级的生成速率越大;但从给料粒级的自身破碎率看,矿物样品的破碎率及其增速与给料粒度和矿物硬度的相关性较为复杂,没有明显的一致性规律。在圆筒型磨机高速抛落磨矿试验中,研究得到抛落磨矿的产物粒度分布结果和磨矿行为特征。结果表明,高速抛落磨矿是一个高能磨矿过程,其产物粒度组成中的主要粒级数量多,粒度分布范围宽,与低速研磨磨矿结果差异大,与冲击磨矿的产物粒度分布相近。三种矿物样品在抛落磨矿中的破碎率与磨矿时间呈正相关增长关系,并与矿物硬度相关,磁黄铁矿和黄铁矿破碎率接近,均大于石英,石英最难被磨碎。三种矿物样品在抛落磨矿过程中生成各产物粒级的速度与矿物样品的硬度有关,石英磨矿产物的生成速率始终最小,磁黄铁矿和黄铁矿的磨矿产物生成速率相对较大,且两者的相对大小与给料粒度有关。抛落磨矿各产物粒级的生成速率均比研磨磨矿大。基于落重试验和抛落磨矿试验结果,模拟构建了仅有冲击作用的假想冲击磨矿及冲击磨矿总体平衡动力学模型,求解了模型参数,得到了模拟磨矿结果。冲击磨矿模拟结果的构建方法和步骤主要包括产物粒级划分、冲击比破碎能计算、任意相对粒度尺寸的负累积产率计算、破裂分布函数计算、选择函数获取、总体平衡方程Reid解求解。研究表明,总体平衡动力学方程的选择函数随磨矿时间的延长而呈现下降趋势,粗粒级的选择函数比细粒级的变化显着,且选择函数随给料粒度的减小而下降。采用磨矿技术效率作为磨矿效果表征指标,可以更好地反映磨矿目的的实现程度。磨矿方式显着影响磨矿技术效率,其中,研磨磨矿的技术效率显着低于冲击磨矿和抛落磨矿,抛落磨矿的技术效率最高,冲击磨矿和抛落磨矿的技术效率更接近,变化趋势更相似。磨矿技术效率与矿物样品硬度密切相关,大多数情况下,矿物硬度越大,其合格粒级的磨矿技术效率越小。按照归一化思想将冲击磨矿和研磨磨矿的磨矿技术效率耦合到抛落磨矿的磨矿技术效率中,通过引入耦合因子建立三种磨矿方式的磨矿技术效率数量关联关系,得到了抛落磨矿中冲击和研磨两类磨矿机制各自磨矿贡献率的计算方法和数量结果,实现抛落磨矿中两类磨矿机制贡献率的量化分离。研究表明,抛落磨矿中冲击作用和研磨作用的贡献率随磨矿时间变化,总体上,冲击作用的贡献率随磨矿时间延长呈整体上升,并逐渐趋于稳定,而研磨作用贡献率正好相反,在本文试验条件下,磨矿过程以冲击作用贡献为主,研磨作用贡献为辅。抛落磨矿中冲击作用和研磨作用的贡献率也与给料粒度有关,冲击作用贡献率随给料粒度的减小而降低,研磨作用贡献率则逆向增加。抛落磨矿中冲击作用和研磨作用的贡献率会随磨矿条件变化波动,其波动范围与矿物样品硬度有关,石英的贡献率波动范围最小,磁黄铁矿与黄铁矿较为相近。综上,论文首次提出在圆筒型磨机内将磨矿介质的冲击作用和研磨作用的磨矿贡献进行量化分离表征的磨矿解析新方法,建立了集JK落重冲击破碎、研磨磨矿、抛落磨矿等试验方法和传统磨矿动力学拟合及磨矿总体平衡动力学模拟方法相结合的完整技术路线和试验计算步骤,实现了抛落磨矿中冲击和研磨两类机制的磨矿贡献率的量化分离。研究成果创新了磨矿解析的方法途径,丰富了磨矿解析理论,对磨矿模拟和优化具有重要的方法借鉴意义和实践指导价值。
龚豪杰[3](2021)在《基于FPGA的卷积神经网络加速方法研究与实现》文中研究指明在空天领域,遥感图像处理一直在推进智能化发展,卷积神经网络(Convolutional Neural Networks,CNN)等人工智能算法正在逐步取代传统算法。为适应未来更加复杂的任务场景,卷积神经网络算法发展迅速,星上系统需要实现卷积神经网络的快速部署,并且已经部署的卷积神经网络需要根据目标需求实现快速的优化迭代。目前星上系统广泛使用的硬件平台是现场可编程门阵列(Field Programmable Gate Array,FPGA),在面向卷积神经网络等复杂算法时,传统的使用硬件描述语言开发FPGA的方式开发难度大,研发周期长,或者使用高抽象层次设计工具开发,虽然研发周期缩短,但性能不佳。因此,本文的研究重点是在保证卷积神经网络的快速部署和迭代的基础上提升网络的性能。本文的主要工作包括以下几个方面:(1)对网络的压缩优化和基于FPGA的卷积神经网络加速的现状进行了分析总结,为后续网络优化和加速器的硬件设计确立了研究方向和内容,对卷积神经网络和FPGA的相关理论进行介绍,并根据项目需求,对Res Net18卷积神经网络做了详细介绍,为后续的设计作铺垫。通过对比不同开发工具的优劣确定了本文的开发工具,以实现卷积神经网络快速部署迭代的目标。(2)以ResNet18为研究对象,研究了卷积神经网络优化策略。首先分析了Res Net18的网络结构,采用两种方式对网络进行优化,通过卷积层与批归一化(Batch Normalization,BN)层的融合减少网络模型复杂度,然后通过模型量化将网络的输入数据和权值由原来的浮点数量化为有符号的8bit定点数。在UCMerced_Land Use数据集上对优化前后的网络进行测试,结果表明网络对图像的分类准确度基本没有下降,而网络规模下降为原来的四分之一。(3)基于卷积计算过程,提出了一种卷积并行加速架构。为了减少FPGA片上缓存的消耗,设计输入数据和权重的数据分片方式;为了增加数据复用,利用循环交换增加输入数据在通道上的复用,并设计线性缓存增加输入数据在二维平面上的复用;在卷积并行上,设计输入输出通道以及卷积核的并行计算,利用乘法阵列和加法树实现硬件设计,同时提出数据并行度探索算法优化硬件资源利用。结果表明,通过使用多种卷积优化策略,本文设计的卷积神经网络加速系统最高工作频率可达225MHz,处理多个卷积层的平均性能为45.13GOPS,而功耗仅为4.268W,能效比为10.57 GOPS/W,对比其他文献的方案,本文的设计在DSP效率和能耗比上有一定的提升。(4)基于高层次综合(High Level Synthesis,HLS)对CNN加速器进行实现和验证。基于前文的硬件设计,使用HLS实现加速单元的代码设计,并综合为寄存器传输级(Register Transfer Level,RTL)实现,然后封装为IP核,通过行为仿真验证IP核的功能正确性。使用Vivado将IP核与ZYNQ集成并布局布线,对生成的硬件加速系统的时序、功耗、资源利用以及性能进行分析对比,便于寻找加速器性能瓶颈。本文加速器从设计到实现花费了两个月左右时间,相比传统的开发方式,本文大大缩短了开发周期,对于卷积神经网络在FPGA上的快速部署和迭代具有较好的借鉴意义。
肖望勇[4](2021)在《基于FPGA的神经网络设计与实现研究》文中进行了进一步梳理人工神经网络作为人工智能的关键技术,已经成为世界各国争相发展的战略技术之一,也是新一轮科技革命和产业变革的重要驱动力量。FPGA具有的可重构、低功耗、高性能等优势,非常适合于实现神经网络,但神经网络控制算法复杂且计算量大,因此设计集成度高、实时性好的用FPGA实现的高性能神经网络系统具有重要理论价值和实际应用价值。本文以神经网络为具体对象,以设计开发用FPGA实现的神经网络系统为目标,围绕神经网络的实现结构、神经网络实现的关键模块、手写数字识别系统的FPGA硬件实现,进行了深入的研究,主要工作和结论如下:(1)基于CORDIC算法进行了Sigmoid激活函数的FPGA实现设计与实现研究。CORDIC算法实现复杂的非线性函数,仅有一系列加法和移位操作,操作简单、通用性强。实验证明了该设计的正确性。(2)提出了一种基于初次拟合误差的变区段非线性双拟合新方法,运用Python进行Softmax的拟合逼近实验,并在FPGA上实现。该拟合方法,先通过均匀分段和随机分段非线性拟合找出误差较大的区间,再根据误差大/小的区间选择分段小/大的区间进行第二次非线性拟合。实验结果分析表明,该方法不仅解决了使用分段非线性拟合逼近法拟合Softmax时会出现一些区间误差较大的问题,并且速度与精度有了较大的提升。(3)提出了一种适合用于FPGA硬件实现的、改进的MNIST手写数字识别卷积神经网络算法,运用Python进行神经网络参数的训练,通过高层级综合(HLS)语言编程设计并用FPGA实现了一个手写数字识别系统。该改进卷积神经网络算法,去掉了神经元激活函数的偏置参数。在HLS的FPGA逻辑设计中,将硬件设计优化的并行、流水线、折叠等设计思想融入卷积神经网络的HLS编程的各种设计优化。实验结果表明,改进的手写数字识别算法的识别正确率为98.21%,硬件单帧处理时间为0.031s,功率消耗为1.96W,具有良好的性能。同时对手写数字识别系统进行移植扩展应用,实现了基于FPGA的服装识别系统,经测试该系统具有88.87%的服装识别准确率,说明该系统具有较好的移植扩展性。
曹士杰[5](2021)在《基于算法-硬件协同设计的高性能人工智能计算》文中研究指明大数据和深度学习的兴起使得人工智能在视觉、语音和语言等应用领域取得了革命性的突破。数据、算法和算力是人工智能取得巨大成功的三要素。上层应用的数据规模和算法规模与日俱增,对硬件算力的需求呈指数级增长。然而随着摩尔定律和登纳德缩放比例定律的停滞,通用处理器的性能提升显着放缓。因此,人工智能应用面临硬件算力需求和供应之间的巨大差距。实现高性能人工智能计算是学术界的研究热点也是工业界人工智能应用落地的迫切需求。算法-硬件协同设计同时在算法端减少对算力的需求,在硬件端带来性能提升,是实现高性能人工智能计算的重要方法。本文结合人工智能领域特性,通过分析算法设计和硬件设计对计算和访存特性的需求矛盾,提出了一套高性能人工智能计算的算法-硬件协同设计方法,其核心内容包括面向硬件优化算法和面向算法定制硬件。本文的研究工作以该算法-硬件协同设计方法为指导原则,围绕数据规模增长和算法规模增长带来的巨大算力需求,针对搜索引擎数据检索和深度学习模型推理选取了四个具体问题进行研究以实现高性能计算。具体研究内容如下:(1)搜索引擎海量互联网数据的快速选取。搜索引擎的选取服务为了选取匹配用户查询的文档,需要对海量的互联网数据进行检索。即使部署了大量的CPU,计算和访存密集的选取服务依然面临着高延迟,低吞吐和高能耗的挑战。本文对选取服务的关键部分匹配计算和索引读取进行了算法优化和硬件定制,提出了基于FPGA的选取服务专用加速器系统。具体地,本文在算法端基于剪枝减少了索引查询量和匹配计算量,在硬件端通过电路微结构设计定制了流水并行的匹配处理器和高效的索引流读取器。使用必应搜索的真实索引数据和查询日志进行实验评估,该系统可以显着降低选取服务的平均延迟和尾部延迟,并提高吞吐量。(2)深度神经网络权值稀疏的模型有效性和硬件高效性权衡。近年来深度神经网络的模型参数量和计算量呈指数级增长。权值稀疏化具有很好的模型压缩效果,同时也引入了不规则计算和访存,对并行计算硬件并不友好。结构化稀疏可以解决硬件高效性的问题,但是对模型准确率和压缩率产生了极大影响。本文同时从模型有效性和硬件高效性的角度对权值稀疏进行需求分析和协同设计,提出了组平衡权值稀疏模式。组平衡稀疏化算法将权值矩阵划分为大小相同稀疏度相同的组以进行并行计算,在组内采用非结构化稀疏以保证模型的准确率。实验表明,组平衡稀疏具有与非结构化稀疏几乎相同的模型压缩效果,且优于其他结构化稀疏;为组平衡稀疏设计实现的GPU加速库相比较于其他稀疏模式的GPU加速库,实现了显着的性能提升。(3)基于权值稀疏的LSTM网络低延迟推理。LSTM网络广泛应用于语言语音等延迟敏感的应用中。为了实现LSTM网络的低延迟推理,本文将组平衡稀疏模式应用到LSTM网络中,提出了基于FPGA的组平衡稀疏LSTM推理加速器。矩阵向量乘法是LSTM模型推理中计算最密集的部分,该FPGA加速器结合稀疏矩阵的组平衡特性,定制了负载均衡和访存规则的高并行矩阵向量乘法核心,因此对于批处理大小为1的LSTM模型推理也能实现低延迟。实验表明,与之前使用不同压缩技术的LSTM网络FPGA加速器相比,基于组平衡稀疏的LSTM网络FPGA加速器实现了显着的延迟降低。(4)基于特征稀疏的CNN模型高效推理。卷积神经网络产生的特征图中存在大量的稀疏性,利用特征稀疏可以避免大量无效的计算和访存,从而降低模型推理的负担。本文提出了一种新的基于数值量化预测特征稀疏的CNN推理加速框架。基于低比特数值量化的特征稀疏预测方法具有轻量性和通用性的优势,并且不需要对模型进行重训练。利用预测出的特征稀疏作为卷积计算的输出稀疏,该框架可以剪枝模型推理中大量零值对应的无效前序计算。实验表明,低比特量化网络可以准确地预测特征稀疏性,且对模型的总体准确率几乎没有影响;该框架的CPU实现显着减少了卷积计算量并加速了CNN模型推理。综上所述,本文的研究工作基于算法-硬件协同设计为人工智能面临性能瓶颈的代表性应用和算法提出了高性能计算方案,希望可以为未来研究提供借鉴和参考,促进高性能人工智能计算和算法-硬件协同设计的发展。
张笑彦[6](2021)在《计算式BIM技术在建筑设计合规性审查中的应用研究》文中研究说明近年来,随着建筑信息模型技术(Building Information Modeling,简称BIM)的不断进步,相关政策、标准的逐渐推广与完善,行业内逐步形成了对BIM应用价值的认知共识。与此同时,BIM技术与更多数字化技术集成应用,推动建筑业从传统发展模式快速向数字化方向转型。为全面贯彻落实国家关于深化“放管服”改革的部署要求,全国范围内陆续取消施工图设计文件审查制度,由设计单位自行审查。为保证建筑设计质量以及提高设计文件审查效率,基于BIM的建筑设计合规性审查成为当前的研究热点。基于上述背景,本文首先从建筑设计中的BIM技术应用入手,结合BIM正向设计在各设计阶段中的应用,提出在建筑设计中引入BIM正向设计的方法可以提高设计质量。其次,通过对基于BIM的建筑设计合规性审查的工作流程、应用价值、关键技术进行详细分析,针对设计单位自行审查压力日益加重的环境,优化原有的审查流程,提出BIM正向设计中的建筑设计合规性审查模式,并详细论证了该模式的审查流程与应用价值。然后,通过引入基于计算式BIM技术的建筑设计合规性审查的模式,为BIM审查提供新的解决方案。应用Dynamo可视化编程实现了自动化的建筑设计合规性审查,总结了计算式BIM技术审查的应用范围,并通过实例详细地演示了各类审查程序的编写过程。最后,通过对照实验对计算式BIM技术在实际项目中的审查性能进行量化分析,指出使用Dynamo编写的审查程序进行审查相对于人工审查的模式,在整体上提高了约20%的审查成功率,缩短了约50%的审查用时,并对文章的研究成果及不足进行了总结,为后续相关研究提供参考和借鉴。
黎东俊[7](2021)在《图形化编程在中职程序设计课程中的教学应用研究》文中提出程序设计是中职计算机相关专业必修课程。目前,普遍采用Visual Basic开展编程教学,因其结构复杂、案例枯燥、代码易出错等原因影响编程教学效果。图形化编程是将功能代码封装成命令图标,学习者对命令图标拖拽连线完成相对应的文本式编程任务。图形化编程有效的降低学习难度,激发学习兴趣,提高编程能力。因此,图形化编程在中职程序设计课程中的教学应用研究具有积极的探索意义。本研究运用问卷调查、实验研究、文献分析等研究方法,搜集整理国内外图形化编程教学相关文献,综述国内外图形化编程教学研究现状和成果,调查编程教学存在的问题和中职生学习特征,研判图形化编程教学发展方向并开展教学应用实践,以期为中职程序设计课程教学改革提供参考。本研究调查分析中职编程教学现状,以某县中等专业学校计算机相关专业121名新生作为调查对象,开展中职生学习特征和图形化编程满意度调查,以建构主义学习理论和项目教学法为理论依据,构建图形化编程教学活动设计模型,并根据模型设计开展为期三个月的图形化编程教学实践。在实践周期中选录两个典型教学案例,即变量和循环结构的课时学习进行教学效果分析,案例是图形化编程教学周期中后期课程,选课具有教学实践意义和教学效果测量价值。动态多样性评价体系是图形化编程教学效果的主要测量方式,威廉斯创造力倾向量表、逻辑思维测量、编程能力评估模型试题验证图形化编程教学对学生创新创造能力、逻辑思维能力、编程技能等方面的提升;学习任务单、课堂学习行为观察记录表、满意度调查问卷验证图形化编程教学对学生学习兴趣和学习态度等方面的影响。通过定量或定性的数据分析,对图形化编程教学效果进行评测,论述开展图形化编程教学的积极意义。本研究构建图形化编程教学活动设计模型开展图形化编程教学实践,研究结果表明图形化编程能够有效地激发学生学习兴趣,培养逻辑思维和编程基础,提高学生编程学习能力和创新创造能力。本研究丰富了图形化编程教学理论基础和研究成果,为一线教师提供参考案例和教学资源,具备一定的实践意义。
李景欣[8](2021)在《基于Vitis的FPGA目标检测算法加速器设计》文中研究表明人工智能技术发展越发迅速,目标检测是其中应用非常广泛的一项人工智能技术,该领域仍然不断有更好的技术方法出现。目前的目标检测产品多数是部署在GPU平台上或者是传统CPU机器上,CPU的检测效率相对很低,而GPU又有着耗电量大、不可重构和成本高的劣势。FPGA相比GPU的长处是它具有可重构的特点,根据实际的需求设计硬件,同时功耗低耗电量小,散热性能会更好,在实时的图像处理、信号处理以及医疗航空等领域均有着广泛的应用。本文DF-Retinaface算法是基于Retinaface深度学习算法进行目标检测算法的改进设计,并对该卷积神经网络设计了基于FPGA可编程平台的目标检测加速器。具体操作为:针对FPGA不适于处理浮点数的问题,采用int8定点量化操作定制化算法模型,将32位浮点模型转换为8位定点模型;针对量化操作会小幅损失算法精度的问题,提出了一种新的改进网络结构,提高算法模型的检测效果,同时简化先验框和激活函数设置,提高训练与预测的速度;针对FPGA丰富的逻辑资源采用最大并行性的DPU(Deep Learning Processor Unit),通过提升资源利用率来达到更高的吞吐率;针对FPGA与Vitis统一平台工具特点,采用Vitis加速库内核加速预处理过程中的图像缩放和格式转换操作。本文采用Tensor Flow框架进行算法的实现、训练与测试,基于本文设计的ZCU102硬件平台对实验数据进行了结果对比分析,实验结果表明,多任务监督可以提高算法模型的检测效果;定点量化操作可以大幅减小算法模型的大小,约为之前的四分之一,减少资源的占用,FPGA检测速度提升约为CPU的9倍;网络结构的改进可以提升中等和大型目标的检测效果;对算法预处理的加速可以降低预处理所需要的时间,图像缩放和格式转换内核共使单张图像预处理过程减少了约1倍的时间。此外FPGA平台下检测单张图像的能量消耗仅为GPU平台下的10.5%,证明了FPGA在功耗方面有着巨大的优势。最后与近年其他相似工作的对比实验进一步验证了本文Vitis统一平台开发方式与本文FPGA加速器设计具有更高的吞吐率。
许秋璇[9](2021)在《基于STEAM的计算思维培养模式构建及应用研究》文中进行了进一步梳理计算思维是信息技术学科核心素养的主要组成部分,计算思维的培养是中小学信息技术课程改革的核心目标。在数据与计算、算法初步、开源硬件项目设计等课程模块的教学中,图形化编程工具已成为开展计算思维教学实践的重要载体。图形化编程以其形象直观的积木式编程方式和蕴含的抽象和符号化的编程思维,使学生在保留算法核心思想的同时减轻认知负荷,从而留出更多认知资源聚焦于计算思维能力的提升。针对当前中小学计算思维培养缺乏体验性、情境性和过程性评价等问题,本研究在阐释计算思维、STEAM教育和图形化编程相关概念基础上,厘清计算思维与STEAM教育之间的“双向互补”关系,基于建构主义学习理论、“体验学习圈”理论和STEAM课程教学模式的共同要素,构建基于STEAM的计算思维培养模式。基于情境学习理论和项目学习理论,以Scratch图形化编程工具为载体,设计与实施基于STEAM的计算思维教学案例。在教学实践过程中,本研究以计算思维能力测量、基于编程作品的访谈和课堂视频分析为切入点,综合评价学生计算思维培养的实际效果。研究结果表明,构建的模式不仅有助于学生创造力、算法思维、合作技能、批判性思维等能力的发展,还能够激发学生参与编程学习的兴趣,提升其主动利用计算机领域知识与技术解决实际问题的能力。本研究的主要成果在于分析计算思维培养与STEAM教育理念之间的内在互补关系,构建基于STEAM的计算思维培养模式。在此模式的指导下,设计与实施基于STEAM的计算思维教学案例,为教师融合多学科知识开展计算思维教学实践提供范例。本研究的创新之处在于将计算思维内涵解构为五大核心能力(包括定义问题、抽象特征、优选算法、纠错迭代、迁移应用),探索计算思维培养与Scratch项目式编程教学耦合的实践途径;采用NVivo质性分析方法对学生的计算思维培养过程性资料进行编码分析,可视化呈现学生计算思维能力发展轨迹,为教师创新计算思维评价方式提供参考。
曾春明[10](2021)在《面向移动终端的卷积神经网络加速器的研究》文中研究表明卷积神经网络在多种场景中成为了优秀的解决方案。在移动终端设备上部署卷积神经网络产品已具备现实需求,如短视频特效、智能无人机、智能相机和野外草本识别等场景。特别地,无网、弱网或禁网的隧道、洞穴和军工等场景也具有硬需求。卷积神经网络产品需要对大量的浮点数进行存储和计算,对存储器、算力、功耗等资源需求较高。因此,为了在移动终端上部署卷积神经网络产品,需要对资源消耗进行优化。本文内容是研究如何将卷积神经网络学术研究成果在移动终端设备上以更低成本、更高效的方式落地为工业产品,优化工作可以从两个层次进行:第一,通过剪枝和量化等手段压缩现有网络模型,降低硬件资源需求;第二,设计专用神经网络算力单元,针对性地对网络模型的前向推理运算进行加速。在压缩网络模型方面,本文考虑在量化时就减小误差,提出一种基于最小误差思想的L2Q模型量化方法,该方法会最小化量化引起的误差,使得量化后的模型参数分布与原分布近似。在设计AI算力单元方面,本文研究了卷积神经网络运算中的并行化和访存特点,并在Xilinx异构Soc上设计并实现了一种基于FPGA的卷积加速IP核,并将其作为ARM处理器的异构协同算力单元,共同完成卷积神经网络的前向推理运算。详细工作如下:1.为了减小量化网络模型引起的误差,本文基于最小化误差的思想,先使用L2范数表示模型量化前后的累计误差。然后使用迭代法和KL散度确定累计误差最小时的线性尺度变换因子。最后将网络模型中的浮点数参数集合进行定点化,以达到压缩网络模型和降低资源需求的目的。2.为了提高模型运算时的访存效率和并行计算效率,本文以BC4HW4格式的张量数据为基础,提出一种FPGA可实现的高效通用卷积算法,并基于该算法实现了一种通用卷积加速IP核。3.为提高网络模型的计算速度,本文将多颗通用卷积加速IP核组成加速阵列,与ARM处理器形成异构计算系统,共同提高整个加速器的数据吞吐量。与现有的FPGA加速器相比,本文设计的单颗卷积加速IP核的数据吞吐量较小,但工作频率更高。通过多核阵列提高并行化,提升了加速器系统的数据吞吐量。在ZCU102实验板上部署了4颗卷积加速IP核,以287MHz的频率运行,加速器的吞吐量达到1096.86 GOP/s,能效比是54.06,VGG-16的加速比是2.46。
二、综合量化方法与编程计算(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、综合量化方法与编程计算(论文提纲范文)
(1)深度神经网络加速器软硬件协同设计方法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
主要符号对照表 |
1 绪论 |
1.1 研究背景及意义 |
1.2 论文研究内容概述 |
1.2.1 神经网络压缩算法概述 |
1.2.2 目标检测算法概述 |
1.2.3 基于OpenCL的FPGA设计方法 |
1.3 论文主要贡献 |
1.4 论文章节组织结构 |
2 神经网络加速器软硬件研究进展 |
2.1 模型剪枝与量化算法研究进展 |
2.1.1 模型剪枝 |
2.1.2 模型量化 |
2.2 神经网络加速器研究进展 |
2.2.1 传统神经网络加速器设计 |
2.2.2 新型神经网络加速器设计 |
2.3 本章小结 |
3 基于多目标优化的模型剪枝搜索算法 |
3.1 引言 |
3.2 多目标模型剪枝理论建模 |
3.2.1 模型内存占用目标 |
3.2.2 模型计算负载目标 |
3.2.3 模型计算密度 |
3.3 多目标优化的模型剪枝搜索框架 |
3.4 面向稀疏架构搜索的遗传算法设计 |
3.4.1 种群初始化方法 |
3.4.2 变异与交叉算子优化 |
3.5 实验结果分析 |
3.5.1 实验设置 |
3.5.2 CIFAR-10的实验结果及分析 |
3.5.3 ImageNet的实验结果及分析 |
3.5.4 消融实验分析 |
3.6 本章小结 |
4 基于强相关性的混合精度量化搜索算法 |
4.1 引言 |
4.2 混合精度量化搜索框架 |
4.3 混合精度量化模块设计 |
4.3.1 基于混合精度的卷积层设计 |
4.3.2 基于混合精度的激活层设计 |
4.4 小样本混合精度量化微调策略 |
4.4.1 卷积微调 |
4.4.2 激活微调 |
4.4.3 批归一化微调 |
4.5 基于遗传算法的混合精度量化搜索 |
4.6 知识蒸馏混合精度量化训练策略 |
4.7 实验结果分析 |
4.7.1 实验设置 |
4.7.2 CIFAR-10的实验结果及分析 |
4.7.3 ImageNet的实验结果及分析 |
4.7.4 消融实验分析 |
4.8 本章小结 |
5 稀疏神经网络加速器软硬件协同设计 |
5.1 引言 |
5.2 基于先累加后相乘的稀疏卷积算法设计 |
5.2.1 ABM-SpConv计算架构 |
5.2.2 量化对计算密度的影响 |
5.2.3 并行性和数据共享探索 |
5.3 硬件加速器架构设计 |
5.3.1 设计挑战 |
5.3.2 整体架构 |
5.4 硬件加速器理论建模 |
5.4.1 性能建模 |
5.4.2 带宽建模 |
5.4.3 资源建模 |
5.5 设计空间探索 |
5.5.1 卷积神经网络模型准备 |
5.5.2 加速器架构搜索 |
5.6 稀疏加速器性能评估 |
5.6.1 实验设置 |
5.6.2 性能与资源分析 |
5.6.3 FPGA加速器性能对比 |
5.7 本章小结 |
6 目标检测加速器软硬件协同设计 |
6.1 引言 |
6.2 YOLOv2模型算法压缩 |
6.2.1 模型算子融合 |
6.2.2 YOLOv2剪枝压缩 |
6.2.3 YOLOv2量化压缩 |
6.3 YOLOv2硬件加速器架构设计 |
6.3.1 整体架构 |
6.3.2 计算内核设计 |
6.3.3 访存设计 |
6.3.4 其他功能单元设计 |
6.4 YOLOv2加速器设计空间探索 |
6.5 YOLOv2加速器性能评估 |
6.5.1 实验设置 |
6.5.2 对比最先进的目标检测加速器 |
6.5.3 实时目标检测加速器系统展示 |
6.6 本章小结 |
7 总结与展望 |
7.1 论文工作总结 |
7.2 未来工作展望 |
参考文献 |
作者简历及攻读博士学位期间取得的研究成果 |
学位论文数据集 |
(2)圆筒型磨机中冲击和研磨两类机制的磨矿贡献及其量化分离(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 磨矿概述 |
1.2 磨矿介质运动理论 |
1.2.1 磨矿介质在磨机中的运动形态理论 |
1.2.2 磨矿介质运动学研究 |
1.3 传统磨矿动力学 |
1.3.1 磨矿动力学模型 |
1.3.2 磨矿动力学研究进展 |
1.4 磨矿总体平衡动力学模型 |
1.4.1 磨矿总体平衡动力学概念及建模研究进展 |
1.4.2 破碎速率函数研究进展 |
1.4.3 破碎分布函数研究进展 |
1.4.4 总体平衡动力学方程的求解 |
1.4.5 国内有关总体平衡动力学研究进展 |
1.5 论文研究目的与研究内容 |
1.5.1 论文选题依据及研究目的 |
1.5.2 研究思路及方案 |
1.5.3 研究内容及目标 |
第二章 基于落重法的矿物冲击破碎特性研究 |
2.1 试验样品、设备及原理方法 |
2.1.1 试验样品 |
2.1.2 落重试验设备及原理 |
2.1.3 试验方法 |
2.2 石英样品的落重法冲击破碎产物粒度特征及其抗冲击特性 |
2.2.1 落重法冲击破碎产物粒度组成分析结果 |
2.2.2 石英冲击破碎的粒能关系方程 |
2.2.3 破碎产物中粗细粒级的产率变化特征及其影响因素 |
2.2.4 冲击比破碎能对破碎产物粒度的影响 |
2.3 磁黄铁矿样品的落重法冲击破碎产物粒度特征及其抗冲击特性 |
2.3.1 落重法冲击破碎产物粒度组成分析结果 |
2.3.2 磁黄铁矿冲击破碎的粒能关系方程 |
2.3.3 破碎产物中粗细粒级的产率变化特征及其影响因素 |
2.3.4 冲击比破碎能对破碎产物粒度的影响 |
2.4 黄铁矿样品的落重法冲击破碎产物粒度特征及其抗冲击特性 |
2.4.1 落重法冲击破碎产物粒度组成分析结果 |
2.4.2 黄铁矿冲击破碎的粒能关系方程 |
2.4.3 冲击比破碎能对破碎产物粒度的影响 |
2.5 基于不同指标表征三种矿物破碎特性的一致性关系研究 |
2.6 本章小结 |
第三章 低速研磨状态下的磨矿行为特征研究 |
3.1 试验及研究方法 |
3.1.1 试验样品和设备 |
3.1.2 试验方法 |
3.1.3 磨矿介质泻落状态的调控依据与方法 |
3.1.4 磨矿结果的表征 |
3.2 石英低速研磨磨矿行为及其动力学 |
3.2.1 石英研磨磨矿的产物粒度分布和磨矿行为特征 |
3.2.2 不同粒级给料的研磨磨矿对比分析 |
3.3 磁黄铁矿低速研磨磨矿行为及其动力学 |
3.3.1 磁黄铁矿研磨磨矿的产物粒度分布和磨矿行为特征 |
3.3.2 不同粒级给料的研磨磨矿对比分析 |
3.4 黄铁矿低速研磨磨矿行为及其动力学 |
3.4.1 黄铁矿研磨磨矿的产物粒度分布和磨矿行为特征 |
3.4.2 不同粒级给料的研磨磨矿对比分析 |
3.5 三种矿物低速研磨磨矿特性比较研究 |
3.6 本章小结 |
第四章 高速抛落状态下的磨矿行为特征研究 |
4.1 试验及研究方法 |
4.2 石英高速抛落磨矿磨矿行为及其动力学 |
4.2.1 石英抛落磨矿的产物粒度分布和磨矿行为特征 |
4.2.2 不同粒级给料的抛落磨矿对比分析 |
4.3 磁黄铁矿高速抛落磨矿磨矿行为及其动力学 |
4.3.1 磁黄铁矿抛落磨矿的产物粒度分布和磨矿行为特征 |
4.3.2 不同粒级给料的抛落磨矿对比分析 |
4.4 黄铁矿高速抛落磨矿磨矿行为及其动力学 |
4.4.1 黄铁矿抛落磨矿的产物粒度分布和磨矿行为特征 |
4.4.2 不同粒级给料的抛落磨矿对比分析 |
4.5 三种矿物高速抛落磨矿磨矿特性比较研究 |
4.6 本章小结 |
第五章 冲击作用下的磨矿总体平衡动力学研究 |
5.1 概述 |
5.2 石英冲击磨矿总体平衡动力学 |
5.2.1 基于落重法破碎试验结果计算任意筛分粒度的筛下累积产率t_(xx) |
5.2.2 总体平衡动力学破裂分布函数计算 |
5.2.3 总体平衡动力学选择函数计算 |
5.2.4 总体平衡动力学模拟结果研究 |
5.3 磁黄铁矿冲击磨矿总体平衡动力学 |
5.3.1 基于落重法破碎试验结果计算任意筛分粒度的筛下累积产率t_(xx) |
5.3.2 总体平衡动力学破裂分布函数计算 |
5.3.3 总体平衡动力学选择函数计算 |
5.3.4 总体平衡动力学模拟结果研究 |
5.4 黄铁矿冲击磨矿总体平衡动力学 |
5.4.1 基于落重法破碎试验结果计算任意筛分粒度的筛下累积产率t_(xx) |
5.4.2 总体平衡动力学破裂分布函数计算 |
5.4.3 总体平衡动力学选择函数计算 |
5.4.4 总体平衡动力学模拟结果研究 |
5.5 本章小结 |
第六章 抛落磨矿中冲击和研磨作用的贡献度分离及其量化计算 |
6.1 研究方法 |
6.1.1 磨矿效果表征分析和指标选择 |
6.1.2 冲击和研磨两类机制的磨矿贡献率表征和贡献度的量化分离 |
6.2 石英抛落磨矿中冲击和研磨作用各自贡献率的量化计算 |
6.2.1 三种磨矿方式的磨矿技术效率计算与分析 |
6.2.2 不同磨矿方式磨矿技术效率的比较研究 |
6.2.3 抛落磨矿过程中冲击和研磨作用的贡献率计算 |
6.3 磁黄铁矿抛落磨矿中冲击和研磨作用各自贡献率的量化计算 |
6.3.1 三种磨矿方式的磨矿技术效率计算与分析 |
6.3.2 不同磨矿方式磨矿技术效率的比较研究 |
6.3.3 抛落磨矿过程中冲击和研磨作用的贡献率计算 |
6.4 黄铁矿抛落磨矿中冲击和研磨作用各自贡献率的量化计算 |
6.4.1 三种磨矿方式的磨矿技术效率计算与分析 |
6.4.2 不同磨矿方式磨矿技术效率的比较研究 |
6.4.3 抛落磨矿过程中冲击和研磨作用的贡献率计算 |
6.5 三种矿物的磨矿技术效率比较研究 |
6.6 本章小结 |
第七章 结论与展望 |
7.1 结论 |
7.2 创新点 |
7.3 展望 |
参考文献 |
附录 |
致谢 |
攻读学位期间论文发表情况 |
(3)基于FPGA的卷积神经网络加速方法研究与实现(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 课题背景与意义 |
1.2 国内外研究现状 |
1.2.1 卷积神经网络压缩优化现状 |
1.2.2 基于FPGA的卷积神经网络加速现状 |
1.2.3 存在的问题 |
1.3 本文的主要研究工作及章节安排 |
第2章 相关理论与技术 |
2.1 卷积神经网络 |
2.1.1 人工神经网络 |
2.1.2 卷积神经网络 |
2.1.3 ResNet18卷积神经网络 |
2.2 FPGA概述及其开发工具 |
2.2.1 FPGA |
2.2.2 HLS开发工具 |
2.3 本章小结 |
第3章 卷积神经网络模型分析与优化 |
3.1 ResNet18卷积神经网络结构分析 |
3.2 ResNet18卷积神经网络优化 |
3.2.1 模型层融合 |
3.2.2 模型量化 |
3.2.3 模型反量化 |
3.3 卷积神经网络优化性能测试 |
3.3.1 原始网络训练 |
3.3.2 网络测试对比 |
3.4 本章小结 |
第4章 基于FPGA的ResNet18加速器研究与设计 |
4.1 系统框架设计 |
4.1.1 系统框架 |
4.1.2 FPGA加速模式分析 |
4.2 卷积优化加速分析 |
4.2.1 卷积循环分析 |
4.2.2 循环分片 |
4.2.3 循环展开 |
4.2.4 数据复用与循环交换 |
4.2.5 基于HLS的优化技术 |
4.3 卷积加速单元设计 |
4.3.1 数据分片设计 |
4.3.2 输入数据复用与缓存设计 |
4.3.3 数据并行设计 |
4.3.4 数据并行度探索 |
4.4 卷积加速器整体架构设计 |
4.5 本章小结 |
第5章 基于FPGA的ResNet18加速器实现与验证 |
5.1 ZC706平台介绍 |
5.2 基于HLS的硬件加速单元实现 |
5.2.1 顶层架构设计HLS实现 |
5.2.2 数据并行度探索结果 |
5.2.3 功能验证 |
5.2.4 资源消耗分析 |
5.3 基于ZYNQ的整体架构实现 |
5.3.1 硬件系统搭建 |
5.3.2 资源消耗分析 |
5.3.3 时序分析 |
5.3.4 功耗分析 |
5.3.5 性能分析与比较 |
5.4 本章总结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
作者简历及攻读学位期间发表的学术论文与研究成果 |
(4)基于FPGA的神经网络设计与实现研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 课题研究现状 |
1.2.1 神经网络硬件实现的发展现状 |
1.2.2 卷积神经网络的FPGA实现研究 |
1.3 课题研究内容 |
1.4 论文结构 |
第2章 神经网络结构分析和比较 |
2.1 BP神经网络的结构 |
2.1.1 BP神经网络的流水结构 |
2.1.2 BP神经网络的流水阵列结构 |
2.1.3 BP神经网络的折叠结构 |
2.2 卷积神经网络结构 |
2.2.1 LeNet-5 |
2.2.2 AlexNet |
2.2.3 GoogLeNet |
2.3 本章小结 |
第3章 神经网络关键模块的设计与优化 |
3.1 神经网络关键模块分析 |
3.2 矩阵运算模块的设计与优化 |
3.2.1 循环优化 |
3.2.2 数组优化 |
3.2.3 分块矩阵模块设计 |
3.3 激活函数的设计与优化 |
3.3.1 基于CORDIC算法的激活函数Sigmoid的设计与优化 |
3.3.2 Softmax的变区段非线性双拟合方法及其FPGA实现 |
3.4 数据缓存模块的设计与优化 |
3.4.1 多行数据的卷积并行运行缓存设计与优化 |
3.4.2 卷积运算中相关数据的寄存器缓存重用 |
3.4.3 基于轮转方法的多数据流缓存的设计与优化 |
3.4.4 使用流水线结构的数据缓存的设计与优化 |
3.5 本章小结 |
第4章 FPGA手写数字识别系统的设计与实现 |
4.1 系统设计要求 |
4.2 系统总体设计 |
4.2.1 系统总体组成结构 |
4.2.2 神经网络模型的设计 |
4.2.3 卷积神经网络FPGA实现方法 |
4.3 神经网络模型的训练 |
4.4 主要模块设计与优化 |
4.4.1 卷积神经网络的卷积层设计与优化 |
4.4.2 卷积神经网络的池化层设计与优化 |
4.4.3 图像采集模块的设计 |
4.4.4 HDMI显示模块的设计 |
4.5 系统测试软硬件平台 |
4.5.1 PYNQ-Z2 FPGA开发板 |
4.5.2 FPGA神经网络的搭建 |
4.6 系统软硬件测试结果 |
4.6.1 FPGA手写数字识别系统的测试结果 |
4.6.2 神经网络层性能分析 |
4.7 系统的移植扩展应用 |
4.7.1 移植扩展思路 |
4.7.2 移植拓展实现结果 |
4.7.3 移植扩展结论 |
4.8 本章小结 |
第5章 总结与展望 |
5.1 研究工作总结 |
5.2 工作展望 |
参考文献 |
攻读学位期间取得的研究成果 |
致谢 |
(5)基于算法-硬件协同设计的高性能人工智能计算(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.1.1 课题的背景:算力的需求和供应差距 |
1.1.2 高性能人工智能计算的目的和意义 |
1.2 国内外研究现状 |
1.2.1 通用处理器和领域专用架构 |
1.2.2 人工智能芯片 |
1.2.3 深度神经网络模型压缩与加速 |
1.2.4 现有研究中存在的不足 |
1.3 本文的主要研究内容 |
第2章 算法-硬件协同设计 |
2.1 引言 |
2.2 算法设计和硬件设计矛盾 |
2.3 高性能人工智能计算的算法-硬件协同设计方法 |
2.3.1 协同设计流程 |
2.3.2 算法优化方法 |
2.3.3 硬件定制方法 |
2.3.4 细粒度协同设计空间探索 |
2.4 本章小结 |
第3章 基于FPGA的搜索引擎选取服务加速 |
3.1 引言 |
3.2 背景和相关工作 |
3.2.1 选取服务 |
3.2.2 选取服务性能瓶颈分析 |
3.3 FlexSaaS异构加速器系统 |
3.3.1 系统概述 |
3.3.2 匹配算法-匹配处理器协同设计 |
3.3.3 索引流读取微结构定制 |
3.3.4 统一存储访问 |
3.3.5 系统灵活性和可扩展性支持 |
3.4 实验与分析 |
3.4.1 FlexSaaS系统实现 |
3.4.2 FPGA资源利用 |
3.4.3 加速分析 |
3.4.4 系统整体性能 |
3.5 本章小结 |
第4章 基于组平衡稀疏的模型压缩与加速 |
4.1 引言 |
4.2 背景和相关工作 |
4.2.1 非结构化稀疏与结构化稀疏 |
4.2.2 权值稀疏模型有效性和硬件高效性的权衡 |
4.3 组平衡稀疏神经网络 |
4.3.1 组平衡稀疏:硬件友好型稀疏模式 |
4.3.2 深度神经网络的组平衡剪枝(稀疏化)算法 |
4.3.3 组平衡稀疏矩阵乘法的GPU实现 |
4.4 实验与分析 |
4.4.1 组平衡剪枝分析 |
4.4.2 GPU矩阵乘法基准测试 |
4.4.3 不同任务和模型的实验结果 |
4.4.4 组大小分析 |
4.5 本章小结 |
第5章 基于FPGA的组平衡稀疏LSTM网络加速 |
5.1 引言 |
5.2 背景和相关工作 |
5.2.1 LSTM网络 |
5.2.2 稀疏神经网络硬件加速 |
5.3 基于FPGA的组平衡稀疏矩阵计算和存储 |
5.3.1 高并行稀疏矩阵向量乘法设计 |
5.3.2 无需解码的稀疏矩阵存储格式 |
5.4 基于FPGA的组平衡稀疏LSTM加速器 |
5.4.1 系统概述 |
5.4.2 稀疏矩阵向量乘法单元 |
5.4.3 向量按位操作单元 |
5.4.4 控制器 |
5.5 实验与分析 |
5.5.1 实验设置 |
5.5.2 量化组平衡稀疏模型 |
5.5.3 组平衡稀疏LSTM的FPGA加速器高效性 |
5.5.4 讨论:英伟达细粒度结构化稀疏和稀疏张量核 |
5.6 本章小结 |
第6章 基于数值量化预测特征稀疏的CNN加速 |
6.1 引言 |
6.2 背景和相关工作 |
6.2.1 卷积神经网络中的特征稀疏 |
6.2.2 模型稀疏化与数值量化相关工作 |
6.3 SeerNet设计与实现 |
6.3.1 基于数值量化预测特征稀疏 |
6.3.2 基于特征稀疏剪枝卷积计算 |
6.4 实验与分析 |
6.4.1 数据集和模型 |
6.4.2 模型整体准确率 |
6.4.3 推理加速 |
6.4.4 量化预测分析 |
6.5 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(6)计算式BIM技术在建筑设计合规性审查中的应用研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究的背景 |
1.1.1 建筑信息模型技术的发展 |
1.1.2 施工图设计文件审查的转变 |
1.2 国内外研究应用现状及文献综述 |
1.2.1 国外研究应用现状及文献综述 |
1.2.2 国内研究应用现状及文献综述 |
1.3 研究的目的与意义 |
1.3.1 研究的目的 |
1.3.2 研究的意义 |
1.4 研究内容 |
1.5 研究方法 |
1.6 研究框架 |
第2章 建筑设计中的BIM技术应用 |
2.1 BIM技术简述 |
2.1.1 BIM的基本概念 |
2.1.2 BIM技术的特性 |
2.1.3 BIM软件 |
2.2 BIM标准 |
2.2.1 国外BIM标准 |
2.2.2 国内BIM标准 |
2.3 BIM正向设计 |
2.3.1 BIM正向设计简介 |
2.3.2 BIM正向设计的特点 |
2.3.3 BIM正向设计在建筑设计中的应用 |
2.4 BIM交付 |
2.4.1 交付物 |
2.4.2 交付准备 |
2.4.3 交付协同 |
2.5 本章小结 |
第3章 基于BIM的建筑设计合规性审查 |
3.1 建筑设计合规性审查简介 |
3.1.1 建筑设计标准化与合规性审查 |
3.1.2 建筑设计合规性审查的难点分析 |
3.1.3 施工图设计文件审查制度的发展 |
3.1.4 施工图设计文件审查制度的影响 |
3.1.5 建筑设计合规性审查的转变 |
3.2 基于BIM的建筑设计合规性审查基本情况 |
3.2.1 施工图设计文件数字化审查简述 |
3.2.2 基于BIM的建筑设计合规性审查的工作流程 |
3.2.3 基于BIM的建筑设计合规性审查的应用优势 |
3.3 基于BIM的建筑设计合规性审查系统的关键技术 |
3.3.1 BIM模型准备 |
3.3.2 标准规范转译 |
3.3.3 审查执行过程 |
3.3.4 审查结果输出 |
3.4 现有BIM审查系统概况 |
3.5 BIM正向设计与建筑设计合规性审查融合发展 |
3.5.1 BIM正向设计中的合规性审查流程 |
3.5.2 BIM正向设计中的合规性审查应用价值 |
3.6 本章小结 |
第4章 计算式BIM技术与建筑设计合规性审查 |
4.1 计算式BIM技术简述 |
4.1.1 建筑计算性设计思维简述 |
4.1.2 计算式BIM技术的概念 |
4.1.3 计算式BIM工具——Dynamo |
4.1.4 计算式设计与衍生式设计 |
4.2 Dynamo应用基础 |
4.2.1 Dynamo与Revit二次开发 |
4.2.2 Dynamo节点库与节点 |
4.2.3 Dynamo播放器 |
4.2.4 Dynamo编程流程 |
4.3 Dynamo编程应用要点 |
4.3.1 Dynamo提取对象数据 |
4.3.2 Dynamo计算处理数据 |
4.3.3 Dynamo判断合规性 |
4.3.4 Dynamo输出审查结果 |
4.4 基于计算式BIM技术的建筑设计合规性审查的应用范围 |
4.4.1 图元识别审查 |
4.4.2 几何计算审查 |
4.4.3 干涉判断审查 |
4.5 基于计算式BIM技术的建筑设计合规性审查的优势 |
4.5.1 流程自动化审查 |
4.5.2 需求定制化审查 |
4.5.3 性能扩展化审查 |
4.6 本章小结 |
第5章 工程应用实例验证 |
5.1 案例项目基本情况 |
5.1.1 项目信息概况 |
5.1.2 项目BIM模型 |
5.2 案例项目中的建筑设计合规性审查 |
5.2.1 审查准备环节 |
5.2.2 审查执行环节 |
5.2.3 审查结果环节 |
5.3 案例项目应用总结 |
5.4 本章小结 |
第6章 结论与展望 |
6.1 研究结论 |
6.2 研究创新点 |
6.3 研究存在的不足 |
6.4 后续工作的展望 |
参考文献 |
附录A 案例项目中选取的审查重点条文 |
附录B 案例项目中应用的Dynamo程序 |
攻读硕士学位期间发表的学术论文及科研工作 |
致谢 |
(7)图形化编程在中职程序设计课程中的教学应用研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.1.1 中职程序设计课程教学现状 |
1.1.2 中职程序设计课程教学要求 |
1.1.3 图形化编程为中职程序设计教学提供思路 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 研究目的与意义 |
1.4 研究内容与方法 |
1.4.1 研究内容 |
1.4.2 研究方法 |
1.5 研究思路 |
第二章 相关概念与理论 |
2.1 相关概念 |
2.1.1 图形化编程平台 |
2.1.2 图形化编程教学活动设计 |
2.1.3 项目教学法 |
2.2 教学理论依据 |
2.2.1 认知发展理论 |
2.2.2 建构主义学习理论 |
2.2.3 “从做中学”理论 |
第三章 中职编程教学实践现状调查与分析 |
3.1 中职编程教学的现状与问题 |
3.1.1 学生因素 |
3.1.2 教学因素 |
3.1.3 考评因素 |
3.2 中职生学情调查与分析 |
3.2.1 调查设计及实施 |
3.2.2 调查结果与分析 |
3.3 图形化编程学习意愿调查 |
第四章 图形化编程在课程中的教学活动设计 |
4.1 图形化编程教学可行性分析 |
4.1.1 教学环境分析 |
4.1.2 学习者需求分析 |
4.1.3 学习目标分析 |
4.2 图形化编程在中职程序设计课程中的教学活动设计 |
4.2.1 教学活动设计基本原则 |
4.2.2 教学活动设计模型 |
4.3 图形化编程教学活动设计流程 |
4.3.1 创设情境,导入讲评 |
4.3.2 分解任务,生生互动 |
4.3.3 分组协作,实践操作 |
4.3.4 作品展示,分享交流 |
4.3.5 平行检测,总结提高 |
第五章 图形化编程在中职程序设计课程中的实践应用 |
5.1 图形化编程教学活动设计案例一 |
5.1.1 教学分析 |
5.1.2 教学过程 |
5.1.3 教学拓展与反思 |
5.2 图形化编程教学活动设计案例二 |
5.2.1 教学分析 |
5.2.2 教学过程 |
5.2.3 教学拓展与反思 |
5.3 教学效果分析 |
5.3.1 教学效果测量工具 |
5.3.2 创造力倾向测评 |
5.3.3 逻辑思维测量分析 |
5.3.4 学生成绩测评 |
5.3.5 学习满意度调查与分析 |
5.4 教学活动结果分析 |
第六章 总结与展望 |
6.1 研究结论 |
6.2 研究不足 |
6.3 研究展望 |
参考文献 |
附录 A 图形化编程满意度调查问卷 |
附录 B 威廉斯创造力倾向测量表 |
附录 C 逻辑思维能力测量表 |
附录 D 改进型编程能力评估模型测量表 |
附录 E 《循环判断结构—双光巡线》学习任务单 |
附录 F 学生课堂行为观察记录表 |
致谢 |
攻读学位期间取得的研究成果目录 |
(8)基于Vitis的FPGA目标检测算法加速器设计(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外发展与研究现状 |
1.3 本文主要工作内容 |
1.4 本文结构安排 |
2 深度学习相关与FPGA技术相关 |
2.1 深度学习知识介绍 |
2.1.1 卷积神经网络的组成 |
2.1.2 深度残差网络 |
2.1.3 Res Net |
2.1.4 Mobile Net |
2.2 基于深度学习的目标检测算法Retina Net |
2.3 基于深度学习的Retinaface人脸检测算法 |
2.4 FPGA加速器概述与传统设计方法 |
2.5 Vitis统一软件平台 |
2.6 本章小结 |
3 DF-Retinaface目标检测方案设计 |
3.1 目标检测算法概述 |
3.2 基于DF-Retinaface的网络结构设计 |
3.2.1 卷积层结构分析与改进 |
3.2.2 激活函数简化设计 |
3.2.3 多任务损失函数 |
3.3 预处理增强 |
3.4 Anchor Box锚框简化设计 |
3.5 非极大值抑制 |
3.6 本章小结 |
4 定制化模型与FPGA硬件加速器设计 |
4.1 硬件加速平台ZCU102 开发板 |
4.2 基于Vitis环境的定制化模型 |
4.3 基础电路设计 |
4.4 DPU加速IP设计 |
4.5 预处理加速IP设计 |
4.6 Vitis硬件镜像构建 |
4.7 本章小结 |
5 软硬件协同实现与结果分析 |
5.1 实验环境 |
5.2 模型训练 |
5.3 Vitis环境下的定制模型量化实现 |
5.4 FPGA实现 |
5.5 实验结果对比分析 |
5.5.1 实验评价标准 |
5.5.2 实验结果分析 |
5.5.3 检测效果展示 |
5.5.4 与其他工作对比 |
5.6 本章小结 |
结论 |
参考文献 |
致谢 |
(9)基于STEAM的计算思维培养模式构建及应用研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
第一节 研究背景与问题 |
一、研究背景 |
二、研究问题 |
第二节 国内外研究现状 |
一、计算思维教育研究现状 |
二、STEAM教育研究现状 |
三、研究现状述评 |
第三节 研究目的与意义 |
一、研究目的 |
二、研究意义 |
第四节 研究内容与方法 |
一、研究内容 |
二、研究方法 |
三、技术路线 |
第二章 核心概念与理论基础 |
第一节 核心概念界定 |
一、STEAM教育 |
二、计算思维 |
三、图形化编程 |
第二节 理论基础 |
一、建构主义学习理论 |
二、 “体验学习圈”理论 |
三、情境学习理论 |
四、项目学习理论 |
第三章 基于STEAM的计算思维培养模式构建 |
第一节 STEAM教育与初中计算思维培养 |
一、初中计算思维培养的教学问题分析 |
二、STEAM教育在计算思维培养中应用的优势分析 |
三、STEAM教育与计算思维培养的“双向互补”关系 |
第二节 构建依据 |
一、计算思维培养的目标、内容与路径 |
二、现有STEAM课程教学模式的启发 |
第三节 模式构建 |
一、模式提出 |
二、模式阐释 |
三、教学过程设计 |
第四章 基于STEAM的计算思维教学案例设计与实施 |
第一节 教学要素分析 |
一、学习者特征分析 |
二、教学目标分析 |
三、教学内容分析 |
四、教学策略分析 |
五、教学资源分析 |
第二节 项目基础阶段教学案例设计 |
一、 《随“变”风扇》教学设计 |
二、教学实践过程 |
第三节 项目拓展阶段教学案例设计 |
一、 《扫地机器人》教学设计 |
二、教学实践过程 |
第四节 教学案例应用效果分析 |
一、问卷调查结果分析 |
二、访谈调查结果分析 |
三、课堂观察结果分析 |
第五章 研究结论与展望 |
第一节 研究结论与建议 |
第二节 研究不足与展望 |
参考文献 |
附录A 教师访谈提纲 |
附录B 计算思维能力量表 |
附录C 学生访谈提纲 |
附录D 课堂观察编码方案 |
附录E 项目过程记录表 |
攻读学位期间发表的论文和研究成果 |
致谢 |
(10)面向移动终端的卷积神经网络加速器的研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究工作的背景和意义 |
1.2 国内外研究现状 |
1.2.1 更轻量网络的研究现状 |
1.2.2 模型压缩的研究现状 |
1.2.3 专用硬件加速器的研究现状 |
1.3 本文的研究内容 |
1.4 本文的章节安排 |
第2章 相关理论技术 |
2.1 引言 |
2.2 卷积神经网络的典型结构 |
2.2.1 卷积层 |
2.2.2 激活函数 |
2.2.3 批规范化层 |
2.2.4 池化层 |
2.2.5 全连接层 |
2.3 典型深度卷积神经网络 |
2.3.1 Alex Net |
2.3.2 VGG |
2.3.3 Res Net |
2.4 典型的深度学习硬件算力单元 |
2.4.1 CPU |
2.4.2 GPU |
2.4.3 ASIC |
2.4.4 FPGA |
2.5 FPGA基本结构介绍 |
2.6 HLS加速理论 |
2.6.1 HLS基本理论介绍 |
2.6.2 HLS开发流程 |
2.7 本章小结 |
第3章 基于最小误差思想的L2Q模型量化方法 |
3.1 引言 |
3.2 KL散度评估方法 |
3.2.1 KL散度 |
3.2.2 上采样算法 |
3.2.3 奇点处理 |
3.3 L2Q量化方法 |
3.4 层融合预处理 |
3.5 L2Q模型量化实验及结果分析 |
3.5.1 实验环境 |
3.5.2 实验内容 |
3.5.3 不同量化强度实验对比 |
3.5.4 模型量化前后的参数分布 |
3.5.5 模型量化前后的精度对比 |
3.6 本章小结 |
第4章 卷积神经网络的访存优化和并行化研究 |
4.1 引言 |
4.2 向量处理系统的访存优化研究 |
4.2.1 访存优化的必要性 |
4.2.2 BCHW访存 |
4.2.3 BC4HW4 访存 |
4.3 基于BC4HW4 布局优化的FPGA可实现的通用卷积算法 |
4.4 基于通用卷积算法的卷积加速IP核的设计和性能优化 |
4.4.1 卷积加速IP核的整体设计 |
4.4.2 卷积加速IP核控制器的相关寄存器定义 |
4.4.3 卷积加速IP核的HLS实现和性能优化 |
4.5 本章小结 |
第5章 加速器系统的实现和实验分析 |
5.1 引言 |
5.2 ZCU102 平台介绍 |
5.3 异构互连技术 |
5.4 异构系统设计 |
5.5 卷积加速IP核的调度管理 |
5.5.1 软件的层次结构 |
5.5.2 主从式异构协同处理 |
5.5.3 异构数据交互缓冲区设计及一致性问题 |
5.6 加速器实验及结果分析 |
5.6.1 实验平台与实验方法 |
5.6.2 卷积加速IP核原始设计与优化设计间的纵向对比 |
5.6.3 不同规模的卷积加速IP核阵列间的纵向对比 |
5.6.4 与其它加速器间的横向比较 |
5.6.5 加速比实验 |
5.7 本章小结 |
第6章 总结与展望 |
6.1 全文总结 |
6.2 未来工作展望 |
参考文献 |
攻读硕士学位期间取得的成果 |
致谢 |
四、综合量化方法与编程计算(论文参考文献)
- [1]深度神经网络加速器软硬件协同设计方法研究[D]. 许柯. 北京交通大学, 2021(02)
- [2]圆筒型磨机中冲击和研磨两类机制的磨矿贡献及其量化分离[D]. 杨晓静. 广西大学, 2021(01)
- [3]基于FPGA的卷积神经网络加速方法研究与实现[D]. 龚豪杰. 中国科学院大学(中国科学院国家空间科学中心), 2021(01)
- [4]基于FPGA的神经网络设计与实现研究[D]. 肖望勇. 湖南工业大学, 2021(02)
- [5]基于算法-硬件协同设计的高性能人工智能计算[D]. 曹士杰. 哈尔滨工业大学, 2021(02)
- [6]计算式BIM技术在建筑设计合规性审查中的应用研究[D]. 张笑彦. 青岛理工大学, 2021(02)
- [7]图形化编程在中职程序设计课程中的教学应用研究[D]. 黎东俊. 河南科技学院, 2021(07)
- [8]基于Vitis的FPGA目标检测算法加速器设计[D]. 李景欣. 大连理工大学, 2021(01)
- [9]基于STEAM的计算思维培养模式构建及应用研究[D]. 许秋璇. 云南师范大学, 2021(09)
- [10]面向移动终端的卷积神经网络加速器的研究[D]. 曾春明. 四川大学, 2021(02)