大规模科学计算研究

大规模科学计算研究

一、大规模科学计算研究(论文文献综述)

何连花,赵莲,姜金荣,金钟[1](2021)在《高性能计算数值模拟框架软件研究进展》文中认为【背景】本世纪我国超级计算机得到迅速发展,为降低面向超级计算机并行编程难度,高性能编程框架已经成为高性能计算的研究方向之一。【方法】本文简要介绍了高性能数值模拟编程框架的研究目的,主要关注国内外结构网格和非结构网格编程框架的发展现状。【结论】面向E级计算机即将到来,框架软件的发展也需针对E级计算机的体系结构特征,调整底层数据结构和核心算法,提升并行可扩展性,增强对异构众核计算的支持,使其能具备支撑开发E级并行计算应用软件的能力。同时也需要结合领域专家的需求,不断拓展新领域新方向,针对新问题开发新的功能模块,以便应用到更多的科学计算领域。

朱雨[2](2021)在《面向国产异构众核处理器的Stencil计算性能优化技术研究》文中研究指明Stencil是一类在科学计算和工程应用中常见的计算模式,其计算和访存开销随规模增大呈线性增长,适合在高性能计算机上并行执行。我国自主研发设计的“神威·太湖之光”由国产SW26010众核处理器搭载而成,是世界上首台性能超过100 Pflop/s的超级计算机。为充分发挥国产超级计算机在科学应用性能加速中的作用,针对Stencil计算的性能优化研究十分重要。然而,Stencil计算在国产异构众核处理器上面临着访存带宽受限的挑战,并且在优化过程中需要大量的手工调优工作。为了实现Stencil计算及其应用在国产异构众核处理器上的深度优化和高效部署,本文对Stencil计算在国产异构众核处理器上的性能优化技术展开研究,主要工作和研究成果包括:1、设计并实现了Stencil计算在国产异构众核处理器上的并行优化方案。针对国产异构众核处理器的体系架构和存储特点,分析Stencil计算在并行优化过程中的主要性能瓶颈。设计了适应局存的数据划分、交叉分块、双缓冲优化和时间分块等结合的并行优化方案,有效解决了从核存储空间过小、访存带宽不足、数据重用低效等问题。选取2D-5P、2D-9P、3D-7P、3D-27P Stencil算例在SW26010处理器单核组上进行了优化实验,最高加速比可达132.05。2、提出并建立了面向国产异构众核处理器的Stencil计算性能模型。结合上述并行优化方案,分析Stencil计算并行程序的算法特征和访存模式,量化关键性能参数和程序运行时间之间的关系,进一步分析采用双缓冲时DMA传输时间和计算时间重叠的特征,得到全局性能模型。以SW26010处理器为实验平台,建立了相应的性能模型,并使用常见3D-7P、3D-27P Stencil算例进行了实验验证,得到性能模型平均误差约为10.97%,准确性较高。3、提出了面向国产异构众核处理器的Stencil计算自适应分块参数选择算法。基于性能模型对性能瓶颈的分析,进一步调整空间分块参数和时间分块参数,衡量冗余数据传输和冗余计算的开销,得到理论最优分块参数。通过将性能模型和分块参数调整方法结合,提出了面向国产异构众核处理器的自适应分块参数选择算法,并通过3D-7P、3D-27P Stencil算例验证了算法的有效性。

吴昊[3](2020)在《面向云平台IaaS层的能效问题研究》文中指出近年来,云平台已经成为学者和服务提供商部署计算应用的主流平台。得益于云平台中IaaS(Infrastructure as a Service)层的诸多优点,如动态可扩展、按需部署、可靠性高、性价比高等优点,吸引了众多来自学术界和工业界的用户。随着技术的发展与革新,例如宿主机资源均衡的改善、服务负载周期性变化等,IaaS层也涌现出一个新场景下亟待解决的重要问题:能效问题。如何提升IaaS层计算设施的能效,是用户和供应商共同面临的挑战之一。对于用户,能效问题关系到其执行计算应用的成本;对于云供应商,能效问题关系到数据中心的功耗以及稳定性。本文主要站在两个角度对IaaS层的能效问题展开研究。一方面是站在用户的角度上,针对需要执行大规模科学应用的用户,提出了一些算法与机制帮助用户提升使用云服务的效能以降低计算成本。另一方面,站在云供应商的角度,帮助其提升数据中心效能以降低数据中心的功耗并提高稳定性。在本研究中,作者在涉及到能效的成本、能耗和稳定性问题中取得了以下成果:1.为了降低云平台上中小规模科学工作流的执行成本,首先提出了一种基于可满足性模理论(Satisfiability Modulo Theories,SMT)的算法来调度云平台上的科学工作流,基于SMT的算法将调度问题构造为一阶逻辑表达式,并通过求解器对表达式进行求解,从而使分配给工作流的虚拟机数量最小化。然后开发了一种名为多重策略算法(Multiple Strategies Algorithm,MSA)的启发式算法,该算法用于确定一个虚拟机的执行模式使得虚拟机消耗的实例小时数量最少。最后,将提出的基于SMT的算法和MSA结合到一个名为SMT-MSA的框架中,并在实验中与其他优秀的算法进行比较,结果表明,在大多数情况下,该算法比其他三种方法降低了更多(高达5%)的成本。2.提出了 一个基于DAG拆分的任务调度框架(Cost Minimization Approach with DAG Splitting Sethod,COMSE),用于最大限度地降低受完成时间约束的大规模科学工作流的运行成本。首先全面分析了资源均衡的多vCPU虚拟机同时运行多个任务的资源利用情况。其次,考虑到工作流的并行性和拓扑结构之间的平衡,对基于DAG的工作流进行了简化,并在简化的DAG基础上,设计了一种DAG拆分方法对工作流进行预处理。然后,由于虚拟机是按小时收费的,因此设计了一个精确的算法,为给定的调度方案寻找最优的操作模式,使虚拟机消耗的实例小时数最小,这个算法被命名为TOID(Instance Hours Minimization by Dijkstra)。最后,基于 DAG 拆分法和 TOID,COMSE 在多vCPU虚拟机上调度一个受完成时间约束的大规模科学工作流,并将计算成本和通信成本进行最小化。通过大量严格的性能评估模拟实验,结果表明,COMSE方法在计算成本和通信成本方面显着优于现有算法,效果提升高达8%。3.为了降低大规模科学工作流在虚拟机上的容错成本,提出了一个新型的容错框架。首先,对如何提高在处理器上运行单个任务的容错性能进行了全面的理论分析。其次,考虑到工作流的并行性和拓扑结构之间的平衡,提出了选择性镜像任务容错机制(Fault Tolerance Algorithm using Selective Mirrored Tasks Method,FAUSIT)。FAUSIT 通过采用选择性镜像容错机制应对工作流的容错问题,并解决两个目标:最小化完成时间和计算成本。本研究用来自现实世界的工作流数据集进行模拟实验来评估FAUSIT,结果表明,FAUSIT方法在完成时间和计算成本方面综合地优于现有算法。4.为了降低数据中心的能耗和提高稳定性,提出了一个针对负载可预测的虚拟机调度算法(VM Consolidation algorithm for Predictable Loads,VCPL),以降低热迁移操作次数并提高物理机利用率。首先,提出了一个预测方法(Cyclic Usage Prediction,CUP)来预测虚拟机整个周期内的负载。然后,将周期性负载的虚拟机与其他的虚拟机分离,并通过VCPL将它们调度到物理机上,以确保每个物理机有一个稳定的负载,以达到降低热迁移操作并降低能耗的目的。最后通过使用微软提供的数据集进行了大量的模拟实验来评估VCPL算法,结果显示,66%的长期虚拟机具有周期性负载,并且是可预测的,而且容纳这些虚拟机的物理机上发生的热迁移操作可以比其他解决方案显着减少,提高了物理机资源利用率。

何柳[4](2020)在《三维冲击波数据场体绘制中的边界增强方法研究》文中研究表明根据研究表明,爆炸的破坏效应主要是由冲击波引起的,冲击波作为其主要杀伤因素,具有远距离破坏目标的作用。在复杂外界环境条件下,冲击波传播机理的确定对于这些武器的威力评价有着十分重要的作用。随着高性能计算机的发展以及数值模拟技术的不断进步,领域专家正在使用成千上万个处理器核来实现高置信的冲击波传播机理数值模拟,以数值模拟的方式细致探究真实大气与复杂场景条件下冲击波传播、衍射和反射规律,由此输出包含冲击波精细物理特征的大规模三维数据场。如何有效地把大规模三维数据场中冲击波复杂物理特征以可视的方式展现出来,方便领域专家去深入地观察、分析,是目前迫切需要解决的问题。针对三维冲击波的数值模拟,本文提出了一种基于特征边界检测的体绘制算法,用于从剧烈变化的三维冲击波数据场中提取和展示波阵面的空间结构。为了检测三维冲击波数据场波阵面,该算法将二维图像的边界检测技术用于三维体数据,因此从实际的冲击波数据场中提取了包含波阵面的特征数据。本文提出了两种方法用于确定波阵面的准确位置,一种是填充法,一种是邻域扩展法。其中,邻域扩展法可以更准确地对冲击波波阵面特征予以定位。然后,本文基于VisIt可视化平台使用该算法根据光线投射方法对特征数据进行重采样和光线融合,从而最终实现了复杂波阵面结构的清晰可视化。该算法通过提取特征数据而不是传递函数来表征波阵面的物理特征,因此无需花费大量时间和精力来设计传递函数。该算法已初步应用于三维冲击波数据场的可视化,支持领域专家观察和分析冲击波的演变过程。

梁伟浩[5](2019)在《E级计算的存储系统突发数据缓存的I/O性能优化》文中研究表明超级计算机用于自然科学的很多关键领域中进行复杂系统的大规模计算和模拟。随着芯片技术的高速发展,到2020年超级计算机的性能将会达到EFlop/s(每秒百亿亿次浮点运算)。爆发性增长的计算能力同时也导致了科学计算模拟输出的数据规模激增,从而引发了对大型存储系统的高性能I/O需求。例如,在美国超算中心的系统上使用12万个核模拟计算3万亿个粒子的磁重联物理过程,每小时就会产生约100TB的数据。存储和检索如此大规模的突发性产生的数据会极大地影响这些科学应用的整体性能。当前集中式存储的I/O系统也难以提供足够的性能去充分满足极端规模的科学计算平台要求。为此,近年来学术界提出了突发数据缓存(Burst Buffer)结构:它在计算和存储节点之间添加了新型硬件如非易失性存储器作为缓冲层,支持对于大量突发性的I/O请求进行快速处理。但是针对突发数据缓存的设计仍面临许多问题,需要高效的系统软件与该新的存储架构相结合,来满足支持百亿亿次计算的科学应用所要求的极端并行性和性能需求。本文的工作旨在研究数据密集型科学应用在突发数据缓存系统中的I/O性能优化方法。通过分析应用的数据访问特征和存储需求动态调度分配缓存资源以减少应用之间的相互影响。通过异步数据传输实现跨存储层次之间的数据移动优化,从而提高应用的整体性能和存储系统的效率。本文的研究工作和成果主要包括以下三个方面:1.针对共享式突发数据缓存系统上的资源调度展开了研究。通过分析现有针对缓存节点的调度分配策略,发现多应用在共享访问缓存系统时会引发带宽竞争现象导致了应用的I/O性能下降。为了解决突发数据缓存节点的负载不均衡及应用性能瓶颈问题,本文提出了一种基于竞争感知的存储资源分配算法。通过在运行时中实现对应用的数据读写特征和资源需求的实时分析并根据缓存系统中的节点负载分布,该算法会动态分配合理的缓存节点来协调来自大量进程的高度并发I/O访问以最大化每个应用可获得的I/0带宽,降低进程之间的带宽竞争并平衡节点之间的I/O负载。为了进一步研究节点内带宽竞争的产生机制,本文提出了面向多进程并发I/O访问场景的性能模型和三种衡量指标以定量评估不同的调度策略分别对应用和缓存系统产生的性能影响。实验结果表明,相对现有的静态资源调度策略,所提出的竞争感知分配算法可以使应用的平均效率提高25%和突发数据缓存系统的带宽利用率提高20%。2.针对分布式突发数据缓存系统上的数据传输问题展开了研究。计算节点内独立的非易失性存储虽然能提供本地的高I/O带宽以快速处理应用的大量突发性I/O读写请求,但是计算结束后本地数据回传到外部存储系统的时间开销严重地影响应用的总体性能。为了解决这一问题,本文提出了一种自适应可扩展的异步数据传输优化策略。该策略通过在运行时中利用少量的计算核异步地在计算节点中统一地调度处理来自不同进程发出的I/O请求而不影响程序继续其计算,有效地将应用的计算阶段和I/O阶段交替并行地执行以达到隐藏数据传输延迟的目的。在所有计算阶段结束后,通过调用更多的空闲计算核对缓存在本地存储中的数据回传过程实现I/O并行传输优化,进一步降低数据传输的开销。实验结果显示,与默认的同步I/O模式对比,所提出的异步传输优化策略能使科学应用的数据传输时间减少30%。3.针对异构突发数据缓存系统中的数据调度问题展开了研究。由于异构缓存系统中存储介质的多样性,存储层次之间对于应用的I/O访问特征有着不同的性能表现,增加了数据移动的复杂性。本文提出了一种结构感知的动态I/O调度方案,通过运行时透明地在异构缓存系统中不同存储层之间自动地调度数据,加速科学应用的端到端I/O访问过程。本文提出了流量感知的调度优化方法,通过对在计算节点内的进程发出的I/O请求进行动态分流,以降低大量突发性写操作对节点本地缓存带来的带宽压力。针对跨存储层的数据移动问题,本文提出了干扰感知的I/O调度算法,通过将缓存数据动态映射到不同的存储目标以最大化所有存储层的利用率并减少共享缓冲层中应用之间的I/O干扰。实验结果表明,所提出的调度方法能使应用共享访问异构缓存系统时的I/O干扰降低一倍,程序总体性能获得了54%的提升。本文设计的一系列针对突发数据缓存系统的I/O性能优化技术方法解决了数据密集型科学应用在大规模超算系统上并发存储和访问数据所面临的一系列挑战。本文提出的缓存资源分配算法、异步数据传输优化策略和动态I/O调度方案可以作为一般方法论推广应用于其他存储结构。同时,对下一代E级超级计算机的存储系统的改进和软件生态建设也具有参考价值。

曹书锦[6](2019)在《云环境下截止期约束的科学工作流优化调度算法研究》文中认为近年来,Iaa S(Infrastructure-as-a-Service)云计算平台在为松散耦合的科学应用(如科学工作流)构建灵活、高效和低成本的运行环境方面显示出巨大潜力。一方面,当Iaa S云提供虚拟资源时,用户可以根据特定应用程序的要求定制执行环境;另一方面,与传统的高性能集群相比,用户可以按需租赁各种类型的云资源,在资源配置灵活性上具有更大的优势。此外,Iaa S云平台按使用量计费的模式允许用户获取“无限”的资源,极大地降低了高性能科学计算的门槛。Iaa S云计算资源按需获取、按需定制和按使用量付费的特征,吸引着越来越多的科学家将科学工作流部署到云环境下。尽管当前Iaa S云计算为科学工作流的执行提供了众多优势,但科学工作流在Iaa S云环境上的高效执行仍然面临资源供给与任务调度难以协同的问题。尤其是当科学工作流的执行具有截止期约束时,为了满足科学工作流的时效性要求,调度算法往往过度配置资源,导致Iaa S云资源利用不充分,造成科学工作流执行费用偏高等问题。为此,本文针对截止期约束的科学工作流费用优化问题提出两个调度算法,以实现云环境下截止期约束的科学工作流执行费用最小化。本文首先在传统启发式算法基础上,提出截止期约束的科学工作流调度算法DCWS(Deadline-Constrained Workflow Scheduling)算法。该算法采用三方面的策略在满足工作流完成时间约束下,对执行费用进行优化。一是,DCWS在计算工作流任务优先级时,将任务之间的通信开销、大量并行任务放置在一起可能带来的负面影响等因素考虑进来,以此避免传统调度算法中并行任务因为具有相同的优先级而大量聚集在一起的问题。其次,DCSW算法在实际调度时,通过任务回填和截止期约束违背惩罚机制来提高资源利用率,并在前序任务延迟的情况下对后续任务进行加速,以确保工作流的整体截止期得到满足。第三,DCSW算法通过实例类型升级策略,在不提高工作流执行费用的情况下,减小工作流的执行时间;同时引入实例降级策略,在满足工作流截止期约束的情况下,通过实例降级,降低科学流的执行费用。实验结果表明,DCWS算法能够在满足工作流截止期约束的情况下,生成比现有调度算法成本更低的调度方案。第二,本文在DCWS算法基础上,提出一种基于竞价型实例的截止期约束科学工作流费用优化算法。竞价型实例是云资源提供商为了吸引用户使用云计算资源,提高资源利用率,而引入的一种基于竞价拍卖的实例类型。竞价型实例相对于按需型实例,在费用上具有很大的优势,能够帮助用户以非常低的费用运行大规模计算任务。尽管如此,竞价型实例可能在任意时刻被云提供商回收,存在执行时间不确定的问题,对科学工作流这种任务之间依赖关系很强的应用具有较大影响。为此,本文提出一种分段优化策略,通过在科学工作流的不同执行阶段使用不同竞价规则,利用竞价型实例工作流的稳定调度。特别地,该算法首先将部署在同一实例上的工作流任务集合按照实例计费区间进行分段;然后将关键路径任务分配到可靠性较高的按需实例上,并对于细粒度任务集合和低利用率分段使用竞价型实例调度。在竞价型实例调度中,该算法引入一种“投机”的竞价手段,通过极端竞价,为小任务获得免费的实例执行时间。实验结果表明,在现有算法的基础上,基于竞价型实例的分段优化策略能够在满足工作流截止期约束情况下,实现执行费用的进一步优化。

金钟,陆忠华,李会元,迟学斌,孙家昶[7](2019)在《高性能计算之源起——科学计算的应用现状及发展思考》文中进行了进一步梳理现代科学研究和工程技术中,高性能计算应用将建模、算法、软件研制和计算模拟融为一体,已成为高性能计算机实现在重大科学发现的前沿基础科学研究领域应用的必要纽带。文章从高性能计算机的发展趋势、不同科学计算应用对高性能计算机的需求谈起,回顾和剖析了来自中国科学院多个学科的科学家协同通关,发挥学科深度交叉的优势,在"曙光1000"并行计算机上完成了多个应用软件并在天然DNA的整体电子结构理论计算、激光晶体材料(LBO)电子态理论分析及广义本征值并行计算等方面取得了令人瞩目的高水平成果的案例。多年来,中国科学院始终位列我国科学计算应用发展的前沿。在应用水平、计算规模及成果显示度均取得了长足进步的背景下,文章选取了大气科学、生命科学、高能物理、计算化学和材料科学等典型传统科学计算应用,从科学家的视角对它们的现状、领域发展促进及未来趋势作了介绍,以期能引发读者更深入的思考与关注。最后,提出了进一步发展我国科学计算的若干建议。

黄璜[8](2019)在《基于故障数据预处理的超算系统容错关键技术研究》文中研究说明随着超级计算机的规模不断扩大,体系结构日益复杂,系统可靠性的要求也急剧增高,使得与可靠性紧密相关的系统故障预测和研究面临着极大的挑战。超级计算机系统中的故障一般具有瞬时性、多样性以及不确定性,这些因素对故障信息采集、故障预测以及容错提出了更高更复杂的要求。由高效的数据采集能力和快速准确地数据分析能力所构成的数据预处理技术,为面向超算系统的容错技术提供了强大的数据保障。于此同时,E级系统中单个科学计算应用所产生的最大数据规模将从TB级别增长到PB级。而大规模数据采集时要求更高的聚合带宽来降低延迟以增强实时性,因此实时数据采集很容易产生大量的突发性I/O请求。这样的数据密集型应用和突发性I/O可能成为影响系统I/O性能的最大瓶颈,从而影响故障数据采集的效率。与此同时,I/O性能降低也将影响超算系统容错的执行效率。本文针对超级计算机系统可靠性问题以及与之紧密相关的I/O问题,以保障大规模应用在超算系统高效运行和提高I/O密集型应用的存储利用效率为目标,对故障数据预处理技术、容错技术以及与之相关的I/O问题展开了多方位较深入的研究和实验分析,取得的主要成果如下:设计和优化了面向超算系统的故障数据预处理技术。首先,针对当前系统规模不断增大,数据采集效率较低的情况提出了面向超级计算机系统的实时数据采集框架。实时数据采集框架由数据采集器、H2FS和分布式数据采集管理器组成。针对超算系统中可能产生突发性I/O的复杂应用环境,通过加入高效的H2FS为整个采集框架提供了高性能和高可用性的支持。其次,针对运行时应用相关性能信息收集不完整的问题,优化了用来收集和分析典型应用性能特性的性能分析工具的功能,丰富了实时数据采集框架中的采集数据类型。再次,为了提高系统故障分析和诊断的准确性和时效性,提出了基于离线预处理的在线日志模板提取方法。该方法由两部分组成:第一部分,通过对现有离线日志模板技术的研究和分析,设计了一种针对天河超级计算机的离线日志模板提取流程;第二部分,采用我们设计的实时故障数据采集框架,在存储中间层当中快速增量式的在线分析日志。然后将整个设计融入到数据预处理模块当中与实时数据采集模块联合运行。最后,实验结果表明该框架具有较高的性能和较好的可扩展性,同时验证了基于离线预处理的在线日志模板提取方法的准确性,以此证明面向超算系统的故障数据预处理技术的可用性。针对大规模应用在运行时遇到系统故障可能性增大以及涉及的失效节点数量更多的问题,在XOR的检查点/恢复容错方法的基础上,提出了基于多维度XOR的检查点/恢复容错技术。系统的频繁失效会使得那些在超级计算机平台上长时间运行的任务的完成时间大大髙于任务原本所需的执行时间。而传统检查点/恢复技术在恢复所需的时间成本和恢复所需的存储容量之间往往很难取得平衡。为了解决这些问题,我们提出了基于多维度XOR的检查点/恢复容错方法,并对基于数学函数库的容错框架进行了分析和讨论。通过多维度XOR的检查点/恢复容错方法对大规模并行应用进行容错操作,在不过度增加存储容量的情况下又能够较大程度的提高系统的可靠性。最后,通过实验验证了多维度XOR的检查点/恢复容错方法的有效性。为了解决超算系统中大量突发性I/O对系统性能以及容错效率的影响,提出了面向超算系统的存储负载管理模型SWMM。它可以在多个数据密集型应用并行访问文件系统时优化I/O路径,从而提高带宽效率。同时,优化了面向超级计算机存储系统的容量均衡策略,用于解决存储扩展中的容量不平衡问题。这些技术可以进一步提高应用运行的效率,同时一定程度上缓解了容错技术中I/O性能带来的影响。我们在天河-1A超级计算机上对SWMM进行了测试,实验结果表明,I/O路径优化和容量平衡策略达到了预期的效果,数据采集模块在小数据块传输中具有低开销和高传输效率。

季旭[9](2019)在《基于应用行为分析的高性能计算机存储系统优化技术研究》文中进行了进一步梳理伴随着科技的进步,科学计算在生活中发挥着越来越重要的作用。高性能计算机是其中的重要基础。受摩尔定律的驱动,高性能计算机计算能力一直在不断加强,但是相应的存储系统的发展并没有跟上计算能力进步的脚步,计算系统与存储系统的性能差异越来越大,造成了‘‘存储墙’’问题。针对此,本文研究如何通过分析和学习应用程序和存储系统的行为,来优化存储系统服务能力,提升应用程序I/O和访存性能。本文的主要工作包括:1.提出利用端到端、低开销I/O监控对高性能计算I/O性能行为进行协同分析。本文基于国产超级计算机神威太湖之光的生产环境构建了一套全I/O路径的监控和I/O行为分析系统Beacon。利用该系统,经过一年多对用户行为和系统状态的总结,发现了一系列高性能计算机存储系统的问题,包括:静态的计算节点和I/O转发节点连接导致负载不均衡;共享I/O转发节点应用程序间的严重I/O性能干扰;性能异常的I/O转发节点和后端存储服务器会严重拖慢应用程序I/O性能等,并在此基础上给出针对性优化方案。2.针对现代高性能计算机的I/O性能问题与I/O转发层密切相关的特点,本文提出了基于应用程序历史I/O行为的转发层资源动态分配方法DFRA,实现并部署于国产超级计算机神威太湖之光上。DFRA通过利用Beacon提供的应用程序历史I/O行为,预测其对I/O转发资源的需求并探测I/O冲突,进而动态调整应用程序的I/O转发资源分配,以改善负载不均衡、消除干扰,最终有效提升应用程序性能。结果表明,DFRA在最好情况下会提升应用程序I/O性能16倍以上,为神威太湖之光上的大规模应用程序节省了上亿核时。3.新型存储介质(如SSD)已经开始在高性能计算机中部署。本文对高性能计算程序如何利用本地高速SSD作为内存扩展展开研究。首先利用首创的低成本内存变量分析工具分析了38个不同计算程序的内存行为,并发现科学计算程序的一些独特属性,包括:内存行为在不同输入的情况下有较好的相似性,变量的数目较少,单一变量占据内存空间更大等。利用这些特性,进一步提出了混合内存架构上的变量级别的内存调度方法Deep Map。结果显示,在不需要修改应用程序代码的情况下,Deep Map相比于传统基于交换区的内存扩展方案平均节省51.4%的时间。

丁楠[10](2018)在《大规模科学计算应用的性能建模技术研究》文中进行了进一步梳理大规模科学计算应用是运行在高性能计算机上的主要应用。如何高效运行这些科学计算应用一直以来都是高性能计算领域的研究热点。随着科学计算应用与体系结构的日趋复杂,科学计算应用的实际运行性能与期望性能的差距与日俱增。为提高应用程序的性能,性能分析是其中的必需步骤,性能分析工具也已经成为高性能计算系统不可或缺的重要组件。在性能分析工作中,性能建模是识别关键性能特征,预测潜在性能问题的关键技术。但科学计算应用的复杂性与庞大性、计算平台的多样性以及应用程序与平台交互过程的非线性特征为性能建模带来了挑战,同时也带来了更迫切的需求。本文在高效建模技术及其应用方面开展了深入研究,主要工作包括:·提出并建立了面向复杂地球系统模式的分析型性能模型:发掘地球系统模式中各模式分量的算法特征与关键计算核心,量化关键控制因子与计算核心运行时间之间的关系,进一步分析各模式分量间的耦合关系构建地球系统模式全局性能模型框架。以公共地球系统模式为例,对150万行代码量的真实复杂大规模科学计算应用建立了分析型性能模型,并在通用多核平台上用典型全耦合算例进行了验证,性能模型平均误差为10%。·提出了应用无关的资源导向性能模型:设计并实现了自动化性能建模系统,与传统利用插装技术获取应用程序时间信息的方法不同,资源导向性能模型引入硬件采样性能信息,构建关键性能事件与程序时间之间的量化模型,并将这些方法应用于计算核心识别和模型建立等建模关键步骤。该模型从体系结构维度描述应用程序与计算平台的交互,有效量化非线性的性能行为特征,支持自动化建模,并准确定位应用程序性能瓶颈,在通用多核平台与众核平台上的测试显示,性能模型平均误差为8%。·针对多物理耦合科学计算应用进程布局的高维寻优困难,提出快速进程布局搜索算法:基于矩阵排样的思想将寻优过程分解为剪枝布局组合和搜索优化布局两个阶段,并通过复用最优子布局和利用最佳并行度分析来进一步降低搜索空间。将上述性能模型与进程布局搜索算法相结合,本文设计和实现了自动化进程布局优化工具,并将其成功应用于多个地球系统模式项目。

二、大规模科学计算研究(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、大规模科学计算研究(论文提纲范文)

(1)高性能计算数值模拟框架软件研究进展(论文提纲范文)

引 言
1 国外编程框架的研发进展
    1.1 结构网格框架
    1.2 非结构网格框架
    1.3 小结
2 国内编程框架的研发进展
    2.1 结构网格框架
    2.2 非结构网格框架
3 展望
利益冲突声明

(2)面向国产异构众核处理器的Stencil计算性能优化技术研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景
        1.1.1 处理器发展历程
        1.1.2 Stencil计算面临的优化挑战
        1.1.3 基于申威处理器的高性能计算机
    1.2 研究内容及意义
    1.3 论文组织结构
第二章 相关技术研究
    2.1 SW26010 众核处理器架构分析
        2.1.1 体系架构
        2.1.2 存储模型
        2.1.3 编程模型
    2.2 面向异构平台的Stencil计算优化
        2.2.1 Stencil计算
        2.2.2 并行优化
        2.2.3 访存优化
        2.2.4 自动代码生成
    2.3 面向异构平台的科学计算核心性能建模
        2.3.1 分析型性能模型
        2.3.2 科学计算应用性能建模
        2.3.3 Stencil计算性能建模的挑战
    2.4 本章小结
第三章 面向国产异构众核处理器的Stencil计算并行优化
    3.1 二维Stencil计算优化
        3.1.1 适应局存的数据划分
        3.1.2 交叉分块
        3.1.3 双缓冲优化
        3.1.4 时间分块
    3.2 三维Stencil计算优化
        3.2.1 2.5D分块
        3.2.2 双缓冲优化
        3.2.3 时间分块
    3.3 优化结果及性能分析
        3.3.1 不同类型Stencil优化结果分析
        3.3.2 不同分块参数下优化结果分析
    3.4 本章小结
第四章 面向国产异构众核处理器的Stencil计算性能模型
    4.1 Stencil计算优化流程分析
    4.2 Stencil计算性能模型
        4.2.1 模型参数描述
        4.2.2 限制条件描述
        4.2.3 访存性能模型构建
        4.2.4 计算性能模型构建
        4.2.5 性能函数公式
    4.3 测试与分析
        4.3.1 测试算例及平台
        4.3.2 性能模型有效性评估
    4.4 本章小结
第五章 面向国产异构众核处理器的Stencil计算自适应分块参数选择算法
    5.1 自适应分块参数选择算法框架
    5.2 分块参数调优
    5.3 测试与分析
    5.4 本章小结
第六章 结论与展望
    6.1 工作总结
    6.2 未来展望
致谢
参考文献
作者简历

(3)面向云平台IaaS层的能效问题研究(论文提纲范文)

摘要
Abstract
1 绪论
    1.1 研究背景与意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 研究思路
    1.3 研究内容与创新点
    1.4 组织结构
2 相关工作和概念
    2.1 相关工作
        2.1.1 科学工作流成本最小化相关研究
        2.1.2 数据中心功耗及稳定性相关研究
    2.2 相关概念
        2.2.1 科学工作流
        2.2.2 静态调度与动态调度
        2.2.3 IaaS层
        2.2.4 热迁移
3 科学工作流成本压缩调度算法
    3.1 前言
        3.1.1 研究背景与动机
        3.1.2 相关研究
        3.1.2.1 计算环境和优化目标
        3.1.2.2 优化方法
    3.2 问题定义
        3.2.1 科学应用模型
        3.2.2 云平台模型
        3.2.3 虚拟机模型
        3.2.4 问题定义
        3.2.4.1 虚拟机数量最小化
        3.2.4.2 实例小时数量最小化
    3.3 虚拟机最小化
        3.3.1 虚拟机数量的上下限
        3.3.1.1 虚拟机数量的上限
        3.3.1.2 虚拟机数量的下限
        3.3.2 可满足性模理论
        3.3.3 虚拟机数量最小化问题的SMT模型
        3.3.4 基于SMT的启发式算法
    3.4 实例小时最小化
        3.4.1 实例小时最小化问题分析
        3.4.2 单策略算法(Single Strategy Algorithm,SSA)
        3.4.3 多策略算法(Multiple Strategy Algorithm,MSA)
        3.4.3.1 MSA中的策略
        3.4.3.2 合并机制
        3.4.3.3 多策略算法
        3.4.4 实例小时最小化问题复杂度分析
    3.5 性能评估
        3.5.1 虚拟机最小化评估
        3.5.1.1 实验设置及相关参数
        3.5.1.2 实验结果
        3.5.2 实例小时最小化评估
        3.5.2.1 评价标准
        3.5.2.2 实验结果
        3.5.3 综合评估
        3.5.3.1 评价标准
        3.5.3.2 实验结果
    3.6 本章小结
4 混合使用多核虚拟机的工作流调度算法
    4.1 引言
        4.1.1 技术背景
        4.1.2 相关研究
    4.2 符号及模型
        4.2.1 系统相关模型
        4.2.1.1 科学工作流模型
        4.2.1.2 云平台模型
        4.2.1.3 虚拟机运行多任务模型
        4.2.1.4 收费模型
        4.2.2 问题定义
    4.3 成本最小化算法
        4.3.1 基本思想
        4.3.2 COMSE算法
        4.3.2.1 CombineTasks()函数
        4.3.2.2 SplitLevels()函数
        4.3.2.3 SplitDeadline()函数
        4.3.2.4 Schedule()函数
        4.3.2.5 MinimizeInstanceHours()函数
        4.3.3 COMSE的框架
        4.3.4 复杂度分析
    4.4 性能评估
        4.4.1 测试集与评价标准
        4.4.2 性能对比
    4.5 本章小结
5 面向大规模科学应用容错的调度机制
    5.1 引言
        5.1.1 研究背景
        5.1.2 相关研究
    5.2 符号及模型
        5.2.1 科学工作流模型
        5.2.2 云平台模型
        5.2.3 快照模型
        5.2.4 错误模型
        5.2.5 主要相关符号定义
        5.2.6 问题定义
    5.3 容错机制
        5.3.1 基本思想
        5.3.2 FAUSIT容错机制
        5.3.2.1 DetermineKeyTasks()函数
        5.3.2.2 DeployKeyTasks()函数
        5.3.3 FAUSIT的可行性说明
    5.4 实验与评估
        5.4.1 实验设置
        5.4.2 评价指标
        5.4.3 参数(?)的取值
        5.4.4 实验结果
    5.5 本章小结
6 基于周期性负载的海量虚拟机调度
    6.1 引言
    6.2 符号与定义
        6.2.1 虚拟机模型
        6.2.2 物理机模型
        6.2.3 问题定义
    6.3 负载预测
        6.3.1 基本思想
        6.3.2 周期负载预测算法(CUP)
        6.3.3 CUP的预测性能展示
    6.4 基于预测负载的虚拟机调度算法(VCPL)
        6.4.1 VCPL的基本思想
        6.4.2 VCPL算法
        6.4.2.1 Classify()函数
        6.4.2.2 Consolidate()函数
    6.5 性能评估
        6.5.1 数据集、实验设置和性能指标
        6.5.2 预测负载对调度的影响
        6.5.3 算法对比
    6.6 本章小结
7 结论与展望
    7.1 结论
    7.2 创新点
    7.3 展望
参考文献
攻读博士学位期间科研项目及科研成果
致谢
作者简介

(4)三维冲击波数据场体绘制中的边界增强方法研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景
    1.2 相关工作
        1.2.1 科学计算可视化
        1.2.2 体绘制技术
        1.2.3 可视化平台Visit
    1.3 本文主要研究内容和结构安排
第二章 体绘制技术综述
    2.1 体绘制并行加速技术
        2.1.1 并行绘制
        2.1.2 GPU硬件加速
        2.1.3 光线追踪体绘制
    2.2 体绘制数据约简技术
        2.2.1 自适应绘制
        2.2.2 多分辨率绘制
        2.2.3 PDF约简模型
    2.3 体绘制效果增强技术
        2.3.1 信息辅助可视化
        2.3.2 预积分绘制
        2.3.3 转换函数设计
        2.3.4 光照效应
        2.3.5 边界增强技术
    2.4 体绘制技术展望
    2.5 本章小结
第三章 边界检测
    3.1 边缘检测基本概念
        3.1.1 邻域关系
    3.2 经典边缘检测算子
        3.2.1 图像梯度及其属性
        3.2.2 梯度边缘检测算子
        3.2.3 边缘连接和边界检测
    3.3 二维CANNY算子边缘检测
        3.3.1 二维Canny算子原理
        3.3.2 二维Canny算子实验结果
    3.4 本章小结
第四章 三维冲击波边界增强体绘制方法
    4.1 冲击波数据场的特征检测
    4.2 单切面CANNY边界检测
    4.3 波阵面位置的准确定位
        4.3.1 填充法
        4.3.2 邻域扩展法
    4.4 连续切面的波阵面特征检测
    4.5 三维冲击波数据场的体绘制
    4.6 实验结果
        4.6.1 使用填充法
        4.6.2 使用邻域扩展法
    4.7 本章小结
第五章 结论与展望
致谢
参考文献
攻读硕士学位期间发表的论文及其它成果

(5)E级计算的存储系统突发数据缓存的I/O性能优化(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 研究背景
        1.1.1 数据驱动的高性能科学计算
        1.1.2 E级计算系统的发展趋势
        1.1.3 大规模存储系统的发展趋势
    1.2 E级计算存储系统设计面临的挑战性问题
    1.3 本文主要研究内容
    1.4 论文组织结构
第2章 相关研究工作
    2.1 高性能存储系统结构
        2.1.1 近数据端计算架构
        2.1.2 突发数据缓存架构
        2.1.3 相关工作总结
    2.2 数据存储格式与I/O编程接口
        2.2.1 MPI-IO
        2.2.2 HDF5
        2.2.3 NetCDF
        2.2.4 相关工作总结
    2.3 I/O执行模式
        2.3.1 解耦合执行模式
        2.3.2 异步执行模式
        2.3.3 相关工作总结
第3章 竞争感知的共享式突发数据缓存分配算法
    3.1 引言
    3.2 相关背景介绍
        3.2.1 共享式突发数据缓存系统
        3.2.2 面向存储资源的调度分配
        3.2.3 动机
    3.3 基于竞争感知的存储资源调度方案
        3.3.1 运行时框架设计与实现
        3.3.2 竞争感知的节点分配算法
        3.3.3 性能模型分析
    3.4 实验评估
        3.4.1 仿真实验
        3.4.2 模拟实验
    3.5 本章小结
第4章 分布式突发数据缓存的异步数据传输优化策略
    4.1 引言
    4.2 相关背景介绍
        4.2.1 分布式突发数据缓存系统
        4.2.2 动机
    4.3 自适应可扩展的异步数据传输优化策略
        4.3.1 运行时框架设计与实现
        4.3.2 自适应的异步数据传输策略
        4.3.3 动态数据回传优化方法
        4.3.4 性能模型分析
    4.4 实验评估
        4.4.1 测试平台与测试程序
        4.4.2 实验结果与分析
    4.5 本章小结
第5章 结构感知的异构突发数据缓存的动态I/O调度方案
    5.1 引言
    5.2 相关背景介绍
        5.2.1 异构突发数据缓存系统
        5.2.2 动机
    5.3 结构感知的动态I/O调度方案
        5.3.1 运行时框架设计与实现
        5.3.2 本地缓存的流量感知调度方法
        5.3.3 跨存储层的I/O重定向策略
        5.3.4 基于干扰感知的I/O调度算法
    5.4 实验评估
        5.4.1 测试平台与测试程序
        5.4.2 实验结果与分析
    5.5 本章小结
第6章 结果与展望
    6.1 研究工作与结果
    6.2 主要创新
    6.3 下一步研究工作
参考文献
致谢
在读期间发表的学术论文与取得的研究成果
在读期间参与的科研项目

(6)云环境下截止期约束的科学工作流优化调度算法研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景与意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 国内外研究现状与问题分析
        1.2.1 基于截止期约束的工作流调度算法
        1.2.2 基于竞价型实例的工作流调度算法
        1.2.3 基于费用约束的工作流调度算法
        1.2.4 存在问题分析
    1.3 论文研究内容
        1.3.1 主要研究内容
        1.3.2 研究目标
    1.4 论文组织结构
第二章 系统模型
    2.1 应用模型
    2.2 资源模型
        2.2.1 Amazon EC2 按需实例
        2.2.2 Amazon EC2 竞价型实例
        2.2.3 实例资源建模
    2.3 调度模型
    2.4 本章小结
第三章 截止期约束的工作流调度费用优化
    3.1 基于通信开销的截止期划分优化方法
    3.2 费用优化调度算法实现
    3.3 调度方案优化策略
        3.3.1 按需实例类型升级
        3.3.2 按需实例类型降级
    3.4 实验结果及性能分析
        3.4.1 实验设置
        3.4.2 度量指标
        3.4.3 实验结果
    3.5 本章小结
第四章 基于竞价型实例的调度费用再优化
    4.1 初始调度方案生成
    4.2 实例分段策略
        4.2.1 实例分段的场景描述
        4.2.2 算法实现
    4.3 竞价型实例调度的容错机制
    4.4 实验结果及性能分析
        4.4.1 实验设置
        4.4.2 度量指标
        4.4.3 实验结果
    4.5 本章小结
第五章 总结与展望
    5.1 工作总结
    5.2 工作展望
致谢
参考文献
作者在学期间取得的学术成果
附录 A 作者攻读硕士学位期间申请的专利

(7)高性能计算之源起——科学计算的应用现状及发展思考(论文提纲范文)

1 高性能计算应用需应对高度异构的挑战
2 我国高性能计算应用的瞩目成果
    2.1 中国科学院科学家联合攻关取得令人瞩目的高性能计算应用成果
    2.2中国高性能计算应用取得“戈登·贝尔”奖的突破
3 我国典型传统科学计算应用现状与发展
    3.1 大气科学之全球气候海洋模式
        3.1.1 现状
        3.1.2 对领域应用的促进
        3.1.3 发展趋势
    3.2 大气科学之全球空气质量预报
        3.2.1 现状
        3.2.2 对领域应用的促进
        3.2.3 发展趋势
    3.3 生命科学之药物设计
        3.3.1 现状
        3.3.2 对领域应用的促进
        3.3.3 发展趋势
    3.4 基础科学之高能物理
        3.4.1 现状
        3.4.2 对领域应用的促进
        3.4.3 发展趋势
    3.5 计算化学之第一原理计算
        3.5.1 现状
        3.5.2 对领域应用的促进
        3.5.3 发展趋势
    3.6 材料科学之钛合金微观组织演化
        3.6.1 现状
        3.6.2 对领域应用的促进
        3.6.3 发展趋势
    3.7 计算材料学之材料结构预测
        3.7.1 现状
        3.7.2 对领域应用的促进
        3.7.3 发展趋势
    3.8 N
        3.8.1 现状
        3.8.2 对领域应用的促进
        3.8.3 发展趋势
    3.9 计算生物学之基因测序
        3.9.1 现状
        3.9.2 对领域应用的促进
        3.9.3 发展趋势
4 关于我国科学计算发展的若干建议

(8)基于故障数据预处理的超算系统容错关键技术研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 故障数据处理技术研究现状
        1.1.1 相关概念
        1.1.2 面向超级计算机的数据采集技术
        1.1.3 面向超级计算机的故障数据处理技术、
    1.2 容错技术发展现状
        1.2.1 面向超级计算机的容错技术
        1.2.2 面向超级计算机的容错库
        1.2.3 其他容错技术
    1.3 I/O相关技术研究现状
        1.3.1 MPI-IO
        1.3.2 MPI-IO、Lustre与数据密集型应用相关研究
        1.3.3 I/O性能分析工具与I/O工作负载管理
        1.3.4 科学数据管理
    1.5 主要贡献和创新点
    1.6 论文组织结构
第二章 面向超算系统的故障数据预处理技术
    2.1 引言
    2.2 研究背景
        2.2.1 I/O软件栈,I/O转发层和H~2FS
        2.2.2 数据采集框架和存储负载管理模型
        2.2.3 资源管理器和性能分析工具
        2.2.4 日志模板提取技术
    2.3 面向超算系统的实时数据采集框架
        2.3.1 实时数据采集框架
        2.3.2 优化后的性能分析收集工具
    2.4 基于离线预处理的在线日志模板提取方法
    2.5 实验
        2.5.1 实验环境
        2.5.2 结果与讨论
    2.6 小结
第三章 面向超算系统的容错技术
    3.1 研究背景
        3.1.1 超级计算机的可靠性现状
        3.1.2 检查点/恢复容错技术
        3.1.3 超算系统中的故障数据相关性分析
    3.2 主要工作
        3.2.1 基于多维度XOR容错模式
        3.2.2 基于数学函数库的容错模式
    3.3 性能分析与实验
        3.3.1 性能分析
        3.3.2 实验设计
    3.4 小结
第四章 面向超算系统容错的I/O优化技术
    4.1 引言
    4.2 研究背景
        4.2.1 ROMIO,Lustre以及SLURM
        4.2.2 I/O性能与系统状态
        4.2.3 存储资源以及资源管理系统
    4.3 方法
        4.3.1 I/O路径优化模块
        4.3.2 存储容量均衡模块
        4.3.3 I/O数据采集和故障预警模块
    4.4 实验设计
        4.4.1 实验环境
        4.4.2 实验一
        4.4.3 实验二
        4.4.4 实验三
    4.5 小结
第五章 结论与展望
    5.1 工作总结
    5.2 研究展望
致谢
参考文献
作者在学期间取得的学术成果

(9)基于应用行为分析的高性能计算机存储系统优化技术研究(论文提纲范文)

摘要
abstract
第1章 引言
    1.1 背景和意义
    1.2 高性能计算机面临的关键问题和挑战
        1.2.1 问题一:I/O资源竞争
        1.2.2 问题二:高性能计算机的I/O性能调优
        1.2.3 问题三:存储结构的变化
    1.3 论文主要工作和贡献
    1.4 论文组织结构
第2章 背景和相关工作
    2.1 I/O转发架构及针对性优化
    2.2 并行应用程序的I/O分析与优化
    2.3 变量级内存分析以及数据分配
    2.4 论文所使用的系统和应用程序
        2.4.1 神威太湖之光高性能计算机及其存储系统
        2.4.2 论文中使用的其它测试系统
        2.4.3 论文中使用的程序
        2.4.4 基准测试程序
    2.5 小结
第3章 端到端的I/O行为检测与分析
    3.1 前言
    3.2 端到端的I/O监控与分析系统Beacon
        3.2.1 主要目的与挑战
        3.2.2 Beacon系统的架构
        3.2.3 多层级系统监控的实现
        3.2.4 I/O分析系统
        3.2.5 性能评估
    3.3 I/O行为分析
        3.3.1 存储系统I/O行为分析
        3.3.2 应用程序I/O行为分析
    3.4 太湖之光存储访问优化
        3.4.1 修改N-1的I/O模式
        3.4.2 避免缓存颠簸
        3.4.3 I/O转发节点队列调度策略调整
    3.5 小结
第4章 高性能计算机的存储转发系统优化
    4.1 前言
    4.2 动态I/O转发资源分配系统DFRA
    4.3 自适应的I/O转发节点调整
    4.4 消除I/O性能干扰
    4.5 性能异常节点规避
    4.6 系统评估
        4.6.1 I/O历史行为统计
        4.6.2 整体效果评估
        4.6.3 I/O转发资源升级测试
        4.6.4 节点异常检测
        4.6.5 I/O干扰消除
        4.6.6 DFRA的动态分配开销
        4.6.7 突发缓存上的扩展
    4.7 小结
第5章 面向混合存储的分析和优化
    5.1 前言
    5.2 内存行为研究方法
        5.2.1 对象与变量
        5.2.2 两阶段变量/对象分析工具
    5.3 实验环境与应用程序集合
    5.4 应用程序的内存行为分析
        5.4.1 应用程序的变量/对象行为
        5.4.2 主要变量分析
        5.4.3 并行应用程序分析
    5.5 内存分析的实验结果
        5.5.1 变量/对象数目和大小
        5.5.2 变量的生存周期
        5.5.3 不同问题规模下内存行为的研究
        5.5.4 对象的内存使用量
        5.5.5 主要变量数据结构类型
        5.5.6 对象内存访问模式
        5.5.7 内存访问分析的采样窗口
    5.6 混合存储系统的优化数据分配策略
        5.6.1 概述
        5.6.2 性能模型构建
        5.6.3 变量在混合存储上的分配
        5.6.4 实验评估
    5.7 小结
第6章 总结与展望
    6.1 总结
    6.2 进一步工作
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果

(10)大规模科学计算应用的性能建模技术研究(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 论文背景与意义
    1.2 性能建模的挑战与机遇
    1.3 科学计算应用性能建模的关键问题
    1.4 本文研究的主要内容与结构
第2章 研究现状分析
    2.1 计算性能建模相关研究
        2.1.1 分析型性能模型
        2.1.2 经验型性能模型
        2.1.3 混合型性能模型
    2.2 通信性能建模相关研究
        2.2.1 分析型性能模型
        2.2.2 PRAM模型
        2.2.3 BSP模型
        2.2.4 Hockney模型
        2.2.5 LogP家族模型
    2.3 本章小结
第3章 面向地球系统模式的分析型性能模型
    3.1 公共地球系统模式
        3.1.1 耦合流程的运行机理分析
        3.1.2 公共地球系统模式的运行流程分析
    3.2 公共地球系统模式性能建模的挑战
    3.3 公共地球系统模式的分析型性能模型
        3.3.1 大气模式性能模型
        3.3.2 陆面模式性能模型
        3.3.3 海洋模式性能模型
        3.3.4 海冰模式性能模型
    3.4 测试与分析
        3.4.1 公共地球系统模式的性能数据采集与分析
        3.4.2 公共地球系统模式的分析型性能模型质量评估
    3.5 本章小结
第4章 资源导向的自动化性能建模技术
    4.1 自动化性能建模的挑战
    4.2 硬件计数器的工作机制与可信度评估
        4.2.1 硬件计数器的工作机制
        4.2.2 硬件计数器采集时间的可信度评估
    4.3 计算核心的识别与获取
    4.4 计算性能模型的构建
    4.5 通信性能模型的构建
    4.6 性能模型校准
    4.7 面向多核平台的测试与分析
        4.7.1 科学计算基准测试程序的资源导向性能模型
        4.7.2 复杂真实应用的资源导向性能模型
    4.8 面向众核平台的资源导向性能模型扩展
    4.9 不同性能模型的对比
    4.10 小结
第5章 大规模科学计算应用的自动化性能建模系统与应用
    5.1 自动化性能建模系统
        5.1.1 ModelExpert自动化建模系统
        5.1.2 ModelExpert自动化建模系统的配置与实例
    5.2 模型驱动的进程布局优化工具
        5.2.1 模型驱动的进程布局优化工具的设计与实现
        5.2.2 模型驱动的进程布局优化工具测试与分析
    5.3 小结
第6章 总结与展望
    6.1 论文主要工作总结
    6.2 进一步工作
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果

四、大规模科学计算研究(论文参考文献)

  • [1]高性能计算数值模拟框架软件研究进展[J]. 何连花,赵莲,姜金荣,金钟. 数据与计算发展前沿, 2021(06)
  • [2]面向国产异构众核处理器的Stencil计算性能优化技术研究[D]. 朱雨. 战略支援部队信息工程大学, 2021(01)
  • [3]面向云平台IaaS层的能效问题研究[D]. 吴昊. 大连理工大学, 2020(01)
  • [4]三维冲击波数据场体绘制中的边界增强方法研究[D]. 何柳. 中国工程物理研究院, 2020(01)
  • [5]E级计算的存储系统突发数据缓存的I/O性能优化[D]. 梁伟浩. 中国科学技术大学, 2019(02)
  • [6]云环境下截止期约束的科学工作流优化调度算法研究[D]. 曹书锦. 国防科技大学, 2019(02)
  • [7]高性能计算之源起——科学计算的应用现状及发展思考[J]. 金钟,陆忠华,李会元,迟学斌,孙家昶. 中国科学院院刊, 2019(06)
  • [8]基于故障数据预处理的超算系统容错关键技术研究[D]. 黄璜. 国防科技大学, 2019(01)
  • [9]基于应用行为分析的高性能计算机存储系统优化技术研究[D]. 季旭. 清华大学, 2019(02)
  • [10]大规模科学计算应用的性能建模技术研究[D]. 丁楠. 清华大学, 2018(04)

标签:;  ;  ;  ;  ;  

大规模科学计算研究
下载Doc文档

猜你喜欢