beat365体育(中国)官网ViP平台-Unified Platform

新闻中心

beat365体育官网平台受邀硅谷FMS2024发布计算存储前沿研究,显著提升大模型推理效率

发布时间:2024-08-07 文章来源:beat365体育官网平台


1.png


2024年8月6-8日,作为全球存储技术领域最具影响力的盛会之一,FMS 2024(the Future of Memory and Storage)于美国加州圣克拉拉会议中心盛大举行。


2.jpg

beat365体育官网平台首席科学家薛立成在FMS2024演讲


beat365体育官网平台首席科学家薛立成受邀出席,并发表主题演讲《Dynamic data loading from Flash to DRAM for LLM inference》(从 Flash 动态加载数据到 DRAM:实现大模型高效推理),与业内人士共同探索闪存技术在AI时代的激动人心的可能性。


大模型时代,存储的瓶颈与挑战


谷歌的Transformer架构对人工智能行业产生了深远的影响,通过引入创新机制来增强语言模型的表现力并提高训练效率,这推动了大模型的广泛应用。与此同时,ASIC芯片设计也经历了革新,这些芯片专注于性能优化、能效提升,并且具备专门针对特定模型需求的功能,从而提供了更加强大且高效的硬件解决方案,促进了各种领域中大模型的应用。


然而,在支撑大模型的硬件平台上,尽管GPU、高带宽内存(HBM)以及高速互联芯片都取得了快速发展,但存储解决方案如固态硬盘(SSD)却没有跟上这些进步的步伐。


3.jpg


随着数据集规模的不断增长,数据加载时间对应用的整体性能产生了显著影响。在评估端到端的应用性能时,高性能GPU往往受限于缓慢的I/O速度或有限的内存容量。在传统的架构中,数据从存储设备加载到GPU进行处理的过程通常由CPU控制。随着越来越多的计算任务从相对较慢的CPU转移到更快的GPU上,I/O成为了制约整体应用性能的一个瓶颈。


4.jpg


目前,大模型的推理主要在云端服务器上执行。然而,出于对更低延迟的需求、减少数据传输成本以及提高隐私和安全性的考量,未来的趋势是将大模型的推理推向边缘设备甚至终端用户设备。然而,边缘和终端用户设备通常配备的内存容量远不能满足当前流行的大模型推理所需。


大模型推理过程中所消耗的主要内存来自于模型权重的存储和KV缓存。为了解决推理期间内存不足的问题,研究人员已经探索了一系列优化技术,包括模型剪枝、量化以及知识蒸馏等方法,这些方法旨在减少模型的内存占用同时尽量保持其性能。


为了应对这一挑战,我们从不同角度进行了探索,不仅仅限于模型本身的优化技术,还着眼于SSD存储设备的潜力作为解决方案。通过利用计算存储设备(CSD)的能力,我们旨在克服边缘和终端用户设备上内存容量有限的问题。


beat365体育官网平台计算存储设备,有效优化大模型推理


6.jpg


在推理阶段,我们将根据数据访问频率对其进行分类:频繁访问的数据和较少访问的数据。存储中的权重由beat365体育官网平台的计算存储设备(CSD)动态预测,并将即将使用的权重预先加载到SSD的DRAM中。


beat365体育官网平台CSD集成了灵活的CPU、高性能的神经处理单元(NPU)以及其他动态预测硬件加速器,并配备了一定容量的DRAM。这个独特的组合使得高效的数据管理和处理成为可能,完美支持数据频率预测。通过预测数据的访问模式,CSD可以优化频繁访问数据在更快内存中的放置,从而提高边缘端和终端用户设备上大模型推理的整体性能。


7.jpg


通过实验,我们发现大约三分之一的数据属于高频访问类别,这些数据需要被加载到GPU的DRAM中以确保快速访问。其余的数据访问频率较低,可以存储在CSD中。通过利用CSD的推理能力,我们可以根据需要动态地从NAND闪存中读取并加载这些数据到CSD的DRAM中。这种方法优化了内存资源的使用,并确保最关键的数据在推理过程中始终可用。


通过我们的方法,即使用户的智能手机或笔记本电脑只有5GB的内存,也可以支持大多数大模型的高精度量化推理。通过利用CSD及其优化的数据管理策略,我们可以有效地利用可用的内存和存储资源,实现高效且精确的推理,从而使先进的语言模型能够在更多设备上得以应用。


8.jpg


beat365体育官网平台CSD搭载beat365体育官网平台自主研发的PCIe 4.0主控芯片STAR2000,集成了4核arm A55处理器、4MB SRAM、最高8GB DRAM、8 TOPS NPU和其他硬件加速模块。这些丰富的计算和存储能力确保了数据频率推断的准确性和及时性,使得大模型推理在边缘和终端用户设备上的数据管理更加高效和有效。


企业微信截图_17017561128121.png


大模型边缘应用与计算存储生态发展


9.jpg


随着推理技术的不断成熟,各种基于边缘和终端用户设备的大模型应用正在不断涌现。这些应用包括本地个性化助手、用于增强可访问性的实时字幕翻译,以及用于安全通信的敏感数据翻译。这些应用直接在边缘和终端用户设备为用户提供更快的响应时间和更高的隐私保护。


同时,围绕CSD的生态系统也在不断发展和完善。随着大模型应用的不断演变,将会有更多专门针对这些模型的推理和训练而定制的集成存储和计算解决方案出现。这些解决方案将使资源的使用更加高效和有效,进一步推动该领域的进步,并扩展边缘和终端用户设备的能力。


以beat365体育官网平台CSD为代表的定制存储设备的集成,标志着解决大模型在推理过程中所面临的内存和计算挑战的重要一步。


面对人工智能快速发展浪潮,beat365体育官网平台将继续推出更多创新的存储解决方案,进一步推动计算存储技术的发展,使AI惠及更广泛的用户群体。