NVIDIAL20是一款针对中国市场的高性能GPU,基于NVIDIAAdaLovelace架构开发,具有高性能和可扩展性,支持广泛的AI应用和模型训练任务。L20的定位是全高全长的加速卡,适用于需要较高计算能力的场景。
派欧算力云()推出全新GPU测评栏目,基于实际生产中的业务场景,为大家带来不同GPU的性能测评,我们将专注于为大家带来最前沿、最深入的性能评测和行业动态。在这里,你将能第一时间了解到最新款GPU的性能表现。今天我们为大家带来的测评是NVIDIAL20。
NVIDIAL20规格参数GPU架构:NVIDIAAdaLovelace
CUDA核心:10240
频率:高达2.2GHz
显存:48GBHBM3
显存位宽:384位
显存带宽:1.9TB/s
算力:FP32:90TFLOPS;FP64:11TFLOPS
能效:115FP32TFLOPS/w
L20是英伟达于2023年11月16日推出的一款专业显卡。它采用5nm制造工艺,基于AD102图形处理器。该卡支持DirectX12Ultimate。AD102图形处理器是一款大型芯片,具有609mm²的芯片面积和763亿个晶体管。与完全解锁的TITANAda不同,TITANAda虽然使用相同的GPU但启用了全部18432个着色器,但英伟达在L20上禁用了一些着色单元,以达到产品目标着色器数量。它拥有11776个着色单元、368个纹理映射单元和128个ROPs。此外,还包括368个tensorcores,有助于提高机器学习应用的速度。该卡还具有92个光线追踪加速核心。英伟达为L20配备了48GB内存,通过384位内存接口连接。GPU运行频率为1440MHz,可提升至2520MHz,内存运行频率为2250MHz(有效值为18Gbps)。
主要特性支持最新的NDRInfiniband:可实现高速互连和低延迟通信。
支持大规模并行计算:可处理海量数据集和复杂模型。
先进的AI加速功能:包括TensorCore、RTCore和DLSS,可显著提升AI训练和推理性能。
兼容广泛的AI框架:包括TensorFlow、PyTorch和RAPIDS,可轻松集成到现有AI工作流中。
应用场景NVIDIAL20主要适用于云端推理任务以及大规模的AI推理场景。它具备强大的计算能力和高密度的存储容量,这使得它在处理如图像识别、自然语言处理等复杂的云端推理任务时表现出色。此外,L20也适用于需要高性能和高效能云计算平台的场景,如数据中心和云服务提供商等。
L20基于Ada架构,搭配48GBGDDR6显存,显存带宽为448GB/s,相较于前代产品A10有所提升。在性能上,L20大约是L2的两倍,能够满足各种复杂推理任务的需求。
NVIDIAL20具备非常优化的性价比,满足中小参数规模的大模型预训练,大参数规模的大模型二次调优和推理,同时也完整保留了L40s的超级图像处理能力。
它保留了L40s的光线追踪核心和DisplayPort输出以及支持AV1的NVENC/NVDEC等功能,同时,部署L20的功耗较低,仅为SXM5系统功耗的三分之一。这对于那些想要横向扩展但每个机架可能没有大量电力预算的人来说非常有吸引力。
性能测评方法和数据测试方法我们预定义了5组不同token输入和输出长度的配置,针对两种显卡在不同输入输出的场景下,对百川213B大模型调用,获取最大QPS值时的模型吞吐情况。
测试方法使用单卡GPU,在StableDiffusionWebUI中,统一配置为:尺寸设置512*512,steps设置100,同时保持Prompt和Negative设置一致,生成至少10张图,取生图每秒生成的迭代次数平均值。
测评总结在Baichuan2-13B模型下,双卡L20平均性能约是双卡3090的1.81~2.61倍
在StableDiffusion文生图的场景下,单卡L20平均性能约是单卡3090显卡的1.06~1.16倍
了解更多在这里,我们将为您提供最新、最全面的GPU性能评测,帮助您了解在生产环境中,不同GPU的推理表现。









