12月2日,2018年神经信息处理系统大会NIPS(Conference and Workshop on Neural Information Processing Systems)在加拿大蒙特利尔国会大厦举行,大会上百度重磅发布X-MAN3.0,专为深度神经网络优化的超强AI计算平台。该方案由百度与浪潮合作研发,每秒可完成2000万亿次深度神经网络计算。
面向深度神经网络优化的超强AI计算平台X-MAN3.0亮相NIPS2018
NIPS是机器学习领域的顶级会议,大会的内容涵盖了机器学习、神经科学、认知科学、心理学、计算机视觉、统计语言学和信息论等156个领域。深度学习是AI发展的主要动力,也是大会最热门的话题之一,目前,在深度学习三要素计算、算法和数据中,除了算法创新外,计算技术的创新成为深度学习发展的主要动力。
两级交换,GPU资源统一池化
浪潮是百度在数据中心领域最重要的战略伙伴,一直与百度联合研发包括X-MAN3.0在内的各类AI专用计算平台。X-MAN是百度用于超大规模AI训练的专用平台,第一代产品发布于2016年,每年更新一代,此次发布的是第三代。
X-MAN3.0高度为8U,由两个高度分别为4U的独立AI模组组成,每个模组可支持8颗最新的NVDIA V100,两个AI模组之间通过高速互联背板连接。GPU之间通过NVlink Switch链路通信,全局单向通信总带宽为2400GB/秒。
同时,X-MAN 3.0专门设计了两级AI加速芯片互联交换体系,CPU与GPU之间的逻辑关系可以通过软件定义的方式任意指定,更为灵活的支持不同负载的AI应用,避免系统瓶颈。这是X-MAN3.0与业界其他产品的区别之处。
专为深度神经网络优化的超强AI计算平台
现在AI训练对于计算平台的挑战越来越大,为了提高AI模型的精准度,训练数据集规模平均增长了300倍以上,Google Open Image在2017年末就已经达到了900万标记图片,模型规模高速膨胀,一些互联网公司的AI模型已经达到千亿参数的规模。
这不仅需要用户部署更大规模的GPU计算平台,而且需要部署具有更大纵向扩展能力的GPU计算平台,因为后者能够解决日益严峻的GPU之间的通信瓶颈。以AI模型常用的三维快速傅里叶变换算法为例,这种算法在GPU并行环境,每三次运算就需要一次全局性通信,对于GPU间的交互带宽高度依赖。
X-MAN3.0是目前扩展GPU数量最多的计算平台之一,而且采用了NVlink Switch技术,可以很好地缓解通信瓶颈问题,可以为互联网公司的超大规模AI训练带来超出预期的应用价值。
当前AI训练芯片领域竞争激烈,众多方案将在19年相继落地应用。X-MAN3.0整体采用模块化设计,能够快速、高效的支持各种AI训练芯片,这为百度快速引入更有竞争力的AI训练芯片方案奠定了关键技术基础。
深度布局AI
根据 IDC数据,2018年前两季度,浪潮在中国GPU服务器领域的销售额份额为52%,远远领先于其他厂商。近年来,通过JDM模式创新,浪潮一直为互联网公司提供定制化的计算平台方案,除了X-MAN系列,浪潮与百度联合研发了很多业界领先的产品,比如ABC一体机,单物理集群支持64块GPU的超强扩展平台SR-AI整机柜,以及天蝎整机柜服务器冰山冷存储节点,都已经在百度批量部署应用,极大地提升百度数据中心的计算力和可扩展性。
NIPS2018现场,浪潮展台
目前,浪潮是全球领先的AI计算力厂商,从计算平台、管理套件、框架优化、应用加速等四个层次致力于打造敏捷、高效、优化的AI基础设施。浪潮已成为TOP级互联网客户最主要的AI服务器供应商,并与科大讯飞、商汤、旷视、今日头条、滴滴等人工智能领先科技公司保持在系统与应用方面的深入紧密合作,帮助AI客户在语音、图像、视频、搜索、网络等方面取得数量级的应用性能提升。
Tags:NIPS 2018 举办 百度 发布 面向 深度 神经网络 优化 超强 AI 计算 平台 -MAN 3.0
|