深度解读达芬奇架构:华为AI芯片的“秘密武器”
2024-6-4 14:45:42发布次查看发布人:
科普3:3d cube计算方式的独特优势是什么?
不同于以往的标量、矢量运算模式,华为达芬奇架构以高性能3d cube计算引擎为基础,针对矩阵运算进行加速,大幅提高单位面积下的ai算力,充分激发端侧ai的运算潜能。以两个n*n的矩阵a*b乘法为例:如果是n个1d 的mac,需要n^2(即n的2次方)的cycle数;如果是1个n^2的2d mac阵列,需要n个cycle;如果是1个n维3d的cube,只需要1个cycle。
图中计算单元的数量只是示意,实际可灵活设计
华为创新设计的达芬奇架构将大幅提升算力,16*16*16的3d cube能够显著提升数据利用率,缩短运算周期,实现更快更强的ai运算。这是什么意思呢?举例来说,同样是完成4096次运算,2d结构需要64行*64列才能计算,3d cube只需要16*16*16的结构就能算出。其中,64*64结构带来的问题是:运算周期长、时延高、利用率低。
达芬奇架构的这一特性也完美体现在麒麟810上。作为首款采用达芬奇架构npu的手机soc芯片,麒麟810实现强劲的ai算力,在单位面积上实现最佳能效,fp16精度和int8量化精度业界领先,搭载这款soc芯片的华为nova 5、nova 5i pro及荣耀9x手机已上市,为广大消费者提供多种精彩的ai应用体验。
同时,麒麟810再度赋能hiai生态,支持自研中间算子格式ir开放,算子数量多达240+,处于业内领先水平。更多算子、开源框架的支持以及提供更加完备的工具链将助力开发者快速转换集成基于不同ai框架开发出的模型,极大地增强了华为hiai移动计算平台的兼容性、易用性,提高开发者的效率,节约时间成本,加速更多ai应用的落地。
预见:达芬奇架构解锁ai无限可能
基于灵活可扩展的特性,达芬奇架构能够满足端侧、边缘侧及云端的应用场景,可用于小到几十毫瓦,大到几百瓦的训练场景,横跨全场景提供最优算力。
以ascend芯片为例,ascend-nano可以用于耳机电话等iot设备的使用场景;ascend-tiny和ascend-lite用于智能手机的ai运算处理;在笔记本电脑等算力需求更高的便携设备上,由ascend 310(ascend-mini)提供算力支持;而边缘侧服务器上则需要由multi-ascend 310完成ai计算;至于超复杂的云端数据运算处理,则交由算力最高可达256 tflops@fp16的ascend 910(ascend-max)来完成。正是由于达芬奇架构灵活可裁剪、高能效的特性,才能实现对上述多种复杂场景的ai运算处理。
同时,选择开发统一架构也是一个非常关键的决策。统一架构优势很明显,那就是对广大开发者非常利好。基于达芬奇架构的统一性,开发者在面对云端、边缘侧、端侧等全场景应用开发时,只需要进行一次算子开发和调试,就可以应用于不同平台,大幅降低了迁移成本。不仅开发平台语言统一,训练和推理框架也是统一的,开发者可以将大量训练模型放在本地和云端服务器,再将轻量级的推理工作放在移动端设备上,获得一致的开发体验。
在算力和技术得到突破性提升后,ai将广泛应用于智慧城市、自动驾驶、智慧新零售、机器人、工业制造、云计算ai服务等场景。华为轮值董事长徐直军在2018华为全联接大会上表示,“全场景意味着可以实现智能无所不及,全栈意味着华为有能力为ai应用开发者提供强大的算力和应用开发平台;有能力提供大家用得起、用得好、用得放心的ai,实现普惠ai”。
未来,ai将应用更加广泛的领域,并逐渐覆盖至生活的方方面面。达芬奇架构作为ai运算的重要技术基础,将持续赋能ai应用探索,为各行各业的ai应用场景提供澎湃算力。
8月23日,采用达芬奇架构的又一款“巨无霸”将正式商用发布,这就是最新款的ai芯片ascend 910,同时与之配套的新一代ai开源计算框架mindspore也将同时亮相,敬请关注
该用户其它信息