您的位置:主页 > 公告动态 > 正大动态 > 正大动态

用「存算一体」底层创新,做高能效比国产化芯

2020年底的一天,吴强与几个同事加完班,一同去沙县小吃吃夜宵。馄饨的蒸汽氤氲,吴强问同事:“若是你们可以自己选一个领域做芯片,你希望用芯片做出解决什么问题的产物?”‍‍

几位同事纷纷提及自己的现状。有人天天要驾车横穿泰半个都会去上班,希望自动驾驶能让自己在途中休息一下;有人希望用教育机械人帮自己教孩子;尚有的人希望用机械人陪同自己的怙恃。

同事的回覆更坚定了吴强的创业刻意:用底层的手艺创新,做一款“更好的AI芯片”——一款可以辅助万物皆智能的AI芯片。

两年半之后的5月10日,吴强和后摩智能团队交上了*块大算力AI芯片——鸿途H30。这款芯片专注于自动驾驶领域,最高物理算力256TOPS,典型功耗35W。

后摩智能鸿途H30的怪异之处在于“存算一体”的新型架构设计。在吴强看来,鸿途H30证实了大算力存算一体手艺的可用性,标志着存算一体芯片商业化元年的到来。同时,存算一体也让车企客户多了一个优质国产芯片的选择,并证实了不依赖先进工艺,依旧能做出算力、功耗都优异的芯片。

借着新产物公布会,「甲子光年」采访了后摩智能首创人兼CEO吴强,以及投资后摩智能三轮的投资人、经纬创投投资董事童倜,聊聊这款大算力存算一体芯片是怎么做出来的。

1. 用“存算一体”来做自动驾驶芯片

2014年,已经公布了自动驾驶乘用车的特斯拉,宣布与Mobileye相助,在后续的产物中使用EYE Q3芯片。该款芯片在那时是算力*,为0.256TOPS,也即每秒可盘算0.256万亿次。短短两年之后的2016年,特斯拉甩掉Mobileye,换上英伟达8TOPS的芯片Drive PX 2。

2019年,特斯拉竣事与英伟达的相助,公布了自研的芯片,现在特斯拉最高算力的芯片已经到达144TOPS,而英伟达去年11月公布的Thor芯片更是一起让算力飙升到了2000TOPS。

但算力之外,距离规模化普及应用,自动驾驶芯片尚有一些鸿沟需要跨越——功耗与成本。

过往,芯片设计主要通过工艺制程的精进来提升能效比,但随着摩尔定律逐渐趋缓,通过工艺节点来优化功耗的效果收效甚微。同时,工艺节点的优化也会指数级地增添芯片生产的成本。算力、功耗和成本成了“不能能三角”。

但著名芯片设计师Jim Keller却说,“若是通过通例方式无法改良一款芯片,那就去做底层的架构创新”。也是受到这句话的鼓舞,一直想做一款高能效比且大算力盘算芯片的吴强,下定刻意要用更前沿的“存算一体”架构来重新设计芯片。

什么是存算一体?

从字面意思来明晰,就是芯片内部的存储模块和盘算模块融合在了一起,数据在存储模块中完成了部门或所有的盘算。

若是把一块芯片的盘算功效想象成厨师做菜,那盘算模块就是厨房,而存储模块是客栈。已往,厨师需要凭证指令,每次都去客栈拿出一件器械来到厨房,再接着读下一条指令拿另一件器械,或读完指令来餐厅举行一个步骤。这样不仅传输繁琐,也虚耗了许多时间。

应用存算一体手艺,也即直接把厨房移到客栈中,数据可以在存算模块内部完成大部门的盘算,再传输出去举行进一步的运算。

“存算一体”手艺属于底层架构的创新,有一些显著的优势。由于盘算不再需要每一步划分读写,以是整体的盘算速率会变快,盘算延时也更低。

存算一体的另一个优势是功耗显著降低。同样由于数据传输路径的优化,存算一体手艺不仅节约了时间,还节约了数据传输的“内讧”,带来更好的能效比。

更主要的是,当芯片在保证算力的同时又能兼顾能效比,它也有时机用更成熟的工艺节点来制造。这不仅会带来成本上的优势,在国产化的趋势下,也更有可能保证供应链稳固,被客户优先选择。

在吴强看来,由于摩尔定律趋缓,需要更新的手艺创新。而那些能够在不依赖先进工艺而实现瓶颈突破的底层手艺创新,就是后摩尔时代的手艺偏向。

也正因此,团队一致赞成给公司起名“后摩智能”。

2.存算一体芯片“最后七公里”

只管存算一体在手艺层面能够支持芯片产业泛起新时机,但要真正创业做新营业却没有那么容易。在吴强看来,存算一体尚有“最后七公里”要走。

“学术上实现的是从无到有的历程,但要应用在商业,还需要先补齐手艺的可实现性这两公里,再补上应用到详细场景的工程性问题这五公里。”

详细而言,在这款芯片的界说、设计历程中,也经由了不少讨论和取舍。

例如,存算一体手艺依托的存储类型异常厚实,包罗以SRAM、DRAM为代表的易失性存储器,以Flash为代表的非易失性存储器,尚有以MRAM和RRAM为代表的新型非易失性存储器。后摩当前选择了制作工艺更为成熟的SRAM。

又如,从电路手艺来看,存内盘算有数字盘算和模拟盘算两种,后摩首先选择了运算精度更高、可靠性更好的数字存算。

但对吴强来说,这都是综合市场需求和手艺可行性之后的更优选择,后摩当下战略聚焦于智能驾驶芯片,更大的有用算力、更高的可靠性都是为目的芯片服务的。

只不外,摸着石头过河,确实要面临比偕行更多的挑战。

好比在电路的仿真验证中,一样平常用EDA软件举行在线的设计,尔后用可编程的FPGA举行电路设计的验证。然则,后摩智能的芯片设计规模已经跨越了市面上任何一个可以找到的FPGA,要怎么做芯片验证呢?

笑果「翻车」背后:估值60亿,投资人称或未做好风控

后摩智能想到把芯片的差异功效举行切割,在差其余FPGA上举行验证。关于若何把芯片做合理的剪裁以顺应部门的验证,后摩团队频频讨论、多次实验,最终找到了最适当的方式。

最终,后摩智能交上了鸿途H30这份答卷,相比业界先进的7nm工艺,后摩接纳了更成熟的12nm工艺,但功耗比前者削减了50%,性能有两倍以上的提升。

经纬创投投资董事童倜以为,除了存算一体手艺上有伟大的优势之外,“后摩团队的优势还在于团队的职员组成异常完善,在很早就拥有了存算一体相关领域的学术专家、曾经量产过大算力AI芯片的人,和设计过车规芯片的人”。

在童倜看来,尤为忧伤的是,在建立之初,后摩团队就已经对所在的赛道、市场需求有了苏醒的认知,也对整个芯片研发及企业谋划中可能会遇到的问题有了一定的预期和计划。

这或许要归功于吴强及后摩团队过往在芯片行业厚实的从业履历,有十年以上芯片行业的事情履历的研发职员占比很高,履历过车规芯片量产和导入的初创企业奋斗全历程的员工也不在少数,他们能够深刻明晰研发组织、客户相一致的主要性。

3. “科学家”创业,挑战在手艺之外

手艺之外,创业更大的挑战正在守候着吴强——手艺商业化。

纵观后摩首创团队的靠山,手艺身世占比更多,吴强在先前AI芯片公司做CTO的时刻也主要是专注于手艺领域。但他并不以为这是一个难以跨越的挑战,“虽然这些我以前没有做过,但这都是身为CEO应该做的。创业原本就是快速学习、快速生长的历程,由于你不够快就会被镌汰”。

在后摩确立半年左右的2021年中,公司还在芯片界说阶段,吴强已经最先造访客户。他以为,未来产物落地历程中必须要关注客户真实的场景和诉求,以是何不在最最先就让客户的诉求加入到“芯片界说”环节呢?

让吴强印象最深的是一次去一祖传统车企,那时接待他的采购卖力人结业就在这里事情,已经有十多年。他和吴强注释他们高、中、低款车型对自动驾驶芯片差其余预算、功效诉求,又拉着吴强叹息“若是你们有芯片,我们现在就能上车测试”。

询问其中缘故原由后才发现,中小车企着实“苦外洋车规芯片久矣”

一方面,由于自动驾驶芯片手艺难度不低,许多车企只能成为大型芯片公司的客户。那些公司的芯片不仅价钱高昂,而且总是先供应更头部的车厂,中小企业总是会被迟发、少发芯片。而且,这些公司售后手艺团队在海内的员工较少,也很难保证每一家车企都提供完整的售后手艺支持。

更主要的是,在地缘政治等全球不稳固的因素下,中国的中小车企也希望能够保证自己产线的供应链平安,而自动驾驶芯片作为焦点零部件之一,国产化的趋势势不能挡。

于是,后摩团队*款芯片在验证阶段就凭证客户痛点计划了许多功效,并在去年完成了焦点功效验证。

除了鸿途H30之外,本次公布会还一下子公布了智能驾驶盘算使能平台Sailing平台、智能驾驶硬件平台力驭、软件开发工具链后摩大道。后摩智能团结首创人、产物副总裁信晓旭提到,后摩一家芯片公司这么早就投入人力物力来做软件平台,是由于团队成员里不少已往曾由于软件的事情吃过亏。

“我曾在一家着名芯片公司卖力某标杆客户的项目落地。原本项目希望很顺遂,但三个月之后,对方的卖力人溘然打电话来终止了相助,缘故原由是团队以为软件平台太难用、学习成本太高。”信晓旭示意。

于是在后摩产物的设计之初,就把软件作为主要的产物线,与硬件设计同步推进。

现在,后摩团队正在做给客户送样前的最后测试,预计6月,客户就会收到样片举行测试。

4. 大模子时代,存算一体不止于自动驾驶

存算一体只能用在自动驾驶领域吗?

后摩智能团结首创人、芯片研发副总裁陈亮在公布会上的回覆是“存算一体尚有更广漠的应用场景”。

陈亮示意,鸿途H30 以存算一体创新架构实现了六大手艺突破,即大算力、全精度、低功耗、车规级、可量产、通用性。

鸿途H30 基于 SRAM 存储介质,接纳数字存算一体架构,拥有极低的访存功耗和超高的盘算密度,在 Int8 数据精度条件下,其 AI 焦点 IPU 能效比高达15Tops/W,是传统架构芯片的7倍以上。在现实性能测试中,鸿途H30 基于Resnet 50 模子的 Benchmark,在 Batch Size 即是1 和 8 的条件下划分到达了8700 帧/秒和10300 帧/秒的性能。

而为了充实施展存算一体带来的高盘算效率,后摩智能面向智能驾驶场景打造了专用 IPU(处置器架构)——天枢架构,接纳多核、多硬件线程的方式扩展算力,实现了盘算效率与算力天真扩展的*平衡,AI 盘算可以在核内完成端到端处置,保证通用性。

天枢架构的设计理念源自于庭院式的中国传统住宅,以大结构设计保障盘算资源行使效率的同时,再进一步连系现代住宅多层/高层的设计优势,以多核/多硬件线程的方式天真扩展算力。

后摩智能的存算一体芯片在大算力、低功耗、通用性上的优势,为未来芯片应用在更多领域带来了可能。

不外,作为一个在“能效比”上更有优势的底层架构,后摩智能更希望未来的芯片专注于那些较大算力且对功耗较为敏感的场景。例如一些边缘侧的重点场景,如智慧工业中的数据剖析 装备控制、拥有较多功效的服务机械人、用来探测和盘算的商用无人机、更多功效性能更强的ARVR等。

吴强以为,能效比每提升1000倍都市延伸出一个新的盘算形态。例如从小型机时代到PC时代,以及从PC时代得手机时代,都提升了靠近1000倍。尔后摩智能的未来的愿景,则是希望通过不停迭代,发生出千倍于手机时代的能效比,缔造可能的新盘算形态。

不外更近一点,后摩智能照样希望在未来1~3年里,聚焦智能驾驶场景,关注乘用车和商用车的使用情形,买通商业闭环,“做透”一个场景。

经纬创投投资董事童倜在评价投资后摩智能的时刻曾这样对「甲子光年」说,“我们关注一项新手艺,不会等到80%或90%的手艺成熟度或要求有商业落地案例才投资,由于那时刻已经太晚了”。而类似后摩智能这样的先行者,已经早早出发,成为新手艺落地历程的焦点推动者,并在手艺发作之后“坐看云起”。