中国计算机学会青年计算机科技论坛
CCF Young Computer Scientists&Engineers Forum
CCF YOCSEF深圳分论坛
AI时代的异构计算
5月5日下午,由CCF YOCSEF深圳分论坛和腾讯共同举办的“AI 时代的异构计算”论坛在腾讯朗科大厦举行。现场应邀作报告共有四名专家学者,分别是清华大学汪玉副教授 、北京交通大学王东副教授、新加坡南洋理工余浩副教授、北京大学汪波助理教授。同时参会还有来自腾讯员工、CCFYOCSEF学会的会员等。
清华大学汪玉副教授为我们带来了“深度学习的FPGA加速:CNN和LSTM设计实例”。汪玉老师所在的团队致力于实现一个更高效的Deep Neural Network计算平台。重点关注的是DNN的前向应用即inference过程。研究表明,training过程处理的主要是稠密矩阵运算,在这一点上现有的GPU是最合适的。相比之下前向inference过程处理的主要是大量的稀疏矩阵运算,这一点上定制的硬件更有优势,是可以超越GPU的。现有的DNN硬件加速研究也基本都集中在前向inference过程中。DNN硬件加速器可以应用在server和smart device等前端设备上。对于DNN中的卷积神经网络CNN而言,需要加速的部分主要集中在两点,一是卷积层,二是全连接FC层。其中卷积层集中了整张网络的大部分运算操作,全连接层的参数所需的存储空间很大,相应从外部存储器中搬运数据的次数较多,受带宽限制明显。 因此充分利用了层内的数据复用,层间的数据复用正在开发中。做CNN硬件加速平台的目的就是为了提升网络中运算时间的占比,降低读取数据的时间占比,从而实现加速的目的。在嵌入式和移动设备中,低功耗设计十分有必要。因此,将神经网络运算中的32位浮点数转化为8位定点数进行运算。8位定点数运算的功耗为32位定点数的十分之一。团队已经开发出实际产品,可以将caffe、Tensorflow等框架下的网络通过编译直接获得指令并将网络直接映射到FPGA硬件中。同时,现场演示了CNN中的face detection和LSTM的语义识别。
北京交通大学王东副教授为我们带来的报告主题是”PipeCNN: An OpenCL-Based FPGA Accelerator for Large-Scale Convolution Neural Networks”。王东老师首先介绍了CNN on FPGA的发展历程,并介绍了自己团队使用Open CL进行CNN开发的过程。Open CL1.0版本中所有的数据通信都需要经过外部存储器。这对本身带宽就有限的FPGA来说是效率极低的。王东老师团队通过充分利用Open CL2.0特性,充分发挥计算的并行化和数据的复用。目前已经实现了所有主流CNN模型的映射,包括AlexNet/VGG/NIN/SqueezNet/GoogLenet/ResNet.团队的第一版设计已经在github上进行了开源,搜索关键字'PipeCNN'。
新加坡南洋理工余浩副教授演讲报告主题是:X-Brain-Chip:下一代超低功耗类脑人工智能芯片技术。余浩老师指出,人脑相对现有硬件仍然有着功耗上的绝对优势。以此,设计类脑人工智能芯片能够获得功耗上的优势。面对新兴的终端智能市场,如汽车辅助驾驶系统,无人机,只能监控,机器人等,现有的通用处理器在面对实时场景处理时都有功耗过高的问题。低功耗,高通量的智能硬件才更加适合这些领域。因此设计了下一代类脑人工智能芯片。首先介绍了团队的人脸检测识别只能图像处理芯片,该芯片使用TSMC的40nm工艺生产,实现人脸探测和识别功能(AdaBoost+PCA/CVM)。芯片面基2.85x2.27平方毫米,运行功耗仅23mW,以5帧每秒的速度实时处理720p图像。其次介绍了团队的另一款2.5D图像多可处理器芯片。为一块多核H.264图像处理器,使用2.5D互连集成,TSMC的65nm+TSI工艺制程。低功耗,高通量的智能硬件。深度神经网络是当前人工智能的核心算法之一,现有深度神经网络的复杂度都很高,参数量极大。因此,将深度神经网络进行二值化,使用类脑超脑架构达到高度简化,深度并行,保证训练精度,压缩网络的目的。同时引入了卷积编码器和去卷积编码器,在数据处理中可以保持特征信息,以提高二值化后处理的精度。通过针对二值化网络的反向训练算法来进行训练。最终得带一个高压缩比,低参数量的二值化网络。相比现有模型都有提升。并完成了此网络的ASIC设计,成功流片。
北京大学汪波助理教授演讲题目是:用于卷积神经网络的模拟和数字计算单元的研究。汪波老师通过对比无人机和蜜蜂的飞行姿态控制的过程分析了传统数字电路与蜜蜂神经系统之间的优劣,发现复杂度相对更小的蜜蜂神经系统能够以极低的功耗实现更加优秀的飞行姿态控制。模拟电路能够实现更加接近生物神经系统的计算模式。模拟电路的设计由于需要手工确定,手工计算晶体管尺寸,手工绘制版图等问题在设计投产流程方面不如自动生成RTL、自动布局布线的数字电路快。但是,在近些年来,人们对电路系统的需求证在发生着由高清、高保真到模式识别,顺序处理到并行处理,高信噪比到低信噪比的转变过程。在新的需求背景下,模拟电路和数字电路的专色发生了转变。其中,数字计算主要应用于高信噪比SNR应用中(视频音频等高性能处理)在很宽的信噪比范围内工号变化不明显。而模拟计算在低信噪比方面有着极大的优势,即在低信噪比的前提下,功耗相对数字计算要低的多。经过研究表明,在CNN中,主要的计算为乘和加。并且对精度的要求并没有十分严格。那么使用模拟计算的方式成为了可能。传统数字电路的计算方法为用bit表示数值的大小,每个运算由更小的运算单元组成,时间成本、功耗成本高。模拟计算的电流电压方式为,使用Vdd/Idd代表数值,只需经过几次运算即可得出结果,其设计成本、工艺升级成本都较低。最后汪波老师提出了新的基于时间域的模拟计算。随着集成电路工艺节点的不断推进,集成电路上的Vdd越来越小,从130nm的1.2V到22nm的0.6V。可以利用的电压范围越来越小,使用电压电流的模拟计算方法实现越来越困难。但是电平跳变的边沿变得更加陡峭,斜率更大,即时间的表示会越来越精确。基于此,汪波老师提出了基于时间域的模拟计算方式。并依此设计了时间域的加减法运算和时间寄存器。以此来实现神经网络中的乘加运算。从而设计出了极低功耗的神经网络计算单元。
所有评论仅代表网友意见