时间:2022-12-24 02:42:01
作者|李桂宏,乔飞
资料来源| 《微纳电子与智能制造》
随着边缘计算技术的兴起,各种感知系统给人类带来了方便高效的生活。 以日常使用的手机为例,工程师通过放入各种传感器,运行其上的机器学习算法,引入了很多方便的功能。 例如,很多手机的正面都有光学传感器,当监测到使用者举起手机时,系统会通过智能算法进行判断,自动使屏幕变亮。 大多数手机还配备了麦克风和智能语音助手,用户可以通过语音命令解锁手机和执行各种任务。 另外,很多手机都有磁性传感器,通过它可以获取手机的姿势并自动调整屏幕的方向。

然而,尽管手机的功能越来越强大和丰富,手机的续航时间和续航时间已经成为最大的使用痛点。 包括上述手机应用实例在内,几乎所有的嵌入式设备都是能量限制系统,这一特点给将计算引入边缘端带来了巨大的挑战。 因此,研究人员试图降低系统功耗,以获得更长的等待时间和持续运行时间。 这种需求被称为“持续感知”。
本文研究持续感知系统在边缘计算中的应用,重点是人工智能与传感系统紧密结合的研究方向。 文章分为五个部分,第一部分讨论传统感知系统的构成,第二部分说明持续感知的典型应用场景,第三部分详细给出了持续感知的概念和特征,文章第四部分总结讨论了近年来学术界和工业界的设计维度和创新方向,第五部分总结全文。
传统感知系统的结构
传感技术是现代社会不可缺少的基础技术之一,也是各种智能算法和应用的数据源。 各种各样的传感器为人类的生活提供了很多便利。 如图1所示,传统感测系统通常首先将物理域信号转换为模拟电信号,随后模数转换器( ADC ) : 模拟-数字转换器( analog-to-digitalconverter )进行模数转换,然后由进行数字域信号处理的部分构成。
在此范式的指导下,各器件制造商结合最新技术进步,提高传感系统的性能表现。 但是,这种技术范式有一个明显的缺点。
(1)各模块被单独设计,独立优化,忽视了整个系统的优化潜力。
例如,当前主流的音频传感器集中于优化将音频信号转换为电信号的过程[1]。 随后,该电信号通过模数转换器进入数字场[2-5]。 模数转换后,信息被传递到以CPU为代表的数字处理器,进行压缩编码等作业[6-8]。 但事实证明,集成化设计将大大提高系统的性能。 传统的单机设计浪费了总体系统设计的巨大潜力[9-11]。
)2)在事件驱动APP应用中,处理了大量的不必要的负载。
以安全场景为例,如图2所示,许多公司利用摄像头拍摄全程,然后专人在后方监控室内,防止盗窃或其他安全事故的发生[12-14]。 但真正的有效数据和事件在所有时空数据中所占的比例非常小[15-16]。 这意味着大量无效数据直接传递到后台控制环节,增加了劳动力成本,也增加了数据传输和存储成本[17]。
(3)面向通用型APP应用,设计难度和生产成本增加,针对性不强。
目前,各传感器厂商的许多产品针对性不强,希望通过各项指标进行优化,保证不同APP应用各自重点的需求。 例如互补型金属氧化物半导体。 (复合mentarymetaloxidesemiconductor, CMOS ) imagesenso(rCMOS图像传感器)的制造商在设计传感器时,并没有过多考虑应用场景的需求,而是专注于提高主要参数的技术性能( [18-21] ),但是行为目标检测这意味着与传统APP场景分离的设计会带来许多严重的过剩性能,增加研发设计难度和生产使用成本,显著提高功耗,不利于“持续感知”类APP应用[22-26]。
传感器生成数据只是第一步,数据要么立即发送到云计算中心,要么直接留在边缘进行处理。 两种范式的优劣将在下一章讨论。
边缘智能
传感器数据在云中处理时,通常会集中传输到最近的数据中心。 以数据中心为代表的云自诞生之初就面临着功耗、网络互联和散热成本巨大的挑战,典型的人工智能APP应用以其巨大的数据流量和高强度的计算需求,给领先的云计算平台带来了新的挑战作为减少云资源消耗的有效方法,边缘计算技术最近由研究者提出,如图3所示备受关注[27]。 在边缘计算系统中引入人工智能算法,称为边缘智能。
边缘智能是指将机器学习等智能算法引入网络边缘——嵌入式终端,即在云服务终点和物联网源头执行智能计算的技术[27-30]。 例如,智能手表是身体和手机之间的边缘,其上运行着健康监测、疾病预防等智能APP应用; 桥梁健康监测传感器位于桥身与维护中心之间的边缘,安防摄像头位于监控区域与后方安防中心之间的边缘,在此基础上执行着环境检测、非法入侵监控等智能任务[31-35]。 总之,边缘智能的核心原理是直接在边缘侧的终端上进行智能应用的相关算法[27]。
边缘计算可以大大减轻云计算中心的工作压力,大大方便人类的生活,因此边缘计算有很大的应用潜力。 图4展示了边缘智能的典型工作场景。
)1)可穿戴设备
可穿戴设备是嵌入式边缘计算的重要应用场景。 文献[36]讨论了谷歌眼镜和苹果在学习和教育中的广泛应用。 学生可以通过GoogleGlass和AppleWatch快速轻松地访问信息,并连接校园各处的边缘设备。提高学习效率。 文献[37]展示了一种面向患者的可穿戴无线医疗传感器网络,由主传感器板、传感器节点和网关组成,用于测量受试者胸部主要生命体征,包括心率、呼吸频率、体温,蓝牙低功耗[ ble ] mode
)2)环境监测
边缘计算的兴起给传感器网络带来了新的发展机遇。 文献[38]提出了一种用于桥梁健康监测应用的结构健康监测系统,包括用于测量桥梁倾角的加速度传感器、用于测量水位的超声波传感器。 传感器节点和中心站在同一频带工作。 使用中心站从节点接收传感器数据并将其发送到后端服务器节点。
)3)机器人
边缘计算可以使机器人系统具有更丰富的功能。 文献[39]提出了一种用于工业机器人的新型多传感气体探测系统,用于探测厂内气体成分。 近年来,多机器人系统也成为了研究的热点。 多机器人系统的群体行为受其感知的物理环境、机器人群体之间的信息交换和决策的支配。 为了搜索和救援等复杂任务,英特尔公司设计了分布式、自主协作的多机器人系统处理芯片[40]。 他们设计了22纳米工艺低功耗机器人芯片上系统( systemonchip,SoC ),还配备了视听和运动传感器、电池、低功耗无线通信和运动驱动器组件。
)4)特殊APP程序
除了日常的APP场景,边缘计算在国防、极端环境等特殊领域也有很大的发展空间。 部分具有特殊功能的传感器能否正常工作,是影响核电站安全的主要因素,这类传感器更换成本极高,因此,对核电站安全至关重要的传感器通常采用冗余设计的方法。 文献[41]提出了一种结合硬件冗余和离散小波变换的故障诊断方法,并结合相关法律和标准,给出了诊断仪的硬件实现方案。 关于军事应用,文献[42]为操作指挥官开发了有效的嵌入式感知系统,用于部署或部署士兵,了解军事行动中士兵的状态(死亡或生存)。
边缘侧应用潜力巨大,但大多数终端靠电池供电,靠太阳能板等疏能采集系统维持运行,待机时间和持续运行时间成为各种应用需求的最大挑战。
持续感知
目前,以物联网为代表的边缘端在满足APP应用需求的前提下,要求探测系统的等待时间和持续工作时间尽可能长,这种需求被称为持续探测。
持续感知是指始终能够对需要处理的任务和事件做出及时反应的感知系统。
3.1持续感知与传统感知系统的差异
如表1所示,持续感测系统通常为在能量受限的系统中操作的智能APP,这样的系统通常采用定制的设计,通常以事件驱动方式操作以实现低功耗。
在此,必须整理持续感知和以往的常开型应用系统的差异。 如图5所示,持续感知不需要系统始终处于运行状态,只要可以及时处理相关事件或任务即可[43-47]。 这意味着大多数事件触发型任务也属于持续感知的范畴,常开型应用系统是持续感知系统的子集[ 23,48-50 ]。
3.2持续感知的好处
与传统的感知系统相比,持续感知具有许多优点。
首先,在连续感知系统中,专用设计可以缓解某些指标的要求,降低设计难度和成本[27-30]。 此外,系统等待时间越长,维护成本就越低,传感器部署智能APP的可能性就越高,云处理负载和边缘与云的通信成本也就越低。
3.3设计挑战
持续感知系统优势明显,但也给研究者和工业界带来了许多挑战。
)1)功耗优化挑战
如上所述,边缘侧的终端通常是能量受限的系统,或者只是采用低效率的能量收集系统[51-57]。 因此,能耗问题成为运行各种智能APP应用中最突出的矛盾之一。 在摩尔定律显著减缓的情况下,专用芯片( applicationspecificintegratedcircuit,ASIC )和现场可编程门阵列( fieldprogrammablegatearray,ffieldpramblegategatearry )
)2)定制设计的固有问题和新情况
系统定制设计可以显著降低整个系统的功耗,但设计难度大,验证周期长,相关软件生态目前不完善[62-65]。 此外,定制设计的程度与使用灵活性也存在矛盾,定制设计的粒度大小在很大程度上决定着使用的灵活性,如何在两者之间取得平衡也有待探索[27-30]。
)3)设计边界探索
在许多场景中,边缘无法处理所有任务,有些任务需要传输到云进行后续处理。 边缘处理少、云处理多意味着边缘计算模块的设计难度降低,但会带来通信成本的上升,导致实时性和安全性的恶化。 相反,提高了嵌入式边缘设备处理的实时性和安全性,但增加了边缘侧的计算压力,功耗矛盾更加突出[ 27-30,66-70 ]。
)4)安全问题
在边缘终端,隐私和安全是最重要的设计要求之一。 在家庭中部署物联网( internetofthings,IoT )设备,可以从感知到的数据中学习到很多隐私信息。 如何在边缘端进行计算,防止隐私泄露,是一个尚未得到重视和解决的问题。 近年来,英特尔处理器发现的安全漏洞唤醒了硬件系统的安全问题,并面临着极其严峻的挑战[71-73]。 在自动驾驶等生命攸关的APP应用中,任何安全风险都有可能带来生命安全事故。 研究人员对特斯拉自动驾驶系统的测试证明,这类系统的安全性令人担忧[74-75]。 安全问题是边缘感知系统,用新的挑战不断促进研究者的研究。
为了应对这些课题,研究者在多个维度进行了研究,以缓解或解决持续感知的设计课题。
设计维度与创新
为了解决这一课题,如图6所示,从最下层到上层依次从新型传感器的设计、新型电路、架构设计、应用算法的改进、以及算法和电路的合作设计等几个维度进行讨论。
4.1传感器设计
传感器是数据的来源,其设计的优劣直接关系到产生的数据质量和算法的有效性。
目前,传感器的设计正在向新工艺、新材料、直接集成处理模块等方向发展。 人脸识别、虚拟现实/增强现实等新型视觉相关APP应用的需求,推动了对高性能全球快门( globalshutter,GS )传感器的需求。 大多数商用GS传感器具有严重的漏光和低的快门效率。 文献[76]提出了使用TSMC堆栈背面照射( BSI ) CMOS工艺制造的GS图像传感器,显著降低了GS操作中的功耗,并且还改善了图像质量。 再加上动态视觉传感器( dynamicvisionsensor,DVS )也在兴起。 DVS与主流CMOS图像传感器的不同之处在于,通过事件驱动而不是时间帧采样来生成数据。 由于其数据密度低的特点,在对功耗要求特别高的IOT APP应用中逐渐受到欢迎[77]。
除了视觉信号,语音识别、声纹解锁等应用也占有重要位置。 悬浮振动膜是构成现代声换能器的基础。 然而,基于大膜和薄膜的大规模机械谐振器的实现仍然面临一些挑战。 文献[78]开发了一种简单、可重复的转印石墨烯和高分子薄膜组成的毫米级圆形和方形膜的方法,改善了谐振性能。
对客观物理环境的感知随着智能制造和智慧农业的兴起获得了新的机遇。 文献[79]开发了基于纳米金属氧化物半导体的挥发性化合物传感器系统,通过对净化系统污水流出物典型微生物足迹的连续定性观察,监测异常工业排放,确定其空间位置。 文献[80]显示了在低功率非分散红外线( nondispersiveinfrared,NDIR )类二氧化碳传感器中使用CMOS红外线发射器,具有能够与高速、小型、低功耗、电路集成的优点。
近年来,电子嗅觉传感器(电子鼻)也得到广泛应用。 文献[81]提出了一种基于金属氧化物半导体设计的电子鼻E-Nose来监测水果在成熟过程中挥发性有机物的变化。 应变和压力传感器是近年来最热门的研究方向之一是智能和柔性电子产品的重要部件。 文献[82]提出了一种超敏感石墨烯异质结构薄膜的合成方法。 该方法制备的传感器灵敏度可达5.64kPa-1,同时响应频率为10kHz,反射分辨率超过了人体皮肤的灵敏度。 该研究为未来一体化柔性人工感觉神经铺平了道路。
4.2电路设计
处理电路的功耗始终是主要的设计难点,因为许多边缘计算节点使用电池供电或能量收集系统。 另一方面,要采用专用设计的CMOS电路,优化的余地仍然很大。 文献[83]提出了一种超低功耗的常开型语音活动检测芯片。 作者采用基于时间交织混频器的电路形式,将放大器、ADC和数字处理部分的功耗降低4倍,神经网络( neuralnetwork,NN )处理模块在数字域实现了12倍的功耗降低,语音检测精度为90 % 文献[84]提出了一种面向边缘计算的基于时域运算的能效神经网络加速器。 作者采用双向存储器延迟线执行时域累加操作,克服了传统模拟累加计算扩展性的限制和容易出现失配的缺点,实现了13.46TOPS/W的极高能效。
除了数据处理模块之外,一些工作关注低功耗接口的设计。 文献[85]介绍了用于可穿戴、入耳式耳机
高保真音频体内传输人体通信收发器的设计实现了5Mb/s数据速率下能耗40W,是现有技术下体域网收发器中最高的能效。
另一方面,新的金属氧化物电阻随机存取存储器( resistiverandom-accessmemory,ReRAM )和铁电栅极场效应晶体管( ferroelectricfield-effect tran-sist ) 以FeFET )为代表的新设备ReRAM是内存计算( processinginmemory,PIM )中有前景的解决方案,其交叉阵列结构使得ReRAM能够高效地执行矩阵向量乘法。
近年来,许多工作开始关注ReRAM在高能效感知系统中的实现。 PRIME采用ReRAM进行神经网络计算,与以前的NN加速器相比,具有大幅度的性能提高和节能效果,性能提高提高了约2360倍,能效提高提高了约895倍[86]。 文献[87]利用FeFET实现了三种不同的电路设计风格:互补(差分)、动态电流模式和动态逻辑。 与传统方法(即基于磁隧道结和CMOS等的方法)相比,FeFET设计在相同特征大小的关键指标方面显示出了较大的改进,同时提供了非易失性和较少的器件。
4.3体系结构设计
在电路上,研究者还对持续感知系统的体系结构进行了许多优化。 针对目前广泛应用的神经网络计算,Eyeriss提出了一种新的称为行静态( rowstatic,RS )的数据流。 RS数据流可以适应不同的卷积神经网络( convolutionalneuralnetwork,CNN )结构,可以重新配置以适应给定形状的计算映射,最大限度地提高能量效率Eyeriss处理AlexNet为278mW,
由于全定制体系结构的使用灵活性较差,可重构计算以兼顾效率和灵活性的特点受到了众多研究者的青睐。 在这个领域,Thinker是近年来的代表性工作[89]。 Thinker是一种高能效的可重构混合神经网络处理器。 Thinker的每个处理单元( processingelement,PE )可进行比特宽度自适应可重构以满足神经层的各个比特宽度,并且可进行比特宽度自适应可重构以满足神经层的各个比特宽度。 另外,计算吞吐量和平均能量效率也为提高。 然后,PE阵列支持按需阵列分区和可重构,并并行处理不同结构的NN。 这样,提高可以提高PE使用率提高和计算能效。
除了定制和可重构的架构外,FPGA还因其构成的高灵活性和优异的能效表现而被广泛应用。 文献[90]总结了CNN对存储、计算和系统灵活性的要求,提出了可编程灵活的CNN加速器架构——Angel-Eye以及数据量化方法和编译工具。 在精度损失可忽略的前提下,数据量化方法有助于将数据位宽度降低到8位。 在同一平台上评价,Angel-Eye的速度比同类工作快6倍,效果高5倍。
其他针对特殊应用的特殊体系结构设计,在航天、核能等场景中发挥了重要作用。 文献[91]针对小型复杂设备总剂量测试成本效益测试的设置和步骤,采用电子源片上照射、芯片照射,结合多种传感器机制和相关分析,促进了效果建模和环形振荡器网络的调整,未来将用于航天
4.4优化算法
在硬件上运行的感知算法,近年来逐渐被以神经网络为代表的机器学习所主导。 目前,深度神经网络( deepneuralnetwork,DNN )已广泛应用于图像识别、语义分割、语音识别、自主插图制作与导航、自然语言处理等多种智能感知任务。 其中,图像识别技术目前已经成熟,Resnet和Densenet的表达已经超过了人类的水平。 但自主制图、导航( simultaneouslocalizationandmapping,SLAM )、语义分割等复杂任务目前仍有很大的发展空间,这些任务正是自动驾驶和机器人等应用的关键
MASK-RCNN是最近很受欢迎的通用对象实例分割框架,MASKR-CNN通过在fasterR-CNN中添加边界框识别的分支来扩展实现[92] MaskR-CNN训练简单,只需很小的开销就能以5fps的速度加速R-CNN,准确率也很好。
在SLAM中,环回测试和多传感器数据的融合是两大难点。 在文献[94]中,提出了被称为DS-SLAM的针对动态环境的语义SLAM。 在DS-SLAM中,并行运行跟踪、语义划分、本地映射、闭环、密集语义映射创建五个线程,将语义划分网络与移动一致性检查方法相结合提高; 同时,DS-SLAM生成密集的语义八叉树映射,可用于后续高级任务。
虽然DNN在许多任务中都达到了空前的精度,但由于DNN的训练对于现有的硬件架构来说十分困难,因此一些算法的研究以精度为主要关注焦点,越来越关注算法是否适合硬件实现对于DNN,模型大小是影响性能、可扩展性和能效的重要因素。 重量修剪可以对网络规模实现良好的压缩比,但存在三个明显的缺点:
)修剪后网状结构不规则,影响性能和吞吐量;
)2)训练的复杂性增加,很难从头开始训练
)3)对压缩比和推理精度缺乏严格的保证。 为了克服这些局限性,文献[95]提出了CirCNN,它是一种利用分块循环矩阵来表达权重和处理神经网络的原理方法。 CirCNN使用基于快速傅立叶变换( FFT )的快速乘法将计算复杂度从o ) n2 )降低到o ) O(nlogn )以及将存储复杂度从o ) n2 )降低到o ) n )。 精度损失可以忽略不计。 与其他方法相比,因为CirCNN具有数学严密性,所以基于CirCNN的DNN能够收敛于与未压缩DNN相同的有效性。 值得一提的是,这项工作已经在芯片设计工作中得到验证,文献[96]发表了能效为140.3TOPS/W的神经网络加速器STICKER-T。
4.5算法电路协同优化
除了算法和电路的单独设计外,一些新兴计算范式从设计之初就要求进行软硬件的联合优化。 代表性的工作是近似计算和模拟计算。 在模拟域进行神经网络运算,可以使用大规模的并行模拟信号处理电路实现超效率计算,显著降低ADC的成本。 AICNN作为设计实现,能效提高了67000倍于CPU,精度损失不到1%[97]。
另外,为了高精度地保存模拟运算中的数据,还设计了线性度高的模拟buffer [ 98 ]。 然而,对于仿真技术来说,过程偏差可以导致仿真神经网络( analogneuralnetwork,ANN )处理器的精度损失和成品率降低。 在文献[99]中,如图8所示,为了降低过程偏差对精度的影响,提出了系统级迁移学习方法。
该方法在提高50%的工作点漂移容限和70%~100%的失配容限下,精度损失可以小于1%。 与传统的全精度( 32位浮点)训练系统相比,存储成本也降低了66.7%,乘法效率约为提高的50倍。 针对SIFT算法中常见的高斯滤波器,部分工作采用电阻网络实现了该功能,处理速度提高变为20倍[100-102]。
另外,对于声音信号的梅尔倒谱系数[ melfrequencycepstralcoefficient,MFCC特征提取,在文献[103]中,在模拟域进行相关运算后,通过滤波器提取各频带的信号,进行模数变换该新工艺与传统方法相比减少了97.2%的功耗,同时运算速度在提高时提高了6.4倍。
许多工作已经证明神经网络、图104处-10理9 )等应用算法具有很强的容错能力,因而自然而然地将近似计算引入到相关研究中[104-109]。 另一方面,为了实现容错计算中的低功耗化,设计了近似乘法器、近似加法器等很多近似运算符。 文献[111]通过引入对数运算进行能效近似乘法,取得了良好的效果。 另一方面,许多工作都集中在接近存储的设计上,例如减少位数、降低静态随机访问存储器( SRAM )电源电压等。
由于近似计算的精度与算法、数据分布有很强的相关性,高效的应用级仿真平台也备受关注。 文献[117]针对近似算子、位宽截断等网络近似处理,建立了一个高效快速可配置的仿真平台,还提出了一种再训练的方法来弥补精度损失。 另外,虽然计算机被看作是广义的近似计算,但由于其数学严密性非常完备,因此受到研究者的青睐[118]。
总结与展望
传统感知系统的各个模块被单独设计,忽略了整个系统的优化潜力; 某些APP应用(如事件驱动的APP应用)会处理大量不必要的负载,从而增加设计难度和使用成本。 边缘智能通过将机器学习等智能感知算法引入网络边缘端的终端,缓解了对一些指标的要求,也降低了设计难度和成本。 持续感知特征可以降低维护成本,增加在传感器上部署智能APP的可能性,并降低云处理负载和边缘与云通信的成本。
同时,这项技术也带来了新设计的挑战。 是功耗优化、设计定制困难、设计边界探索、安全性问题。 因此,目前研究人员从传感器优化和集成处理模块的设计、电路定制和新器件的使用、结构创新与探索、算法精度和硬件友好性优化、软硬件协同设计等几个维度进行了工作,customername
资料来源:李桂宏,乔飞.面向边缘智能设备的持续感知集成电路与系统[J] .微纳电子与智能制造,2019,1 (2) 47-61 .
LI Guihong,Qiao Fei.continuousperceptionintegratedcircuitsandsystemsforedge-computing smart devices [ j ].micro/nanoelece
《微纳电子与智能制造》刊号: CN10-1594/TN
主管公司:北京电子控股有限责任公司
主办单位:北京市电子科技信息研究所
北京方略信息科技有限公司
【end】
原力计划
《原力计划【第二季】- 学习力挑战》正式开始! 从现在开始到3月21日,支持原创作者! 更有专属的【勋章】等着你去挑战
简单理解并实现机器学习的逻辑回归。 逻辑回归介绍、应用场景、原理、损耗与优化
小型图形挖掘研究的瑞士军刀:空手道俱乐部图表学习Python库
全面解析AlibabaCloud (阿里巴巴云)核心技术竞争力,CSDN独家在线峰会来了!
住在武汉的程序员,凌晨在疫区下载数据,网速影响工作
Libra新编程语言: Move所有权模型的灵感来源本来就是它……
云原生的脆弱性和威胁是什么? 云的本机安全性怎么样? 这里有你想知道的一切!