当前位置:首页 > 应用层 > 技术 > DSP

MIMO-OFDMA无线基站的DSP-FPGA系统划分

2017-10-18 来源:我爱物联网






MIMO-OFDMA无线基站的DSP-FPGA系统划分



RFID



无线运营商通过提供增强数据服务来提高单位用户平均收益(ARPU),这同时推动了对宽带的需求,导致对数据速率的要求越来越高。而且,为用户提供各种应用体验的要求也促使底层网络体系结构进行变革。窄带2G GSM、IS-95系统等以语音为中心的技术已经发展到了基于WCDMA的HSDPA和HSUPA系统,峰值数据速率达到了10Mbps。今后的3GPP长期发展规范采用了多输入多输出(MIMO)等复杂的信号处理技术,以及正交频分复用接入(OFDMA)和多载波码分复用接入(MC-CDMA)等新的射频技术,这些技术是实现100 Mbps以上吞吐量的关键。WiMAX等其他OFDM宽带无线系统也在不断发展,传输速率已经超过了70 Mbps。

数据速率之所以能够提高,主要是使用了高阶调制技术以及可变速率通道编码,也就是常说的自适应调制和编码(AMC)等技术。复杂的空间信号处理方法,例如聚束和MIMO天线技术,也是提高数据速率成熟可靠的技术,但其代价是需要进行复杂的计算。对于设计基站的OEM而言,这些支撑技术带来了很大的挑战,设计的基站不但要有很高的性价比,能够更新,而且要非常灵活,随着标准的发展能够继续使用。

基站设计要求
无线系统设计人员需要满足的关键需求包括处理速度、灵活性以及产品及时面市等,所有需求最终决定了对硬件平台的选用。

处理带宽
WiMAX和LTE宽带无线系统对吞吐量和数据速率的要求远远高于WCDMA和cdma2000等蜂窝系统。为了能够支持如此高的数据速率,底层硬件平台必须有足够的处理带宽。而且,Turbo编解码等高级信号处理技术以及快速傅立叶变换/反变换(FFT/IFFT)、聚束、MIMO、峰值因子抑制(CFR)和数字预失真(DPD)等前端功能都需要进行大量的计算,每秒乘累加(MAC)操作高达数十亿次。

灵活性
WiMAX是相对较新的市场,目前还处于最初的发展和实施阶段。同样,3GPP LTE也还在制定过程中,在最终完成之前,还需要经过多个版本的修订。虽然有很多种移动宽带技术,例如WiMAX、LTE和UMB等,但它们的共同点是OFDMA-MIMO。在目前的背景下,需要有灵活的可编程产品来实现标准未确定的或多协议的基站。系统如果具有这种灵活性,无线基础设施OEM和运营商则可以大大降低资金投入和运营开支,同时减小了标准不断变化带来的风险。

降低成本的途径
设计和开发3G系统时得出的一个重要经验是从一开始就要制定长期降低成本的策略。不断发展的WiMAX和LTE标准最终会稳定下来。OEM和服务供应商要保持在市场上的竞争地位,必须重视最终产品的成本,这要比灵活性重要得多。合适的硬件平台也是降低批量生产成本的无缝措施,能够节省数百万美元由系统重新设计导致的工程成本投入。

系统体系结构设计和逻辑任务划分
信号处理数据通路和控制运算是无线基站中最主要的处理负荷。大部分体系结构结合使用微控制器(MCU)、FPGA和可编程数字信号处理器来实现系统控制、配置和信号处理数据通路。MCU控制系统,而FPGA和数字信号处理器进行数据流处理。处理任务较轻,主要面向控制的任务在数字信号处理器中通过软件来实现;负载较重的任务最好在FPGA中进行,它具有明显的并行处理优势。数字信号处理器和FPGA相结合可实现非常灵活的系统,其可编程能力有助于改正缺陷,甚至能够支持完全不同的标准。

FPGA和数字信号处理器之间的划分取决于处理需求,系统带宽以及系统配置,发送和接收天线的数量等。图1所示为WiMAX和LTE等OFDMA系统中实现基带物理层(PHY)功能时典型的数字信号处理器/FPGA划分。

通过采用高级多路天线技术,这类系统的吞吐量将有可能超过100 Mbps。基带PHY功能可以大致分为比特级处理和符号级处理两类。下面几节介绍了这些功能,以及怎样使用FPGA来完善DSP模块,同时实现比特级和符号级功能。

比特级处理
比特级模块包括发送侧的随机处理、前向纠错(FEC)、频谱交错、正交相移键控(QPSK)和正交振幅调制(QAM)功能映射等。相应的接收处理比特级模块是符号去映射、频谱去交错、FEC解码和去随机。发送比特级功能相对简单,计算量不大。例如,随机处理涉及到数据比特和简单伪随机二进制序列发生器输出的模2加运算。在比特级处理上,虽然FPGA要比固定总线宽度的数字信号处理器灵活一些,但是更容易在数字信号处理器上实现这些计算量不大的函数。相反,随着吞吐量需求的增加,可以把Turbo编码功能卸载到FPGA中,以提高系统的性能。在接收侧,FEC解码,包括Viterbi解码、Turbo卷积解码、Turbo乘解码和LDPC解码等,在数字信号处理器中实现时,其计算量比较大,占用较大的带宽。

FPGA被广泛用于卸载这些功能,释放数字信号处理器带宽以处理其他功能。在同一FPGA中实现去随机、去速率匹配和混合ARQ等其他比特级功能减少了FPGA和数字信号处理器之间的数据传送,降低了延时和系统总功耗。同一FPGA还可以用于和MAC层接口,实现加密/解密和认证等某些底层MAC功能。

符号级处理
OFDMA系统中的符号级功能包括副通道和去副通道、FFT/IFFT、信道估算/均衡、测距/随机访问通道(RACH)探测等功能。其他功能包括DFT/IDFT(LTE确定的),以及通道卡可能采用的CFR等。通道估值和均衡可以离线执行,涉及到更适合在数字信号处理器中实现的控制算法。相反,FFT和IFFT函数是普通的数据通路函数,需要以非常快的速度进行复数乘法,更适合在FPGA上实现。RACH探测和CFR等功能也需要高性能的低延时FFT/IFFT运算。

图2所示为高端FPGA(Altera Stratix III器件)中含有的嵌入式DSP模块。DSP模块一般包括8个专用乘法器;而Stratix III EP3SE110等高级FPGA的112个DSP模块能够提供896个18x18乘法器,吞吐量高达500 GMAC。这要比目前市场上的商用数字信号处理器高出一个数量级。

在基站中采用高级多路天线技术时,例如空时编码(STC)、聚束和MIMO方案等,FPGA和数字信号处理器的这种信号处理能力差异便显得更加突出。在目前以及今后的WiMAX和LTE无线系统中,普遍认为OFDM-MIMO相结合是实现更高数据速率的关键。

图1所示的是基站中采用的多路发送和接收天线。在这种配置中,进行MIMO解码前,对每一天线流单独进行符号处理,产生单路比特级数据流。当在数字信号处理器上实现的天线以串行方式执行操作时,符号级处理的复杂度会随之线性增加。例如,使用两路发送和接收天线时,假设FFT和IFFT变换长度为2048点,其运算将占用1GHz数字信号处理器60%的处理能力。相比之下,采用FPGA时,可以有效地扩展实现多路天线。FPGA对多路天线数据进行时分复用和并行处理。同一2x2天线FFT/IFFT配置可以利用不到5%的Stratix III EP3SE110 FPGA资源来实现。

多路天线方案的优势更明显,包括更高的数据速率、阵列增益、分集增益和邻近信道干扰抑制能力等。聚束和空分复用MIMO技术对计算量的要求较大,涉及到矩阵分解和相乘等运算。特别是在这些系统中解线性方程组时,需要采用Cholesky分解、QR分解和奇异值分解函数。这些函数会很快耗尽DSP资源,但在采用了脉动阵列结构的FPGA中实现却非常适合,这种结构通过并行FPGA来提供最具成本效益的解决方案。

数字IF处理和RRH

图3显示了基带通道卡向RF卡发送数据,进行后续的数字中频(IF)处理,包括数字上变频(DUC)、CFR和DPD。数字IF将数字信号处理的范围从基带扩展到了天线--RF域,在降低生产成本的同时提高了系统灵活性。而且,数字变频要比传统的模拟技术更灵活,性能更好(在衰减和选择性方面)。需要采用CFR和DPD功能来提高基站功率放大器的效率,从而大大节省了OPEX。CFR和DPD都需要进行采样率高达100+Msps的复数乘法运算。与DUC相似,在接收侧需要采用数字下变频(DDC)将IF频率变回到基带。


引入MIMO和多载波体系结构需要采用时分复用和多通道技术。利用Altera的IP内核,以及创新的DSP Builder工具,在Altera FPGA中可以很容易实现这些任务。DUC和DDC都使用复数滤波器体系结构,包括有限冲击响应(FIR)和级联积分梳状(CIC)滤波器。高级FPGA能够提供数百个18x18乘法器,运行速率高达350MHz。这不但为多信道并行处理提供了平台,而且还是最具成本效益的集成单芯片解决方案。另一发展趋势是分布式BTS,射频单元相对于BTS的其他部分位于远端,而不是在一个地方。这些射频单元也称为远端射频前端(RRH),通过光链路和主要的BTS单元进行通信。CPRI和OBSAI是实现RRH的两个标准。CPRI和OBSAI接口一般在FPGA上实现,利用BTS体系结构的多通道特性可以实现成本效益非常好的解决方案。

结论

随着标准的稳定,应该逐渐降低最初对基站灵活性的要求,在这一阶段,高性能和长期降低成本的途径是获得市场成功的关键因素。一般采用ASIC来降低成本。FPGA可以无风险移植到低成本结构化ASIC,通过这一途径能够大大降低产品生命周期的后期成本。例如,Altera HardCopy II技术提供了无缝、无风险移植途径,从Stratix II FPGA转换到成本很低的ASIC,同时也提高了系统性能。HardCopy能够把成本和功耗降低近70%,进一步减小了封装尺寸,同时降低了CAPEX和OPEX的构成成本。

在目前的无线基站设计中采用数字信号处理器和PLD一直是有效的设计方法。从系统吞吐量需求以及对成本的长期考虑出发,产品要获得成功的关键是基站体系结构的智能划分。这样可以确保最终的产品能够更新,性价比高,而且非常灵活,随着多种标准的发展而重新进行配置。



FPGA与DSP的高速通信接口设计与实现



  在雷达信号处理、数字图像处理等领域中,信号处理的实时性至关重要。由于FPGA芯片在大数据量的底层算法处理上的优势及DSP芯片在复杂算法处理上的优势,DSP+FPGA的实时信号处理系统的应用越来越广泛。ADI公司的TigerSHARC系列DSP芯片浮点处理性能优越,故基于这类。DSP的DSP+FPGA处理系统正广泛应用于复杂的信号处理领域。同时在这类实时处理系统中,FPGA与DSP芯片之间数据的实时通信至关重要。

  TigerSHARC系列DSP芯片与外部进行数据通信主要有两种方式:总线方式和链路口方式。链路口方式更适合于FPGA与DSP之间的实时通信。随着实时信号处理运算量的日益增加,多DSP并行处理的方式被普遍采用,它们共享总线以互相映射存储空间,如果再与FPGA通过总线连接,势必导致FPGA与DSP的总线竞争。同时采用总线方式与FPGA通信,DSP的地址、数据线引脚很多,占用FPGA的I/O引脚资源太多。而采用链路口通信不但能有效缓解DSP总线上的压力,而且传输速度快,与FPGA之间的连线相对也少得多,故链路口方式更适合于FPGA与DSP之间进行实时数据通信。

  参考文献[3]给出TS201与TS101的性能比较,但没有针对两者的链路口进行详细介绍,本文对两者的链路口进行了细致的分析和比较。文献[4]所设计的采集系统中,DSP与FGA的通信仅限于FPGA发、TS101收的单工通信;文献[5]给出了FPGA内部没计TS101链路口的框图,但只给出了简单的介绍,无法给设计者以参考。本文采用Altera公司Cyclone系列芯片EP1C12实现了与TS101/TS201两种芯片的链路口的双工通信,并给出了具体的设计实现方法。其中TS101的设计已经成功应用于某信号处理机中。

  1 TS101和TS201的链路口分析与比较

  TS101和TS210都是高性能的浮点处理芯片,目前两者都广泛应用于复杂的信号处理领域。TS201是继TS101之后推出的新型芯片,核时钟最高可达600MHz,其各类性能也相对优于TS101,而且TS201的链路口采用了低压差分信号LVDS技术,功耗更低、抗噪声性能更好。表1列出了两种芯片链路口性能的详细比较,其中TS101核时钟工作在250MHz,TS201核时钟工作在500MHz。

  限于篇幅,TS101、TS201的链路口结构请参阅参考文献[1][2]。由于TS101收发端共用一个通道,所以只能实现半双工通信。而TS201将收发端做成两个独立通道,可实现全双工通信,理论上数据的传输速率可以提高一倍。虽然TS201的链路口收发通道独立,但实际上二者的收发机制大体相同,都是靠收发缓存和移位寄存器收发数据。然而FPGA内部的链路口设计不必拘泥于此,只要符合链路口通信协议并达成通信即可。

  2 FPGA与DSP的链路口通信

  2.1 链路口通信协议分析

  TS101的链路口共有11根引脚,通过8根数据线(LxDAT[7..0],这里x可以是0、1、2或3,代表TS101或TS201的0号~3号链路口中的一个,以下同)进行数据传输,并采用3根控制线(LxCLKOUT、LxCLKIN、LxDIR)来控制数据传输时钟、通信的握于和数据传输方向。其中LxDIR为通知链路口当前工作状态是接收或发送的输出引脚,可悬空不用。TS201的链路口共24根引脚,接收和发送各12根引脚,通过LVDS形式的数据线(LxDAT_P/N[3..0])和时钟线(LxCLK_P/N)进行数据传输,并采用LxACK和LxBCMP#(‘#’代表信号低有效)来通知接收准备好和数据块传输结束。

  采用FPGA与DSP通过链路口通信的关键是令双方通信的握手信号达成协议,促使数据传输的进行。实际上,如果考虑TS201的LVDS信号形式已经被转换完毕,则TS101和TS201链路口传输的数据形式是一样的,都是时钟双沿触发的DDR数据,并且每次传输的数据个数都是4个长字(即128bit)的整数倍。鉴于以上两种芯片链路口数据的共同点,所以采用FPGA与两类芯片通信时,接收和发送的数据缓存部分的设计应该是很相近的,只是通信握手信号部分的设计应当分别加以考虑。下面分别给予介绍。

  2.2 基于FPGA的TS101链路口设计

  图1给出了FPCA与TS101进行半双工链路口通信的设计(对LxCLKOUT、LxCLKIN均以FPCA的角度来叙述),该接口由接收、控制和发送三部分组成。本设计FPGA时钟为40MHz,TS101核时钟上作在250MHz,链路口时钟设定为DSP核时钟的8分频,FPGA与DSP的实际数据传输率为62.5MBps。

  (1) 接收部分:由编码和缓存两部分组成。由于链路口的数错是DDR形式的,不方便数据的缓存,本文采用QuartusII Megafunctions中的altddio模块将上升沿数据和下降沿数据分开。注意这个模块的下降沿数据输出会滞后上升沿数据1个时钟周期,输出时应该用链路口时钟信号(LxCLKIN)通过D触发器来将数据对齐。该模块的inclock一定要用链路口时钟信号以保证数据的正确读取,如图2所示。又由于DSP内部数据是32位的长字,所以写入接收缓存前应该用一组D触发器将数据进行32bit对齐,这里注意DSP链路口先传输32位数据中的低8位。

  (2) 控制部分:由令牌转换模块和控制模块组成,是整个设计的核心部分,完成对各部分的控制和与FPGA内部进行通信(通过CTL一组信号)。TS101的链路口通信握手是靠两根时钟信号验证令牌指令完成,即当发送端驱动原本为高的LxCLKOUT信号为低电平,以此作为令牌请求向接收端发出。如果接收端准备好接收,则接收端驱动LxCLKIN为高;如果令牌发出6个时钟周期后,LxCLKIN信号仍然为高,则肩动数据传输(以上时钟信号都以发送端视角分析)。本设计中,令牌转换模块负责验证令牌和发送令牌。这里要注意,由于用来验证令牌低电平个数的时钟信号(PLL_32ns)是由FPGA时钟信号(CLK)通过锁相环倍频得到,与DSP链路口时钟异步,故验证令牌时,当计数器计到5个低电平时即可认为已达成通信握手,否则可能会丢失数据。达成握手后通知控制模块向接收或发送缓存输出控制信号,其中接收控制信号包括写缓存时钟和写使能。发送控制信号包括读缓存时钟、读使能和DSP中断信号(DSP_IRQ),其中写缓存时钟通过对链路口时钟分频得到,读缓存时钟由锁相环倍频FPGA工作时钟得到。

  (3) 发送部分:与接收部分类似,也南编码和缓存两部分组成,相应的设计基本相同,这里不作过多介绍。由于DSP链路口每次传输数据个数的最小单位是4个32位字,即8个链路时钟周期,所以发送时钟廊该每8个时钟周期一组,以凑够128bit,避免传输错误,其中多余无效的数据DSP可以自行舍去。发送部分采用DSP外部中断方式而不是链路口中断方式通知DSP接收数据。

  TS101的链路口通信协议要求链路口接收端在传输启动一个周期后,将其LxCLKOUT拉低,若可以继续接收,在下一个周期再将其拉高,以此作为连接测试。实际运行中发现,当FPGA接收数据时,可将LxCLKOUT信号一直驱动为高,不必做特殊的连接测试也能正确接收数据。另外,发送链路口数据时,由于发送缓存中已经对应仔好了要发送的8bit数据,故可以使用对FPGA时钟信号(CLK)倍频得到的PLL_16ns信号来读发送缓存,读出的数据即链路口发送数据,再对PLL_16ns信号的下降沿分频得到链路口的发送时钟信号。

  限于篇幅,本文只给出FPCA接收TS101数据的时序图,如图3所示。LxCLKIN、LxDAT[7..0]是DSP的链路口输出时钟和数据,LxCLKOUT是FPGA的回馈准备好信号。仿真中链路口数据采用1F~3E(十六进制)的32个8bit数据,即从2221201F到3E3D3C3B的8个32bit数据;PLL_32ns信号是FPGA内部锁相环产生的与DSP链路口时钟异步的32ns时钟信号,用来校验令牌指令;W_FIFO_EN信号足写缓存使能信号,当令牌验证后使能接收缓存;DSP_DAT信号是DSP通过链路门传输的32bit数据,通过对链路口数据的编码得到;W_BUF_CLK信号由链路口时钟分频处理得到,将上升沿对应的32bit DSP数据写入接收缓存,完成接收过程。

  2.3 基于FPGA的TS201链路口设计

  图4给出了FPGA与TS201进行链路口通信的设计框图。由于TS201的握手信号较多,所以相对TS101的链路口设计容易些。本设计FPGA时钟50MHz,TS101核时钟500MHz,链路口时钟为DSP核时钟的4分频,采用4bit方式,单向实际数据传输速率为125MBps。

  TS201的链路口数据和时钟采LVDS信号,具有速率高、功耗低、噪声小的优点。Cyclone系列芯片不仅支持LVDS信号,还集成了LVDS转换模块,这给设计提供了很大方便。应该注意的是,在硬件设计时LVDS信号两极的PCB走线要匹配,并且注意匹配电阻网络的接入。具体请参考文献[6]-9 Implementing LVDS in Cyclone De-vices。

  TS201的链路口有1bit和4bit两种传输方式,本文以4bit为例进行设计。图4给出的信号都是经LVDS转换后的信号。由于TS201的收发做成了两个单独的通道,FPGA的设计也应该相应地设计为两个通道,真正做到全双工通信,收发互不影响。接收与发送部分与TS101的设计基本相同,发送部分也采用外部中断方式通知DSP接收链路口数据。TS201的通信握手信号有ACK和BCMP#信号。其中ACK信号用来通知接收准备好,在实时信号处理中,一般不允许数据传输的等待,故将这个信号置为准备好。BCMP#信号用于通知数据块传输的结束,当能确定DMA传输数据个数时,可以将此引脚悬空。

  TS201链路口的收发机制非常相似,本文仅给出发送数据时序图,如图5所示。L1_IRQ是FPGA发给DSP的外部中断,用来通知DSP收数据;L1_ACKI是DSP的接收准备好信号;R_BUF_EN是读发送缓存使能信号;链路口时钟L1_CLKOUT是以读缓存时钟R_CLK下降沿的二次分频,对应从缓存中读出的4bit链路口数据L1_DA-To。注意这里读缓存及时钟分频时会有纳秒级的延迟。

  3 DSP的相应设置

  TS101和TS201的链路口都配置了控制寄存器(LCTLX)和状态奇存器(LSTATx)两组寄存器。LCTLx用来控制链路口的传输,LSTATx用来通知链路口的工作状态。TS101链路口时钟频率可以是核时钟的8、4、3或2分频,通过设置LCTLx中的SPD位米完成,本文设计将SPD位置000,即为核时钟8分频。由于TS201的接收发送通道独立,所以其控制寄存器分为接收控制寄存器(LRCTLx)和发送控制寄存器(LTCTLx)。TS101链路口发送时钟频率可以与核时钟相同或为其4、2、1.5分频,通过设置LTCTLx中SPD位来完成。本文设计将SPD位置100,即为核时钟4分频,并将LRCTLx/LTCTLx中(接TDSIZE位置1,设置成4bit传输方式。如果BCMP#信号悬空,注意一定要将LRCTLx巾RBCMPE位置0。

  有两种方法启动DSP的链路口DMA传输:利用链路中断和利用DSP的四个外部中断(IRQ0~IRQ3)。两种中断方式都需要在中断服务程序中对DMA的TCB寄存器进行配置来启动链路口的接收DMA通道。鉴于外部中断的优先级高于链路口中断,可以避免数据丢失,本文设计的通信方式均以外部中断方式通知DSP接收数据。在DMA的TCB寄存器配置过程中,为了保证程序不被其他中断打断,可以在中断服务程序开始时就把所有其他中断屏蔽掉,存中断服务程序返回之前再把屏蔽掉的中断位还原。

  本文对TigerSHARC系列的两种典型DSP芯片的链路口进行了分析和比较,并给出了FPGA与这两种DSP芯片进行链路口通倍的具体方法。在FPGA内部实现了DSP链路口的设计,同时给出了DSP进行链路口通信的具体设置方法。由于实时处理中数据的重发会严重影响处理的实时性,故本文的链路口通信设计没有对所传输的数据进行校验。本文给出的基于FPGA路口设计具有很强的通用性,可以应用于基于TS101/TS201的多种应用系统中,提高系统内部的通信能力;也可用于板间DSP的数据传输,提高系统外部的通信能力。

RFID



利用Virtex-5 SXT 的高性能DSP解决方案



SXT 平台实现 DSP 的带宽最大化、功耗最小化

  二十多年来,FPGA 为世人提供了最灵活、适应性极强、快速的设计环境。早期的 DSP 设计人员发现,可将一种可再编程的门海用于数字信号处理。如果把内置到 FPGA 架构中的乘法器、加法器和累加单元结合起来,就可以利用大规模并行计算实现有效的滤波器算法。

  在未加工频率性能方面的损失,通过并行计算得到了弥补,而且得远大于失,可谓“失之东隅,收之桑榆”;由此获得的 DSP 带宽完全可与替代方案媲美。随着时间的推移,乘法器和加法器的实施越来越高效。1998 年,Xilinx 顺理成章推出了第一个集成于 Virtex-II FPGA 系列产品中的嵌入式乘法器。Xilinx Virtex-II 和 Virtex-II Pro 系列产品深得人心,推动基于 FPGA 的 DSP 更上层楼,打破了每秒十亿次 MAC 运算的壁障。

  在数字通讯、军事、国防、视频和图像市场需求的助推下,Xilinx 进一步做出调整,成功应对了一系列独特挑战,使极大规模并行实施方式跨上又一个新台阶。随着乘法器和加法器性能和数量的增长,对功耗进行管理也变得越来越困难。

  Xilinx 的工程师们设计出了 DSP48 Slice,使这一难题迎刃而解。DSP48 Slice是一种超低功耗、高性能、全方位的数字信号处理元件,可方便地实现级联,而不占用任何 FPGA 架构资源。此元件在 Virtex-5 器件中得到进一步加强,并重新命名为 DSP48E Slice,能支持更高的精度、SIMD(单指令多数据)操作、集成模式检测电路和逻辑单元。

  对快速数据输入和系数存储器的需求促使 Xilinx 构建起一个数字信息处理平台,其中的 DSP48E Slice 含有率之大前所未见,并且拥有极其充裕的 Block RAM 和分布式 RAM。作为画龙点睛之笔,Xilinx 在此平台中使用了运行速度高达 3.125 Gbps 的集成高速串行通道,在芯片上移入和移出数据变得更为快捷。风云际会,这些元件组合在一起,Virtex-5 SXT 平台由此应运而生。

  Virtex-5 SXT 引擎 – DSP48E Slice

  想要理解 FPGA 中数字信号处理的演变过程,必须回顾一下 DSP48E Slice(见图 1),及其设计的三个主要方面。

  集成乘法器和第二阶段。利用集成的二级加法器/减法器/累加器扩展乘法器的运算。现在,在单独一个 DSP48E Slice 中,就可以执行最常见的 DSP 运算组合了。

  紧缩实施。为了提高性能、降低功耗,各个 DSP48E Slice 被设计成独立元件,然后通过接口像积木块一样连接到一起,而每一个 DSP48E Slice 都包含独立于 FPGA 架构的专用路径和缓冲。

  全方位定制设计。Xilinx 很早就确定,要实现高性能和低功耗,一个按照最新工艺尺寸度身打造的全方位定制设计是必不可少的。Xilinx 设计团队与 Arithmetica 通力协作,将乘法器和加法器电路 MathIP 库加以集成,进一步提高了效率。

  以这种设计为依托,DSP48E Slice 的实施在性能和低功耗效率方面达到了前所未有的水平。Virtex-5 器件中的 DSP48E Slice 分别以高速 550 MHz、中速 500 MHz 和低速 450 MHz 运行。无论您单独使用一个 DSP48E Slice 还是将所有 640 个 DSP48E Slice 汇集到最大的 Virtex-5 SXT 器件中,都可以达到这一性能(使用专用的级联逻辑实现每秒 3520 亿次乘法累积运算)。而且,实现这一令人叹为观止的性能,仅仅使用了 DSP48E Slice,完全没有消耗逻辑或 FPGA 路径资源。

  这种专用的级联逻辑意味着能耗的计算是基于每一个 DSP48E Slice 的,也即其运行速度和输入的翻转率。单个 DSP48E Slice 的实测典型功耗为 1.38 mW/100 MHz。不难算出,假定 Virtex-5 SX95T 器件中所有 640 个 Slice 均以 550 MHz 运行,而翻转率为通常的 38%,则所有 DSP48E Slice 的总体动态功耗为 4.92W。

  低功耗、高性能设计技术

  为了充分利用独特的 Virtex-5 SXT 架构进行数字信号处理,建议遵循如下的简易指南:

  实施能最大化使用 DSP48E Slice 的滤波器算法。每一个 25 x 18 位的 DSP48E Slice 都等同于 500 个以上可编程逻辑 Slice,功耗为同等逻辑实施的 1/10,单独或链接运行速度高达 550 MHz。

  利用 DSP48E Slice 的所有功能。每一个 DSP48E Slice 都可配置成独立的 25 x 18 乘法器,一个 25 x 18 位乘法器兼加法器/减法器/累加器,或者一个 48 x 48 位加法器或减法器。每一个 DSP48E Slice 都支持 SIMD 运行以及对称或收敛圆整。

  实施定点或浮点运算。DSP48E Slice 不仅对于定点 FIR、FFT 或复杂的过滤器运算而言是理想的产品,25 x 18 的输入大小和级联路径还使我们可以使用两个 DSP48E Slice 来实现高效的 24 x 24 无符号浮点运算。

  在数字信号应用中使用 DSP48E Slice

  Virtex-5 SXT 平台中 DSP48E Slice、Block RAM、逻辑和数千兆位级收发器的独特结合,为 DSP 过滤器的应用提供了高成本效益、高性能、低功耗的解决方案。为了说明这一点,让我们看看 Virtex-4 SX 和 Virtex-5 SXT 器件平台中无线卡的应用,对比一下两种情况下的功耗差别。

  WiMAX 数字前端 (DFE) 集成了以下内容:数字上变频 (DUC) /数字下变频 (DDC)、振幅因数缩小 (CFR) 和自动增益控制 (AGC)。本设计中要求的过滤功能正好与一个 Virtex-4 SX25 FPGA 或一个 Virtex-5 SX35T FPGA 所能提供的 DSP48E Slice 相匹配。本设计运行频率为 276 MHz,消耗 Virtex-4 SX25 FPGA 中 73% 的 DSP48 资源(128 个中的 95 个),或者 Virtex-5 SX35T FPGA 中 48% 的 DSP48E 资源(196 个中的 95 个)。

  尽管单看 WiMAX DFE 方案的表现和用于其实施的资源已令人惊叹,真正堪称一绝的还是其功耗效率。本设计主要使用 DSP48 或者 DSP48E Slice,但也消耗 Block RAM 和逻辑。表 1 对这些方案进行了对比,并展示由 Virtex-4 到 Virtex-5 器件的实测功耗和降低水平。

  结论

  对数字信号处理的要求在不断提高,提供可扩展高性能 DSP 的呼声日益响亮,因此,在每秒几百 GMAC 甚至更高的水平上管理功耗的难题也愈见急迫。Xilinx Virtex-5 SXT FPGA 平台提供了独特的单芯片解决方案,充分利用大规模并行计算达到超高性能,同时将功耗降到最低。欲了解 Xilinx DSP 解决方案详情,请访问 www.xilinx.com/cn/dsp。


图 1 – Virtex-5 FPGA 中 DSP48E Slice 的结构图

表 1 – 真实应用情况下的实测功耗

DSP相关内容

DSP嵌入式开发入门与实例
把工作简单化,DSP与数据转换器
一步就要考虑转换器与DSP之间的握手模式(handshakemode)。大多数转换器在发出新的数据字之前都会给出某种类型的转换结束(EOC)信号。处理器使用上述信号的方式有两种:一是轮询(poll);
华晶科技获得CEVA 图像和视觉
件算法;CEVA深度神经网络(CDNN2) 实时神经网络软件框架,可以简化机器学习部署,功耗远低于基于GPU的领先系统,以及先进的开发和调试工具。如要了解更多的信息,请访问公司网站http://www
基于DSP320C32芯片的心电工作
采样频率为16 kHz,分辩率为12 bit,转换精度高,线性误差为1/2 LSB;3)大存储容量。1 Mb的存储空间,能够存储多路长时心电数据及分析诊断结果;4)有可编程
基于DSP的并联型电力有源滤波
流成为与电压同相位的正弦波,从而达到抑制谐波,补偿无功的目的。上述原理可用一组公式来描述:2 硬件电路设计指令电流运算电路的核心是DSP,运用扩展dq算法检测负载电流中的谐

看了这篇文章的还看了

智能环保借力物联网 南粤污染治理有新方法
“不仅本地的治理企业,连省外的公司在网上看到我们的需求后,都连夜乘机赶来。”随着有毒易燃的煤焦油通过污水管网流至附近一处水位较低的景观水塘,没有造成大范围污
物联网技术应用于智慧环保之污染源监控
一、污染源与视频监控智慧环保究其根本,就是物联网技术与环境信息化的结合,而污染源监控是智慧环保的重要一环。污染源可分为天然污染源和人为污染源。天然污染源是指自然界自
2017年智慧水务最受关注的十大技术
“智慧水务”是水务信息化发展的高级阶段,是数字经济环境下,传统水务企业转变发展方式、实现科学发展的必经之路。将云计算、物联网、大数据、移动互联网等新一代信
“慧”集数据锻造无形之手 智慧环保时代呼之欲出
海量的环境数据也给传统数据平台带来巨大挑战。清华大学软件学院大数据中心总工程师王晨指出,“十三五”期间,环保数据量还将呈爆发式增长,这给计算资源和存储资源的
环保物联网难题的解决之道
从美国总统奥巴马的智慧地球到国家总理温家宝的感知中国,作为新兴高技术产业重要组成部分的物联网已成为全球瞩目的热门话题。环保部作为最早开展物联网探索和实践并大力推进