0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于共享缓存的架构的系统“假性卡死”问题分析

电子设计 来源:网络交换FPGA 作者:高志凯 2020-11-26 11:08 次阅读

作者:高志凯

一次常规调试中发现上电后交换机多个口同时打流会导致卡死的现象,最后一步步分析问题出现的原因是位宽不够导致的溢出。这让我回想起团队已经量产的某款芯片,也是因为某个寄存器位宽设置过小的原因,导致组播组设置的时候不能超过31,否则就会溢出,只能想办法通过软件来解决这个问题。这次出现问题的交换机是基于共享缓存的架构,希望后面引以为戒,设计每个小的寄存器时都要考虑全面。

背景

在使用verilog进行程序设计时,尤其需要注意数据位宽问题。当我们将程序烧入fpga的时候电路已经固定,不能像C语言那样动态改变数组长度,因此数据位宽设计不恰当会引入意想不到的问题。例如我们使用二进制进行计数时,位宽为5的数据表示范围为0-31,当数据为32时由于位宽不够,实际显示则为0,如果此时你需要对这个数进行大小判断,那么可能会得到错误的结果。笔者在交换机功能调试、解决bug的过程中对此深有体会。

首先我们来看一下交换机对数据的处理流程,网络测试仪发出的数据首先经过接口进入分流模块,我们的交换机支持TT业务(时间触发)和ET业务(普通以太网),本文就ET业务进行分析。以太网帧进入MAC核进行CRC校验,

并将8位输入数据转32位输出,转换模块将数据转换为128位总线数据,并支持反压。接着数据经过轮询进入分组处理模块,分组处理模块一方面将数据帧传入接收总线,另一方面根据帧信息提取结果和流分类信息将接受帧信息传入入队模块进行逻辑入队,逻辑入队模块管理着一个虚拟的存储块,每一个虚拟的存储块对应着真实的物理数据,也就是数据帧。缓存管理模块根据入队和出队情况更新存储块信息,同时更新的还有队列的长度等信息。数据帧出队时首先由逻辑预出队模块根据优先级轮询队列,并给出出队号,逻辑出队模块根据端口号查询出队信息,然后控制总线发送数据,数据经过转换模块转32位然后经mac核输出。

粗略了解了交换机的结构,言归正传,数据溢出为什么会导致交换机“假性卡死”?

现象

首先我们需要深入了解一下逻辑出队预出队模块,这个模块会产生出队号,并将出队号传入schedule_dequeue模块,然后schedlue_dequeue模块根据出队号获得出队帧首地址,并查询虚拟块地址,从而获得数据的物理存储地址,进行数据搬移。

现在我们说一下现象,上板时,交换机4个口接到testcenter,每个口打1Gbps数据流,固定帧长为64Bytes,其中1、2口打对流,3、4口打对流。当testcenter准备好后直接给交换机4个口同时打数据流,这时有两个口正常工作,但是另外两个口卡死,没有帧出来。如果在一开始将数据流速率控制在90%,打一阵流之后在将4个口速率提升到100%,则不会出现上述卡死现象。我们经过分析,认为交换机是能够处理每个端口1Gbps速率的数据流,否则另外两个正常工作的队列便无法解释。那么问题出在哪里了?

我们根据经验,首先对入队和出队关于帧长信息的更新,入队与出队产生冲突时队列头部和尾部信息的更新等等进行了检查,经过仿真和对比更新数据,确实发现了一些小bug,本以为这就是最终bug,结果兴冲冲的跑了一版程序去上板测试,发现还是上述现象!这说明我们没有找到关键点。

发现问题

这里要为大家介绍一种调试代码的方法,就是计数法。为了找出问题出在哪里,我们对逻辑入队、物理入队的各队列帧数进行统计,将其与逻辑出队、物理出队的各队列帧数进行对比。这时我们发现,逻辑入队和物理入队帧数目一致,

逻辑出队和物理出队帧数目一致,但是入队和出队数目不一致,两者相差256,但是队列里显示有255个帧,这是由队列门限决定的,那么其实有经验的你就能大概猜到这个差值256有点问题。是的没错,问题就出在这里。

我们查看代码发现,

这里的port_state_data_in_b会根据优先级更新相应队列的帧数目,顾名思义,它的低8位代表的是优先级为0帧的数目。当入队的队列号为00并且入队成功后,其低8位会加1,出队成功则减1,上图展示的便是出队时的代码。但是我们要知道,优先级为0的队列最多有8个,因为队列号是由{端口号,优先级}的形式组成的,也就是说一个优先级对应8个端口号。前面我们说了一个队列的门限是256,也就是0-255。那么当优先级为0的a队列已满,这时优先级为0的b队列再来一个帧,port_state_data_out_b的值就会达到256,由于其只有8位,所以port_state_data_out_b的值其实是0!这就很麻烦了,因为机器不够智能,只能够按照你的代码按部就班的执行。


所以卡死的原因出来了,由于port_state_data_out_b溢出置0,导致pri_val一直为0,所以状态机一直在进行一个循环,不能完成正常跳转!而这个模块提供了出队号,当其没有提供出队号时,schedule_dequeue模块就无法产生出队指令,总线也没办法进行数据搬移,从而对外显示为“卡死状态”。

解决问题

发现了问题,解决起来就很简单了,我们只需要将优先级对应的队列计数器计数上限设置到八个端口的最大值2048即可,也就是12位的数据位宽。如下图:

写在最后,往往最微不足道的问题最不容易让人发现。这个位宽不足所导致的问题笔者找了很久,检查过很多模块,虽然这其中发现了一些其他bug,但是解决这个大bug的过程却是费时费力的,但是设计者在设计代码时只需要认真考虑承载功能所需要的位宽,便能为后续调试减轻许多麻烦!原我们都养成一个良好的习惯。

编辑:hfy


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    40

    文章

    5426

    浏览量

    171740
  • 交换机
    +关注

    关注

    21

    文章

    2640

    浏览量

    99652
  • Verilog
    +关注

    关注

    28

    文章

    1351

    浏览量

    110107
  • C语言
    +关注

    关注

    180

    文章

    7604

    浏览量

    136864
收藏 人收藏

    评论

    相关推荐

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据存储通常采用分布式存储系统,数据量庞大,直接从存储系统中读取数据会存在较高的延迟。而通过
    的头像 发表于 12-18 09:45 137次阅读

    HTTP缓存头的使用 本地缓存与远程缓存的区别

    HTTP缓存头是一组HTTP响应头,它们控制浏览器和中间代理服务器如何缓存网页内容。合理使用HTTP缓存头可以显著提高网站的加载速度和性能,减少服务器的负载。 1. HTTP缓存头概述
    的头像 发表于 12-18 09:41 109次阅读

    Web缓存的类型及功能分析

    随着互联网的迅速发展,用户对网络内容的访问需求日益增长。为了提高用户体验和降低服务器负担,Web缓存技术应运而生。Web缓存通过存储重复请求的数据,减少了对原始服务器的访问次数,从而加快了数据传输
    的头像 发表于 12-18 09:35 177次阅读

    什么是缓存(Cache)及其作用

    缓存(Cache)是一种高速存储器,用于临时存储数据,以便快速访问。在计算机系统中,缓存的作用是减少处理器访问主存储器(如随机存取存储器RAM)所需的时间。 缓存(Cache)概述
    的头像 发表于 12-18 09:28 621次阅读

    上位机系统架构分析 上位机与下位机的区别

    上位机系统架构分析 1. 上位机的定义与作用 上位机通常指的是在控制系统中负责决策、数据处理和用户交互的计算机系统。它通常运行在个人电脑(P
    的头像 发表于 12-04 10:17 458次阅读

    缓存之美——如何选择合适的本地缓存

    Guava cache是Google开发的Guava工具包中一套完善的JVM本地缓存框架,底层实现的数据结构类似于ConcurrentHashMap,但是进行了更多的能力拓展,包括缓存过期时间设置、缓存容量设置、多种淘汰策略、
    的头像 发表于 11-17 14:24 298次阅读
    <b class='flag-5'>缓存</b>之美——如何选择合适的本地<b class='flag-5'>缓存</b>?

    智算中心网络交换机需要什么样的缓存架构

    场景时,并非缓存越大越好,过大的缓存会导致更长的队列、更高的时延和抖动、更高的成本,所以不能简单地去扩大缓存,交换机避免丢包所需的缓存与此带宽延迟积BDP直接相关,借助于带宽时延积BD
    的头像 发表于 11-14 16:53 480次阅读
    智算中心网络交换机需要什么样的<b class='flag-5'>缓存</b><b class='flag-5'>架构</b>

    Sallen-Key架构分析

    电子发烧友网站提供《Sallen-Key架构分析.pdf》资料免费下载
    发表于 10-28 09:20 0次下载
    Sallen-Key<b class='flag-5'>架构</b><b class='flag-5'>分析</b>

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    、GPU、NPU,给我们剖析了算力芯片的微架构。书中有对芯片方案商处理器的讲解,理论联系实际,使读者能更好理解算力芯片。 全书共11章,由浅入深,较系统全面进行讲解。下面目录对全书内容有一个整体了解
    发表于 10-15 22:08

    什么是CPU缓存?它有哪些作用?

    CPU缓存(Cache Memory)是计算机系统中一个至关重要的组成部分,它位于CPU与内存之间,作为两者之间的临时存储器。CPU缓存的主要作用是减少CPU访问内存所需的时间,从而提高系统
    的头像 发表于 08-22 14:54 3132次阅读

    如何避免PLC程序卡死呢?

    编写稳定的程序:编写良好的、稳定的PLC程序是避免程序卡死的关键。确保程序逻辑清晰、简洁,并遵循编程最佳实践。避免死循环、逻辑错误和冲突的发生。
    的头像 发表于 01-26 09:14 645次阅读

    当PLC程序卡死时我们该如何解决?

    当PLC程序卡死时,可以尝试以下几种方法来解决问题
    的头像 发表于 01-25 09:16 2162次阅读

    如何选择合适的本地缓存

    小编最近在使用系统的时候,发现尽管应用已经使用了 redis 缓存提高查询效率,但是仍然有进一步优化的空间,于是想到了比分布式缓存性能更好的本地缓存,因此对领域内常用的本地
    的头像 发表于 01-18 11:19 852次阅读
    如何选择合适的本地<b class='flag-5'>缓存</b>?

    Linux内核内存管理架构解析

    内存管理子系统可能是linux内核中最为复杂的一个子系统,其支持的功能需求众多,如页面映射、页面分配、页面回收、页面交换、冷热页面、紧急页面、页面碎片管理、页面缓存、页面统计等,而且对性能也有很高
    的头像 发表于 01-04 09:24 667次阅读
    Linux内核内存管理<b class='flag-5'>架构</b>解析

    基于物联网的智能建筑能耗监测系统架构参考模型分析

    电子发烧友网站提供《基于物联网的智能建筑能耗监测系统架构参考模型分析.docx》资料免费下载
    发表于 01-03 10:33 0次下载