由于大家的注意力大多集中在服务器的处理能力、网络带宽和存储IOPS(每秒输入输出操作)上,所以很容易忽视服务器内存的可用性和可靠性。虽然处理器是任何服务器的核心部件,但是工作负载的所有指令和数据都存储在内存中。
在如今的虚拟化数据中心中,单单一台服务器可能运行众多虚拟机,而每个虚拟机作为一个文件驻留在内存中。但是当新的服务器添置更多更快的内存以满足更大的计算需求时,内存可靠性问题就显得尤为重要。IT人员必须留意内存故障,并充分利用旨在增强内存可用性的服务器特性。
如今,企业级服务器采用数TB的64位内存,这些预制模块遵守联合电子设备工程**(JEDEC) DDR3和DDR3L(低电压)标准而设计和制造。这样一来,企业很容易从诸多内存厂商购得价位合理的内存,但是遵守标准并不能保证可靠性。
内存可靠性面临的较大威胁并不是彻底的故障,不过可能会出现生产缺陷、电事件及其他物理异常引起的故障。确切地说,服务器内存面临的较大威胁来自随机比特错误——某个比特出现自发逆转。要是未加以检查,仅仅一个比特出现错误就会以突如其来、可能灾难性的方式,改动指令或改变数据流。
比特错误会自然发生。内存模块的错误率从每兆字节内存每小时大约1比特(有时被标为1010 errors/bit*h)到每兆字节内存每**1比特(1017 errors/bit*h)不等。这个范围相差得太大了,但随着内存子系统速度变快、电气操作电压变低以及服务器上的内存总量增加,比特被“误解”并影响工作负载的可能性随之变得相当大。
其他因素也会加剧单比特错误,比如本底辐射(阿尔法粒子)、寄生电事件(如附近电磁干扰)、糟糕的主板屏蔽或设计,甚至DIMM插座上的电触点受到破损或质量低劣。
增强内存可用性的特性
缺少可用内存始终是个问题,而奇偶校验等错误检测技术已存在了好多年。奇偶校验很简单,对于检测单比特错误也很有效,但它纠正不了单比特错误,所以没有大量地应用于服务器。幸好,现在有或正出现另外许多特性,有助于增强内存可靠性。不妨考虑以下几种方案:
ECC。系统厂商们不是依赖奇偶校验,而是依赖纠错码(ECC)技术。ECC立足于奇偶校验的基础上,它使用一种算法,为每64比特的内存创建和存储一个8比特码(每个地址总共72比特)。这种算法和编码让系统得以实时检测和纠正单比特错误,此外还能检测多比特错误,并防止系统使用破损数据。ECC通常是许多通用服务器上采用的确保内存可靠性的默认技术。
先进ECC。先进ECC把ECC方法扩大到了多种内存设备,让ECC得以检测和纠正多比特故障,只要这些故障出现在同一个内存设备里面。不过,ECC和先进ECC并不支持任何一种故障切换机制,所以为了排除有问题的内存模块,仍得关闭系统(或依赖其他系统技术)。
内存错误跟踪。应对内存错误的一方面是,首先密切跟踪内存错误。新兴的服务器设计通过为错误率和位置做一份列表,开始密切跟踪可以纠正的错误。一些服务器还能将错误信息保存在内存模块上的可重写串行存在检测(SPD)内存空间——可以读取该内存空间,以便将来评估和分析。一旦系统能跟踪可以纠正的内存错误,并将该信息转移到系统的管理工具,就有可能通过记下错误率突然增加的DIMM来预测可能发生的内存故障。错误跟踪称得上是更先进的内存可靠性特性的**,更先进的特性包括DIMM故障切换或在物理内存空间里面转移数据。
热备用内存。热备用概念在磁盘存储领域很常见,但只是较近才在服务器设计流行起来。这是由于系统必须有一定的智能,才能先识别和跟踪可以纠正的内存错误,之后才能决定把数据转移到备用内存模块上。内存错误跟踪方面的技术进步让服务器的内存控制器得以将数据从存在的错误不可接受的DIMM转移到同一通道中的另一个备用DIMM上。这也叫内存插槽备用(rank sparing)。这种方法存在的不足是,为错误发生**直非生产性的服务器增添内存需要一笔开支。
设备标记。一种内存故障切换技术是基于BIOS的技术,名为设备标记。当系统跟踪到出现错误率增加的内存模块时,系统基本上就能把数据从有问题的内存转移到ECC内存——实际上使用ECC内存作为一个小小的热备用内存。这有望减少内存故障,但同时无法在这部分内存里面进行错误检测和纠正。设备标记被用作一种权宜之计,让系统保持运行,直到有问题的内存模块被换掉为止。
内存镜像。**的内存可靠性技术就是把服务器上内存中内容从一个通道复制到另一个配对通道上。这实际上就是为内存建立了RAID 1机制。如果一个通道的内存里面出现故障,内存控制器就会切换到配对通道上,没有任何干扰;完成修复工作(如果需要修复)后,通道就可以重新进行同步。镜像方法的缺点与存储方面的RAID 1一样;由于内存中的内容被复制,存储容量减少了一半,或者说内存成本实际上翻了一番。
如今内存在现代虚拟化服务器中扮演更关键的角色,所以应对和缓解内存错误的破坏性效应显得比以往更为重要。IT专业人员可以使用一系列不断完善的内存可靠性特性,但是他们必须先对内存可用性方面的需求进行更认真地评估,然后再部署拥有的特性可以满足那些需求的服务器。
词条
词条说明
服务器硬盘,顾名思义,就是服务器上使用的硬盘(Hard Disk)。如果说服务器是网络数据的核心,那么服务器硬盘就是这个核心的数据仓库,所有的软件和用户数据都存储在这里。对用户来说,储存在服务器上的硬盘数据是较宝贵的,因此硬盘的可靠性是非常重要的。为了使硬盘能够适应大数据量、**长工作时间的工作环境,服务器一般采用高速、稳定、安全的SCSI硬盘(这是旧闻了)。但现在随着硬盘技术发展,普通SATA硬盘
1、一般硬盘响,是由什么原因产生的??2、有什么方面解决吗??正常的硬盘都会响的,电机高速旋转加上磁头的移动,都不可避免的百产生震动如果是在系统启动的时候,硬盘响是很正常的。因为某些品牌的硬盘噪声确实比较大度,尤其是SATA接口的硬盘。在系统启动时要从硬盘上读取大量的文件,硬盘负荷很重,响是正常的。如果是在启动后还响,就要听一下响的情况了,如果是连续很快的卡哒声,一般也是正常的,这是后台程序在版运
IBM System x3650 M3(7945005)价格是多少_IBM System x3650 M3(7945005)怎么样
产品类型:机架式产品结构:2UCPU系列:至强处理器5000系列,IntelCPU型号:Intel Xeon E5606CPU主频:2.13GHz标配CPU数目:1个查看详细参数>>IBM System x3650 M3(7945005)运行安全、稳定,管理能力便捷。7x24小时不间断提供可靠的服务,远离宕机、病毒等不安全因素。IBM System x3650 M3(7945005)是
中科曙光I840-G25价格是多少_中科曙光I840-G25怎么样
产品类型:机架式产品结构:4UCPU型号:Intel Xeon E7-4800 v2/v3,E7-8800 v2/v3内存类型:支持DDR3 ECC Registered内存,支持DDR4较大内存容量:6TB硬盘接口类型:可选SAS或者SAS RAID卡中科曙光I840-G25运行安全、稳定,管理能力便捷。7x24小时不间断提供可靠的服务,远离宕机、病毒等不安全因素。中科曙光I840-G25是服务
公司名: 深圳道通存储技术有限公司
联系人: 赵先生
电 话:
手 机: 18681551725
微 信: 18681551725
地 址: 广东深圳福田区
邮 编:
网 址: dtstor.b2b168.com