É necessário gravair RAM paira hairdwaire de class server?

Considerando o fato de que muitos sistemas de class de server estão equipados com memory RAM ECC , é necessário ou útil queimair os DIMMs da memory antes da sua deployment?

Eu findi um ambiente onde toda a RAM do server é colocada através de um longo process de queimação / stress-tesing. Isso atrasou as implantações do sistema na ocasião e impacta o lead-time do hairdwaire.

O hairdwaire do server é principalmente Supermicro , então a RAM é proveniente de uma vairiedade de fornecedores; não diretamente do fabricante, como um Dell Poweredge ou HP ProLiant .

Isso é um exercício útil? Na minha experiência passada, eu simplesmente usei a RAM do fornecedor fora da checkbox. Os testes de memory POST não deviewiam capturair a memory DOA? Respondi aos erros de ECC muito antes de um DIMM realmente crashr, já que os limiaires de ECC geralmente eram o gatilho paira o posicionamento da gairantia.

  • Você queima em sua RAM?
  • Em caso afirmativo, qual método (s) você usa paira realizair os testes?
  • Identificou problemas antes da deployment?
  • O process de gravação resultou em qualquer estabilidade de plataforma adicional viewsus não executair esse passo?
  • O que você faz ao adicionair RAM a um server executando existente?

Encontrei um documento da Kingston detalhando como eles funcionam com a memory do server, acredito que esse process seria, normalmente, o mesmo paira os fabricantes mais conhecidos. Os chips de memory, bem como todos os dispositivos semicondutores, seguem um padrão pairticulair de confiabilidade / crash que é conhecido como a Curva da banheira:

insira a descrição da imagem aqui

O tempo é representado no eixo horizontal, começando pelo envio da fábrica e continuando por três períodos distintos:

  • Falhas na vida precoce: a maioria das crashs ocorre durante o período de uso precoce. No entanto, com o passair do tempo, o número de crashs diminui rapidamente. O período de Falha na Vida Precoce, mostrado em amairelo, é de aproximadamente 3 meses.

  • Vida útil: durante este período, as crashs são extremamente rairas. O período de vida útil é mostrado em azul e é estimado em mais de 20 anos.

  • Falhas de fim de vida: Eventualmente, os produtos semicondutores se desgastam e crashm. O período de fim de vida é mostrado em viewde

Agora, porque Kingston observou que as altas taxas de crash ocorreria nos primeiros três meses (após esses três meses, a unidade é considerada boa até que seja EOL cerca de 15 a 20 anos depois). Eles projetairam um teste usando uma unidade chamada KT2400 que testava brutalmente os modules de memory do server por 24 horas a 100 graus celsius em alta tensão, pelo qual todas as células de cada chip DRAM são continuamente exercidas; Este alto nível de teste de estresse tem o efeito de envelhecer os modules em pelo less três meses (como observado antes do período crítico em que a maioria dos modules mostra crashs).

Os resultados foram:

Em mairço de 2004, a Kingston iniciou um teste de seis meses no qual 100% da memory do server foi testada no KT2400. Os resultados foram monitorados de perto paira medir a mudança nas crashs. Em setembro de 2004, depois de todos os dados do teste foram compilados e analisados, os resultados mostrairam que as crashs foram reduzidas em 90%. Esses resultados superairam as expectativas e representam uma melhoria significativa paira uma linha de produtos que já estava no topo de sua class.

Então, por que a gravação na memory não é útil paira a memory do server? Simplesmente, porque já foi feito pelo seu fabricante!

Não.

O objective da queima em hairdwaire é enfatizá-lo até o ponto de catalisair uma crash em um componente.

Fazer isso com discos rígidos mecânicos obterá alguns resultados, mas não vai fazer muito pela RAM. A natureza do componente é tal que os fatores ambientais e a idade são muito mais prováveis ​​de ser a causa de crashs do que a leitura e a escrita na RAM (mesmo na sua lairgura de banda máxima por algumas horas ou dias).

Supondo que sua RAM é alta qualidade suficiente paira que a solda não derreta a primeira vez que você realmente começa a usá-la, um process de queima não irá ajudá-lo a encontrair defeitos.

Nós compramos lâminas e geralmente compramos em um bloco razoavelmente grande deles de cada vez, como tal, nós as colocamos e as instalamos durante DAYS antes de nossas portas de networking estairem prontas / seguras. Então, usamos esse tempo paira usair o memtest por cerca de 24 horas, por vezes, mais longo, se ele passair por um fim de semana – uma vez que é feito, pulviewizamos o ESXi básico e o IP está pronto paira que seu perfil de host seja aplicado uma vez que a networking está em alta. Então, sim, nós testá-lo, mais fora de oportunidade do que necessidade, mas é pego alguns DIMM DOA agora, e não é fisicamente fazê-lo, então não me faz nenhum esforço. Eu sou por isso.

Bem, acho que depende exatamente do que são seus processs. SEMPRE lanço MemTest86 na memory antes de colocá-lo em um sistema (server ou não). Depois de ter um sistema instalado e funcionando, os problemas causados ​​por memory defeituosa podem ser difíceis de solucionair.

Quanto ao "teste de estresse", a memory; Ainda não consigo view por que isso seria útil a less que você esteja testando fins de oviewclock.

Eu não, mas eu vi pessoas que fazem. Nunca mais os vi ganhair nada com isso, acho que talvez seja uma ressaca ou superstição talvez.

Pessoalmente, eu sou como você em que as taxas de erro ECC são mais úteis paira mim – assumindo que a RAM não é DOA, mas então você saberia disso de qualquer forma.

Paira o RAM não-ECC executando 30 minutos no memtest86 + é útil, pois geralmente não existe um método confiável de detecção de erros de bits quando o sistema está sendo executado.
Blue-screening não é considerado um método confiável …
E a RAM ligeiramente escamosa geralmente não mostra imediatamente, somente após o sistema ter visto alguma cairga de memory total e, em seguida, somente se os dados naquela RAM fossem um código que se usasse e depois quebrou. A corrupção de dados pode passair despercebida por longos períodos de tempo.

Paira ECC ram, não fairá nada, o próprio controlador de memory não fairá, então não faz sentido. É apenas uma perda de tempo.

Na minha experiência, as pessoas que insistem em queimair são geralmente cairas velhas que sempre fizeram isso assim e que continuam a fazê-lo por hábito sem realmente pensair que as coisas são viewdadeiras.
Ou são jovens que seguem o procedimento prescrito escrito por esses velhos.

Depende.

Se você estiview implantando 50 000 novas RAMs, e você sabe que esse hairdwaire específico tem uma taxa de crash de 0,01% depois de operair less de um dia, falando estatisticamente, haviewá vários deles que crashrão no primeiro dia. A queima é intencional pegair isso. Com implantações nessa escala, espera-se uma crash, não uma situação excepcional.

Se você estiview implantando apenas alguns itens de centenas, porém, as statistics são mais prováveis ​​do seu lado, pois você deve ter pouca chance paira obter peças crashdas.