¿Qué es la memoria con ECC?
En el caso de los servidores en los negocios y los centros de datos, su misión crítica es minimizar los errores en los datos y ese es el propósito de la memoria con código de corrección de error (Error Correcting Code, ECC).
El ECC es un método de detección y posterior corrección de los errores de un bit en la memoria. El error de un bit en la memoria es un error de datos en la generación o producción del servidor y la presencia de errores puede tener un gran impacto en el desempeño del servidor.
Hay dos tipos de errores de un bit en la memoria: los errores de hardware y los errores de software. Los errores de hardware son provocados por factores físicos, como una variación excesiva de la temperatura, esfuerzos en el voltaje o esfuerzos físicos que afectan a los bits de la memoria.
Los errores de software ocurren cuando los datos se escriben o leen de manera diferente que lo originalmente pretendido, como en las variaciones en el voltaje en la tarjeta madre, hasta el deterioro radioactivo o por rayos cósmicos que pueden provocar que los bits en la memoria se modifiquen. Debido a que los bits retienen su valor programado en la forma de una carga eléctrica, este tipo de interferencia puede alterar la carga del bit de la memoria, provocando un error. En los servidores, existen varios lugares donde pueden ocurrir los errores: en la unidad de almacenamiento, en el núcleo de la CPU, a través de la conexión de red y en los diversos tipos de memoria.
En el caso de las estaciones de trabajo y los servidores donde se deben evitar a toda costa los errores, la corrupción de datos y/o la falla del sistema, como en el sector financiero, con frecuencia la memoria preferida es la memoria con ECC.
Así funciona la memoria con ECC. En informática, los datos se reciben y transmiten a través de bits (la unidad más pequeña de datos en una computadora) que se expresan en código binario utilizando un uno o un cero.
Cuando se agrupan los bits, crean un código binario, o “palabras”, que son las unidades de datos que se direccionan o mueven entre la memoria y la CPU. Por ejemplo, un código binario de 8 bits es 10110001.
En el caso de la memoria con ECC, hay un bit con código de corrección de error extra, que se conoce como un bit de paridad. Este bit de paridad extra hace que el código binario se lea 101100010, donde el último cero es el bit de paridad y se utiliza para identificar los errores en la memoria. Si la suma de todos los 1 en una línea de código es un número par (sin incluir el bit de paridad), entonces, la línea de código se denomina paridad par. El código sin errores siempre tiene una paridad par. Sin embargo, la paridad tiene dos limitaciones: solo puede detectar números impares de errores (1, 3, 5, etc.) y permite que pasen los números pares de errores (2, 4, 6, etc.). La paridad tampoco puede corregir los errores, solo puede detectarlos. Es ahí donde la memoria con ECC entra en acción.
La memoria con ECC utiliza los bits de paridad para almacenar un código encriptado cuando se escriben datos en la memoria y el código ECC se almacena al mismo tiempo. Cuando se leen los datos, el código ECC almacenado se compara con el código ECC que se generó cuando se leyeron los datos. Si el código leído no coincide con el código almacenado, es desencriptado por los bit de paridad para determinar qué bit tiene errores, entonces, este bit se corrige de inmediato. Las tablas de síndrome son una forma matemática de identificar estos errores de bits y posteriormente corregirlos.
A medida que los datos se procesan, la memoria con ECC escanea constantemente el código con un algoritmo especial a fin de detectar y corregir los errores de un bit en la memoria.
En las industrias de misión crítica, como el sector financiero, la memoria con ECC puede marcar una impresionante diferencia. Imagine que está editando la información de cuenta confidencial de un cliente y, después, intercambia estos datos con otras instituciones financieras. A medida que envía los datos, digamos que un dígito binario se modifica debido a algún tipo de interferencia eléctrica.
El código binario que la otra institución financiera recibiría podría ser 100100011, el cual comunica una información diferente de la que usted pretendió originalmente, lo que es un error. El tercer dígito ha sido modificado de 1 a 0 debido a la interferencia eléctrica. Por lo tanto, la suma de los primeros 8 bits ahora totaliza 3, lo que no es una paridad par, lo que significa que los datos confidenciales que envío corren el riesgo de dañarse (o que su sistema esté en riesgo de sufrir una falla). No obstante, si se instala la memoria con ECC, la misma podrá detectar el error y corregirlo cambiando el tercer dígito binario nuevamente a un 1 (el código original).
Al detectar y corregir los errores de un bit, la memoria de servidor con ECC ayuda a preservar la integridad de sus datos, prevenir la corrupción de datos y prevenir fallas del sistema.
Utilice la memoria con ECC Crucial en servidores y estaciones de trabajo de misión crítica.