Las SSD y datos de SMART

S.M.A.R.T., o SMART, significa Tecnología de automonitoreo, análisis y generación de informes (“Self-Monitoring, Analysis, and Reporting Technology”). Como el nombre lo sugiere, es una herramienta que registra los datos de estado de una unidad de disco duro (HDD) o una unidad de estado sólido (SSD). Los datos de SMART pueden ser una herramienta valiosa para ofrecer una advertencia anticipada sobre los problemas o el fin de vida útil de una unidad a fin de evaluar la posibilidad de reemplazo antes de una falla.

La generación de informes sencillos para el usuario o el administrador del sistema es importante, debido a que la misma unidad no puede realizar un análisis en profundidad de los datos. La unidad únicamente puede informar si determinados atributos han superado los umbrales predeterminados solo si los mismos se han programado en el firmware.

SMART ha estado en funcionamiento durante muchos años y es anterior al origen de las SSD. SMART se implementó originalmente en las HDD y se adaptó a las SSD al inventarse esta nueva tecnología que llegó como reemplazo directo a las unidades de disco duro con platos giratorios. Desafortunadamente, sin importar la tecnología de almacenamiento, no existe un estándar en el sector capaz de decirle qué atributo de SMART enumerado describe una propiedad específica de una unidad. Los descriptores del atributo cambiarán entre la SSD y la HDD e, incluso, entre numerosos proveedores de SSD.

Hay numerosas herramientas de terceras partes que pueden recuperar e informar de los datos de SMART de la unidad y, a menudo, se encuentran disponibles como freeware y shareware. Sin embargo, a menos que el proveedor de software de terceras partes consulte con el proveedor de la unidad de disco duro sobre los atributos correctos de SMART, es probable que sus definiciones y umbrales (si corresponden) etiqueten incorrectamente los atributos y se generen informes de fallos con falsos positivos o falsos negativos.

Hemos visto ejemplos en los que el atributo “Conteo de horas de encendido” informa de una cantidad a la herramienta y la herramienta incompatible puede etiquetar de manera incorrecta esa cantidad como “Conteo de fallos del programa” o “Errores imposibles de corregir informados”. Peor aún, la herramienta de terceras partes puede tener umbrales de error inadecuados para la SSD en cuestión, de manera que la herramienta de SMART informa de un fallo a un punto en que el fabricante sabe que es una operación aceptable.

Debido a esta potencial confusión, Crucial recomienda usar solo nuestro software Storage Executive como herramienta para recuperar y analizar de manera precisa los datos de SMART en las SSD Crucial. Storage Executive siempre estará programado con las descripciones y umbrales de atributo correcto (si corresponde) para todas las unidades SSD Crucial preexistentes excepto las más antiguas.

Atributos descritos de SMART definidos por Crucial

Las SSD Crucial registran muchos atributos distintos cruciales para que la herramienta Storage Executive los recupere. Algunos atributos ofrecen información crucial sobre la SSD mientras que los demás tienen solo fines informativos.

Hablaremos de algunos de los más importantes aquí, cuando el atributo se nombre de manera diferente por SATA y PCIe, ambos nombres se encontrarán presentes aquí:

Atributo 202: Porcentaje de vida útil usado

Este atributo es exactamente lo que indica su nombre. Es una medida de la vida útil proyectada de la unidad que se ha usado en un momento dado en el tiempo. Cuando la SSD es nueva, el Atributo 202 informará “0” y cuando la vida útil especificada haya transcurrido, mostrará “100”, con lo que informa que se ha usado el 100 % de la vida útil.

Sin embargo, es importante darse cuenta lo que significa alcanzar el 100 % de la vida útil proyectada. Eso no significa que la unidad vaya a fallar cuando el contador llegue al 101 %, solo que su SSD puede necesitar reemplazarse a la brevedad.

La vida útil de un dispositivo flash NAND se define por otra característica: la retención de datos. La retención de datos es la cantidad de tiempo que el dispositivo puede almacenar de manera segura los datos del usuario y permitir una recuperación exitosa en un estado sin energía. Cuando una SSD u otro dispositivo flash NAND sea nuevo, su retención de datos sin energía será de muchos años. Sin embargo, de forma casi similar a lo que sucede con la memoria humana, se acorta conforme experimenta uso y desgaste, al escribir los datos (las lecturas de datos no causan directamente desgaste).

El Consejo Conjunto de Ingeniería de Dispositivos Electrónicos (JEDEC) es un grupo del sector que elabora los estándares y las especificaciones para los dispositivos basados en semiconductores y montajes. Micron es un miembro líder de JEDEC que define la retención de datos de manera específica: Para las SSD en las aplicaciones del cliente (como las computadoras comerciales o personales), la retención de datos para una SSD será de un año, en un estado sin energía, almacenado a 30° C (86° F). Esto les dará más tiempo a los usuarios de la computadora para recuperar cualquier dato de una unidad después de algún tiempo sin uso, de ser necesario.

Podrá concluir, a partir de esta descripción que se puede esperar el un funcionamiento perfecto de la SSD cuando el contador de la vida útil supere el 100 %. Sin embargo, con el paso del tiempo, la retención de datos continuará degradándose, pasando de un año a seis meses, después a tres meses, etc. Eventualmente, mucho más allá de la garantía de vida de la unidad, cualquier nueva escritura no será capaz de retenerse de ningún modo mientras no esté encendida.

Sin embargo, el firmware de la SSD tiene en cuenta esto. A medida que la SSD continúa usándose, el código de corrección de error (ECC), el reintento de lecturas, los parámetros flexibles de lectura, el mantenimiento de datos en segundo plano y otros ajustes en el firmware pueden corregir los problemas que surjan de la retención de datos que se han degradado gradualmente. A medida que se degradan los bloques de datos NAND, se pueden reemplazar por espacios incorporados de repuesto para que continúen las operaciones normales. Por supuesto, todas estas operaciones en segundo plano tienen lugar cuando está encendida, razón por la cual la retención de datos se define como un estado sin energía.

Atributo 5: Bloques NAND retirados

La cantidad de bloques retirados mediante este proceso de evaluación continua de la calidad de los bloques NAND se supervisa en el Atributo 5 de SMART. El firmware de la SSD retirará los bloques NAND por muchas razones además del problema del uso y la retención de datos descrito anteriormente. Una razón para el retiro es el fallo al borrar un bloque mientras se borran o mueven los datos durante la recolección de basura. Este tipo de fallo representa riesgo un bajo para los datos del usuario ya que los datos en cuestión se borran o ya se han copiado de manera exitosa hacia una nueva ubicación en la SSD.

Atributo 180: Conteo de bloque reservado sin usar (bloques de espacio de repuesto en la SSD de PCIe)

Una vez más, como el nombre lo indica, este es el conteo de bloques disponibles adicionales por usar en caso de que se necesiten retirar los bloques malos. Esta cantidad varía según la arquitectura NAND subyacente, la arquitectura de firmware y la capacidad de usuario de la unidad, pero generalmente comienza en los miles.

Esta cantidad disminuye a medida que se incrementan los bloques retirados. Cuando el Atributo 180 alcance 0, el firmware colocará a la SSD en modo solo lectura. Esta SSD no será usable como una unidad normal, pero el usuario debe poder recuperar los datos almacenados y transferirlos a un nuevo dispositivo. Se recomienda encarecidamente que si este número llega a una cantidad inferior a 100 o similar, se remplace la unidad.

Atributo 210: Conteo de recuperación exitosa de la matriz redundante de NAND independiente

La matriz redundante de NAND independiente (RAIN) es muy parecida a la obtención de redundancia de datos con RAID en un arreglo de unidades. Sin embargo, la matriz redundante de NAND independiente se logra dentro de la unidad de manera transparente para el usuario. La matriz redundante de NAND independiente es una característica que la SSD usa para proteger los datos del usuario y extender la vida útil de la unidad.

Los eventos de la RAIN son poco comunes, de manera que si el conteo es grande, es momento de examinar algunos atributos mencionados anteriormente y ver si la unidad necesita reemplazarse. Los eventos frecuentes de la RAIN pueden causar un disminución notable en el rendimiento. Usar la redundancia de paridad para recuperar datos permite que continúen las operaciones normales de la unidad, pero consume algo del ancho de banda de E/S. Si la disminución de rendimiento es frecuente, la reconstrucción de la RAIN puede ser la razón además de ser una causa de la preocupación.

Atributo 174: Conteo de pérdida de energía inesperada (conteo de paros no seguros en las SSD de PCIe)

Una pérdida normal de energía en un sistema informático está precedida por un mensaje a partir de la computadora host hacia una SSD avisando que la energía está por apagarse. Esta advertencia le da a la SSD el tiempo para completar la actividad en marcha. Cuando se completa, la SSD envía un mensaje de “reconocimiento” al host y este finaliza el paro.

Hay muchas situaciones en que inesperadamente la energía se apaga, y estas pueden crear problemas para la SSD. En casi todas las condiciones, la SSD puede compensar esto, aunque al momento del siguiente arranque quizás tarde más (unos pocos segundos en lugar de cientos de milisegundos), pero el sistema se arrancará de nuevo.

El Atributo 174 tiene generalmente solo fines informativos. Sin embargo, una gran cantidad de tales eventos puede indicar que el usuario debe capacitarse en la forma adecuada de paro de los sistemas operativos o que puede haber un problema con el suministro o las conexiones de energía.

Atributo 194: Temperatura de gabinete (temperatura de dispositivo en la PCIe)

El software Storage Executive Crucial informará tanto de la temperatura actual como de la temperatura más alta durante la vida de la unidad, en Celsius, medida por un sensor en la SSD. El rango especificado de operación para la mayor parte de las SSD Crucial es de 0 °C a 70 °C (o 32 °F a 158 °F). Cualquier temperatura registrada por encima de los 70 °C (158 °F) puede hacer nula la garantía del producto de manera que la temperatura debe monitorearse de manera periódica. Si la unidad corre a una temperatura por encima de los 65° C (149 °F), se recomiendan medidas correctivas como ventilación y ventiladores mejorados.

Algunas reflexiones finales

SMART puede ser una herramienta útil para monitorear el estado de su SSD. Sin embargo, SMART no es una herramienta de diagnóstico integral. La información recogida a partir de atributos SMART junto con los diagnósticos del sistema operativo pueden ofrecer un buen punto de inicio para realizar prácticas estándar de resolución de problemas.

Los datos de SMART que se informan de manera incorrecta o son malinterpretados pueden generar conclusiones incorrectas que pueden, desafortunadamente, originar la devolución de una unidad perfectamente funcional. Por lo tanto, vale la pena repetir que Crucial sugiere enfáticamente respecto a solamente utilizar el software Storage Executive de Crucial para leer los datos de SMART de las SSD Crucial.

©2019 Micron Technology, Inc. Todos los derechos reservados. La información, los productos y/o las especificaciones están sujetos a cambios sin previo aviso. Ni Crucial ni Micron Technology, Inc. se hacen responsables de posibles omisiones o errores tipográficos o fotográficos. Micron, el logotipo de Micron, Crucial y el logotipo de Crucial son marcas registradas o marcas comerciales de Micron Technology, Inc. PCI Express y PCIe son marcas registradas de PCI-SIG. Todas las demás marcas registradas y de servicio pertenecen a sus respectivos propietarios.