Las SSD y datos de SMART

S.M.A.R.T., o SMART, significa Tecnología de automonitoreo, análisis y generación de informes (“Self-Monitoring, Analysis, and Reporting Technology”). Como el nombre lo sugiere, es una herramienta que registra los datos de estado de una unidad de disco duro (HDD) o una unidad de estado sólido (SSD). Los datos de SMART pueden ser una herramienta valiosa para ofrecer una advertencia anticipada sobre los problemas o el fin de vida útil de una unidad a fin de evaluar la posibilidad de reemplazo antes de una falla.

La generación de informes sencillos para el usuario o el administrador del sistema es importante, debido a que la misma unidad no puede realizar un análisis en profundidad de los datos. La unidad únicamente puede informar si determinados atributos han superado los umbrales predeterminados, y solo si los mismos se han programado en el firmware.

SMART ha estado en funcionamiento durante muchos años y es anterior al origen de las SSD. SMART se implementó originalmente en las HDD y se adaptó a las SSD al inventarse esta nueva tecnología que llegó como reemplazo directo a las unidades de disco duro con platos giratorios. Desafortunadamente, sin importar la tecnología de almacenamiento, no existe un estándar en el sector capaz de decirle qué atributo de SMART enumerado describe una propiedad específica de una unidad. Los descriptores de atributo cambiarán entre la SSD y la HDD e, incluso, entre distintos proveedores de SSD.

Hay numerosas herramientas de terceras partes que pueden recuperar e informar de los datos de SMART de la unidad y, a menudo, se encuentran disponibles como freeware y shareware. Sin embargo, a menos que el proveedor de software de terceras partes consulte con el proveedor de la unidad de disco duro sobre los atributos correctos de SMART, es probable que sus definiciones y umbrales (si corresponden) etiqueten incorrectamente los atributos y se generen informes de fallas con falsos positivos o falsos negativos.

Hemos visto ejemplos en los que el atributo “Conteo de horas de encendido” informa de una cantidad a la herramienta y la herramienta incompatible puede etiquetar de manera incorrecta esa cantidad como “Conteo de fallas del programa” o “Errores imposibles de corregir informados”. Peor aún, la herramienta de terceras partes puede tener umbrales de error inadecuados para la SSD en cuestión, de manera que la herramienta de SMART informa de una falla en un punto en que el fabricante sabe que es una operación aceptable.

Debido a esta confusión potencial, Crucial recomienda usar solo nuestro software Storage Executive como la herramienta para recuperar y analizar de manera precisa los datos de SMART en las SSD Crucial. Storage Executive siempre estará programado con las descripciones y umbrales de atributos correctos (si corresponde) para todas las unidades SSD Crucial preexistentes, excepto las más antiguas.

Atributos descritos de SMART definidos por Crucial

Las SSD Crucial registran muchos atributos distintos para que la herramienta Storage Executive los recupere. Algunos atributos ofrecen información crucial sobre la SSD mientras que los demás tienen solo fines informativos.

Hablaremos de algunos de los más importantes aquí; cuando el atributo se nombre de manera diferente por SATA y PCIe, ambos nombres se encontrarán presentes aquí:

Atributo 202: Porcentaje de vida útil restante (porcentaje de vida útil utilizado en el PCIe)

Este atributo es exactamente lo que indica su nombre. Es una medida de cuánto de la vida útil proyectada le queda a la unidad en un momento dado. Cuando la SSD es nueva, el Atributo 202 informará “100” y cuando se haya alcanzado la vida útil especificada, mostrará “0”, con lo que informa que queda el 0 por ciento de la vida útil.

Sin embargo, es importante darse cuenta lo que significa utilizar la vida útil proyectada. No significa que la unidad vaya a fallar cuando el contador llegue a cero, solo que su SSD puede necesitar reemplazarse a la brevedad.

La vida útil de un dispositivo flash NAND se define por otra característica: la retención de datos. La retención de datos es la cantidad de tiempo que el dispositivo puede almacenar de manera segura los datos del usuario y permitir una recuperación exitosa en un estado sin energía. Cuando una SSD u otro dispositivo flash NAND es nuevo, su retención de datos sin energía será de muchos años. Sin embargo, de forma casi similar a lo que sucede con la memoria humana, se acorta conforme experimenta uso y desgaste, al escribir los datos (las lecturas de datos no causan directamente desgaste).

El Consejo Conjunto de Ingeniería de Dispositivos Electrónicos (Joint Electron Device Engineering Council, JEDEC) es un grupo del sector que elabora los estándares y las especificaciones para los dispositivos basados en semiconductores y montajes. Micron es un miembro líder de JEDEC que define la retención de datos de manera específica: Para las SSD en aplicaciones de cliente (como las computadoras comerciales o personales), la retención de datos para una SSD será de un año, en un estado sin energía, almacenado a 30° C (86° F). Esto les dará más tiempo a los usuarios de la computadora para recuperar cualquier dato de una unidad después de algún tiempo sin uso, de ser necesario.

Podrá concluir, a partir de esta descripción que se puede esperar un funcionamiento perfecto de la SSD cuando el contador de la vida útil cuenta de forma regresiva desde el 100 por ciento. Sin embargo, con el paso del tiempo, la retención de datos continuará degradándose, pasando de un año a seis meses, después a tres meses, etc. Eventualmente, mucho más allá de la garantía de vida de la unidad, cualquier nueva escritura no será capaz de retenerse de ningún modo mientras no esté encendida.

Sin embargo, el firmware de la SSD tiene en cuenta esto. A medida que la SSD continúa usándose, el código de corrección de error (ECC), el reintento de lecturas, los parámetros flexibles de lectura, el mantenimiento de datos en segundo plano y otros ajustes en el firmware pueden corregir los problemas que surjan de la retención de datos que se han degradado gradualmente. A medida que se degradan los bloques de datos NAND, se pueden reemplazar por espacios incorporados de repuesto para que continúen las operaciones normales. Por supuesto, todas estas operaciones en segundo plano tienen lugar cuando está encendida, razón por la cual la retención de datos se define como un estado sin energía.

Este atributo también se presenta como “Porcentaje de vida útil usado” en ciertas SSD Crucial antiguas, así como en modelos NVMe, y funciona de manera similar a Vida útil restante, solo que en reversa. El Atributo 202 de la SSD nueva informará “0” y cuando la vida útil especificada haya transcurrido, mostrará “100”, que informa que se ha usado el 100 por ciento de la vida útil. En estos modelos, el porcentaje puede superar el 100 a medida que se hacen más operaciones de escritura, pero la preocupación por la retención de datos es la misma.

Atributo 5: Bloques NAND retirados

La cantidad de bloques retirados mediante este proceso de evaluación continua de la calidad de los bloques NAND se supervisa en el Atributo 5 de SMART. El firmware de la SSD retirará los bloques NAND por muchas razones además del problema del uso y la retención de datos descrito anteriormente. Una razón para el retiro es la falla al borrar un bloque mientras se borran o mueven los datos durante la recolección de basura. Este tipo de falla representa un riesgo bajo para los datos del usuario ya que los datos en cuestión se van a borrar o ya se han copiado de manera exitosa hacia una nueva ubicación en la SSD.

Las SSD Crucial más nuevas miden superbloques con este atributo, que son grupos de muchos bloques individuales. Cuando esto es lo que el atributo 5 mide, el bloque total no se incrementará hasta que se eliminen muchos bloques individuales.

Atributo 180: Conteo de bloque de reserva sin usar (bloques de espacio de repuesto en las SSD PCIe)

Una vez más, como el nombre lo indica, este es el conteo de bloques adicionales disponibles para ser usados en caso de que se necesiten retirar bloques malos. Esta cantidad varía según la arquitectura NAND subyacente, la arquitectura de firmware y la capacidad de usuario de la unidad, pero generalmente comienza en los miles.

Esta cantidad disminuye a medida que se incrementa el número de bloques retirados. Cuando el Atributo 180 alcanza 0, el firmware colocará a la SSD en modo solo lectura. Esta SSD no será usable como una unidad normal, pero el usuario debe poder recuperar los datos almacenados y transferirlos a un nuevo dispositivo.

Al igual que con el atributo 5, las SSD Crucial más nuevas también miden superbloques con este atributo, lo que significa que este bloque total no disminuirá hasta que se eliminen muchos bloques individuales y pueda reflejar un valor mucho más bajo recién sacado del empaque en relación con una pieza anterior.

Atributo 210: Conteo de recuperación exitosa de la matriz redundante de NAND independiente

La matriz redundante de NAND independiente (RAIN) es muy parecida a la redundancia de datos obtenida con un RAID en un arreglo de unidades. Sin embargo, la RAIN se logra dentro de la unidad de manera transparente para el usuario. La RAIN es una característica que la SSD usa para proteger los datos del usuario y extender la vida útil de la unidad.

Los eventos de la RAIN son poco comunes, de manera que si el conteo es grande, es momento de examinar algunos atributos mencionados anteriormente y ver si la unidad necesita reemplazarse. Los eventos frecuentes de la RAIN pueden causar una disminución notable en el desempeño. Usar la redundancia de paridad para recuperar datos permite que continúen las operaciones normales de la unidad, pero consume algo del ancho de banda de E/S. Si la disminución de desempeño es frecuente, la reconstrucción de la RAIN puede ser la razón, además de ser un motivo de preocupación.

Atributo 174: Conteo de pérdida de energía inesperada (conteo de paros no seguros en las SSD de PCIe)

Una pérdida normal de energía en un sistema informático está precedida por un mensaje a partir de la computadora host hacia una SSD avisando que la energía está por apagarse. Esta advertencia le da a la SSD el tiempo para completar la actividad ya en marcha. Cuando se completa, la SSD envía un mensaje de “reconocimiento” al host y este finaliza el paro.

Hay muchas situaciones en las que la energía se apaga inesperadamente, y estas pueden crear problemas para la SSD. En casi todas las condiciones, la SSD puede compensar esto, aunque al momento del siguiente arranque quizás tarde más (unos pocos segundos en lugar de cientos de milisegundos), pero el sistema se arrancará de nuevo.

El Atributo 174 tiene generalmente solo fines informativos. Sin embargo, una gran cantidad de estos eventos puede indicar que el usuario debe capacitarse en la forma adecuada de paro de los sistemas operativos o que puede haber un problema con el suministro o las conexiones de energía.

Atributo 194: Temperatura de gabinete (temperatura de dispositivo en la PCIe)

El software Storage Executive Crucial informará tanto de la temperatura actual como de la temperatura más alta durante la vida de la unidad, en Celsius, medida por un sensor en la SSD. El rango especificado de operación para la mayor parte de las SSD Crucial es de 0 °C a 70 °C (o 32 °F a 158 °F). Cualquier temperatura registrada por encima de los 70 °C (158 °F) puede hacer nula la garantía del producto de manera que la temperatura debe monitorearse de manera periódica. Si la unidad corre a una temperatura por encima de los 65° C (149 °F), se recomiendan medidas correctivas como ventilación mejorada y uso de ventiladores.

Algunas reflexiones finales

SMART puede ser una herramienta útil para monitorear el estado de su SSD. Sin embargo, SMART no es una herramienta de diagnóstico integral. La información recogida a partir de atributos SMART junto con los diagnósticos del sistema operativo pueden ofrecer un buen punto de inicio para realizar prácticas estándar de resolución de problemas.

Los datos de SMART que se informan de manera incorrecta o son malinterpretados pueden generar conclusiones incorrectas que desafortunadamente, pueden originar la devolución de una unidad perfectamente funcional. Por lo tanto, vale la pena repetir que Crucial recomienda enfáticamente que solo se use el software Storage Executive de Crucial para leer los datos de SMART de las SSD Crucial.

©2019 Micron Technology, Inc. Todos los derechos reservados. La información, los productos y/o las especificaciones están sujetos a cambios sin previo aviso. Ni Crucial ni Micron Technology, Inc. se hacen responsables de omisiones o errores tipográficos o fotográficos. Micron, el logotipo de Micron, Crucial y el logotipo de Crucial son marcas registradas o marcas comerciales de Micron Technology, Inc. PCI Express y PCIe son marcas registradas de PCI-SIG. Todas las demás marcas registradas y de servicio pertenecen a sus respectivos propietarios.