sexta-feira, 9 de setembro de 2016

Disco Rigido : O que é S.M.A.R.T ? Como funciona ? Como Interpretar


S.M.A.R.T., é frequentemente escrito assim SMART (Self-Monitoring, Analysis, and Reporting Technology, que no português é traduzida como tecnologia de auto-monitoramento, análise e relatório) ou seja , é um sistema de monitoramento que esta incluído nos dispositivos de discos rígidos (HDDs) e dispositivos de estado sólido (SSDs) que detecta e relata sobre vários indicadores de confiabilidade da unidade, com o intuito de permitir a antecipação de falhas de hardware.

Esses dados S.M.A.R.T os indica uma possível e iminentemente falha do dispositivo ,o software do sistema operacional notifica o usuário , desta forma esses dados poderão ser armazenados ou são copiados em outro dispositivo de armazenamento como pendrive, HD externo etc , assim prevenindo , uma grande perda de dados , e possibilitando que o dispositivo com a falha pode ser substituído em tempo adequado . Alguns fabricantes do HD podem usar esses dados S.M.A.R.T registrados para descobrir onde esta falha é encontrada e assim prevenir que ela seja recorrente novamente neste dispositivos. Para quem deseja fazer uma analise de como esta saude do seu Disco Rígido Recomendo Crystal Disk Info e Speccy .


Tecnicamente , falhas em discos rígidos caem em uma das duas classes básicas:
  • Falhas previsíveis : Em quais são resultados de processos bem demorados, como exemplo o desgaste mecânico e o desgaste gradual de superfícies de armazenamento. O monitoramento S.M.A.R.T. pode também determinar quando as falhas estão se aproximando de ocorrer .
  • Falhas imprevisíveis : Que ocorrem sem aviso e que vão de componentes eletrônicos que apresentem defeito à uma falha mecânica súbita (que pode estar relacionado ao manuseio inadequado).
As falhas mecânicas correspondem por 40 a 75% das falhas dos discos rígidos. Uma vez que falha eventual pode ser catastrófica, a maioria das falhas mecânicas resultam de degradação gradual e normalmente há certas indicações que a falha é iminente. Estas podem incluir o aumento da produção de calor, aumento do nível de ruído, problemas com a leitura e escrita de dados ou um aumento no número de setores do disco danificados.

Comumente, os seguintes atributos de um disco serão monitorados (nesse exemplo um disco de meu notebook 60Gb da Western Digital):
  • Raw read error rate
  • Spin up time
  • Start/stop count
  • Reallocated sector count
  • Seek error rate
  • Power on hours count
  • Spin retry count
  • Recalibration retry count
  • Power cycle count
  • Reallocation event count
  • Current pending sector count
  • Uncorrectable sector count
  • CRC error count
  • Write error count
Por exemplo no documento da Western Digital(WD) "algumas das fabricantes podem oferecer suas próprias definições dos atributos." então , às vezes, conseguir definições completas e precisas de todos os atributos S.M.A.R.T. de um do HD (disco rígido ) pode ser difícil, é comum alguns softwares de monitoramento S.M.A.R.T. listarem alguns atributos como "atributo desconhecido". Aparentemente para alguns fabricantes não é interessante que os consumidores saibam exatamente como seus produtos realmente funcionam.

Os valores dos atributos S.M.A.R.T. geralmente ficam entre 1 e 253, sendo 1 o pior caso e 253 o melhor caso; dependendo do fabricante, valores entre 100 e 200 frequentemente são considerados como "normais".

Perceba que o drive do exemplo não exibe a sua temperatura, por não possuir um sensor para essa função (muitos drives de outros fabricantes possuem esse sensor). Os valores desse atributos são armazenados numa área reservada do disco rígido.

Atributos S.M.A.R.T ( Alguns Atributos não estão disponíveis em todos HD ou SSD )
  
  • Read Error Rate ( necessário observar )
(Fabricante define o valor bruto específico.) Armazena dados relativos à taxa de hardware ler erros que ocorreram durante a leitura de dados a partir de uma superfície de disco. O valor bruto tem uma estrutura específica para diferentes fornecedores e muitas vezes não é significativo como um número decimal. 

  • Raw Read Error Rate ( necessário observar )
Representa a taxa de erros de leitura. Pode-se interpretar o valor do campo Raw Attribute Value como sendo a quantidade de erros já apresentadas pela unidade e, obviamente, qualquer valor acima de zero indica que já ocorreu algum erro de leitura.

Atenção no Attribute Value: valores próximos do Attribute Threshold indicam a possibilidade de problemas na superfície gravável ou falha nas cabeças físicas de leitura/gravação.
  • Spin Up Time 
Representa o tempo médio (em milésimos de segundo) que o motor do disco rígido tem levado para sair de 0 rpm até sua velocidade máxima de rotação. O campo Raw Attribute Value indica a última medição.
  • Start/Stop Count ( necessário observar )
Representa a contagem das vezes em que o motor disco rígido foi acionado e parado. Inclui-se aí os eventos: ligar ou desligar o computador, entrar ou sair do modo de espera do Windows, etc. É um valor estatístico, mas o valor do campo Raw Attribute Value pode ser analisado para definir se isso foi ou não uma das causas para outras falhas.
  • Reallocated Sector Count ( necessário observar )
Contagem de setores realocados. Quando o disco rígido encontra um erro de leitura / gravação / verificação, marca que os setores foram "realocados" e transfere dados a uma área reservada especial (área reserva). Este processo também é conhecido como o remapeamento, e realocados setores são chamados de remapeamento ou "remaps". O valor bruto representa normalmente uma contagem dos setores ruins que foram encontrados e remapeados. Assim, quanto maior o valor do atributo, mais setores da unidade teve de ser realocado. Isso permite que uma unidade com setores ruins para continuar a operação; no entanto, uma unidade que teve quaisquer realocações em tudo tem significativamente mais probabilidade de falhar tão brevemente.  Enquanto usado principalmente como uma métrica da expectativa de vida da unidade, esse número também afeta o desempenho. Como a contagem de setores realocados aumenta, a velocidade de leitura / gravação tem tendência a ficar pior, porque a cabeça da unidade é forçado a procurar a área reservada sempre que um remapeamento é acessado. Se a velocidade de acesso sequencial é crítica, os setores remapeados podem ser marcados manualmente blocos como ruins no sistema de arquivos, a fim de impedir a sua utilização.

Resumindo : Representa a quantidade de setores de reserva (spare sectors) já utilizados para substituir setores defeituosos. Obviamente, quanto maior o valor do campo Raw Attribute Value, pior pode ser considerado o estado da superfície do disco, e naturalmente isso irá influir no Attribute Value, aproximando mais do Attribute Threshold. 
  • Seek Error Rate ( necessário observar )
Representa a quantidade de erros nos eventos de busca de dados gravados. Cada vez que é ordenado ao disco buscar um dado e ocorre uma falha no posicionamento da cabeça para leitura, o valor para Seek Error Rate aumenta.

Assim como no atributo Raw Read Error Rate, atenção também aqui no Attribute Value: valores próximos do Attribute Threshold indicam a possibilidade de problemas nas cabeças físicas de leitura/gravação. 

  • Reallocation Event Count ( necessário observar )
Contagem de operações de remapeamento. O valor bruto deste atributo mostra a contagem total de tentativas de transferência de dados de setores realocados para uma área livre. Ambas as tentativas bem e mal sucedidas são contados
  • Current Pending Sector Count  ( necessário observar )
Contagem de setores "instáveis" (à espera de ser remapeado, por causa de erros de leitura irrecuperáveis). Se um setor instável é posteriormente lido com sucesso, o setor é remapeada e este valor diminui. Erros de leitura de um setor não vai mapear novamente o setor imediatamente (uma vez que o valor correto não pode ser lida e que o valor para mapear novamente não é conhecido, e também podem tornar-se mais tarde legível); em vez disso, o firmware da unidade lembra que o setor necessita de ser remapeado, e vai remapear na próxima vez que for escrito.
No entanto, algumas unidades não vai remapear imediatamente esses setores quando escritas; em vez da unidade vai primeiro tentar escrever para o setor de problema e se a operação de gravação for bem sucedida, em seguida, o setor será marcado bom (neste caso, "Reallocation Event Count" a (0xC4) não será aumentada). Esta é uma lacuna grave, pois se tal unidade contém setores marginais que fracassam só depois de passado algum tempo na sequência de uma operação de gravação de sucesso, em seguida, a unidade nunca vai remapear estes setores problemáticos.  
  • Uncorrectable Sector Count ou Offline Uncorrectable ou Off-Line Scan Uncorrectable Sector Count ( necessário observar )
A contagem total de erros incorrigíveis ao ler / escrever um sector. Um aumento no valor deste atributo indica defeitos da superfície do disco e / ou problemas no subsistema mecânico.
  • Power On Hours Count
Este é um valor meramente informativo e o campo Raw Attribute Value mostra a quantidade de horas em que o dispositivo está em funcionamento. Também pode ser encontrado como Power On Time.
  • Spin Retry Count ( necessario observar )
Representa quantas vezes o motor do disco rígido já falhou ao tentar sair de 0 rpm até sua velocidade operacional (considerando apenas a 1ª tentativa).

Obviamente, valores acima de zero no campo Raw Attribute Value indicam que o motor já falhou alguma vez e, valores altos indicam que haverá uma falha do motor à qualquer momento, sendo que isso poderá ser observado também no Attribute Value, aproximando-o mais do Attribute Threshold.
  • Calibration Retry Count ( necessario observar )
"Calibration" é o posicionamento das cabeças de escrita/leitura na trilha 0. O número representa a quantidade de vezes em que essa operação falhou (considerando apenas a primeira tentativa.
  • Temperature ( necessario observar )
Mostra no campo Raw Attribute Value a temperatura atual do disco, em graus Celsius.

Apenas para citar, o Attribute Threshold mostrará aqui a temperatura máxima recomendada pelo fabricante, e o Worst Value mostrará a temperatura na qual o disco já chegou à operar.

O cruzamento desses dados fará decrescer o Attribute Value, ou seja: se o Worst Value tem sido constantemente acima do Attribute Threshold, significa que o disco tem trabalhado constantemente em temperaturas altas.
  • Write Error Count ( necessário observar )
Representa a quantidade de erros ocorridos ao gravar dados no disco. Valores acima de 0 indicam que já houve alguma falha nessa operação, e valores mais altos indicam que há algum problema na superfície gravável (possivelmente setores defeituosos) ou nas cabeças físicas de gravação, sendo que isso poderá ser observado também no Attribute Value, aproximando-o mais do Attribute Threshold.
  • Throughput Performance  ( necessário observar )
No geral o desempenho de transferência de uma unidade de disco rígido. Se o valor deste atributo é decrescente existe uma alta probabilidade de que existe um problema com o disco. 
  • Read Channel Margin 
Margem de um canal durante a leitura de dados. A função deste atributo por enquanto não tem especificação
  •  Seek Time Performance 
Desempenho médio das operações de busca das cabeças magnéticas. Se esse atributo está a diminuir, é sinal de problemas no subsistema da mecânica das cabeça magnética
  • Recalibration Retries or Calibration Retry Count  ( necessário observar )
Este atributo indica que a contagem de recalibração foi solicitado (sob a condição de que a primeira tentativa não foi bem sucedida). Um aumento desse valor do atributo é um sinal de problemas no subsistema do disco rígido mecânico.
  • Power Cycle Count 
 Este atributo indica a contagem de potência total do disco rígido em ciclos ligado / desligado 
  • Soft Read Error Rate
Erros de leitura não corrigidas relatado para o sistema operacional.
  •  Current Helium Level 
O hélio, assim na literatura, permite que as unidades esteja mais frias e mais silencioso, e reduz o consumo de energia. Este é o status do hélio na unidade. Se o atributo de pré-falhar , detecta que uma vez que o ambiente interno está fora da especificação
  • Available Reserved Space
Observa na atribuição   
  • SSD Program Fail Count 
(Kingston) Conta o número de falhas flash. Este atributo retorna o número total de falhas de operação de programa em Flash uma vez que a unidade foi implantado. Este atributo é idêntico ao atributo 181.
  • SSD Erase Fail Count

(Kingston) Conta o número de falhas de apagar flash. Este atributo retorna o número total de falhas de operação de apagamento de Flash já que a unidade foi implantado. Este atributo é idêntico ao atributo 182
  • SSD Wear Leveling Count 
Conta o pior contagem máxima de apagar em qualquer bloco.
  • UltraDMA CRC Error Count
A contagem de erros na transmissão de dados através do cabo de interface, conforme determinado pelo  ICRC (Interface de Verificação de Redundância Cíclica) 


Fonte : Ariolic  ; Western Digital ; Samsung ; Kingston ; Linux Journal ; Smart Linux  ; Fujitsu ; Crystal Disk Info ; Wikipedia
Imagens : Wikipedia e Arquivo pessoal