O que é High Availability?
High Availability (alta disponibilidade) significa que um sistema, componente ou aplicativo de TI pode operar em um alto nível, continuamente, sem intervenção, por um determinado período. A infraestrutura de alta disponibilidade é configurada para oferecer desempenho de qualidade e lidar com diferentes cargas e falhas com tempo de inatividade mínimo ou zero.
O que são clusters de High Availability?
Os clusters de High Availability são servidores agrupados para operar como um sistema único e unificado. Também conhecidos como clusters de failover, eles compartilham o mesmo armazenamento, mas usam redes diferentes. Eles também compartilham a mesma missão, pois podem executar as mesmas cargas de trabalho do sistema primário ao qual dão suporte.
Se um servidor no cluster falhar, outro servidor ou nó poderá assumir o controle imediatamente para ajudar a garantir que o aplicativo ou serviço suportado pelo cluster permaneça operacional. O uso de clusters de High Availability ajuda a garantir que não haja um único ponto de falha para a TI essencial e reduz ou elimina o tempo de inatividade.
Os clusters de High Availability são testados regularmente para confirmar que os nós estão sempre prontos. Os administradores de TI geralmente usam um programa de heartbeat de código aberto para monitorar a integridade do cluster. O programa envia pacotes de dados para cada máquina em um cluster para confirmar que ele está funcionando como pretendido.
O que é software de High Availability?
O software de alta disponibilidade é usado para operar clusters de alta disponibilidade. Em um sistema de TI de alta disponibilidade, há diferentes camadas (física, link de dados, rede, transporte, sessão, apresentação e aplicativo) que têm diferentes necessidades de software.
Na camada de aplicativos, por exemplo, o software de balanceamento de carga, que é usado para distribuir o tráfego de rede e as cargas de trabalho dos aplicativos entre os servidores, é considerado essencial para ajudar a garantir a alta disponibilidade de um aplicativo.
As soluções de software de alta disponibilidade geralmente oferecem balanceamento e redirecionamento de carga, failover automático de aplicativos, replicação de arquivos em tempo real e recursos de failback automático.
High Availabilty vs Recuperação de desastres de TI
Os sistemas e serviços de TI de High Availability são projetados para estarem disponíveis 99,999% do tempo durante interrupções planejadas e não planejadas. Conhecido como confiabilidade de cinco noves, o sistema está essencialmente sempre ativo.
Caso a infraestrutura crítica de TI falhar, mas tiver o suporte da arquitetura de alta disponibilidade, o sistema ou componente de backup assumirá o controle.
Isso permite que os usuários e os aplicativos continuem trabalhando sem interrupções e acessem os mesmos dados disponíveis antes da ocorrência da falha.
Já a recuperação de desastres de TI refere-se às políticas, ferramentas e procedimentos que as organizações de TI devem adotar para colocar os componentes e serviços críticos de TI novamente on-line após uma catástrofe. Um exemplo de desastre de TI é a destruição de um data center devido a um evento natural, como um grande terremoto.
Pense na High Availability como uma estratégia para gerenciar falhas pequenas, mas críticas, nos componentes da infraestrutura de TI que podem ser facilmente restaurados. A recuperação de desastres de TI é um processo para superar grandes eventos que podem deixar de lado infraestruturas de TI inteiras.
Tanto a High Availability quanto a recuperação de desastres são importantes para aprimorar a continuidade dos negócios. O mesmo ocorre com a tolerância a falhas, conforme descrito mais adiante neste artigo. O planejamento da alta disponibilidade inclui a identificação dos sistemas e serviços de TI considerados essenciais para ajudar a garantir a continuidade dos negócios.
Elementos da infraestrutura de High Availability
Redundância
A infraestrutura de TI de alta disponibilidade apresenta redundância de hardware, redundância de software e aplicativos e redundância de dados. Redundância significa que os componentes de TI em um cluster de alta disponibilidade, como servidores ou bancos de dados, podem executar as mesmas tarefas.
A redundância também é essencial para a tolerância a falhas, que complementa a alta disponibilidade e a recuperação de desastres de TI, conforme discutido mais adiante neste artigo.
Replicação
A replicação de dados é essencial para obter alta disponibilidade. Os dados precisam ser replicados e compartilhados com os mesmos nós em um cluster. Os nós devem se comunicar entre si e compartilhar as mesmas informações, de modo que qualquer um deles possa intervir para fornecer o serviço ideal quando o servidor ou o dispositivo de rede que eles estão suportando falhar.
Os dados também podem ser replicados entre clusters para ajudar a garantir a alta disponibilidade e a continuidade dos negócios no caso de falha de um data center.
Failover
Um failover ocorre quando um processo executado pelo componente primário com falha é transferido para um componente de backup em um cluster de alta disponibilidade. Uma prática recomendada para alta disponibilidade – e recuperação de desastres – é manter um sistema de failover localizado fora do local.
Os administradores de TI que monitoram a integridade dos sistemas primários críticos podem alternar rapidamente o tráfego para o sistema de failover quando os sistemas primários ficam sobrecarregados ou falham.
Tolerância a falhas
Conforme observado anteriormente, a alta disponibilidade e a recuperação de desastres são importantes para a continuidade dos negócios. Juntos, eles ajudam as organizações a criar altos níveis de tolerância a falhas, que se refere à capacidade de um sistema de continuar operando sem interrupções, mesmo que vários componentes de hardware ou software falhem.
A tolerância a falhas tem como objetivo o tempo de inatividade zero, enquanto a alta disponibilidade se concentra em proporcionar um tempo de inatividade mínimo. Um sistema de alta disponibilidade projetado para fornecer 99,999%, ou cinco noves, de tempo de atividade operacional espera ver 5,26 minutos de tempo de inatividade por ano.
Ao contrário da alta disponibilidade, o fornecimento de desempenho de alta qualidade não é uma prioridade para a tolerância a falhas. O objetivo do design de tolerância a falhas na infraestrutura de TI é evitar que um aplicativo de missão crítica sofra tempo de inatividade.
Esse elemento, é uma abordagem mais cara para garantir o tempo de atividade do que a alta disponibilidade, pois pode envolver o backup de sistemas inteiros de hardware e software e de fontes de alimentação. Os sistemas de alta disponibilidade não exigem a replicação de componentes físicos.
A alta disponibilidade e a tolerância a falhas se complementam, pois ajudam a dar suporte à recuperação de desastres de TI. A maioria das estratégias de continuidade dos negócios inclui medidas de alta disponibilidade, tolerância a falhas e recuperação de desastres. Essas estratégias ajudam a organização a manter operações essenciais e a dar suporte aos usuários ao enfrentar qualquer tipo de falha crítica de TI, pequena ou grande.
Fonte:

Douglas Bernardini
Cybersecurity Specialist & Cloud Computing Expert with +10 years experience in IT infrastructure.
Specialist delivering assets for development teams in Google Cloud Platform (GCP) and Amazon web services (AWS)
Hands-on cloud security enterprise architect, with experience in SIEM/SOC, IAM, cryptography, pentest, network topologies, operating systems, databases, and applications.
Experience in DevSecOps analysis to discover vulnerabilities in software, identifying CI/CD risks gaps and recommending secure-coding process (S-SDLC).