Armazenamento de DNA é a inovação mais importante da qual você nunca ouviu falar
Estamos nos afogando em dados e apenas o armazenamento de DNA pode nos salvar
À medida que o volume de dados produzidos pela atividade na Internet, dispositivos digitais e sensores IoT continua a se expandir a um ritmo agressivo, as empresas estão ficando sem tempo para resolver um problema crítico: onde colocar tudo.
De acordo com um relatório recente da IDC, a quantidade de dados criados nos próximos cinco anos será maior que o dobro da quantidade gerada desde que o armazenamento digital começou a ser usado.
Embora menos de 2% dos 64,2 ZB (68,9 bilhões de TB) criados no ano passado tenham sido armazenados a longo prazo (o restante foi substituído ou armazenado temporariamente em cache), as necessidades globais de armazenamento de dados ainda estão superando a expansão da capacidade total.
Embora as unidades de disco rígido (HDs) e as unidades de estado sólido (SSDs) façam um excelente trabalho em manter e fornecer as quantidades de dados que nossos dispositivos diários precisam para funcionar, nenhum deles é adequado para armazenar informações em massa e por longos períodos.
Quando se trata de armazenamento de arquivos, a fita magnética Linear Tape-Open (LTO) domina o poleiro, com o menor custo por capacidade de qualquer tecnologia. A geração atual de fitas, LTO-8, tem capacidade nativa de 12 TB e pode ser adquirida por apenas US$ 75 (ou US$ 6,25/TB).
No entanto, embora econômica, a fita também tem seus pontos fracos; os dados só podem ser acessados em série, dificultando a localização de arquivos específicos, e as empresas também precisam migrar para uma nova fita semi-regularmente para evitar a perda de dados.
Para tentar resolver a iminente crise de dados, os pesquisadores estão em busca de novas tecnologias de armazenamento ultradensas e ultraduráveis. Alguns candidatos diferentes surgiram, mas um conceito parece particularmente promissor: o ácido desoxirribonucléico, mais conhecido como DNA.
O que é armazenamento de DNA e como funciona?
O DNA, o material fundamental dos organismos vivos, compreende quatro blocos de construção moleculares: adenina (A), guanina (G), citosina (C) e timina (T). Esses compostos se conectam em pares (A-T e G-C) para formar os degraus da famosa escada de dupla hélice.
Essa estrutura pode ser utilizada como uma forma extremamente densa e durável de armazenamento de dados, convertendo 1s e 0s binários no alfabeto genético de quatro letras. Descobriu-se que um único grama de DNA é capaz de armazenar 215 PB (220.000 TB) de dados.
“O armazenamento de dados de DNA é o processo de codificação e decodificação de dados binários de e para cadeias sintetizadas de DNA”, explicou um porta-voz da DNA Data Storage Alliance (DDSA), fundada no ano passado pela Microsoft, Western Digital, Twist Bioscience e Ilumina.
“Para armazenar dados no DNA, os dados digitais originais são codificados, depois escritos (sintetizados usando processos químicos/biológicos) e armazenados. Quando os dados armazenados são necessários novamente, as moléculas de DNA são sequenciadas para revelar cada A, C, G ou T individual em ordem e remapeadas das bases de DNA de volta para 1s e 0s.”
![]() |
(Crédito da imagem: DNA Data Storage Alliance) |
O DNA supera as atuais tecnologias de armazenamento de arquivos em quase todas as categorias. Um artigo recente estima que 9 TB de DNA codificado podem ser espremidos em apenas 1 mm ^ 3 de espaço, o que significa que o volume de um único cassete LTO conteria 2 milhões de TB de dados, aproximadamente 167.000 vezes a capacidade de um LTO-8 fita.
Em um cenário do mundo real, o DNA poderia ser usado para armazenar todo o YouTube (que se acredita hospedar cerca de 400.000 TB de novos vídeos a cada ano em uma pequena geladeira, em oposição a acres e acres de centros de dados.
Ao contrário da fita magnética, que precisa ser substituída a cada uma ou duas décadas, dependendo do uso, o DNA pode durar milhares de anos nas condições certas. Isso significa que o custo total de propriedade (TCO) tem o potencial de ser extremamente baixo.
O DNA também é biodegradável e facilmente replicável, e consome pouca energia além da energia necessária para fabricar o clima necessário, tornando-o extremamente ecológico.
No entanto, ainda existem inúmeras razões pelas quais o DNA ainda não tornou obsoleto o armazenamento em fita. A tecnologia ainda está em sua infância, com problemas a serem resolvidos em quase todos os estágios do processo, desde a codificação até a síntese e o sequenciamento.
De acordo com Turguy Goker, diretor de desenvolvimento avançado, LTO da empresa de armazenamento Quantum, é muito cedo para “apostar neste cavalo ainda”.
“O armazenamento de DNA está nadando em águas agitadas no momento e levará alguns anos até que possa navegar com segurança em direção às costas comerciais”, explicou ele.
Denso e durável, mas lento e caro
Por mais promissores que sejam os primeiros sinais, ainda há uma série de obstáculos a superar antes que o DNA possa começar a reduzir o problema de capacidade de armazenamento do mundo. As principais questões dizem respeito a custo e velocidade.
Para evitar a degradação, o DNA requer um clima muito específico, cuja manutenção pode ser difícil e cara. Especificamente, o DNA precisa ser mantido em temperaturas extremamente baixas ou exposto a um fluxo de ar cuidadosamente controlado.
Usando as técnicas atuais, o processo de gravação de dados no DNA também é extremamente demorado quando comparado com as tecnologias existentes. Até que isso possa ser melhorado, o armazenamento de DNA permanecerá inutilizável em escala.
“A escrita do DNA é um processo químico inerentemente e muito, muito mais lento do que a eletrônica digital que estamos acostumados a usar”, explicou Goker. “Sem superar essa barreira, gravar no armazenamento baseado em DNA é análogo a esvaziar uma piscina usando um canudo.”
A leitura de dados armazenados no DNA também apresenta desafios, com alta probabilidade de erros serem introduzidos durante o processo de sequenciamento. Além das questões tecnológicas, a falta de padrões comuns precisa ser abordada, para garantir que as tecnologias de armazenamento de DNA sejam interoperáveis entre si e com as tecnologias legadas.
No entanto, com o armazenamento de DNA atraindo atenção e investimento de governos, empresas de armazenamento e gigantes da tecnologia, o trabalho está em andamento para encontrar soluções para esses problemas.
Por exemplo, o Escritório do Diretor de Inteligência Nacional dos EUA lançou o programa Molecular Information Storage (MIST) no ano passado, com o objetivo declarado de desenvolver tecnologias de DNA capazes de escrever 1 TB e ler 10 TB em 24 horas, em custo inferior a US$ 1.000.
Separadamente, a Twist Bioscience desenvolveu um método para aumentar o rendimento da síntese de DNA por um fator de 1.000 usando uma plataforma de silício que miniaturiza a química necessária.
De acordo com o DDSA, as preocupações com a precisão dos dados serão dissipadas por scripts capazes de corrigir problemas de sequenciamento, e a organização também acredita que ainda há tempo para estabelecer especificações que evitarão a fragmentação em todo o setor.
“Ao contrário da síntese para cuidados de saúde, que deve ser perfeita, o armazenamento de DNA pode tolerar erros devido aos algoritmos de correção normalmente usados no armazenamento hoje. Os pioneiros do armazenamento de DNA já estão trabalhando em melhorias no algoritmo de codificação e correção de erros que irão mitigar esse risco e recuperar os dados com precisão”, explicou um porta-voz.
“À medida que os métodos e ferramentas para armazenamento de dados de DNA comercialmente viáveis se tornam mais bem compreendidos e mais amplamente disponíveis, a Alliance considerará a criação de especificações e padrões específicos (por exemplo, codificação, interfaces físicas, retenção, sistemas de arquivos) para promover o surgimento de DNA interoperável e soluções baseadas em armazenamento de dados que complementam as hierarquias de armazenamento existentes.”
É o fim da fita?
Embora a chegada do armazenamento de DNA coloque questões sobre a utilidade duradoura da fita magnética, há aqueles que acreditam que a escrita ainda não está na parede.
Por exemplo, quando questionada se achava que o DNA colocaria seus produtos de armazenamento em fita sob ameaça, a IBM indicou melhorias na densidade da fita, o que também é testado e comprovado em um contexto comercial.
“À medida que os volumes de dados continuam aumentando em todo o mundo, a tecnologia de fita continua sendo a solução preferida para retenção, proteção e resiliência de dados corporativos para ambientes locais e de nuvem híbrida”, disse Andy Walls, CTO e arquiteto-chefe da divisão de armazenamento flash da IBM.
“É também a tecnologia de armazenamento mais ecológica disponível, consumindo zero energia e durando décadas. E como continuamos a aumentar a densidade da fita, hoje um único cartucho da IBM (menor que um cassete VHS) pode conter incríveis 60 TB de dados compactados. Essas são algumas das qualidades que tornam a fita a solução ideal para os maiores hiperescaladores que dependem dela para armazenamento de arquivo barato e confiável.”
No final do ano passado, a IBM também anunciou que quebrou o recorde mundial de densidade de área em um protótipo de fita de ferrita de estrôncio (SrFe), desenvolvido pela Fujifilm. O par alcançou um recorde de 317 GB/in^2, que se traduz em 580 TB por cartucho, mostrando que a fita tem um longo caminho a percorrer antes de atingir sua densidade máxima.
Embora os atributos do armazenamento de DNA sejam mais comparáveis à fita, a Quantum acredita que é mais provável que o DNA se encaixe nas configurações existentes do que substitua totalmente a tecnologia existente.
“A fita não mostra sinais de desaparecer tão cedo, especialmente para fins de arquivamento local de longo prazo”, Goker nos disse. “É a forma mais econômica de armazenamento por megabyte, pode armazenar grandes quantidades de dados por cartucho e requer custos operacionais muito baixos. É também um dos meios de armazenamento mais seguros existentes, pois os dados são armazenados offline e também podem servir como um arquivo ativo, uma função chave e importante para hiperescaladores.”
“Em vez de olhar para ambas as opções de armazenamento como concorrentes, devemos olhar para sua natureza complementar ao trabalhar em conjunto. O DNA complementará a fita no futuro, coexistindo como um sistema hierárquico em data centers de hiperescala. É improvável que o DNA substitua a fita magnética nos próximos anos, mas ocupará um nível abaixo dele, pois a gravação uma vez lida raramente é usada. Uma combinação perfeita para cenários de arquivamento de big data.”
No entanto, embora seja improvável que a fita seja usurpada no curto prazo, alojada como está no centro dos sistemas de armazenamento corporativo, há pouca sensação de que a tecnologia de décadas será capaz de suportar o tsunami de dados no horizonte, independentemente de P&D(Pesquisa e Desenvolvimento).
Embora a capacidade da fita tenha quase dobrado a cada geração de LTO, superando o crescimento da capacidade de SSD e HD em magnitudes, mesmo essa taxa exponencial de expansão não pode ultrapassar o volume de dados produzidos.
A próxima fronteira para armazenamento de dados
A acreditar nos analistas, a crise do armazenamento de dados chegará ao auge na próxima meia década. Se as tecnologias de armazenamento não forem atualizadas a tempo, as consequências poderão ser diversas.
Por exemplo, a incapacidade de armazenar uma quantidade suficiente de dados significa que as empresas estão menos preparadas para se recuperar de interrupções, sejam elas desencadeadas por ataques cibernéticos ou mudanças nas condições socioeconômicas. O valor total da análise permanecerá inexplorado (e desconhecido), porque as empresas terão que trabalhar com conjuntos de dados incompletos.
Do ponto de vista do consumidor, é possível que plataformas de mídia social, empresas de e-mail e outras possam começar a excluir dados e postagens mais antigos, para abrir espaço para o rio sempre fluindo de novos conteúdos. O Google, por exemplo, anunciou recentemente que começará a deletar os dados anexados aos seus serviços Gmail, Drive e Fotos de contas inativas por dois anos ou mais.
O armazenamento de DNA não é a única esperança; pesquisadores da Microsoft estão examinando a possibilidade de usar lasers para gravar dados em vidro de quartzo ou armazenar dados em forma de holograma dentro de cristais.
No entanto, com seu conjunto único de propriedades e características, o DNA é talvez o salvador mais provável.
Segundo Luis Ceze, especialista em armazenamento de DNA da Universidade de Washington, levará de oito a dez anos para que o DNA seja adotado em contextos comerciais de grande escala. Outros especialistas concordaram com essa avaliação.
No entanto, Ceze também disse que as tendências de pesquisa são “favoráveis” e que “mercados boutique para necessidades menores de dados já são viáveis hoje”. Há esperança, então, de que a corrida contra o relógio ainda possa ser vencida e a calamidade de dados evitada.
Comentários
Postar um comentário