Os investigadores João Tiago Paulo (INESC TEC/UMinho), Vinicius Vielmo Cogo e Alysson Neves Bessani (ambos da ULisboa) criaram uma tecnologia que pode permitir estudos mais rápidos e baratos na sequenciação de genomas e com menos 75% de espaço de armazenamento em dados. O estudo foi publicado na “IEEE”.
Combinaram uma nova técnica de deduplicação de dados baseados em semelhanças e padrões encontrados nos ficheiros de sequenciação de genomas humanos e uma codificação das alterações para a recuperação desses dados. A inovação desta abordagem é substituir a descrição completa dos dados genómicos sequenciados por pequenos apontadores descrevendo-se apenas alterações necessárias para a recuperação dos dados originais, reduzindo-se consequentemente o espaço necessário e o custo de armazenamento.
Hospitais e biobancos conseguem assim economizar no armazenamento dos dados e, em paralelo, os investigadores podem ler os dados de forma mais rápida. Estas instituições são responsáveis por guardar e distribuir milhões de amostras biológicas para investigadores de todo o mundo e estão sob pressão para armazenar também dados genómicos sequenciados a partir destas amostras, logo estas poupanças terão um impacto significativo no seu quotidiano.
A aplicação em infraestruturas que já usam algoritmos de compressão genéricos nestes dados beneficiam de uma redução adicional de custo e espaço de armazenamento de cerca de 22% e permite que os investigadores acedam aos dados até cinco vezes mais rapidamente. No futuro próximo, os investigadores pretendem disponibilizar a solução em código aberto, melhorar os resultados através de estudos mais aprofundados sobre os padrões e adaptar as conclusões para a sequenciação de genomas de outras espécies.
Artigo pode ser acedido aqui: www.di.fc.ul.pt/~bessani/publications/tc20-genodedup.pdf