A conclusão resulta de uma investigação liderada por dois investigadores do Laboratório de Software Confiável da Escola de Engenharia, realizada no INESC TEC, que tem como objetivo garantir que os cientistas que utilizam supercomputadores consigam realizar os estudos científicos, em áreas como medicina, ciências naturais, alterações climáticas e outras, de forma mais rápida. Os resultados do trabalho de investigação foram apresentados no final de fevereiro numa das mais importantes conferências a nível mundial na área dos sistemas de armazenamento, a USENIX FAST.
Em concreto, um dos problemas atuais está relacionado com a grande quantidade de informação digital como, por exemplo, a informação relacionada com dados genómicos, à qual estes estudos precisam de aceder de forma eficiente. Além disto, um supercomputador tem centenas ou milhares de estudos a decorrer ao mesmo tempo, o que dificulta ainda mais o processo, uma vez que os estudos estão a competir pelo acesso aos recursos de armazenamento partilhados, onde os seus dados estão guardados.
Como resultado deste trabalho e como solução para este problema, os investigadores do Laboratório de Software Confiável (HASLab), em co-autoria com investigadores de UT Austin e AIST, apresentaram o artigo “PAIO: General, Portable I/O Optimizations with Minor Application Modifications”, na edição deste ano da USENIX Conference on File and Storage (FAST), uma das conferências mais importantes na área dos sistemas de armazenamento a nível mundial, que decorreu de 22 a 24 de fevereiro, em Santa Clara, nos Estados Unidos da América.
“A ferramenta PAIO fornece os mecanismos necessários para que todos os estudos tenham uma oportunidade de acesso justa aos seus dados. Isto é importante para garantir que, para estudos de dimensão semelhante, não existe um grupo que tem os seus resultados em poucos minutos ou horas, enquanto outro grupo só terá acesso aos seus resultados em dias ou semanas”, refere Ricardo Macedo.
Uma outra contribuição da equipa é o sistema Monarch, intitulado “Accelerating Deep Learning Training through Transparent Storage Tiering”, que vai ser apresentado, em maio, na 22ª edição da International Symposium on Cluster, Cloud and Internet Computing (CCGrid’22).
O sistema propõe otimizações de armazenamento que permitem acelerar o treino de modelos de inteligência artificial. “Estas otimizações podem ser utilizadas, por exemplo, para prever a propagação de doenças como a COVID-19, de forma mais rápida e, em alguns casos, reduzir o tempo necessário quase para metade”, afirma João Paulo.
Colaborações internacionais contribuem para avanços no armazenamento de dados
O trabalho desenvolvido pela equipa de investigadores é resultado da colaboração que a equipa tem criado e potenciado com várias instituições internacionais de renome na área de armazenamento e na área de computação avançada, nomeadamente, The University of Texas at Austin (UT Austin), Texas Advanced Computing Center (TACC) e Hood College, dos Estados Unidos da América, e também o National Institute of Advanced Industrial Science and Technology (AIST), do Japão.
“Esta colaboração permite à equipa discutir com peritos quais os problemas fundamentais no armazenamento de dados, produzidos por diferentes tipos de aplicações, em supercomputadores”, menciona João Paulo. Além disso, estas colaborações têm permitido também “a validação das soluções desenvolvidas em infraestruturas de topo”, acrescenta o investigador.
Importa mencionar que estes resultados foram obtidos no âmbito dos projetos BigHPC e PAStor, financiados pelo Programa COMPETE 2020 e Fundação para a Ciência a Tecnologia, em parceria com UT Austin, através do Programa UT Austin Portugal.