Uma nova era se abre no campo das proteínas com a chegada da inteligência artificial (IA). Um modelo inovador, chamado ESM3, é capaz de gerar proteínas totalmente inéditas. À semelhança do ChatGPT, que prevê a palavra seguinte numa sequência, o ESM3 pode criar sequências proteicas desconhecidas na natureza. Uma proeza que suscita tanto maravilhamento quanto questões éticas.
A proteína esmGPF, gerada pelo modelo ESM3, é única no seu género. Segundo os cientistas, seriam necessários 500 milhões de anos de evolução para criar uma proteína deste tipo.
Crédito: EvolutionaryScale
Os investigadores utilizaram o ESM3 para desenvolver uma proteína fluorescente que compartilha apenas 58% da sua sequência com aquelas presentes na natureza. Este avanço foi publicado a 2 de julho na base de dados
bioRxiv. A empresa EvolutionaryScale, fundada por antigos investigadores da Meta, também detalhou esta descoberta num comunicado no passado dia 25 de junho.
O modelo ESM3, semelhante ao GPT-4 da OpenAI, foi treinado em 2,78 mil milhões de proteínas. Os investigadores extraíram informações sobre a sequência, estrutura e função de cada proteína, e depois pediram ao modelo para prever as informações em falta. Este método permite gerar novas proteínas, mas a sua eficácia deve ser validada por testes experimentais.
A EvolutionaryScale disponibilizou uma versão reduzida do modelo ESM3 sob licença não comercial, enquanto a versão completa estará acessível aos investigadores industriais. Esta tecnologia poderia revolucionar áreas variadas, desde a descoberta de medicamentos até à degradação de plásticos.
A equipa de investigação já tinha ganhado notoriedade em 2022 com o EMSFold, um precursor do modelo ESM3, que previa estruturas proteicas microbianas desconhecidas. Paralelamente, a equipa de
DeepMind da Google tinha anunciado previsões para 200 milhões de proteínas, destacando os limites e desafios de tais abordagens, nomeadamente a verificação das previsões por métodos experimentais tradicionais.
A verdadeira inovação do modelo ESM3 reside na sua capacidade de gerar proteínas completamente novas. Utilizando milhares de milhões de dados sobre a estrutura, função e sequência das proteínas, o modelo produziu uma nova proteína fluorescente chamada "esmGPF". Embora menos brilhante do que as suas homólogas naturais, iterações adicionais permitiram melhorar a sua luminosidade, atingindo resultados inimagináveis pela evolução natural.
Fonte: bioRxiv