A história de cada ser vivo é intrinsecamente codificada em seu genoma, um repositório de DNA presente em quase todas as células do corpo. Embora as células compartilhem a mesma informação genética, nenhuma é idêntica; elas diferem nos reguladores que controlam a expressão do DNA. O genoma humano, uma vastidão de 3 bilhões de pares de bases distribuídos em 23 cromossomos, contém entre 20.000 e 25.000 genes codificadores de proteínas, representando apenas 1% do total.
Para desvendar os mecanismos de sistemas biológicos complexos, especialmente essa pequena mas crucial porção do DNA codificador, métodos de sequenciamento de alta precisão são indispensáveis. É aqui que entra a tecnologia de sequenciamento de célula única (sc-seq).
Em 2013, a revista Nature reconheceu o sequenciamento de RNA de célula única como o "Método do Ano", sublinhando sua importância para explorar a heterogeneidade celular através da análise de DNA e RNA em nível individual. Desde então, uma explosão de ferramentas surgiu para a análise de dados de sequenciamento de RNA de célula única. O banco de dados scRNA-tools, por exemplo, catalogava mais de 1000 softwares em 2021, muitos dos quais empregam técnicas de Deep Learning, um foco central deste artigo. Exploraremos o papel fundamental que o Deep Learning desempenha como um catalisador para o avanço das tecnologias de sequenciamento de célula única, transformando a maneira como compreendemos a vida em sua escala mais fundamental.
Fundamentos da Biologia Celular
O Fluxo da Informação Genética: Do DNA à Proteína nas Células
Para entender a relevância do sequenciamento de célula única, é essencial revisar os conceitos básicos de células e sequências. A célula é a unidade fundamental da vida, chave para compreender tanto o funcionamento saudável do corpo quanto as disfunções moleculares que levam a doenças. Nosso corpo é composto por trilhões de células, e quase todas contêm três camadas de informação genética: DNA, RNA e proteína. O DNA é uma longa molécula que carrega o código genético, tornando cada indivíduo único. Como um "código-fonte" biológico, ele contém as instruções para a produção de todas as proteínas do nosso corpo. As proteínas, por sua vez, são as "máquinas" da célula, executando praticamente todas as tarefas essenciais para a vida celular, desde catalisar reações químicas (enzimas) até replicar DNA (DNA polimerases).
A síntese de proteínas pela célula ocorre em duas etapas, Transcrição e Tradução (veja a Figura 1), processo conhecido como expressão gênica. Primeiro, o DNA é transcrito em RNA, e depois o RNA é traduzido em proteína. Podemos considerar o RNA como um mensageiro entre o DNA e a proteína.
Figura 1. O dogma central da biologia.
Embora as células do nosso corpo compartilhem o mesmo DNA, elas exibem atividades biológicas variadas. As distinções entre, por exemplo, células imunes e células cardíacas são determinadas pelos genes que estão ativos ou inativos em cada tipo celular. Geralmente, a ativação de um gene resulta na criação de mais cópias de RNA, o que leva a uma maior produção de proteínas. Consequentemente, como os tipos de células diferem na quantidade e tipo de moléculas de RNA/proteína sintetizadas, torna-se crucial avaliar a abundância dessas moléculas em nível de célula única. Isso nos permite investigar o comportamento do nosso DNA dentro de cada célula e obter uma perspectiva de alta resolução das diversas partes do nosso corpo.
Detalhes Técnicos: As Etapas do Sequenciamento de Célula Única
Em termos gerais, todas as tecnologias de sequenciamento de célula única seguem três passos principais:
Isolamento de células individuais do tecido de interesse e extração de material genético de cada célula isolada.
Amplificação do material genético de cada célula isolada e preparação da biblioteca.
Sequenciamento da biblioteca usando um sequenciador de próxima geração e análise de dados.
Ao navegar pelos intrincados passos da biologia celular e das tecnologias de sequenciamento de célula única, surge uma questão fundamental para os desenvolvedores e cientistas de dados: como os dados de sequenciamento de célula única são representados numericamente? Para entender as nuances da organização de dados e suas implicações na análise, especialmente quando utilizamos técnicas avançadas, vale a pena aprofundar as diferenças entre as funções no universo dos dados, conforme explicamos em Engenharia, Ciência e Análise de Dados: Entenda as Diferenças.
Estrutura dos Dados de Sequenciamento de Célula Única
A estrutura dos dados de sequenciamento de célula única assume a forma de uma matriz (Figura 2), onde cada linha corresponde a uma célula individual e cada coluna representa um gene ou outra característica molecular. Os valores dentro da matriz quantificam a expressão ou a presença de cada característica em cada célula, criando um panorama detalhado da heterogeneidade celular. É sobre essa vasta quantidade de dados que as técnicas de Deep Learning operam, extraindo padrões complexos e insights que seriam inatingíveis por métodos tradicionais, impulsionando a pesquisa biomédica para novos horizontes.