Computadores Quânticos para Sequenciamento Genômico

Aranea Science
14 min readJun 8, 2020

--

A próxima e maior explosão será quando a genética e os computadores se juntarem. — Alvin Toffler

Em 1985, na Universidade de Califórnia houve um Workshop destinado a discutir a questão do Genoma humano e da possibilidade de sequenciar o nosso genoma através de um grande e monumental projeto, mas ninguém teve interesse na ideia.

Mas em 1986, Jim Watson (Ganhador de um Prêmio Nobel) um conhecido biólogo molecular e geneticista propôs uma conferência com cerca de 400 Cientistas para discutir essa mesma possibilidade, de sequenciar o Genoma humano.

E havia várias razões para isso ser feito, mas antes de continuarmos essa história vamos dar uma olhada no que é um genoma humano.

Para entender o que é um genoma, temos de entender essas quatro imagens acima. V ou explicar focando no nosso assunto:

  1. Célula: Fazem parte da estrutura mais básica dos seres vivos, dentro delas se contém o DNA(deoxyribonucleic acid) e o RNA(ribonucleic Acid) além dos cromossomos.
  2. Cromossomos: É uma molécula de DNA que faz parte de todo o genoma de um organismo, nele se contém uma longa sequência de DNA e ao todo cada ser humano tem 46 cromossomos (23 pares). Existem também os cromossomos sexuais que são 23 ao todo.
  3. Gene(Segmento de DNA): É uma sequência de nucleotídeos no DNA e no RNA que sintetizam um produto genético, como por exemplo as proteínas.
  4. Proteínas: Elas servem como catalisadores para reações químicas no corpo humano além de diversas outras funções fundamentais para a vida. Elas são feitas de uma cadeia de aminoácidos usando Carbono, Nitrogênio, Hidrogênio e Oxigênio como estruturas básicas.

Uma forma melhor de explicar essa estrutura, é que cada célula é como uma livraria onde estão os cromossomos que seriam um livro de receitas dessa livraria.

Dentro desse livro de receitas (Cromossomo) temos o Gene que é um segmento do DNA(A receita do bolo) e à partir de todo esse processo é possível criar o bolo que seria a proteína.

Esse é um Screenshot de um curso de Bioquímica oferecido pela Harvard University, ele foca muito, muito mesmo em proteínas e em como elas funcionam, a imagem acima mostra os elementos mais presentes no nosso corpo e são essencialmente os usados nas estruturas básicas das proteínas.

Essa é uma imagem 3D de uma proteínas chamada 1GAL do organismo Aspergillus Niger, um fungo comum em uvas, cebolas e amendoins.

Nesse site é possível até clicar na sequência na parte de cima e ver partes específicas da proteína.

(Fonte: SigmaAldrich)

Vocês podem lembrar da aula de Biologia da escola um pouco sobre a estrutura do DNA, basicamente as ligações do DNA são feitas por 4 bases complementares coligadas por pontes de hidrogênio:

  1. Adenina (A)
  2. Citosina ©
  3. Guanina (D)
  4. Timina (E)

O certo é sempre a Adenina ser ligada com a Citosina e a Guanina com a Timina. Isso vai criar uma sequência dessas 4 estruturas que vão formar a base do DNA.

(Fonte: ResearchGate)

A imagem acima por exemplo mostra uma parte pequena de um DNA que foi sequenciado, ou seja, através de técnicas que vamos ver mais pra frente no post é poss ível identificar a sequência que essas 4 estruturas aparecem no DNA, e a soma de tudo isso seria o Genoma humano.

Isso pode ajudar a identificar possíveis doenças e patologias, no caso da ilustração acima, o sequenciamento foi feito para identificar Câncer de Mama através dos genes, no artigo do link.

Acima está parte de uma sequência de DNA de um organismo viral, veja que ela sempre segue a ordem que vimos antes.

A série de caracteres mesmo para um organismo pequeno é gigante, essas 2 imagens são do mesmo organismo, mas veja que ela está divida em partes pelo programa.

Sim, é muito grande, esse código quando visto da maneira correta e através de diversos softwares pode dar vários insights sobre a estrutura do organismo, incluindo ao do ser Humano.

O grande problema é que esse código é gigante para diferentes organismos, veja na última coluna que para cada organismo o número passa de 40 mil bases.

Fred Sanger (Ganhador de 2 prêmios Nobel), foi o criador de um método eficiente para extrair esse código, que é chamado de Sanger Sequencing. Porém o processo era muito demorado se feito manualmente.

Tão demorado que ele demorou 4 anos para sequenciar os genes de um tipo de vírus, tudo isso feito manualmente como se pode ver nas imagens acima.

(Fonte: Hudson Robotics)

É óbvio que logo esse processo seria feito por robôs para ter uma escala e automatização maior, e isso foi uma das coisas que fez o sequenciamento genético realmente funcionar.

E como esse processo funciona?

Essa animação em Flash vai mostrar isso de uma forma bem dinâmica e didática. Eu recomendo que você a veja por inteiro antes de continuar esse post.

O resumo desse processo é que ele vai fazer uma cópia à partir do DNA e criar como se fosse um espelho desse DNA.

Para explicar isso vou ter que usar algumas imagens de um curso da John Hopkins University no Coursera: Genomic Data Science.

Esses slides são especificamente do curso 4, Algoritmos Aplicados ao Sequencimento de DNA. Belo curso por sinal, professores muito bons.

Essa é uma versão estilo lego do DNA, mas leve em conta que isso é só pra explicar mesmo, já que o genoma humano por exemplo tem bilhões de caracteres. Veja a Adenina(A), Timina(T), Guanina(G) e Citosina(C) representada pelas cores.

Usando uma coisa chamada DNA polymerase é possível fazer uma cópia durante várias etapas do DNA que queremos sequenciar.

Esse processo é monitorado por uma câmera que vai vendo se os “blocos” estão sendo copiados corretamente, normalmente hoje dia são múltiplos sequenciamentos ao mesmo tempo para maior escalabilidade.

Até termos uma cópia completa.

Esse processo envolve muitas outras etapas que são explicadas com detalhes nesse vídeo.

Eu dei um resumão sobre isso, o vídeo acima também pode te ajudar a ver isso na prática no laboratório.

Então… Vamos voltar a história do começo do post. Houve diversas discussões no Workshop realizado em 1986. O projeto de sequenciar o Genoma humano era difícil de ser realizado e muitos achavam impossível ou até inútil.

Muitos Cientistas defendiam essa ideia dizendo que ia trazer benefícios gigantes a saúde da humanidade, outros viam como um projeto que seria como se dessem bilhões de dólares para vacas comerem.

O projeto foi aceito pelo Congresso Americano e foi realizado e apenas 13 anos, sendo que no início projetaram 15 anos para ser concluído.

Uma Cooperação Internacional de diversos centros de pesquisa do mundo todo se juntaram nesse projeto, sendo que foram sequenciados os Dna’s de cerca de 100 doadores anônimos que foram mandados para esses laboratórios de pesquisa internacionalmente.

Cada um tinha o dever de sequenciar a sua parte, e no final teríamos todo o genoma humano bonitinho online, gratuitamente para todos.

O grande problema é que havia uma Empresa Privada chamada Celera, que começou a usar robôs e hardware pesado para sequenciar o Genoma Humano primeiro que essa Comunidade Internacional de laboratórios que estava fazendo um trabalho bem manual.

Eu resumi bastante esse confronto, mas foi bem intenso, tanto que havia essa expectativa de que a Celera ganharia essa corrida de sequenciamento genético e que o dinheiro público gasto dos Estados Unidos no projeto seria em vão.

No fim tanto a Celera quanto o “Setor Público” que seria o National Human Genome Research Institute, representando o trabalho de todas aquelas nações no projeto, o esboço do que seria o Genoma Humano.

Assim em 2003 o Genoma humano foi sequenciado.

O legal é que o genoma foi disponibilizado online, e está assim até hoje, qualquer um pode ter acesso. E até agora foi descoberto que cerca de 99.8–99.9 do genoma de todos os seres humanos é idêntico.

O que mostra que mesmo sejamos diferentes em aparência, no fundo somos todos bem no fundo, no nível celular, iguais.

Você pode ver os cromossomos na parte esquerda, clicando neles você pode ver cada parte de genoma individualmente e de forma detalhada.

O genoma humano foi catalogado em páginas físicas também, acho que mais para visualização mesmo já que isso está em um Museu de Ciência na Inglaterra.

Fica óbvio na imagem que cada livro é um cromossomo.

E veja como o número de caracteres do genoma é monumental.

Um problema bastantes relevante tanto para a Celera quanto para as Instituições que participaram do projeto Internacional, foi conseguir mensurar e analisar todo esses bilhões de caracteres desse código do genoma.

Obviamente usando computadores, mas ainda existem vários problemas computacionais hoje para analisarmos de forma mais específica e detalhada os genes de uma pessoa, e de forma mais rápida.

O que faz o processo, que mesmo que tenha reduzido e muito o seu custo comparado a antes, ainda é caro.

Esse é um gráfico mostra o custo descendo de acordo com o aumento da capacidade dos computadores em Hardware.

Custo por genoma ao longo dos anos, de $10.000.000 dólares em 2007 foi para aproximadamente $1.000 dólares em 2019, lembrando que esse é o custo para sequenciar todo o genoma de uma pessoa.

Na questão médica, normalmente o software só sequencia o que é necessário para análise baseado no banco de dados dele, como por exemplo para tratamento de doenças como Diabete Neonatal.

Um processo mais rápido que Sanger Sequencing (PCR) é o Next Generation Sequencing(NGS).

A diferença é que o sequenciamento do NGS tem uma qualidade muito maior, além de poder analisar sequências até então desconhecidas, coisa que o PCR não consegue.

Embora que o custo desse método seja alto para sequenciar pouco material, mais tem uma escalabilidade um pouco maior.

Um dos problemas computacionais que o artigo acima se refere quando sequenciando genomas é o de Sequencing Alignment que é a primeira parte do processo de análise do genoma que irá usar um genoma como referência para analisar o que está sendo sequenciado, sem essa análise feita por diversos softwares, ter um genoma é inútil.

3 problemas em Sequencing Alignment são levantados acima:

  1. A leitura de cada parte do código do genoma no é bem curto.
  2. Muitos erros no sequenciamento, que pode levar a resultados estranhos e sem sentido.
  3. Demanda um poder de Hardware para executar o Sequencing Alignment.

O problema também é não só de Hardware, mas achar algoritmos que possam fazer esse processo mais rápido e ter mais qualidade também não é uma questão simples.

É aí que Computadores quânticos entram em cena, como já vimos em outros posts, a velocidade desses computadores é absurdamente maior que computadores clássicos, embora hoje, essa frase não tenha tanto vigor tanto quanto terá no futuro.

Por exemplo, o artigo acima usa Principal Component Analysis (Técnica usada muito em Machine Learning e Big Data) para analisar bancos de dados grande, que é o caso de partes de um genoma ou dele todo.

E usa uma variação de Fuzzy Means Algorithm para classificar a relação se a relação entre os nucleotídeos durante o sequenciamento está correta.

E Hidden Markov Model com Viterbi Algorithm para prever a sequências dos nucleotídeos A,G,T,C que vimos antes no post, correlacionam entre si.

PCA usado no DNA de bactérias. Fonte: Biorxiv.

E PCA no uso de dados relacionados a câncer de mama. Esse algoritmo é bom em agrupar as coisas para uma análise mais didática. Fonte: GeekForGeeks.

Então vamos supor que você queria replicar o método com os Algoritmos usados no artigo citado, você precisaria também do hardware para executá-lo.

Você deveria talvez que adaptar eles ao Hardware Quântico, a plataforma da Amazon Braket permite que você faça isso de forma interativa como eles explicam na página desse produto.

Nessa plataforma você pode usar computadores quânticos na nuvem, por um preço bem acessível comparado ao que você gastar para comprar físico. $50.000 dólares?

Além disso você poderia fazer algo meio híbrido, misturando algoritmos quânticos e clássicos como no artigo mais acima, mas eu não tenho realmente ideia como ficaria isso visualmente.

Então, usando Amazon Braket eu acho que as ideias do artigo que citamos podem ser realizadas da forma que devem ser, e enfim dar um UP na velocidade de sequenciamento do DNA e de comparação desse DNA com os de Databases públicos.

Essa plataforma tem amplo suporte para Machine Learning, então resumindo, o Paper de antes com certeza seria bem feliz em suas realizações se replicado no Amazon Braket.

A questão é, que usar computadores quânticos usando plataformas na nuvem ajudaria no sequenciamento de DNA temos certeza, mas quais as aplicações para a medicina?

  1. É um achismo aqui, mas o custo poderia para a análise de DNA poderia diminuir pela capacidade computacional ser atingida de forma exponencial. Não no momento é claro, Computadores quânticos não atingiram esse poder ainda…
  2. A qualidade do sequenciamento seria maior e mais rápida o que permitiria que a pesquisa sobre genoma avance de forma gigante.
  3. Sequencing Alignment não seria mais um problema computacional.
  4. Com a análise sendo efetuada mais rápida que hoje, que seria em 5 dias, mais dados podem ser coletados sobre o genoma humano em larga escala.

Algo que a pesquisa genética ajudou muito foi no tratamento de Diabete neonatal, o teste genético pode identificar genes que possuam uma mutação em alguém que tem Diabetes e analisar se há possibilidade de ser Diabete neonatal em vez de tipo 1 ou tipo 2.

Isso faz a diferença no tratamento dos pacientes, que por exemplo, e m alguns casos tomam insulina não sabendo que é inútil para o tratamento deles, ou outras formas de tratamento que não são focadas na diabete deles.

Isso muda totalmente a vida do paciente, da água para o vinho. Não cura a doença, mas atinge e muito a sua vida.

O teste genético ainda não tem grandes aplicações na medicina tanto como gostaríamos hoje, mas já tem mostrado resultados incríveis que mudaram a vida de pessoas com condições inexplicáveis (Como esse tipo de Diabete) mas que estavam codificadas nos seus genes.

O curso da Future Learn, ministrado pela Universidade de Exeter fala sobre 3 histórias incríveis nesse tópico, e specialmente eu recomendo o vídeo 3.2 na semana 3 do curso em que eles contam como o teste genético mudou a vida de Dan que injetava insulina 4 vezes ao dia.

Mas depois do teste descobriram que ele tinha neonatal diabetes e que outro medicamento melhoria e muito o seu tratamento, o que mudou a sua vida.

Fontes:

  1. “Human Genome Project: Sequencing the Human Genome | Learn Science at Scitable”. www.nature.com. Retrieved 2016–01–25.
  2. “What Is a Cell?”. 30 March 2004.
  3. Protein Data Bank, CRYSTAL STRUCTURE OF GLUCOSE OXIDASE FROM ASPERGILLUS NIGER: REFINED AT 2.3 ANGSTROMS RESOLUTION.
  4. Muflikhah, Yuliantoro, Identifying Cancer Disease through Deoxyribonucleic Acid (DNA) Sequential Pattern Mining.
  5. Nacional Center for Biotechnology Information, Streptomyces phage phiSAJS1, complete genome.
  6. DNA Science — Human Race and Genetics Documentary, Youtube.
  7. Future Learn, Genomic Medicine, University of Exeter.
  8. Principles of BioChemistry, HarvardX, Edx.
  9. Aula de PCR e eletroforese, Youtube.
  10. Celera Wins Genome Race, Wired.
  11. Genome Data Viewer, US National Library of Medicine.
  12. The cost of the human genome, National Human Genome Research Institute.
  13. Challenges of sequencing human genomes, Oxford Academic.
  14. ML | Principal Component Analysis(PCA), GeeksForGeeks.
  15. Living with neonatal diabetes | Gareth’s story | Diabetes UK, Youtube.

Originally published at https://www.linkedin.com.

--

--

Aranea Science
Aranea Science

Written by Aranea Science

Converti muitos dos artigos desse blog em Livros publicados na Amazon, na editora Aranea Science. By Michael R. dos Santos

No responses yet