Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Polimorfismo de nucleotídeo único
Polimorfismo de nucleotídeo único ou polimorfismo de nucleotídeo simples em genética, (em inglês single nucleotide polymorphism; SNP) é uma variação na sequência de DNA que afeta somente uma base (adenina (A), timina (T), citosina (C) ou guanina (G)) na sequência do genoma entre indivíduos de uma espécie ou entre pares de cromossomos de um individuo. Um polimorfismo de nucleotídeo único (SNP /snɪp/; plural /snɪps/) é uma substituição da linha germinativa de um único nucleotídeo em uma posição específica no genoma. Por exemplo, em uma posição de base específica no genoma humano, o nucleotídeo C pode aparecer na maioria dos indivíduos, mas ocorre que em uma minoria de indivíduos, a posição é ocupada por um A. Isso significa que existe um SNP nesta posição específica, e as duas variações de nucleotídeos possíveis — C ou A — são chamadas de alelos para esta posição específica. Um estudo das proteínas relacionados aos mesmos, pode determinar qual forma é a mais original que não sofreu entropia genética e acúmulo de mutações deletérias nas populações ancestrais e qual forma foi mutada que aparece com maior frequência nas populações atuais.
Os SNPs identificam diferenças em nossa suscetibilidade a uma ampla gama de doenças (por exemplo, anemia falciforme, β-talassemia e fibrose cística). A gravidade da doença e a forma como o corpo responde aos tratamentos também são manifestações de variações genéticas causadas por SNPs. Por exemplo, se uma mutação de base única no gene APOE (apolipoproteína E) está associada a um risco menor de doença de Alzheimer.
Uma variante de nucleotídeo único (SNV) é uma variação em um único nucleotídeo. Os SNVs diferem dos SNPs no sentido de que um SNV pode ser somático e pode ser causado por câncer, mas um SNP deve segregar na população de organismos de uma espécie. Os SNVs também surgem comumente em diagnósticos moleculares, como a criação de primers de PCR para detectar vírus, nos quais a amostra de RNA ou DNA viral pode conter SNVs.
Tipos de SNPs |
---|
Polimorfismos de nucleotídeo único podem cair em sequências codificantes de genes, regiões não codificantes de genes ou nas regiões intergênicas (regiões entre genes). SNPs dentro de uma sequência de codificação não alteram necessariamente a sequência de aminoácidos da proteína que é produzida, devido à degenerescência do código genético .
SNPs na região de codificação são de dois tipos: SNPs sinônimos e não-sinônimos. SNPs sinônimos não afetam a sequência da proteína, enquanto SNPs não sinônimos, alteram a sequência de aminoácidos da proteína e podem deixar que ela perca ou diminua sua função.
SNPs em regiões não codificantes podem se manifestar em um risco maior de câncer, e podem afetar a estrutura do mRNA e a suscetibilidade à doença. SNPs não codificantes também podem alterar o nível de expressão de um gene, como um eQTL (locus de traço quantitativo de expressão).
SNPs em regiões de codificação
SNPs em regiões de codificação podem ser classificadas em:
- Missense — mudança única na base resulta em mudança no aminoácido da proteína e seu mau funcionamento que leva à doença (por exemplo, c1580G> T SNP no gene LMNA - posição 1580 (nt) na sequência de DNA (códon CGT) fazendo com que a guanina seja substituída com a timina, produzindo o códon CTT na sequência de DNA, resulta no nível da proteína na substituição da arginina pela leucina na posição 527, no nível do fenótipo, isso se manifesta na displasia mandibuloacral sobreposta e na síndrome da progéria ) Neste tipo de mutações há uma alteração de uma das bases do DNA, de tal forma que o tripleto de nucleótidos da qual ela faz parte se altera, passando a codificar um aminoácido incorreto (diferente do que seria esperado na posição correspondente da proteína). A mutação missense pode alterar a função da proteína em maior ou menor grau, dependendo da localização e da importância do específico aminoácido.
- Nonsense — mutação pontual em uma sequência de DNA que resulta em um códon de parada prematuro, ou um códon sem sentido no mRNA transcrito, e em um produto de proteína truncado, incompleto e geralmente não funcional (por exemplo Fibrose cística causada pela mutação G542X no gene regulador da condutância transmembrana da fibrose cística). SNPs que não estão em regiões codificadoras de proteínas, ainda podem afetar o splicing do gene (Crabtree), a ligação do fator de transcrição, a degradação do RNA mensageiro ou a sequência de RNA não codificador. A expressão gênica afetada por este tipo de SNP é conhecida como eSNP (expressão do SNP) e pode estar a montante ou a jusante do gene.
Frequência
Se mais de 1% da população analisada possui tal polimorfismo de nucleotídeo único eles são chamados SNPs, e for menor que 1% é chamado simplesmente de uma mutação:
"Se mais de 1% de uma população não carrega o mesmo nucleotídeo em uma posição específica na sequência de DNA, então esta variação pode ser classificado como um SNP. Se um SNP ocorre dentro de um gene, o gene é descrito como tendo mais de um alelo. Nestes casos, os SNPs podem levar a variações na sequência de aminoácidos. SNPs, no entanto, não estão apenas associados a genes; eles também podem ocorrer em regiões não codificantes do DNA".
Porém muitas publicações não aplicam esse limite de frequência, pois mais de 335 milhões de SNPs foram encontrados em humanos de várias populações. Um genoma típico difere do genoma humano de referência em 4 a 5 milhões de locais, a maioria dos quais (mais de 99,9%) consiste em SNPs e indels curtos.
Nestes casos, o termo polimorfismo de nucleotídeo simples é mais adequado. Estas variações devem ocorrer em "no mínimo" 1% de uma determinada população para ser considerada como um SNP. Se, por outro lado, a frequência de uma variação for inferior a 1%, a mesma será considerada simplesmente uma mutação. Assim, por exemplo, dois indivíduos podem apresentar fragmentos de sequência de DNA que diferem por apenas um nucleotídeo GGGG(C)CG e GGGG(T)CG, e diz-se então que existem dois alelos: C e T (Brookes, 1999). Portanto, os SNPs são marcadores bialélicos, podendo ser tri-alélicos (menor frequência).
Encontram-se por toda região do genoma: íntrons, éxons, regiões intergênicas, promotores ou enhancers. A localização do SNP pode ter grande relevância, como por exemplo um SNP encontrado na região codificadora pode alterar a formação de proteínas, assim como um SNP intrônico pode influenciar no splicing do mRNA.
Dentro de um genoma
A distribuição genômica dos SNPs não é homogênea; SNPs ocorrem em regiões não codificantes com mais frequência do que em regiões codificantes ou, isso se deve ao número de interações maior, espaço ocupado maior, vulnerabilidade maior e consequentemente a seleção natural estará agindo e "fixando" o alelo (eliminando outras variantes) do SNP que constitui a adaptação genética mais favorável. Outros fatores, como recombinação genética e taxa de mutação, podem determinar a densidade SNP.
A densidade SNP pode ser prevista pela presença de microssatélites: microssatélites AT em particular são potentes preditores de densidade SNP, com longos tratos de repetição (AT) (n) tendendo a ser encontrados em regiões de densidade SNPs significativamente reduzida e baixo conteúdo de GC.
Dentro de uma população
Existem variações entre as populações humanas, portanto, um alelo SNP comum em um grupo geográfico ou étnico, pode ser muito mais raro em outro. Em uma população, os SNPs podem ser atribuídos a uma frequência de alelo menor — a frequência de alelo mais baixa em um locus que é observado em uma população particular. Esta é simplesmente a menor das duas frequências de alelos para polimorfismos de nucleotídeo único.
Com esse conhecimento, os cientistas desenvolveram novos métodos de análise de estruturas populacionais em espécies menos estudadas. Ao usar técnicas de "pooling", o custo da análise é reduzido significativamente. Essas técnicas são baseadas no sequenciamento de uma população em uma amostra combinada em vez de sequenciar cada indivíduo dentro da população por si só. "O pooling permite que as frequências de alelos em grupos de indivíduos sejam medidas usando muito menos reações de PCR e ensaios de genotipagem do que os usados na genotipagem de indivíduo".
Com as novas ferramentas de bioinformática, existe a possibilidade de investigar a estrutura da população, o fluxo gênico e a migração gênica, observando as frequências alélicas em toda a população. Com estes protocolos existe a possibilidade de combinar as vantagens dos SNPs com marcadores de micro satélites. No entanto, existem informações perdidas no processo, como desequilíbrio de ligação e informações de zigosidade.
Possuem diversas vantagens em relação aos demais marcadores, sendo elas: sua estabilidade, alta frequência e facilidade de automatização.
Os SNPs constituem 90% de todas as variações genômicas humanas e aparecem, em média, uma vez a cada 1.300 bases, ao longo do genoma humano. Dois terços dos SNP correspondem a substituições de uma citosina (C) por uma timina (T).
Aplicações
- Os estudos de associação podem determinar se uma variante genética está associada a uma doença ou característica.
- Um tag SNP é um polimorfismo de nucleotídeo único representativo em uma região do genoma com alto desequilíbrio de ligação (a associação não aleatória de alelos em dois ou mais loci). Tag SNPs são úteis em estudos de associação de SNPs de genoma completo, nos quais centenas de milhares de SNPs em todo o genoma são genotipados.
- Mapeamento de haplótipos: conjuntos de alelos ou sequências de DNA podem ser agrupados de modo que um único SNP possa identificar muitos SNPs vinculados.
- O desequilíbrio de ligação (LD), um termo usado na genética de populações, indica associação não aleatória de alelos em dois ou mais loci, não necessariamente no mesmo cromossomo. Refere-se ao fenômeno de que o alelo SNP ou a sequência de DNA que estão próximos no genoma tendem a ser herdados juntos. O LD pode ser afetado por dois parâmetros (entre outros fatores, como estratificação da população): 1) A distância entre os SNPs [quanto maior a distância, menor o LD]. 2) Taxa de recombinação [quanto menor a taxa de recombinação, maior o LD].
Os SNPs apresentam baixa taxa de mutação, sendo assim, podem ser utilizados como marcadores genéticos para seguir padrões de herança das regiões cromossômicas de geração em geração e por este motivo são ótimos marcadores de ancestralidade. Tem desempenhado importante papel em estudos filogeográficos e filogenéticos, além de serem ferramentas poderosas no estudo de fatores genéticos associados a doenças humanas e úteis na farmacogenética, para melhores resultados nas respostas a droga.
Na identificação de doenças
Um único SNP pode causar uma doença de Mendel, embora para doenças complexas, os SNPs geralmente não funcionam individualmente, em vez disso, eles funcionam em coordenação com outros SNPs para manifestar uma doença, como na Osteoporose. Um dos primeiros sucessos nesse campo foi encontrar uma mutação de base única na região não codificadora do APOC3 (gene da apolipoproteína C3) associada a riscos mais elevados de hipertrigliceridemia e aterosclerose. Algumas doenças causadas por SNPs incluem a artrite reumatóide, doença de Crohn, cancro da mama, a doença de Alzheimer, e algumas desordens auto-imunes . Estudos de associação em grande escala foram realizados para tentar descobrir SNPs causadores de doenças adicionais em uma população, mas um grande número deles são cada vez mais conhecidos nos bancos de dados, como por exemplo:
- rs6311 e rs6313 são SNPs no gene do receptor 5-HT2A da serotonina no cromossomo 13 humano.
- Um SNP no gene F5 causa trombofilia do Fator V de Leiden.
- rs3091244 é um exemplo de SNP trialélico no gene CRP no cromossomo humano 1.
- Códigos TAS2R38 para capacidade de degustação PTC e contém 6 SNPs anotados.
- rs148649884 e rs138055828 no gene FCN1 que codifica a M-ficolina prejudicou a capacidade de ligação ao ligante da M-ficolina recombinante.
- Um SNP intrônico no gene de reparo de incompatibilidade de DNA PMS2 (rs1059060, Ser775Asn) está associado ao aumento dos danos ao DNA do esperma e ao risco de infertilidade masculina .
Banco de Dados
Como existem para genes, existem bancos de dados de bioinformática para SNPs.
- dbSNP é um banco de dados SNP do National Center for Biotechnology Information (NCBI). Desde 8 de junho de 2015 (2015 -06-08), dbSNP listou 149.735.377 SNPs em humanos.
- Kaviar é um compêndio de SNPs de várias fontes de dados, incluindo dbSNP.
- SNPedia é um banco de dados no estilo wiki que oferece suporte à anotação, interpretação e análise do genoma pessoal.
- O banco de dados OMIM descreve a associação entre polimorfismos e doenças (por exemplo, fornece doenças na forma de texto)
- dbSAP - banco de dados de polimorfismo de aminoácido único para detecção de variação de proteína
- O banco de dados de mutações genéticas humanas fornece mutações genéticas que causam ou estão associadas a doenças hereditárias humanas e SNPs funcionais
- O International HapMap Project, onde os pesquisadores estão identificando Tag SNPs para poderem determinar a coleção de haplótipos presentes em cada sujeito.
- O GWAS Central permite que os usuários interroguem visualmente os dados reais de associação de nível de resumo em um ou mais estudos de associação de todo o genoma .
O grupo de trabalho International SNP Map mapeou a sequência que estabelece cada SNP por alinhamento com a sequência genômica de clones de inserção grande no Genebank. Esses alinhamentos foram convertidos em coordenadas cromossômicas que são mostradas na Tabela 1. Essa lista aumentou muito desde, por exemplo, o banco de dados Kaviar agora listando 162 milhões de variantes de nucleotídeo único (SNVs).
Total SNPs | kb per SNP | Total SNPs | kb per SNP | ||
1 | 214,066,000 | 129,931 | 1.65 | 75,166 | 2.85 |
2 | 222,889,000 | 103,664 | 2.15 | 76,985 | 2.90 |
3 | 186,938,000 | 93,140 | 2.01 | 63,669 | 2.94 |
4 | 169,035,000 | 84,426 | 2.00 | 65,719 | 2.57 |
5 | 170,954,000 | 117,882 | 1.45 | 63,545 | 2.69 |
6 | 165,022,000 | 96,317 | 1.71 | 53,797 | 3.07 |
7 | 149,414,000 | 71,752 | 2.08 | 42,327 | 3.53 |
8 | 125,148,000 | 57,834 | 2.16 | 42,653 | 2.93 |
9 | 107,440,000 | 62,013 | 1.73 | 43,020 | 2.50 |
10 | 127,894,000 | 61,298 | 2.09 | 42,466 | 3.01 |
11 | 129,193,000 | 84,663 | 1.53 | 47,621 | 2.71 |
12 | 125,198,000 | 59,245 | 2.11 | 38,136 | 3.28 |
13 | 93,711,000 | 53,093 | 1.77 | 35,745 | 2.62 |
14 | 89,344,000 | 44,112 | 2.03 | 29,746 | 3.00 |
15 | 73,467,000 | 37,814 | 1.94 | 26,524 | 2.77 |
16 | 74,037,000 | 38,735 | 1.91 | 23,328 | 3.17 |
17 | 73,367,000 | 34,621 | 2.12 | 19,396 | 3.78 |
18 | 73,078,000 | 45,135 | 1.62 | 27,028 | 2.70 |
19 | 56,044,000 | 25,676 | 2.18 | 11,185 | 5.01 |
20 | 63,317,000 | 29,478 | 2.15 | 17,051 | 3.71 |
21 | 33,824,000 | 20,916 | 1.62 | 9,103 | 3.72 |
22 | 33,786,000 | 28,410 | 1.19 | 11,056 | 3.06 |
X | 131,245,000 | 34,842 | 3.77 | 20,400 | 6.43 |
Y | 21,753,000 | 4,193 | 5.19 | 1,784 | 12.19 |
RefSeq | 15,696,674 | 14,534 | 1.08 | ||
Totals | 2,710,164,000 | 1,419,190 | 1.91 | 887,450 | 3.05 |
Na Pesquisa Clínica
Variações nas sequências de DNA de humanos, em geral podem afetar o modo como os humanos desenvolvem doenças, e respondem a patógenos, produtos químicos, drogas, vacinas e outros agentes. Os SNPs também são essenciais para a medicina personalizada. Os exemplos incluem pesquisa biomédica, forense, farmacogenética e causalidade de doenças, conforme descrito abaixo.
A maior importância dos SNPs na pesquisa clínica, é a comparação de regiões do genoma entre coortes (como coortes correspondentes com e sem doença) em estudos de associação de todo o genoma. SNPs têm sido usados em estudos de associação do genoma como marcadores de alta resolução no mapeamento de genes relacionados a doenças ou traços normais. SNPs sem um impacto observável no fenótipo (as chamadas mutações silenciosas) ainda são úteis como marcadores genéticos, em estudos de associação do genoma, por causa de sua quantidade e da herança estável ao longo das gerações.
Os SNPs têm sido usados historicamente para comparar uma amostra de DNA forense a um suspeito, mas tornaram-se obsoletos devido ao avanço das técnicas de impressão digital de DNA baseadas em STR. No entanto, o desenvolvimento da tecnologia de sequenciamento de próxima geração (NGS) pode permitir mais oportunidades para o uso de SNPs em pistas fenotípicas, como etnia, cor do cabelo e cor dos olhos com uma boa probabilidade de correspondência. Isso também pode ser aplicado para aumentar a precisão das reconstruções faciais, fornecendo informações que podem ser desconhecidas, e essas informações podem ser usadas para ajudar a identificar suspeitos, mesmo sem uma correspondência de perfil de DNA de STR.
Farmacogenética
Alguns SNPs estão associados ao metabolismo de diferentes drogas. Os SNP podem ser mutações, como deleções, que podem inibir ou promover a atividade enzimática; tal mudança na atividade enzimática pode levar à diminuição das taxas de metabolismo de drogas A associação de uma ampla gama de doenças humanas como câncer, doenças infecciosas (AIDS, hanseníase, hepatite, etc.) autoimunes, neuropsiquiátricas e muitas outras doenças com diferentes SNPs podem ser feitos como alvos farmacogenômicos relevantes para a terapia medicamentosa. Os SNPs apresentam baixa taxa de mutação, sendo assim, podem ser utilizados como marcadores genéticos para seguir padrões de herança das regiões cromossômicas de geração em geração e por este motivo são ótimos marcadores de ancestralidade. Tem desempenhado importante papel em estudos filogeográficos e filogenéticos, além de serem ferramentas poderosas no estudo de fatores genéticos associados a doenças humanas e úteis na farmacogenética, para melhores resultados nas respostas a droga.
Na Investigação Forence
Os SNPs têm sido usados historicamente para comparar uma amostra de DNA forense a um suspeito, mas tornaram-se obsoletos devido ao avanço das técnicas de impressão digital de DNA baseadas em STR. No entanto, o desenvolvimento da tecnologia de sequenciamento de próxima geração (NGS) pode permitir mais oportunidades para o uso de SNPs em pistas fenotípicas, como etnia, cor do cabelo e cor dos olhos com uma boa probabilidade de correspondência. Isso também pode ser aplicado para aumentar a precisão das reconstruções faciais, fornecendo informações que podem ser desconhecidas, e essas informações podem ser usadas para ajudar a identificar suspeitos, mesmo sem uma correspondência de perfil de DNA de STR. Alguns contras de usar SNPs versus STRs é que SNPs produzem menos informações do que STRs e, portanto, mais SNPs são necessários para análise antes que um perfil de um suspeito seja criado. Além disso, os SNPs dependem fortemente da presença de um banco de dados para análise comparativa de amostras. No entanto, em casos com amostras degradadas ou de pequeno volume, as técnicas SNP são uma excelente alternativa aos métodos STR. SNPs (em oposição a STRs) têm uma abundância de marcadores potenciais, podem ser totalmente automatizados e uma possível redução do comprimento do fragmento necessário para menos de 100 bp.
Nomenclatura
A nomenclatura para SNPs inclui várias variações para um SNP individual, embora falte um consenso comum. O padrão rs ### é aquele que vem sendo adotado pelo dbSNP e usa o prefixo "rs", para "referência SNP", seguido por um número único e arbitrário. Os SNPs são frequentemente referidos por seu número dbSNP rs, como nos exemplos acima. A Human Genome Variation Society (HGVS) usa um padrão que transmite mais informações sobre o SNP. Exemplos são:
- c.76A > T: "c." para a região de codificação, seguido por um número para a posição do nucleotídeo, seguido por uma abreviatura de uma letra para o nucleotídeo (A, C, G, T ou U), seguido por um sinal maior que (">") para indicar substituição, seguida pela abreviatura do nucleotídeo que substitui o anterior.
- p. Ser123Arg: "p." para proteína, seguida por uma abreviatura de três letras para o aminoácido, seguida por um número para a posição do aminoácido, seguido pela abreviatura do aminoácido que substitui o primeiro.
Análise de SNPs
SNPs podem ser facilmente testados devido a conter apenas dois alelos possíveis e três genótipos possíveis envolvendo os dois alelos: homozigoto A, homozigoto B e heterozigoto AB, levando a muitas técnicas possíveis para análise. Alguns incluem: sequenciamento de DNA; eletroforese capilar; espectrometria de massa; polimorfismo de conformação de fita simples (SSCP); extensão de base única; análise eletroquímica; HPLC desnaturante e eletroforese em gel; polimorfismo do comprimento do fragmento de restrição; e análise de hibridização.
Programas para previsão de efeitos SNP
Um grupo importante de SNPs são aqueles que correspondem a mutações missense que causam alterações de aminoácidos no nível de proteína. A mutação pontual de determinado resíduo pode ter efeito diferente na função da proteína (de nenhum efeito até a interrupção completa de sua função). Normalmente, a mudança em aminoácidos com tamanho e propriedades físico-químicas semelhantes (por exemplo, substituição de leucina por valina) tem efeito moderado e oposto. Da mesma forma, se o SNP interrompe os elementos da estrutura secundária (por exemplo, substituição por prolina na região da hélice alfa), essa mutação geralmente pode afetar a estrutura e função da proteína inteira. Usando essas regras simples e muitas outras derivadas do aprendizado de máquina, um grupo de programas para a previsão do efeito SNP foi desenvolvido:
- SIFT Este programa fornece uma visão sobre como uma mutação sem sentido ou não-sinônimo induzida em laboratório afetará a função da proteína com base nas propriedades físicas do aminoácido e na homologia da sequência.
- LIST (Identidade Local e Taxa Compartilhada) estima o potencial deletério de mutações resultantes da alteração de suas funções protéicas. É baseado na suposição de que as variações observadas em espécies estreitamente relacionadas são mais significativas ao avaliar a conservação em comparação com aquelas em espécies distantemente relacionadas.
- SNAP2
- Suspeito
- PolyPhen-2
- PredictSNP
- MutationTaster: site oficial
- Preditor de efeito variante do projeto Ensembl
- SNPViz Este programa fornece uma representação 3D da proteína afetada, destacando a mudança de aminoácidos para que os médicos possam determinar a patogenicidade da proteína mutante.
- PROVEAN
- PhyreRisk é um banco de dados que mapeia variantes para estruturas de proteínas experimentais e previstas.
- Missense3D é uma ferramenta que fornece um relatório estereoquímico sobre o efeito de variantes missense na estrutura da proteína.