Artigo científico mostra semelhanças do SarsCov2 com o vírus da Aids (HIV)

Semelhança estranha de inserções únicas na proteína spike 2019-nCoV para gp120 de HIV-1 e Gag

Prashant Pradhan , Ashutosh Kumar Pandey , Akhilesh Mishra , Parul Gupta , Praveen Kumar Tripathi , Manoj Balakrishnan Menon , James Gomes , Perumal Vivekanandan , Bishwajit Kundu
doi: https://doi.org/10.1101/2020.01.30.927871

Resumo

Atualmente, estamos testemunhando uma grande epidemia causada pelo novo coronavírus de 2019 (2019-nCoV). A evolução do 2019-nCoV permanece ilusória. Encontramos 4 inserções na glicoproteína spike (S) que são exclusivas do 2019-nCoV e não estão presentes em outros coronavírus. É importante ressaltar que os resíduos de aminoácidos em todas as 4 inserções têm identidade ou semelhança com os da gp120 do HIV-1 ou da gag do HIV-1. Curiosamente, apesar das inserções serem descontínuas na sequência de aminoácidos primária, a modelagem em 3D do 2019-nCoV sugere que elas convergem para constituir o local de ligação ao receptor. A descoberta de 4 inserções únicas no 2019-nCoV, todas com identidade / semelhança com resíduos de aminoácidos nas principais proteínas estruturais do HIV-1, é improvável que seja de natureza fortuita.

Baixe o PDF original do artigo:

2020.01.30.927871v1.full

Introdução

Os coronavírus (CoV) são vírus de RNA de sentido positivo de fita simples que infectam animais e humanos. Estes são classificados em quatro gêneros, com base na especificidade do hospedeiro: Alphacoronavirus, Betacoronavirus, Deltacoronavirus e Gammacoronavirus ( Snijder et al., 2006 ). Existem sete tipos conhecidos de CoVs que incluem 229E e NL63 (gênero Alphacoronavirus), OC43, HKU1, MERS e SARS (gênero Betacoronavirus). Enquanto 229E, NL63, OC43 e HKU1 geralmente infectam seres humanos, o surto de SARS e MERS em 2002 e 2012 ocorreu respectivamente quando o vírus passou de animais para humanos causando mortalidade significativa ( J. Chan et al., Sd ; JFW Chan et al. al., 2015) Em dezembro de 2019, outro surto de coronavírus foi relatado em Wuhan, China, que também transmitiu de animais para humanos. Este novo vírus foi temporariamente denominado como Coronavírus 2019 (2019-nCoV) pela Organização Mundial da Saúde (OMS) ( JF-W. Chan et al., 2020 ; Zhu et al., 2020 ). Embora existam várias hipóteses sobre a origem do 2019-nCoV, a fonte desse surto em andamento permanece ilusória.

Os padrões de transmissão do 2019-nCoV são semelhantes aos padrões de transmissão documentados nos surtos anteriores, incluindo o contato corporal ou em aerossol com as pessoas infectadas pelo vírus. Casos de doença leve a grave e morte por infecção foram relatados por Wuhan. Esse surto se espalhou rapidamente por países distantes, incluindo França, Austrália e EUA, entre outros. O número de casos dentro e fora da China está aumentando acentuadamente. Nosso entendimento atual é limitado às seqüências do genoma do vírus e a dados epidemiológicos e clínicos modestos. A análise abrangente das sequências 2019-nCoV disponíveis pode fornecer pistas importantes que podem ajudar a aprimorar nosso entendimento atual para gerenciar o surto em andamento.

A glicoproteína de pico (S) do cornonavírus é clivada em duas subunidades (S1 e S2). A subunidade S1 ajuda na ligação ao receptor e a subunidade S2 facilita a fusão da membrana ( Bosch et al., 2003 ; Li, 2016 ). As glicoproteínas de pico dos coronovírus são importantes determinantes do tropismo tecidual e da variedade de hospedeiros. Além disso, as glicoproteínas spike são alvos críticos para o desenvolvimento da vacina ( Du et al., 2013 ). Por esse motivo, as proteínas spike representam as mais extensivamente estudadas entre os coronavírus. Portanto, procuramos investigar a glicoproteína de pico do 2019-nCoV para entender sua evolução, sequência de novos recursos e recursos estruturais usando ferramentas computacionais.

Metodologia

Recuperação e alinhamento de sequências de ácidos nucleicos e proteínas

Recuperamos todas as seqüências de coronavírus disponíveis (n = 55) do banco de dados do genoma viral do NCBI ( https://www.ncbi.nlm.nih.gov/ ) e usamos o GISAID ( Elbe & Buckland-Merrett, 2017 ) [ https: //www.gisaid.org/ ] para recuperar todas as seqüências completas disponíveis (n = 28) do 2019-nCoV em 27 de janeiro de 2020. O alinhamento de várias sequências de todos os genomas de coronavírus foi realizado usando o software MUSCLE ( Edgar, 2004 ) com base no método de associação de vizinhos. Dos 55 genomas de coronavírus, 32 genomas representativos de todas as categorias foram utilizados para o desenvolvimento de árvores filogenéticas usando o software MEGAX ( Kumar et al., 2018) O parente mais próximo foi o SARS CoV. A região da glicoproteína de SARS CoV e 2019-nCoV foi alinhada e visualizada usando o software Multalin ( Corpet, 1988 ). A sequência de aminoácidos e nucleotídeo identificada foi alinhada com o banco de dados do genoma viral inteiro usando BLASTp e BLASTn. A conservação dos motivos nucleotídicos e de aminoácidos em 28 variantes clínicas do genoma 2019-nCoV foi apresentada através do alinhamento de múltiplas sequências usando o software MEGAX. A estrutura tridimensional da glicoproteína 2019-nCoV foi gerada usando o servidor online SWISS-MODEL ( Biasini et al., 2014 ) e a estrutura foi marcada e visualizada usando PyMol ( DeLano, 2002 ).

Resultados

Semelhança estranha de novas inserções na proteína spike 2019-nCoV para gp120 de HIV-1 e Gag

Nossa árvore filogênica de coronavírus completos sugere que 2019-nCoV está intimamente relacionado à SARS CoV [ Fig1 ]. Além disso, outros estudos recentes vincularam o 2019-nCoV ao SARS CoV. Portanto, comparamos as sequências de pico de glicoproteína do 2019-nCoV com a do SARS CoV (número de acesso do NCBI: AY390556.1 ). Após um exame cuidadoso do alinhamento da sequência, descobrimos que a glicoproteína com pico de 2019-nCoV contém 4 inserções [ Fig.2 ]. Para investigar ainda mais se essas inserções estão presentes em qualquer outro vírus corona, realizamos um alinhamento de várias seqüências das sequências de aminoácidos da glicoproteína de pico de todos os coronavírus disponíveis (n = 55) [consulte a Tabela S.File1] no NCBI refseq (ncbi.nlm .nih.gov) inclui uma sequência de 2019-nCoV [ Fig.S1] Descobrimos que essas 4 inserções [inserções 1, 2, 3 e 4] são únicas para 2019-nCoV e não estão presentes em outros coronavírus analisados. Outro grupo da China havia documentado três inserções comparando menos seqüências de glicoproteínas de pico de coronavírus. Outro grupo da China documentou três inserções comparando menos seqüências de glicoproteínas de pico de coronavírus ( Zhou et al., 2020 ).

Fig.S1

Alinhamento de múltiplas sequências de glicoproteínas da família coronaviridae , representando todas as quatro inserções.

 

Figura 1:A genealogia de probabilidade máxima mostra a evolução de 2019-nCoV:

A história evolutiva foi inferida usando o método de máxima verossimilhança e o modelo baseado em matriz JTT. A árvore com a maior probabilidade de log (12458.88) é mostrada. As árvores iniciais para a pesquisa heurística foram obtidas automaticamente aplicando os algoritmos Neighbor-Join e BioNJ a uma matriz de distâncias em pares estimadas usando um modelo JTT e, em seguida, selecionando a topologia com um valor de probabilidade de log superior. Esta análise envolveu 5 sequências de aminoácidos. Havia um total de 1387 posições no conjunto de dados final. As análises evolutivas foram realizadas no MEGA X.

 

Figura 2:Alinhamento de múltiplas sequências entre proteínas spike de 2019-nCoV e SARS.

As sequências de proteínas spike de 2019-nCoV (Wuhan-HU-1, Accession NC_045512 ) e de SARS CoV (GZ02, Accession AY390556 ) foram alinhadas usando o software MultiAlin. Os sites da diferença são destacados em caixas.

 

Figura 3.Glicoproteína de pico homo-trimer modelada do vírus 2019-nCoV.

As inserções da proteína envolvente do HIV são mostradas com esferas coloridas, presentes no local de ligação da proteína.

 

Em seguida, analisamos todas as sequências completas disponíveis (n = 28) de 2019-nCoV no GISAID ( Elbe & Buckland-Merrett, 2017 ) em 27 de janeiro de 2020 quanto à presença dessas inserções. Como a maioria dessas seqüências não é anotada, comparamos as sequências nucleotídicas da glicoproteína de pico de todas as sequências 2019-nCoV disponíveis usando BLASTp. Curiosamente, todas as 4 inserções foram absolutamente (100%) conservadas em todas as seqüências disponíveis de 2019-nCoV analisadas [ Fig.S2 , Fig.S3 ].

Fig.S2:

Todas as quatro inserções estão presentes nos 28 genomas alinhados do vírus Wuhan 2019-nCoV obtidos do GISAID. A lacuna no Bat-SARS Like CoV na última linha mostra que as inserções 1 e 4 são muito exclusivas do Wuhan 2019-nCoV.

 

Fig.S3

Árvore filogenética de 28 isolados clínicos do genoma de 2019-nCoV, incluindo um de morcego como hospedeiro.

 

Em seguida, traduzimos o genoma alinhado e descobrimos que essas inserções estão presentes em todos os vírus Wuhan 2019-nCoV, exceto no vírus 2019-nCoV de Bat como hospedeiro [ Fig.S4 ]. Intrigados com as 4 pastilhas altamente conservadas exclusivas do 2019-nCoV, queríamos entender sua origem. Para esse fim, usamos o alinhamento local 2019-nCoV com cada inserção como consulta a todos os genomas de vírus e consideramos ocorrências com 100% de cobertura de sequência. Surpreendentemente, cada uma das quatro inserções alinhadas com segmentos curtos das proteínas do vírus da imunodeficiência humana 1 (HIV-1). As posições de aminoácidos das inserções em 2019-nCoV e os resíduos correspondentes nas gp120 de HIV-1 e Gag de HIV-1 são mostradas na Tabela 1. As 3 primeiras inserções (inserção 1,2 e 3) alinhadas a segmentos curtos de resíduos de aminoácidos na gp120 do HIV-1. O inserto 4 alinhado ao HIV-1 Gag. A inserção 1 (6 resíduos de aminoácidos) e a inserção 2 (6 resíduos de aminoácidos) na glicoproteína de pico de 2019-nCoV são 100% idênticas aos resíduos mapeados para a gp120 do HIV-1. A inserção 3 (12 resíduos de aminoácidos) em 2019-nCoV é mapeada para a gp120 do HIV-1 com lacunas [veja a Tabela 1 ]. O inserto 4 (8 resíduos de aminoácidos) é mapeado para HIV-1 Gag com lacunas.

Fig. Complementar 4.

Alinhamento genômico da família Coronaviridae. Sequências em preto destacadas são as inserções representadas aqui.

 

Tabela 1:

Sequências alinhadas de 2019-nCoV e proteína gp120 do HIV-1 com suas posições na sequência primária de proteína. Todas as inserções têm uma alta densidade de resíduos carregados positivamente. Os fragmentos deletados nas inserções 3 e 4 aumentam a proporção de carga positiva para área de superfície. * consulte Sup. Tabela 1 para números de acesso

 

Embora, as 4 inserções representem trechos curtos descontínuos de aminoácidos na glicoproteína de pico de 2019-nCoV, o fato de todos os três compartilharem a identidade ou semelhança de aminoácidos com HIV-1 gp120 e HIV-1 Gag (entre todas as proteínas de vírus anotadas) sugere que este não é um achado fortuito aleatório. Por outras palavras, pode-se esperar esporadicamente uma combinação fortuita para um trecho de 6 a 12 resíduos de aminoácidos contíguos em uma proteína não relacionada. No entanto, é improvável que todas as 4 inserções na glicoproteína com pico de 2019-nCoV correspondam fortuitamente com 2 proteínas estruturais essenciais de um vírus não relacionado (HIV-1).

Os resíduos de aminoácidos das inserções 1, 2 e 3 da glicoproteína de pico de 2019-nCoV mapeados para o HIV-1 faziam parte dos domínios V4, V5 e V1 respectivamente na gp120 [ Tabela 1 ]. Como as inserções 2019-nCoV mapeadas para regiões variáveis ​​do HIV-1, elas não eram onipresentes na gp120 do HIV-1, mas estavam limitadas a sequências selecionadas do HIV-1 [consulte S.File1] principalmente da Ásia e da África.

A proteína Gag HIV-1 permite a interação do vírus com a superfície do hospedeiro carregada negativamente ( Murakami, 2008 ) e uma alta carga positiva na proteína Gag é um recurso fundamental para a interação hospedeiro-vírus. Ao analisar os valores de pI para cada uma das 4 inserções em 2019-nCoV e os trechos correspondentes de resíduos de aminoácidos das proteínas do HIV-1, descobrimos que a) os valores de pI eram muito semelhantes para cada par analisado b) a maioria desses valores de pI foram 10 ± 2 [Consulte a Tabela 1 ]. De notar, apesar das lacunas nas inserções 3 e 4, os valores de pI foram comparáveis. Esta uniformidade nos valores de pI para todas as 4 inserções merece uma investigação mais aprofundada.

Como nenhuma dessas 4 inserções está presente em qualquer outro coronavírus, a região genômica que codifica essas inserções representa candidatos ideais para projetar iniciadores que podem distinguir 2019-nCoV de outros coronavírus.

As novas inserções fazem parte do local de ligação ao receptor de 2019-nCoV

Para obter insights estruturais e entender o papel dessas inserções na glicoproteína 2019-nCoV, modelamos sua estrutura com base na estrutura disponível da glicoproteína de pico da SARS (PDB: 6ACD.1.A). A comparação da estrutura modelada revela que, embora as inserções 1,2 e 3 estejam em locais não contíguos na sequência primária da proteína, elas se dobram para constituir a parte do local de ligação da glicoproteína que reconhece o receptor do hospedeiro ( Kirchdoerfer et al., 2016 ) (Figura 4). A inserção 1 corresponde ao NTD (domínio N-terminal) e as inserções 2 e 3 correspondem ao CTD (domínio C-terminal) da subunidade S1 na glicoproteína de pico 2019-nCoV. A inserção 4 está na junção do SD1 (subdomínio 1) e SD2 (subdomínio 2) da subunidade S1 ( Ou et al., 2017) Especulamos que essas inserções fornecem flexibilidade adicional ao local de ligação da glicoproteína, formando uma alça hidrofílica na estrutura da proteína que pode facilitar ou aprimorar as interações vírus-hospedeiro.

Análise Evolutiva de 2019-nCoV

Especula-se que 2019-nCoV é uma variante do Coronavírus derivado de uma fonte animal que foi transmitida aos seres humanos. Considerando a mudança de especificidade para o hospedeiro, decidimos estudar as seqüências da glicoproteína de pico (proteína S) do vírus. As proteínas S são proteínas de superfície que ajudam o vírus no reconhecimento e ligação do hospedeiro. Assim, uma mudança nessas proteínas pode ser refletida como uma alteração na especificidade do hospedeiro do vírus. Para conhecer as alterações no gene da proteína S de 2019-nCoV e suas consequências nos rearranjos estruturais, realizamos in-sillicoanálise do 2019-nCoV com relação a todos os outros vírus. Um alinhamento de múltiplas sequências entre as sequências de aminoácidos da proteína S de 2019-nCoV, Bat-SARS-Like, SARS-GZ02 e MERS revelou que a proteína S evoluiu com a diversidade significativa mais próxima da SARS-GZ02 ( Figura 1 ).

Inserções na região da proteína Spike de 2019-nCoV

Como a proteína S do 2019-nCoV compartilha uma ancestralidade mais próxima do SARS GZ02, a sequência de codificação das proteínas spike desses dois vírus foi comparada usando o software MultiAlin. Encontramos quatro novas inserções na proteína de 2019-nCoV- “GTNGTKR” (IS1), “HKNNKS” (IS2), “GDSSSG” (IS3) e “QTNSPRRA” (IS4) ( Figura 2 ). Para nossa surpresa, essas inserções de sequência não estavam ausentes apenas na proteína S da SARS, mas também não foram observadas em nenhum outro membro da família Coronaviridae (figura suplementar). Isso é surpreendente, pois é pouco provável que um vírus tenha adquirido essas inserções únicas naturalmente em um curto período de tempo.

Inserções compartilham semelhança com o HIV

Observou-se que as inserções estavam presentes em todas as seqüências genômicas do vírus 2019-nCoV disponíveis a partir de isolados clínicos recentes ( Figura Suplementar 1 ). Para conhecer a origem dessas inserções no 2019-nCoV, foi realizado um alinhamento local com o BLASTp, usando essas inserções como consulta a todo o genoma do vírus. Inesperadamente, todas as inserções foram alinhadas com o vírus da imunodeficiência humana 1 (HIV-1). Análises adicionais revelaram que as sequências alinhadas de HIV-1 com 2019-nCoV foram derivadas da glicoproteína de superfície gp120 (posições da sequência de aminoácidos: 404-409, 462-467, 136-150) e da proteína Gag (366-384 aminoácido) ( tabela 1) A proteína Gag do HIV está envolvida na ligação da membrana do hospedeiro, no empacotamento do vírus e na formação de partículas semelhantes a vírus. Gp120 desempenha papel crucial no reconhecimento da célula hospedeira por ligação ao receptor primário CD4. Essa ligação induz rearranjos estruturais no GP120, criando um local de ligação de alta afinidade para um co-receptor de quimiocina como CXCR4 e / ou CCR5.

Discussão

O atual surto de 2019-nCoV justifica uma investigação e um entendimento completos de sua capacidade de infectar seres humanos. Tendo em mente que houve uma clara mudança na preferência do hospedeiro dos coronavírus anteriores para esse vírus, estudamos a mudança na proteína spike entre 2019-nCoV e outros vírus. Encontramos quatro novas inserções na proteína S de 2019-nCoV quando comparadas ao seu parente mais próximo, SARS CoV. A sequência do genoma dos 28 isolados clínicos recentes mostrou que a sequência que codifica essas inserções é conservada entre todos esses isolados. Isso indica que essas inserções foram preferencialmente adquiridas pelo 2019-nCoV, proporcionando vantagem adicional de sobrevivência e infectividade. Aprofundando mais, descobrimos que essas inserções eram semelhantes ao HIV-1. Nossos resultados destacam uma relação surpreendente entre a gp120 e a proteína Gag do HIV, com a glicoproteína com pico de 2019-nCoV. Essas proteínas são críticas para que os vírus identifiquem e se prendam às células hospedeiras e para a montagem viral (Beniac et al., 2006 ). Como as proteínas de superfície são responsáveis ​​pelo tropismo do hospedeiro, as alterações nessas proteínas implicam uma alteração na especificidade do vírus pelo hospedeiro. De acordo com relatos da China, houve um ganho de especificidade de hospedeiro no caso 2019-nCoV, pois o vírus era originalmente conhecido por infectar animais e não humanos, mas após as mutações, também ganhou tropismo para os seres humanos.

Seguindo em frente, a modelagem 3D da estrutura da proteína mostrou que essas inserções estão presentes no local de ligação do 2019-nCoV. Devido à presença de motivos gp120 na glicoproteína com pico de 2019-nCoV em seu domínio de ligação, propomos que essas inserções de motivo possam ter fornecido uma afinidade aprimorada para os receptores das células hospedeiras. Além disso, essa mudança estrutural também pode ter aumentado o intervalo de células hospedeiras que 2019-nCoV pode infectar. Até onde sabemos, a função desses motivos ainda não está clara no HIV e precisa ser explorada. A troca de material genético entre os vírus é bem conhecida e essa troca crítica destaca o risco e a necessidade de investigar as relações entre famílias de vírus aparentemente não relacionadas.

Conclusões

Nossa análise da glicoproteína de pico de 2019-nCoV revelou vários achados interessantes: primeiro, identificamos 4 inserções únicas na glicoproteína de pico de 2019-nCoV que não estão presentes em nenhum outro coronavírus relatado até a data. Para nossa surpresa, todas as 4 inserções no 2019-nCoV mapeadas para segmentos curtos de aminoácidos no HIV-1 gp120 e Gag entre todas as proteínas de vírus anotadas no banco de dados NCBI. Essa estranha semelhança de novas inserções na proteína spike 2019-nCoV com a gp120 do HIV-1 e Gag é improvável que seja fortuita. Além disso, a modelagem 3D sugere que pelo menos 3 das inserções únicas que não são contíguas na sequência protéica primária da glicoproteína com pico de 2019-nCoV convergem para constituir os principais componentes do local de ligação ao receptor. De importância, todas as 4 inserções têm valores de PI de cerca de 10 que podem facilitar as interações vírus-hospedeiro. Tomados em conjunto, nossas descobertas sugerem uma evolução não convencional de 2019-nCoV que justifica uma investigação mais aprofundada. Nosso trabalho destaca novos aspectos evolutivos do 2019-nCoV e tem implicações na patogênese e diagnóstico deste vírus.

Fonte: https://www.biorxiv.org/content/10.1101/2020.01.30.927871v1.full

Notas de rodapé

  • ↵ $ Contribuição igual

Referências

 

Ver Resumo

Postagens de blog com link para este artigo:

Deixe um comentário