@MASTERSTHESIS{ 2015:1257841655,
 	title = {Sistema para análise de sequências nucleotídicas do HIV disponíveis no GenBank},
 	year = {2015},
 	url = "http://localhost:8080/tede/handle/tede/327",
 	abstract = "O HIV infecta mais de 40 milhões de pessoas no mundo e é considerado pela Organização Mundial de Saúde como uma pandemia. A doença associada não possui cura clínica. Novas análises e informações podem ajudar no desenvolvimento de novos tratamentos e vacinas. No entanto, o conjunto de dados sobre o agente etiológico disponível é vasto, contando com mais de 500 mil sequências no GenBank. Este conjunto de dados ainda carece de informações essenciais, como subtipo viral e localização no genoma de referência. Para auxiliar na minimização destes problemas, desenvolvemos um sistema para análise dos dados disponíveis no GenBank. A ferramenta realiza o mapeamento de acordo com o genoma referência HXB2 e a subtipagem comparando as sequências de referência dos subtipos. Estes processos utilizam os algoritmos de Needleman-Wusch e Smith-Waterman respectivamente. Todas as 582.678 sequências foram mapeadas em 5 dias e 14 horas, e subtipadas em 1 dia e 7 horas com nosso algoritmo. Enquanto a abordagem original estima terminar em 36 e 97 anos respectivamente. Nenhuma ferramenta de subtipagem disponível atualmente é capaz de analisar esta quantidade de dados. Nossos resultados mostraram que os genes gag e pol são mais prevalentes no conjunto de dados. O que pode ser explicado pelo fato de técnicas de avaliação de resistência aos antirretrovirais e subtipagem serem baseadas nesses genes. Além disso, os genes estruturais exibiram uma prevalência absoluta de 66.41%. Isto evidencia a pouca representatividade de genes regulatórios no conjunto de dados. Os resultados da subtipagem mostram que o subtipo B é o mais frequente com 45,96% de prevalência. Os recombinantes, combinados, representam 43.37%. Ademais, o subtipo C apresentou apenas 4,12% de prevalência absoluta e outros subtipos puros menos de 4%. Além disso, dados geográficos foram recuperados do banco de dados. Os Estados Unidos representam a maior frequência de sequências submetidas, com 24,5% de todos os dados disponíveis. Nossos resultados apresentam uma nova distribuição genotípica do HIV, com o conjunto de dados mais recente e completo. Neste trabalho apresentamos um novo software para análise das sequências nucleotídicas do HIV disponíveis no GenBank. Este software é capaz de analisar dados de vírus com elevado comportamento mutacional como HIV e HCV em um curto espaço de tempo. A análise de todas as sequências do HIV disponíveis no GenBank oferece um novo ponto de vista sobre a epidemia, distribuição de subtipos e geográfica.",
 	publisher = {Universidade Estadual de Feira de Santana},
 	scholl = {Mestrado em Computação Aplicada},
 	note = {DEPARTAMENTO DE CIÊNCIAS EXATAS}
}