@MASTERSTHESIS{ 2015:720759212, title = {Sistema para an?lise de sequ?ncias nucleot?dicas do HIV dispon?veis no GenBank}, year = {2015}, url = "http://localhost:8080/tede/handle/tede/327", abstract = "O HIV infecta mais de 40 milh?es de pessoas no mundo e ? considerado pela Organiza??o Mundial de Sa?de como uma pandemia. A doen?a associada n?o possui cura cl?nica. Novas an?lises e informa??es podem ajudar no desenvolvimento de novos tratamentos e vacinas. No entanto, o conjunto de dados sobre o agente etiol?gico dispon?vel ? vasto, contando com mais de 500 mil sequ?ncias no GenBank. Este conjunto de dados ainda carece de informa??es essenciais, como subtipo viral e localiza??o no genoma de refer?ncia. Para auxiliar na minimiza??o destes problemas, desenvolvemos um sistema para an?lise dos dados dispon?veis no GenBank. A ferramenta realiza o mapeamento de acordo com o genoma refer?ncia HXB2 e a subtipagem comparando as sequ?ncias de refer?ncia dos subtipos. Estes processos utilizam os algoritmos de Needleman-Wusch e Smith-Waterman respectivamente. Todas as 582.678 sequ?ncias foram mapeadas em 5 dias e 14 horas, e subtipadas em 1 dia e 7 horas com nosso algoritmo. Enquanto a abordagem original estima terminar em 36 e 97 anos respectivamente. Nenhuma ferramenta de subtipagem dispon?vel atualmente ? capaz de analisar esta quantidade de dados. Nossos resultados mostraram que os genes gag e pol s?o mais prevalentes no conjunto de dados. O que pode ser explicado pelo fato de t?cnicas de avalia??o de resist?ncia aos antirretrovirais e subtipagem serem baseadas nesses genes. Al?m disso, os genes estruturais exibiram uma preval?ncia absoluta de 66.41%. Isto evidencia a pouca representatividade de genes regulat?rios no conjunto de dados. Os resultados da subtipagem mostram que o subtipo B ? o mais frequente com 45,96% de preval?ncia. Os recombinantes, combinados, representam 43.37%. Ademais, o subtipo C apresentou apenas 4,12% de preval?ncia absoluta e outros subtipos puros menos de 4%. Al?m disso, dados geogr?ficos foram recuperados do banco de dados. Os Estados Unidos representam a maior frequ?ncia de sequ?ncias submetidas, com 24,5% de todos os dados dispon?veis. Nossos resultados apresentam uma nova distribui??o genot?pica do HIV, com o conjunto de dados mais recente e completo. Neste trabalho apresentamos um novo software para an?lise das sequ?ncias nucleot?dicas do HIV dispon?veis no GenBank. Este software ? capaz de analisar dados de v?rus com elevado comportamento mutacional como HIV e HCV em um curto espa?o de tempo. A an?lise de todas as sequ?ncias do HIV dispon?veis no GenBank oferece um novo ponto de vista sobre a epidemia, distribui??o de subtipos e geogr?fica.", publisher = {Universidade Estadual de Feira de Santana}, scholl = {Mestrado em Computa??o Aplicada}, note = {DEPARTAMENTO DE CI?NCIAS EXATAS} }