@MASTERSTHESIS{ 2025:1529157976, title = {Avalia??o emp?rica da efic?cia de Modelos de Linguagem Grande (LLMs) na refatora??o de Projetos Python}, year = {2025}, url = "http://tede2.uefs.br:8080/handle/tede/1969", abstract = "A refatora??o de c?digo ? uma pr?tica essencial para garantir a qualidade e a evolu??o cont?nua dos sistemas de software, especialmente em linguagens como Python, que exigem alta manutenibilidade. Embora ferramentas de an?lise est?tica, como o SonarQube, ofere?am suporte na identifica??o de problemas, o processo de refatora??o ainda apresenta desafios, como a preserva??o da funcionalidade e a melhoria da legibilidade do c?digo. Nesse cen?rio, os Modelos de Linguagem de Grande Escala (LLMs), como o GPT-4, DeepSeek e Claude AI, surgem como ferramentas promissoras por combinarem an?lise contextual avan?ada com gera??o automatizada de c?digo. Este estudo tem como objetivo avaliar a efic?cia de LLMs na refatora??o de c?digo Python, com foco na corre??o de problemas de manutenibilidade, identifica??o de limita??es e proposi??o de melhorias. Para isso, conduzimos um estudo emp?rico com quatro modelos amplamente utilizados: Copilot Chat 4o, LLaMA 3.3 70B Instruct, DeepSeek V3 e Gemine 2.5 Pro. Al?m disso, este estudo tamb?m investiga se esses modelos apresentam melhor desempenho quando utilizados com t?cnicas de prompting mais refinadas, como o few-shot por exemplo. Para isso, cada LLM foi submetido a dois estilos distintos de prompting: zero-shot e few-shot, permitindo uma an?lise comparativa do impacto dessas abordagens na qualidade das refatora??es geradas. Avaliamos 150 m?todos com problemas de manutenibilidade por LLM e por t?cnica de prompt, e os resultados indicam que, embora os modelos tenham alcan?ado taxas consider?veis de efic?cia no cen?rio few-shot, Gemini (64,67%), DeepSeek (64,00%), Copilot (63,33%) e LLaMA 3.3 70B (55,33%), todos enfrentaram limita??es importantes. Entre os principais desafios observados est?o: a introdu??o de novos problemas de manutenibilidade, erros de execu??o, falhas em testes automatizados e, em alguns casos, a n?o corre??o do problema original identificado. Al?m disso, conduzimos uma avalia??o com participantes humanos para analisar a legibilidade do c?digo refatorado pelos modelos. Os resultados indicam que 81,25% das solu??es foram percebidas como melhorias, especialmente em aspectos estruturais. No entanto, tamb?m foram observados casos em que a legibilidade foi prejudicada, seja pela introdu??o de complexidade desnecess?ria ou pela falta de padroniza??o no estilo do c?digo. Esses achados refor?am a necessidade de cautela ao adotar automaticamente as sugest?es geradas por LLMs, al?m de destacar a import?ncia da valida??o por desenvolvedores na revis?o final do c?digo. Este trabalho contribui com uma an?lise comparativa das capacidades dos LLMs, apontando suas limita??es e propondo metodologias pr?ticas para a integra??o de IA no processo de refatora??o de c?digo. Os resultados deste estudo buscam contribuir para abrir caminho para novas pesquisas, principalmente no desenvolvimento de t?cnicas de prompting mais eficientes e na avalia??o de modelos que ainda est?o por vir. Esperamos que essas contribui??es ajudem desenvolvedores e pesquisadores a encontrar solu??es mais pr?ticas, confi?veis e duradouras para melhorar a manutenibilidade do software no dia a dia.", publisher = {Universidade Estadual de Feira de Santana}, scholl = {Programa de P?s-Gradua??o em Ci?ncia da Computa??o}, note = {DEPARTAMENTO DE CI?NCIAS EXATAS} }