Desempenho da IA na Saúde em Questão
Embora ferramentas avançadas de inteligência artificial (IA), como GPT-4, Llama 3 e Command R+, demonstrem um desempenho notável em exames médicos teóricos, um novo estudo aponta para falhas significativas na aplicação prática com pacientes. A pesquisa, publicada na revista Nature Medicine, revela que a utilização dessas tecnologias não melhorou a capacidade de leigos em tomar decisões adequadas diante de sintomas comuns, e, em alguns casos, até piorou a identificação de condições clínicas cruciais, representando um risco à saúde.
Realizado por pesquisadores da Universidade de Oxford, o estudo envolveu 1.298 adultos no Reino Unido, que foram expostos a dez cenários clínicos, incluindo situações como dor de cabeça intensa, falta de ar e febre persistente. A partir dessas situações, os participantes tiveram que decidir que tipo de atendimento buscar: autocuidado, consulta de rotina, atendimento urgente, pronto-socorro ou chamar uma ambulância.
Os participantes foram distribuídos em quatro grupos. Três grupos tiveram acesso a modelos de IA, enquanto o quarto serviu de controle, utilizando recursos comuns em casa, como mecanismos de busca e informações do sistema público de saúde britânico.
Antes de testarem a interação com os humanos, os pesquisadores avaliaram o desempenho dos modelos de IA isoladamente. Eles conseguiram identificar pelo menos uma condição médica relevante em cerca de 95% dos casos, e, nas orientações quanto à conduta a seguir, acertaram em média 56% das vezes. No entanto, quando os humanos passaram a interagir com as IAs, a situação se inverteu: a identificação correta de condições relevantes caiu para menos de 34,5%, abaixo do desempenho do grupo controle, que acertou cerca de 43% das vezes.
A Interação Humana e suas Implicações
Para o médico Matheus Ferreira, diretor de IA na plataforma educacional Super Professor, a pesquisa destaca a importância do interlocutor nas interações com IA. “Quando um médico faz a pergunta, o desempenho é quase perfeito. Já quando o paciente interage, o resultado cai para algo em torno de 30% de acertos”, explica Ferreira. Segundo ele, o problema não reside apenas na tecnologia, mas também na maneira como ela é utilizada pelos pacientes.
“Um paciente pode perguntar: ‘Estou com dor na barriga, o que pode ser?’, sem ser especialista em formular perguntas eficazes. Como os modelos são probabilísticos, respostas baseadas em informações incompletas resultam em diagnósticos imprecisos”, ressalta. Essa situação é ainda mais perigosa, pois as respostas, independentemente de serem corretas ou não, têm um tom convincente, levando o paciente a confiar em informações potencialmente erradas.
Um exemplo claro do impacto dessa falha pode ser observado em um dos cenários do estudo, onde dois participantes relataram sintomas típicos de hemorragia subaracnóidea. Enquanto um recebeu a orientação correta de buscar atendimento de emergência, o outro foi aconselhado a repousar em um quarto escuro. Pequenas variações nas perguntas resultaram em respostas diametralmente opostas.
Desafios para Profissionais de Saúde
O estudo também revelou que a falta de letramento digital entre profissionais de saúde é um fator preocupante. Ferreira destaca que muitos médicos utilizam versões gratuitas de chatbots sem treinamento adequado e, em alguns casos, inserem informações sensíveis sem considerar as implicações legais. “Esses profissionais sabem pouco ou quase nada sobre como validar as informações recebidas”, alerta, indicando que a capacitação e o investimento em ferramentas apropriadas são essenciais para evitar erros e questões legais.
O professor Alexandre Chiavegatto, especialista em inteligência artificial da Faculdade de Saúde Pública da USP, concorda que a pesquisa levanta questões mais amplas sobre o uso de IA na saúde. Ele enfatiza que os algoritmos devem ser ferramentas de apoio para médicos e não devem ser testados diretamente com pacientes. “Estamos apenas no início do potencial da IA na saúde”, afirma Chiavegatto, que vê a tecnologia como um meio valioso para melhorar o acesso a cuidados médicos, especialmente em regiões remotas do Brasil, onde a falta de especialistas é um desafio histórico.
Por fim, o estudo demonstrou que, embora os modelos de IA apresentem desempenho satisfatório em testes teóricos, essa eficácia não se traduz em interações práticas com pessoas reais. As simulações com pacientes virtuais também não conseguiram antecipar os problemas observados nas interações humanas. Para os pesquisadores, a crítica reside na interface humano-máquina, onde muitos participantes forneceram informações incompletas, ignoraram recomendações corretas e alguns até atribuíram características humanas às ferramentas, confiando em respostas que podem não ser precisas.
