Incertezas nos Conselhos de Saúde Fornecidos por Chatbots de IA
Uma nova pesquisa trouxe à tona preocupações sobre a precisão dos conselhos de saúde emitidos por chatbots de inteligência artificial (IA). O estudo, publicado na revista Nature Medicine, revelou que os assistentes virtuais não se mostraram mais eficazes do que o Google, que já é conhecido por fornecer informações de saúde questionáveis. Os pesquisadores apontaram que esses sistemas frequentemente oferecem orientações imprecisas, dependendo de como as perguntas são formuladas, o que poderia levar a consequências sérias.
O experimento, considerado o primeiro deste tipo a ser randomizado, avaliou se os chatbots estavam prontos para serem utilizados diretamente no atendimento a pacientes. A conclusão foi clara: nenhum dos modelos analisados estava apto a oferecer suporte confiável em situações de saúde. Desde que esses chatbots começaram a ser acessíveis ao público, os usuários têm buscado cada vez mais informações sobre saúde através deles. De acordo com pesquisas, aproximadamente um em cada seis adultos recorre a essas ferramentas ao menos uma vez por mês para sanar dúvidas sobre suas condições.
Grandes empresas de tecnologia, como Amazon e OpenAI, têm desenvolvido recursos focados em responder às questões de saúde dos usuários. Apesar do entusiasmo gerado por essas inovações, Adam Mahdi, professor do Instituto de Internet de Oxford e coautor do estudo, levantou questões sobre a eficácia real dos chatbots. “A medicina é complexa e muitas vezes incompleta”, afirmou Mahdi, explicando que os cenários médicos abordados pelos usuários não refletem a realidade da prática clínica.
Resultados do Estudo e Expectativas Futuras
No experimento, mais de 1.200 participantes sem formação médica foram expostos a cenários clínicos fictícios, onde deveriam interagir com os chatbots para determinar os próximos passos, como buscar atendimento médico ou optar pela automedicação. Os modelos testados incluíram o ChatGPT da OpenAI e o Llama da Meta. Os resultados mostraram que os participantes acertaram a conduta recomendada, conforme definido por um painel de médicos, em menos de 50% das vezes. A identificação correta de condições médicas, como cálculos biliares ou hemorragias, ocorreu apenas em 34% das interações.
Os pesquisadores compararam esses resultados ao grupo de controle que utilizou métodos de pesquisa habituais, como o Google, e não encontraram diferenças significativas na eficácia. Contudo, vale ressaltar que o estudo enfrentou limitações, já que os usuários interagiram com cenários fictícios e não com suas situações de saúde reais. Além disso, versões mais recentes dos chatbots podem apresentar melhorias significativas em comparação com os modelos utilizados na pesquisa.
Desafios e Considerações na Interação com Chatbots
A avaliação dos encontros com chatbots revelou, surpreendentemente, que aproximadamente metade dos erros cometidos era atribuída à falta de informações por parte dos usuários. Em algumas situações, os participantes não incluíram dados cruciais sobre seus sintomas, o que levou os chatbots a oferecer conselhos baseados em informações incompletas. Por exemplo, um modelo sugeriu que dores de estômago intensas poderiam ser causadas por indigestão, ignorando detalhes importantes que poderiam ter levado ao diagnóstico correto.
Quando os pesquisadores alimentaram os chatbots com um quadro clínico completo, a taxa de acerto para diagnósticos corretos subiu para impressionantes 94%. Isso demonstra a importância do treinamento e da experiência que os médicos possuem para extrair informações relevantes de um paciente. Robert Wachter, chefe do departamento de medicina da Universidade da Califórnia, enfatizou que compreender quais detalhes são essenciais para um diagnóstico adequado é uma habilidade desenvolvida ao longo da formação médica.
Responsabilidade dos Usuários e dos Desenvolvedores de IA
Andrew Bean, estudante de pós-graduação em Oxford e principal autor do estudo, questionou a quem deve recair a responsabilidade de formular as perguntas corretas. Ele defendeu que os chatbots devem ser projetados para fazer perguntas complementares, assim como os médicos fazem para coletar informações detalhadas de seus pacientes. Melhoria nessa área está em andamento; por exemplo, as versões mais recentes do ChatGPT demonstraram um aumento significativo na capacidade de formular perguntas adicionais.
No entanto, mesmo quando as informações são inseridas de forma precisa, a pesquisa encontrou dificuldades dos chatbots em diferenciar quando os sintomas exigem atenção médica imediata. Danielle Bitterman, doutora que pesquisa a interação entre pacientes e IA, destacou que isso pode ser devido ao treinamento dos modelos, que se baseia em literatura médica, mas carece da experiência prática que os médicos adquirem ao longo da carreira.
Além disso, houve casos em que os chatbots forneceram informações incorretas, como recomendar números de emergência que na verdade não existiam. O estudo ainda revelou que pequenas mudanças na forma como os participantes descreveram suas condições alteravam significativamente as respostas dos chatbots, evidenciando a fragilidade desses sistemas quando se trata de fornecer orientações de saúde precisas.
