Estudo da Harvard Publicado na Science Confirma: IA da OpenAI Supera Médicos Experientes no Diagnóstico e Tratamento de Pacientes

Um resultado que surpreendeu até os próprios pesquisadores responsáveis por ele: o modelo de inteligência artificial o1 preview da OpenAI superou médicos experientes em diagnósticos de emergência em todas as etapas de um experimento clínico conduzido em um pronto-socorro real de Boston. A pesquisa foi liderada por especialistas da Harvard Medical School e do Beth Israel Deaconess Medical Center e publicada em abril de 2026 na Science, uma das revistas científicas mais rigorosas e prestigiadas do planeta — ao lado de Nature, o principal termômetro do que a comunidade científica global considera resultado sólido e verificável.

O estudo avaliou 76 pacientes que deram entrada nas urgências do Beth Israel, comparando os diagnósticos emitidos por dois médicos internistas experientes com os produzidos pelos modelos o1 e 4o da OpenAI. O julgamento final foi feito por outros dois médicos especialistas que desconheciam a origem de cada avaliação — se humana ou artificial. Os resultados foram inequívocos: em quase todos os pontos de avaliação analisados, a IA se saiu igual ou melhor do que os profissionais humanos.

Resposta Rápida (TL;DR): Um estudo publicado na Science por pesquisadores de Harvard mostrou que o modelo o1 da OpenAI superou médicos experientes em diagnósticos de urgência, acertando 67% dos casos de triagem inicial contra 55% e 50% dos médicos humanos. O modelo também se destacou em raciocínio clínico e gestão de casos complexos, superando inclusive humanos que usavam ferramentas de apoio como o Google. Os autores ressaltam que a IA não deve substituir médicos, mas que os resultados apontam para a necessidade urgente de ensaios clínicos controlados para integrar a tecnologia ao atendimento real.

O Estudo Que Chocou Seus Próprios Autores

"Eu pensei que seria um experimento divertido, mas que não funcionaria tão bem. Não foi nada disso que aconteceu." A afirmação é de Adam Rodman, médico do Beth Israel Deaconess e co-autor sênior da pesquisa, citado pela Fortune. Rodman, que é também uma das principais referências médicas do estudo, descreveu sua surpresa com os resultados de uma forma que resume bem o que aconteceu: ninguém esperava que a diferença fosse tão grande, tão clara e tão consistente.

Arjun Manrai, chefe de um laboratório de IA na Harvard Medical School e principal co-autor da pesquisa, foi ainda mais direto. "Testamos o modelo de IA contra praticamente todos os benchmarks, e ele eclipsou tanto os modelos anteriores quanto nossa linha de base de médicos", declarou em comunicado reproduzido pelo TechCrunch. A pesquisa contou com colaboradores da Universidade de Stanford e envolveu uma série de experimentos distintos: avaliação diagnóstica em casos reais de triagem, raciocínio clínico em casos históricos publicados no New England Journal of Medicine, e análise de gestão clínica — desde recomendações de antibióticos até orientações sobre cuidados de fim de vida.

Para quem quer entender como diferentes modelos de IA se comparam em capacidades gerais, o Comparador de IAs do Turbina IA oferece uma visão atualizada dos principais sistemas disponíveis no mercado.

Imagem ilustrativa sobre Estudo da Harvard Publicado na Science Confirma: IA da OpenAI Supera Médicos Experientes no Diagnóstico e Trat

Como o Experimento Foi Conduzido

A Metodologia: Dados Brutos, Sem Nenhum Filtro

Um dos aspectos mais relevantes — e que distingue este estudo de pesquisas anteriores com IA médica — foi a decisão dos pesquisadores de não pré-processar os dados clínicos antes de apresentá-los ao modelo. Conforme destacou a Harvard Magazine, "os pesquisadores não processaram os dados de nenhuma forma": o modelo recebeu exatamente as mesmas informações disponíveis nos prontuários eletrônicos no momento de cada diagnóstico.

Isso importa porque muitas pesquisas anteriores com IA na medicina foram criticadas por usar dados "limpos", organizados e otimizados — o que não reflete a realidade confusa e fragmentada dos registros clínicos do dia a dia. Neste caso, o o1 teve que lidar com informações incompletas, redundantes e por vezes contraditórias, as mesmas que um médico enfrenta no cotidiano de um pronto-socorro movimentado.

Os 76 pacientes que serviram de base para o teste foram avaliados em três momentos distintos do atendimento de emergência: na triagem inicial (quando há menos informação disponível sobre o paciente), no primeiro contato com o médico e na admissão para a enfermaria ou UTI. Em cada um desses pontos, dois médicos avaliadores — que não sabiam se estavam analisando diagnósticos de humanos ou da IA — classificaram a qualidade das avaliações de forma cega.

Os Resultados: Números Que Redefinem o Debate

O modelo o1 preview da OpenAI atingiu o diagnóstico exato ou muito próximo em 67% dos casos de triagem inicial. Tanto a Harvard Magazine quanto o portal de tecnologia TugaTech confirmam que um dos médicos acertou em 55% dos casos e o outro em apenas 50%. Ou seja: a diferença entre o melhor médico e a IA foi de 12 pontos percentuais — e isso em condições idênticas, com os mesmos dados disponíveis.

A tabela abaixo resume o desempenho comparativo na triagem inicial, o momento mais crítico da avaliação:

Avaliador	Taxa de acerto no diagnóstico (triagem inicial)
Modelo o1 preview (OpenAI)	67%
Médico internista A	55%
Médico internista B	50%
Modelo 4o (OpenAI)	Nominalmente inferior ao o1

O estudo destacou ainda que a diferença entre o desempenho da IA e dos médicos humanos foi especialmente pronunciada exatamente na triagem inicial — onde a pressão é máxima, as informações são mínimas e a margem de erro pode custar uma vida. "Em cada ponto de diagnóstico, o o1 teve desempenho nominalmente melhor ou equivalente aos dois médicos e ao modelo 4o", registrou o estudo segundo o TechCrunch, acrescentando que as diferenças "foram especialmente pronunciadas no primeiro ponto de diagnóstico (triagem inicial), onde há menos informações disponíveis sobre o paciente e maior urgência para tomar a decisão correta."

Imagem ilustrativa sobre Estudo da Harvard Publicado na Science Confirma: IA da OpenAI Supera Médicos Experientes no Diagnóstico e Trat

Por Que o Modelo de Raciocínio Fez a Diferença

O o1 preview é descrito pela Harvard Magazine como "o primeiro modelo da OpenAI com capacidade de raciocínio passo a passo" — o que os pesquisadores chamam de chain-of-thought reasoning (raciocínio em cadeia). Esse tipo de modelo não apenas processa informações: ele as analisa de forma estruturada, considerando hipóteses alternativas e revisando suas conclusões antes de apresentar uma resposta. Para entender melhor termos como modelo de linguagem de grande escala (LLM) e raciocínio em cadeia, consulte o Glossário de IA do Turbina IA.

Thomas Buckley, doutorando na Harvard Griffin Graduate School of Arts and Sciences e co-autor do estudo, observou que o o1 "está alcançando diagnósticos quase ótimos" nos casos desafiadores publicados historicamente no New England Journal of Medicine — uma série que é usada como benchmark para avaliar o raciocínio diagnóstico de computadores desde 1959. "Os casos são tipicamente muito desafiadores", explicou Manrai. "Estão cheios de elementos arcanos ou que distraem e cobrem muitas áreas diferentes da medicina."

O desempenho da IA nesses casos "chocou muita gente", segundo Manrai — incluindo especialistas que estavam céticos quanto à capacidade dos modelos de linguagem de ir além dos testes de múltipla escolha padronizados. "Não me surpreenderia se um LLM pudesse superar um dermatologista em um exame de neurocirurgia, mas isso não é algo particularmente útil de saber", chegou a dizer a médica emergencista Kristen Panthagani em um post sobre o estudo, sinalizando que o entusiasmo precisa ser calibrado com rigor metodológico — um ponto ao qual voltaremos.

Além do Diagnóstico: Raciocínio Clínico e Gestão de Casos

O estudo foi além dos diagnósticos de triagem. Os pesquisadores também avaliaram o desempenho do modelo em tarefas de gestão clínica — um espectro de decisões que inclui recomendações de uso de antibióticos, escolha de exames complementares e até orientações em conversas sobre cuidados de fim de vida com pacientes e familiares.

Nessa dimensão, o o1 superou não apenas versões anteriores de IA, mas também médicos usando ferramentas de apoio convencionais como buscas no Google, de acordo com a Harvard Magazine. Peter Brodeur, fellow clínico no Beth Israel Deaconess e co-autor do estudo, explicou o raciocínio: "A gestão clínica é provavelmente uma tarefa mais complexa do que o diagnóstico. Ela exige muitas considerações, não apenas os aspectos objetivos do caso, mas também fatores subjetivos: o contexto e as circunstâncias em que você se encontra."

Para Brodeur, não surpreende que um modelo de raciocínio avançado se saia melhor do que humanos e até do que o ChatGPT-4 nessas tarefas mais complexas. Sua frase mais marcante do estudo, citada pela Fortune, resume bem o momento: "Costumávamos avaliar modelos com testes de múltipla escolha; agora eles estão consistentemente chegando perto de 100%, e não conseguimos mais acompanhar o progresso porque já estamos no teto."

As Vozes Críticas: Limitações e Ressalvas Importantes

Apesar dos resultados impressionantes, o estudo foi recebido com cautela por parte de especialistas externos — e até pelos próprios autores. As ressalvas são legítimas e merecem atenção.

O Modelo Comparou IA com o Médico Errado?

Kristen Panthagani, médica emergencista que publicou uma análise amplamente compartilhada sobre a pesquisa, apontou uma limitação metodológica central: os diagnósticos humanos no estudo foram feitos por médicos internistas, não por especialistas em medicina de emergência. Segundo ela, reportada pelo TechCrunch, "se vamos comparar ferramentas de IA com a capacidade clínica dos médicos, devemos começar comparando com médicos que realmente praticam essa especialidade."

Panthagani foi além: "Como médica de emergência vendo um paciente pela primeira vez, meu objetivo principal não é adivinhar o diagnóstico final. Meu objetivo principal é determinar se o paciente tem uma condição que pode matá-lo." Essa distinção é clinicamente relevante: o estudo mediu precisão diagnóstica, não triagem de risco imediato — que é o que salva vidas nos primeiros minutos de um atendimento de emergência.

A Questão da Responsabilização Formal

Adam Rodman, co-autor do estudo, alertou que ainda "não existe uma estrutura formal de accountability" em torno dos diagnósticos feitos por IA, e que os pacientes ainda "querem que humanos os guiem em decisões de vida ou morte" — declaração feita ao The Guardian e reportada pelo TechCrunch. Essa ausência de responsabilização formal é um dos maiores obstáculos regulatórios para a adoção clínica da tecnologia, independentemente da qualidade dos resultados.

O Modelo Não Enxerga — Só Lê

Talvez a limitação mais fundamental do estudo seja a mais óbvia: o o1 foi avaliado exclusivamente com base em informações textuais dos prontuários eletrônicos. Médicos, na prática, trabalham com muito mais: radiografias, eletrocardiogramas, exames de imagem, sinais fisiológicos e, sobretudo, a observação direta do paciente — sua respiração, coloração da pele, nível de consciência.

O próprio Manrai reconheceu que "estudos existentes sugerem que os modelos de base atuais são mais limitados no raciocínio sobre entradas não textuais", ao mesmo tempo em que sinalizou que a equipe conduz "estudos paralelos analisando o desempenho desses modelos em imagens" com resultados que têm melhorado rapidamente. Fique de olho no Monitor de Modelos do Turbina IA para acompanhar a evolução das capacidades dos principais sistemas de IA.

IA Pode Sugerir Exames Desnecessários

Brodeur também alertou que, embora a IA seja eficaz em diagnósticos, ela tende a recomendar exames adicionais desnecessários — o que, na prática clínica, pode gerar custos maiores e riscos para os pacientes. Um dado adicional revelador, citado pela Fortune: em um estudo separado publicado em dezembro de 2025, pesquisadores descobriram que 67% dos médicos que inicialmente recomendaram contra um tratamento mudaram sua decisão após a IA sugerir o oposto — mesmo sem qualquer estrutura formal de responsabilização vigente.

O Que Isso Significa Para o Futuro da Medicina

O consenso entre os autores da pesquisa é que os resultados não significam que "a IA substitui médicos" — nas próprias palavras de Manrai. Mas revelam, como afirmou o pesquisador à Harvard Magazine, "uma mudança profundamente significativa na tecnologia que vai remodelar a medicina" — e que exige uma resposta regulatória e clínica à altura.

A recomendação central do estudo é a realização urgente de ensaios clínicos prospectivos controlados para avaliar como e onde a IA pode ser mais efetivamente integrada ao atendimento real. Manrai imagina um modelo em que a IA opere em parceria com os médicos, ajudando-os a tomar decisões mais precisas — especialmente em situações de alta pressão, como a triagem de emergência, onde a velocidade e a qualidade do diagnóstico podem salvar vidas. O contexto mais amplo é igualmente revelador: o DeepMind do Google já avança em biologia estrutural com o AlphaFold; alguns pronto-socorros nos EUA já usam IA generativa para criar registros médicos automaticamente; e, conforme apontou a Fortune, um sistema de IA no estado de Utah chegou a prescrever medicamentos sem supervisão direta de um médico — o que levantou alertas imediatos entre profissionais de saúde.

O estudo de Harvard representa, portanto, um marco: não porque prova que a IA é superior aos médicos de forma definitiva e irrestrita, mas porque demonstra com rigor científico — em condições reais, com dados brutos, avaliação cega e publicação na Science — que os modelos de linguagem de última geração já atingiram um nível de desempenho que exige ser levado a sério pela medicina, pela regulação e pela sociedade.

Perguntas Frequentes

O modelo de IA da OpenAI pode substituir médicos no diagnóstico? Não, segundo os próprios autores do estudo. Os resultados indicam que a IA tem potencial para auxiliar médicos — especialmente na triagem inicial —, mas os pesquisadores enfatizam que ainda não existe estrutura formal de responsabilização e que os pacientes desejam ter humanos guiando decisões críticas de saúde.

Qual modelo da OpenAI foi avaliado no estudo de Harvard? O estudo avaliou principalmente o o1 preview, o primeiro modelo da OpenAI com capacidade de raciocínio passo a passo, e também o modelo 4o. O o1 se saiu melhor em quase todos os pontos de avaliação, especialmente na triagem inicial, onde superou os dois médicos humanos com 67% de acerto contra 55% e 50%.

Quais são as principais limitações do estudo? O experimento foi realizado apenas com dados textuais, sem incluir imagens, radiografias ou exames físicos. Além disso, os médicos humanos com quem a IA foi comparada eram internistas — não especialistas em medicina de emergência —, o que segundo críticos pode ter subestimado o desempenho humano em condições reais de pronto-socorro.