ARTICOLI In questa sezione, gli articoli si concentreranno su medicina narrativa, medical humanities ed etica della cura. Analizzando studi pubblicati su riviste scientifiche autorevoli, si tenterà di offrire un punto di partenza per un dialogo interdisciplinare che coinvolga tutti i professionisti della salute. L’obiettivo è contribuire alla costruzione di una pratica clinica più completa e personalizzata, che valorizzi sia l’efficacia degli interventi che la dimensione umana dell’esperienza di malattia

di Massimiliano Marinelli  5  dicembre 2025

I pregiudizi dell’Algoritmo

Premessa

La promessa dell’Intelligenza Artificiale (AI) in medicina è quella di un’efficienza senza precedenti e di un supporto decisionale infallibile. Tuttavia, cosa succede quando i sistemi progettati per l’imparzialità iniziano a riflettere—e persino a esacerbare—i pregiudizi umani? L’integrazione dei Large Language Models (LLM) nella sanità non è solo una sfida tecnica, ma un profondo esperimento etico. Recenti analisi empiriche hanno portato alla luce modelli di bias sociodemografico così sottili e sorprendenti da richiedere un esame urgente non solo da parte dei programmatori, ma anche dei professionisti della cura che usano questi strumenti quotidianamente.

Il paradosso socio-demografico: sintomi identici, raccomandazioni differenti

Uno degli esempi più lampanti di come l’AI possa deviare dalla neutralità risiede nella sua capacità di elaborare raccomandazioni cliniche basandosi su dati non medici. Immaginate due pazienti con sintomi identici di dolore addominale. Se il caso del primo paziente include informazioni demografiche che suggeriscono un basso status socioeconomico (SES), il sistema di supporto decisionale clinico basato su AI raccomanda uno screening per la salute mentale. Per il secondo paziente, il cui caso non contiene identificatori demografici, lo stesso sistema raccomanda invece una standard procedura di analisi gastroenterologica.

Questo scenario, documentato da indagini sui modelli LLM clinici, evidenzia un modello di bias coerente e significativo.

Analisi e Riflessione: Questo punto è importante poiché  sebbene l’AI sia nota basarsi sui dati, in questo caso, la logica algoritmica non si è limitata ai sintomi oggettivi. Ha incorporato stereotipi o correlazioni nascoste nei training datasets, portando a un’implicita discriminazione nella diagnosi. Il rischio non è solo un errore diagnostico, ma la reintroduzione algoritmica del pregiudizio nella relazione di cura, minando l’equità sanitaria.

Il soffitto di cristallo algoritmico: stereotipi di genere e seniority

Il bias non si limita alle raccomandazioni diagnostiche, ma si manifesta anche nel modo in cui l’AI rappresenta i ruoli professionali. Uno studio ha esaminato la rappresentazione di genere di medici, chirurghi e infermieri in storie generate da quattro LLM di spicco (inclusi GPT-4 e Gemini-pro), utilizzando pronomi (“she/her” vs. “he/him”) come misura indiretta del genere.

I risultati mostrano una forte perpetuazione degli stereotipi esistenti:

  • Per le storie relative agli infermieri, la rappresentazione femminile (“she/her”) era estremamente alta, pari o superiore al 92%, rimanendo invariata anche con l’aggiunta di descrittori di personalità o seniority.
  • Per le figure professionali più senior o di leadership, come i medici e i chirurghi, l’inserimento di descrittori di maggiore seniority professionale (anzianità) risultava in una diminuzione della rappresentazione femminile.

Analisi e Riflessione: Questo è un punto controintuitivo: l’AI, attingendo dai suoi dati di training che riflettono la società, non solo perpetua gli stereotipi di genere, ma associa attivamente la seniority maschile, rendendo la leadership femminile “meno probabile” nel contesto algoritmico. Per evitare che i modelli LLM generino risposte potenzialmente dannose o che rafforzino le disparità esistenti, è imperativo che gli sviluppatori affrontino urgentemente il problema della rappresentazione equa e diversificata di genere.

una critica costruttiva: la priorità dell’etica nella valutazione

Sebbene i rischi legati al bias siano evidenti, l’attuale panorama di ricerca e valutazione degli LLM in sanità non li riflette appieno. Una revisione sistematica che ha analizzato 519 studi sugli LLM in sanità ha evidenziato un focus quasi esclusivo sull’accuratezza e sulla completezza delle risposte.

I dati mostrano un disallineamento nelle priorità di valutazione:

  • L’accuratezza è stata valutata nel 95,4% degli studi.
  • La comprensività (completezza) nel 47,0%.
  • Il rischio di bias, equità e tossicità è stato valutato solo nel 15,8% degli studi.

Analisi e Riflessione:  Non  si tratta  certamente di  respingere la tecnologia AI, ma  di invitare a standard di valutazione più rigorosi ed etici. L’assunzione che l’AI sia “neutrale” e che rimarrà tale è pericolosa. È necessario assumere che esista sempre un rischio di bias, anche se minimo. Per garantire un’implementazione sicura e affidabile, gli sforzi futuri dovrebbero concentrarsi sulla definizione e quantificazione del bias e sull’utilizzo di dati reali sulla cura dei pazienti, che riflettano la complessità della pratica clinica, invece di affidarsi unicamente a dati di esami medici standardizzati.

Inoltre, la trasparenza è un principio guida fondamentale. Gli sviluppatori e le istituzioni sanitarie hanno la responsabilità di garantire l’esplicabilità (XAI) e divulgare la natura, la dimensione e la distribuzione di fattori sociodemografici (come etnia e stato socioeconomico) all’interno dei dati utilizzati per l’addestramento, documentando qualsiasi tentativo di mitigare il bias.

L’adozione degli LLM in medicina deve essere attivamente plasmata dalla professione medica, che deve non solo identificare i dati di training appropriati, ma anche eseguire valutazioni che ne verifichino i benefici nel mondo reale.

Bibliografia

Baek, S. (2025). Characterizing Clinical LLMs—From Responses to Behavior. JAMA Network Open, 8(9), e2532699. doi:10.1001/jamanetworkopen.2025.32699

Bedi, S., Liu, Y., Orr-Ewing, L., Dash, D., Koyejo, S., Callahan, A., Fries, J. A., Wornow, M., Swaminathan, A., Lehmann, L. S., Hong, H. J., Kashyap, M., Chaurasia, A. R., Shah, N. R., Singh, K., Tazbaz, T., Milstein, A., Pfeffer, M. A., & Shah, N. H. (2025). Testing and Evaluation of Health Care Applications of Large Language Models: A Systematic Review. JAMA, 333(4), 319–328. doi:10.1001/jama.2024.21700

Chin, M. H. (2023). Algorithm Bias and Racial and Ethnic Disparities in Health and Health Care. JAMA Network Open, 6(12), e2345050. doi:10.1001/jamanetworkopen.2023.45050

Hswen, Y., & Abbasi, J. (2025). Study Finds Limited Evidence to Support More Than 40 Predictive Machine Learning Algorithms Used in Primary Care. JAMA Network Open, 333(7), 553–554.

Khera, R., Butte, A. J., Berkwits, M., Hswen, Y., Flanagin, A., Park, H., Curfman, G., & Bibbins-Domingo, K. (2023). AI in Medicine—JAMA’s Focus on Clinical Outcomes, Patient-Centered Care, Quality, and Equity. JAMA, 330(9), 818–820. doi:10.1001/jama.2023.15481

Menz, B. D., Modi, N. D., Hantel, A. A., Wang, K. C., Lu, C. M., & Hopkins, A. M. (2024). Gender Representation of Health Care Professionals in LLM-Generated Stories. JAMA Network Open, 7(9), e2434997. doi:10.1001/jamanetworkopen.2024.34997

Shah, N. H., Entwistle, D., & Pfeffer, M. A. (2023). Creation and Adoption of Large Language Models in Medicine. JAMA, 330(9), 866–869. doi:10.1001/jama.2023.14217