in

Banebrytende dataset kan forbedre behandling av luftveissykdommer med kunstig intelligens

Elektroniske pasientjournaler (EHRs) inneholder en enorm mengde informasjon ved å kombinere strukturert tabellbasert data med ustrukturerte kliniske notater. Dette er en verdifull ressurs som gir grunnlaget for å trene systemer for klinisk beslutningsstøtte, automatisere diagnostiseringsprosesser og bistå i behandlingsplanlegging. Likevel er det utfordringer knyttet til hvordan denne informasjonen utnyttes effektivt. Mens store språkmodeller (LLMs) kan analysere ustrukturert tekst, mangler de ofte “tolkbarhet”, en viktig faktor i høy-risiko kliniske applikasjoner.

På den annen side viser funksjonsbaserte modeller seg å være robuste, men de er ikke i stand til å behandle ustrukturert tekst direkte. Dette skaper en barriere for å utnytte potensialet i EHR-data for klinisk beslutningstaking. Uansett er det et tydelig behov for effektive metoder for klinisk informasjonsuttrekking (CIE) som kan bygge bro mellom ustrukturerte data og tolkningsmodeller.

utfordringer med eksisterende metoder

Eksisterende metoder utnytter ofte ikke det medisinske kunnskapsgrunnlaget som allerede er tilgjengelig for å fylle dette tomrommet. To viktige informasjonskilder blir ofte oversett: 1) tabellbaserte kjennetegn som allerede er kodet i EHR-systemene, og 2) medisinsk domenekunnskap som kan struktureres som et Bayesiansk nettverk. Slike kilder har potensiale til å forbedre CIE ved å koble konseptene som er hentet fra tekst, med bakgrunnsinformasjon som allerede er kodet.

For optimal implementering av disse metodene kreves et dataset som inneholder både tabellbaserte data og ustrukturerte tekster. Selv om det finnes open source-datasett som MIMIC-III og MIMIC-IV, har disse utfordringer som kompleksitet, faktureringsdrevne tabellfunksjoner og uoverensstemmelser mellom funksjoner og begreper i teksten.

synsum: en ny syntetisk benchmark

For å løse disse utfordringene har forskere fra IDLab ved Ghent University-imect, Belgia, i samarbeid med Department of Public Health and Primary Care ved samme universitet, utviklet en ny syntetisk benchmark kalt SynSUM. Dette datasettet lenker ustrukturerte kliniske notater til strukturerte bakgrunnsvariabler. SynSUM inneholder 10,000 kunstige pasientjournaler som er knyttet til luftveissykdommer, med både tabellbaserte variabler og relaterte kliniske notater.

SynSUM støtter forskning på klinisk informasjonsuttrekking ved å koble bakgrunnsvariabler med begreper utvunnet fra tekstene, og åpner opp for videre forskning innen automatisk klinisk resonnement.

metoder for symptom-prediksjon

Den foreslåtte SynSUM-metoden bruker fire ulike tilnærminger for å forutsi symptomer fra kliniske data:

  • BN-tab: En Bayesiansk nettverksmodell med en forhåndsdefinert kausal struktur. Parameterestimater utføres basert på maksimal sannsynlighet fra treningsdata.
  • XGBoost-tab: En XGBoost-klassifikator trent for hvert symptom, med optimalisering av hyperparametere gjennom kryssvalidering.
  • Neural-text: En nevralt nettverksklassifikator som utelukkende benytter tekst-inndata, med bruk av setningsinnbygging fra BioLORD-modellen for å forutsi sannsynlighet for symptomer.
  • Neural-text-tab: En utvidelse av Neural-text som også benytter tabellbaserte variabler i kombinasjon med tekstinnbyggingene.

evaluering og resultater

De ulike metodene ble evaluert med en 8000/2000 trenings-/testdeling, som inkluderte kryssvalidering for hyperparametere. Forskerne rapporterte F1-scorer for hvert enkelt symptom ved bruk av en grense på 0,5 for klassifikasjon. Resultatene viste at tekstbaserte metoder (Neural-text og Neural-text-tab) presterte bedre enn tabellbaserte tilnærminger (BN-tab og XGBoost-tab). Symptomene dyspné, hoste og nesetetthet var relativt lette å forutsi, sammenlignet med smerter og feber.

Det ble også observert en ytelsesforskjell mellom normale og kompakte notater, der sistnevnte viste seg å være mer komplekse. I tillegg viste kombinasjon av innbygginger en svak ytelsesforbedring sammenlignet med bruk av gjennomsnittlige innbygginger, noe som indikerer at ulike deler av notatene kan inneholde komplementær informasjon.

fremtidige anvendelser og potensiale

Kort oppsummert har SynSUM satt en ny standard for potensielle anvendelser innen helseforskning. Datasettet er spesielt verdifullt for forbedring av klinisk informasjonsuttrekking der både strukturerte tabelldata og ustrukturerte tekster må kombineres for effektive resultater. Denne unike strukturen i datasettet, med kjente relasjoner mellom tekst og data, gjør det til et verdifullt verktøy med bred anvendelse innen medisinsk informatikk og datavitenskap i helsesektoren.

Videre arbeid vil kunne dra nytte av domenekunnskap for å koble tabellfunksjoner tettere sammen med tekstuelle begreper for enda mer nøyaktig informasjonsuttrekking.

Kilde: marktechpost.com