Automatische bottom-up tekstanalyse: een wereld van verschil

De afgelopen decennia hebben de ontwikkelingen op het gebied van business intelligence zich voornamelijk toegespitst op getallen en cijfers. Vooral de financiële sector heeft veel behoefte aan en beschikt over cijfermatige data. Uit die gegevens kan voor hen veel relevante en bruikbare informatie worden gehaald.
In de medische sector wordt ook veel gewerkt met getallen, denk aan laboratoriumresultaten. Maar er wordt niet alleen gewerkt met getallen. Een groot - en essentieel - deel van de digitaal opgeslagen medische informatie bestaat uit teksten (artsenverslagen, e-mails, aantekeningen). En die gegevens worden nog niet optimaal gebruikt.
Toenemend gebruik tekstanalyse
In verschillende branches wordt er inmiddels steeds vaker gewerkt met tekstanalyse-tools. Denk bijvoorbeeld aan de opsporingsdiensten (die zoeken naar subversieve activiteiten en bewijslast), het bankwezen (dossieranalyse voor risico-inschatting van de leningenportefeuille), marketing (peilen van de stemming over producten en diensten op de social media), call centra (analyse van de transcripties van telefoongesprekken), juristen (zoeken naar verbanden tussen rechtszaken), …
Digitalisering biedt mogelijkheden
Nu er ook in de zorgsector steeds meer wordt gedigitaliseerd, is de vraag naar tools die de teksten in bijvoorbeeld een patiëntendossier kunnen “begrijpen”, enorm toegenomen. Voor het analyseren van dit soort ongestructureerde gegevens is een tekstanalyse-tool dan heel bruikbaar.
Automatisch verbanden leggen
Voorheen was het analyseren van teksten alleen mogelijk door naar trefwoorden en combinaties te zoeken. Hierdoor moet er vooraf bepaald worden waar naar gezocht zou gaan worden, vaak aan de hand van een theasaurus of taxonomie. Inmiddels zijn toepassingen in de markt die het mogelijk maken teksten zonder vooraf opgestelde thesaurus te analyseren. De software gaat zelfs op zoek naar concepten en analyseert die vervolgens. Een enorme vooruitgang. In plaats van het automatisch zoeken, zoals oudere tekstanalyse-toepassingen, in teksten naar woorden, worden de teksten geëxploreerd.
Zo kan de zoektocht worden gestart vanuit een bepaalde voorkeur, een bepaald onderwerp. Je wil bijvoorbeeld weten wat er in jouw data over hypertensie te vinden is. Dat is een gestuurde operatie. Bij exploratie ligt het initiatief aan de andere kant, met name bij de analyse-tool. De tool geeft, op basis van zelf opgebouwde kennis, aan wat belangrijk is in de teksten, welke concepten veel naar voren komen,
Belang van context en woordgroepen
Performante tekstanalyse-tools onderzoeken woordgroepen en de context daarom heen. Neem bijvoorbeeld het automatisch highlighten in medische dossiers, wat veel door software tools wordt gedaan. Als je daar goed naar kijkt, zie je direct hoe semantisch fout dat is. Gespecialiseerde software heeft als opdracht om overal het woord hypertensie te kleuren. Dat zal in 70% van de gevallen best goed gaan, maar in de overige 30% niet.
Er staat bijvoorbeeld in de tekst: “De patiënt heeft geen last van hypertensie”. Of “De patiënt heeft acute pulmonale hypertensie”. Maar dat is een bepaalde vorm die niet zomaar met een algemene hoge bloeddruk kan worden vergeleken. Daarom zijn die woordgroepen zo belangrijk.
Verrassende uitkomsten
Dit bottom-up exploreren van teksten heeft veel voordelen. Onderzoekers stuiten bijvoorbeeld hierdoor op aspecten die nooit hadden kunnen worden gevonden met een top-down architectuur, die vanuit taxonomieën met medische termen start.
Top-down staat voor vooraf gedefinieerde vragen. Daarom kan een data warehouse alleen antwoord geven op vragen die van tevoren zijn bedacht en ingebouwd. Bottom-up staat voor onbevooroordeeld en laat het exploreren aan de tool over. Met bottom-up exploratie ontdekt de IT-manager ook wat er nou eigenlijk allemaal in de dataverzameling zit, dikwijls met verrassende uitkomsten.
Betere data
Tekstanalyse is niet alleen handig voor de categorisering van de gegevens en om te ontdekken wat voor data er nou allemaal binnen een organisatie aanwezig zijn. Het is ook een heel bruikbare tool voor het verbeteren van de kwaliteit van de te analyseren teksten. Is bijvoorbeeld bij de digitalisering alles uit de ruwe files in de database terecht gekomen? En vindt er bij de gegevensinvoer niet te veel “copy-paste” plaats? Dat kan dan weer een aanleiding zijn om extra aandacht aan het data-entry proces te besteden.
(Bovenstaande bijdrage kwam tot stand in samenwerking met InterSystems Benelux B.V. (Vilvoorde))
Meer info: 02/464.97.20 of www.intersystems.com.
INTERSYSTEMS BENELUX B.V.
Voor u geselecteerd
Kort de voordelen van een abonnement...
Belangrijk nieuws te delen?
Ontvang Leads voor 19€/mnd
- Ontvang automatisch info over leads, klanten, concurrenten en partners
- Alle data en artikels staat voor u beschikbaar
- Maandelijks opzegbaar
Wilt u meer bedrijven bereiken?
Word dan dVO Reach en promoot uw bedrijfsverhaal bij 50.000 beslissers.