Automatische bottom-up tekstanalyse: een wereld van verschil

30/05/2016 OM 09:00 - Luc Willemijns
438ec446942b6ae1d623ca44becd27f7
Binnen organisaties is gemiddeld 30% van de gegevens gestructureerd in databases opgeslagen. Het overgrote deel van de gegevens is echter verspreid over formulieren, e-mails en bestanden. Hoe haal je nu informatie uit die enorme berg aan gegevens zonder dat het veel geld en moeite kost? Door de binnen de organisatie aanwezige teksten automatisch te analyseren en de inhoud te categoriseren met een innovatieve tekstanalyse-tool. Dat kan heel interessante informatie opleveren, bijvoorbeeld uit artsenverslagen in patiëntendossiers.

De afgelopen decennia hebben de ontwikkelingen op het gebied van business intelligence zich voornamelijk toegespitst op getallen en cijfers. Vooral de financiële sector heeft veel behoefte aan en beschikt over cijfermatige data. Uit die gegevens kan voor hen veel relevante en bruikbare informatie worden gehaald.

In de medische sector wordt ook veel gewerkt met getallen, denk aan laboratoriumresultaten. Maar er wordt niet alleen gewerkt met getallen. Een groot - en essentieel - deel van de digitaal opgeslagen medische informatie bestaat uit teksten (artsenverslagen, e-mails, aantekeningen). En die gegevens worden nog niet optimaal gebruikt.

Toenemend gebruik tekstanalyse

In verschillende branches wordt er inmiddels steeds vaker gewerkt met tekstanalyse-tools. Denk bijvoorbeeld aan de opsporingsdiensten (die zoeken naar subversieve activiteiten en bewijslast), het bankwezen (dossieranalyse voor risico-inschatting van de leningenportefeuille), marketing (peilen van de stemming over producten en diensten op de social media), call centra (analyse van de transcripties van telefoongesprekken), juristen (zoeken naar verbanden tussen rechtszaken), …

Digitalisering biedt mogelijkheden

Nu er ook in de zorgsector steeds meer wordt gedigitaliseerd, is de vraag naar tools die de teksten in bijvoorbeeld een patiëntendossier kunnen “begrijpen”, enorm toegenomen. Voor het analyseren van dit soort ongestructureerde gegevens is een tekstanalyse-tool dan heel bruikbaar.

Automatisch verbanden leggen

Voorheen was het analyseren van teksten alleen mogelijk door naar trefwoorden en combinaties te zoeken. Hierdoor moet er vooraf bepaald worden waar naar gezocht zou gaan worden, vaak aan de hand van een theasaurus of taxonomie. Inmiddels zijn toepassingen in de markt die het mogelijk maken teksten zonder vooraf opgestelde thesaurus te analyseren. De software gaat zelfs op zoek naar concepten en analyseert die vervolgens. Een enorme vooruitgang. In plaats van het automatisch zoeken, zoals oudere tekstanalyse-toepassingen, in teksten naar woorden, worden de teksten geëxploreerd.

Zo kan de zoektocht worden gestart vanuit een bepaalde voorkeur, een bepaald onderwerp. Je wil bijvoorbeeld weten wat er in jouw data over hypertensie te vinden is. Dat is een gestuurde operatie. Bij exploratie ligt het initiatief aan de andere kant, met name bij de analyse-tool. De tool geeft, op basis van zelf opgebouwde kennis, aan wat belangrijk is in de teksten, welke concepten veel naar voren komen,

Belang van context en woordgroepen

Performante tekstanalyse-tools onderzoeken woordgroepen en de context daarom heen. Neem bijvoorbeeld het automatisch highlighten in medische dossiers, wat veel door software tools wordt gedaan. Als je daar goed naar kijkt, zie je direct hoe semantisch fout dat is. Gespecialiseerde software heeft als opdracht om overal het woord hypertensie te kleuren. Dat zal in 70% van de gevallen best goed gaan, maar in de overige 30% niet.

Er staat bijvoorbeeld in de tekst: “De patiënt heeft geen last van hypertensie”. Of “De patiënt heeft acute pulmonale hypertensie”. Maar dat is een bepaalde vorm die niet zomaar met een algemene hoge bloeddruk kan worden vergeleken. Daarom zijn die woordgroepen zo belangrijk.

Verrassende uitkomsten

Dit bottom-up exploreren van teksten heeft veel voordelen. Onderzoekers stuiten bijvoorbeeld hierdoor op aspecten die nooit hadden kunnen worden gevonden met een top-down architectuur, die vanuit taxonomieën met medische termen start.

Top-down staat voor vooraf gedefinieerde vragen. Daarom kan een data warehouse alleen antwoord geven op vragen die van tevoren zijn bedacht en ingebouwd. Bottom-up staat voor onbevooroordeeld en laat het exploreren aan de tool over. Met bottom-up exploratie ontdekt de IT-manager ook wat er nou eigenlijk allemaal in de dataverzameling zit, dikwijls met verrassende uitkomsten.

Betere data

Tekstanalyse is niet alleen handig voor de categorisering van de gegevens en om te ontdekken wat voor data er nou allemaal binnen een organisatie aanwezig zijn. Het is ook een heel bruikbare tool voor het verbeteren van de kwaliteit van de te analyseren teksten. Is bijvoorbeeld bij de digitalisering alles uit de ruwe files in de database terecht gekomen? En vindt er bij de gegevensinvoer niet te veel “copy-paste” plaats? Dat kan dan weer een aanleiding zijn om extra aandacht aan het data-entry proces te besteden.

(Bovenstaande bijdrage kwam tot stand in samenwerking met InterSystems Benelux B.V. (Vilvoorde))

Meer info: 02/464.97.20 of www.intersystems.com.

Voor u geselecteerd

Kort de voordelen van een abonnement...

Belangrijk nieuws te delen?

Cookie voorkeuren

Deze website gebruikt cookies om je een betere bezoekerservaring te bieden. Bepaal hier welke soort cookies je toestaat.