Wie treffen Maschinen Entscheidungen?
Helmholtz Forscher Fabian Theis bringt Maschinen das Lernen bei, um Ärzte und Wissenschaftler in ihrer Arbeit zu unterstützen. Auf dem Symposium für individualisierte Infektionsmedizin in Hannover sprach er über die Nutzung von Big Data und Machine Learning.
Labortechnologien in den Lebenswissenschaften haben in den vergangenen Jahren rasante Fortschritte gemacht. Was in den 1990ern ein ganzes Jahrzehnt und gewaltige Ressourcen verschlang – die Sequenzierung des menschlichen Genoms – geschieht heute tausendfach täglich in Laboren rund um die Welt. Routinemäßig werden auch Transkripte sequenziert. Diese kurzlebigen Abschriften von Genen tragen die Bauanleitung für jene Proteine, die eine Zelle gerade herstellt. Eine Analyse des Transkriptoms, also der Gesamtheit aller Transkripte, gibt Forschern Auskunft über den gegenwärtigen Zustand einer Zelle, eines Gewebes oder sogar eines ganzen Organismus. Die Methoden im Mikromaßstab sind heute so ausgereift, dass es möglich ist, das Transkriptom oder Merkmale einzelner Zellen detailliert zu untersuchen. So charakterisieren Wissenschaftler beispielsweise verschiedene Arten von Zellen, deren Entwicklungsstadien oder deren Reaktion auf Medikamente.
Allerdings fallen bei diesen Untersuchungen riesige Datenmengen an, man spricht auch von Big Data. Neben den schier unendlichen Folgen von genetischen Sequenzen können das auch andere Messwerte oder mikroskopische Aufnahmen sein. Die meisten Biologen und Mediziner sind nicht gleichzeitig Experten in Statistik oder Informatik. Sie brauchen also Unterstützung dabei, diese Datenflut zu bewältigen.
Big Data interpretieren
Die bekommen sie zum Beispiel von Fabian Theis, Direktor des Instituts für Computational Biology am Helmholtz Zentrum München. "Big Data heißt ja nicht nur, dass es viele Daten sind. Es bedeutet, dass sie komplex und heterogen und ohne Unterstützung von Computern praktisch nicht zu interpretieren sind", erklärt er. Und was für viele Lebenswissenschaftler eine Herausforderung ist, ist für Theis’ Forschung ein – im wahrsten Sinne des Wortes – großer Vorteil: Je mehr Daten er zur Verfügung hat, desto präziser sind seine Ergebnisse.
Fabian Theis ist promovierter Physiker und Informatiker und vor allem eins: begeistert von seiner Arbeit. In seinen Vorträgen jongliert er mit Zahlen und Formeln, dass Laien schwindelig wird. Fachpublikum, ob an der amerikanischen Harvard Universität oder im niedersächsischen Hannover, weiß seine Expertise sehr zu schätzen. Denn Theis und sein Team haben schon zahlreiche Methoden entwickelt, um Datenberge effizient nach neuen Erkenntnissen zu durchforsten.
Sein Mitarbeiter Niklas Köhler arbeitet zum Beispiel daran, tausende medizinischer Aufnahmen vom Augenhintergrund nach Anzeichen für erkranktes Netzhautgewebe zu durchsuchen, um einer Erblindung von Patienten vorzubeugen. Und Alexander Wolf kartographiert mithilfe von Big Data Analytics die Entwicklung von Stammzellen eines Organismus.
Maschinen lernen lassen
Für seine Arbeit nutzt Fabian Theis Machine Learning, eine Methodik aus der Werkzeugkiste der künstlichen Intelligenz. Computerprogramme, die Maschinen erlauben, aus Daten zu lernen, gibt es zwar schon seit den 1960er Jahren. Eine Art von Algorithmen, die sogenannten künstlichen neuronalen Netze, haben in den vergangenen Jahren aber ein Revival erfahren. Dank der größeren Rechenleistung können moderne Computer mit wesentlich komplexerer Software arbeiten. Heutige neuronale Netze sortieren und kategorisieren Merkmale auf mehreren hierarchischen Ebenen und "lernen" aus ihren Erfahrungen. Wegen der zahlreichen Lern-Ebenen wird diese Methode "Deep Learning" genannt. Sie ermöglicht es neuronalen Netzen, eigenständig Konzepte zu begreifen, die zum Beispiel biologischen Prozessen zugrunde liegen.
Die Forscher in Fabian Theis’ Arbeitsgruppe entwickeln Machine und Deep Learning Algorithmen, um zu verstehen, wie Krankheiten voranschreiten oder wie ein ganzer Organismus heranwächst. Und hier kommt Big Data ins Spiel: Je dichter eine Datenmenge ist, desto besser kann die Software damit lernen und desto höher ist die Auflösung des Musters, das sie in den Daten erkennt. Gerade wenn kontinuierliche Prozesse untersucht werden, führen mehr Daten also zu präziseren Beschreibungen.
Zudem müssen Theis und seine Kollegen ihre Algorithmen für jedes zu untersuchende Phänomen erst trainieren. Sie füttern den Computer mit Trainingsdaten. "Diese Daten versehen wir mit eigenen Vorhersagen", erklärt Theis. "Das neuronale Netz interpoliert diese. Es sammelt sozusagen Erfahrungen und lernt, auf Basis von neuen Eingabedaten selber Vorhersagen zu treffen." Die Forscher teilen also jeden Datensatz auf: in ein Trainingsset für den neuen Algorithmus und ein Analyseset für den Erkenntnisgewinn. Je mehr Daten das Programm zum Lernen erhält, desto genauer ist das Bild, das es sich von dem untersuchten Prozess machen kann. Und je mehr Daten das Analyseset umfasst, desto detaillierter ist das Ergebnis.
Algorithmen trainieren
So konnten Theis und seine Kollegen Computern zum Beispiel beibringen, Zellen anhand von mikroskopischen Aufnahmen nach ihrem Stadium in der Zellteilung zu sortieren. Moderne Geräte zur Durchflusszytometrie (englisch: Flow Cytometry) sammeln tausende solcher Aufnahmen innerhalb kurzer Zeit. Niklas Köhler und Alexander Wolf programmierten Deep Learning Algorithmen, um Merkmale wie Größe, Form und Textur von Zellen zu bewerten. Dann trainierten sie ihr System, das sie "DeepFlow" nannten, mit Aufnahmen von über 30.000 Zellen, deren Teilungsstadium sie ermittelt hatten. Anschließend war DeepFlow in der Lage, Zellen einem bestimmten Teilungsstadium zuzuordnen. Aber nicht nur das. Es rekonstruierte anhand der Ähnlichkeiten zwischen den einzelnen Zellen den gesamten Verlauf der Zellteilung. DeepFlow hatte eigenständig logische Konsequenzen aus seinen Beobachtungen gezogen.
"Deep Learning auf Bilderkennung zu trainieren ist schon länger etabliert", sagt Fabian Theis. Neugierig wie er ist, freut er sich über neue Herausforderungen. "Für uns ist das Spannende, diese Methode auch auf Sequenzdaten anzuwenden – also zum Beispiel die Sequenzen aus der reihenweisen Analyse ganzer Transkriptome aus vielen Einzelzellen."
Im Bereich Medizin anwenden
Lernende Algorithmen, wie Theis’ Arbeitsgruppe sie entwickelt, können auch zur diagnostischen Bewertung medizinischer Daten dienen. In die Entscheidung darüber, wie ein Patient behandelt wird, fließt eine Vielfalt verschiedener Untersuchungen ein. Die Ergebnisse können als Sequenzen, Bilder oder auch als reine Messwerte vorliegen. Es kostet die behandelnden Ärzte viel Zeit und Aufwand, dieses Material zu durchforsten. Deep Learning Algorithmen können dabei helfen, indem sie die vorliegenden Daten auswerten und ihre Ergebnisse den Ärzten anschaulich aufbereiten. Allerdings betrachten Mediziner so eine Computer-basierte Auswertung eher skeptisch. "Wenn ein Arzt mit seinem Kollegen verschiedene Behandlungsstrategien bespricht, begründet er seine Vorschläge. Die Software dagegen tut das nicht, ihr Ergebnis ist für die Ärzte nicht unbedingt sofort nachvollziehbar", erklärt Fabian Theis. "Sie sehen selbstlernende Algorithmen als Black Box und zögern, deren Vorschläge für die Behandlung umzusetzen."
Licht in die Black Box bringen
Theis hat deshalb eine Methode erdacht, die Pfade der Entscheidungsfindung eines Deep Learning Algorithmus transparent zu machen. Er nutzt eine Visualisierungssoftware, um den jeweiligen Status der Bewertung auf den tiefen Ebenen des neuronalen Netzes sichtbar zu machen. Mithilfe der Visualisierung wird nachvollziehbar, wie der Algorithmus einzelne Merkmale gewichtet hat, um das zugrundeliegende Konzept zu begreifen. So möchte Theis Licht in die Black Box bringen und Medizinern eine vertrauenswürdige Software an die Hand geben, die sie in ihrer Entscheidungsfindung unterstützt.
Gerade Krebspatienten oder Menschen, die an viralen oder bakteriellen Infektionen erkranken, können davon profitieren. Ihre Behandlung kann dank moderner Analysemethoden und kluger Datenauswertung optimal auf ihre individuellen Voraussetzungen und den Krankheitsverlauf angepasst werden.
Leser:innenkommentare