Big Data bändigen
Ob im Internet, an der Börse oder in der Medizin – die Datenmengen, mit denen es die Menschen zu tun haben, werden immer gewaltiger. Ehemalige Mitarbeiter des Helmholtz Zentrums München haben eine Software entwickelt, die große unstrukturierte Datenmengen handhaben kann. Sie funktioniert nach ähnlichen Prinzipien wie das menschliche Gehirn
Wir alle kennen es vom täglichen Googlen: Die Datenflut, die auf uns Menschen einstürzt, wird immer gewaltiger. Auch wenn Börsenhändler Aktienkurse vorhersagen oder Mediziner Krankheiten verstehen wollen - immer geht es darum, die wenigen wichtigen Informationen von der schier unendlichen Menge der unwichtigen zu trennen. Die Suchtechnologien, die wir heute nutzen, können zwar Daten nach Stichworten durchsuchen. Redundante und überlappende Informationen oder gar Zusammenhänge werden nicht erkannt. Die Frage also, was wirklich wichtig ist und was nicht, können bisherige Suchmaschinen nicht beantworten.
Genau das versucht die Software der Firma Clueda, gegründet von ehemaligen Wissenschaftlern des Helmholtz Zentrums München (HMGU). Die Grundprinzipien ihrer Idee haben sie sich vom menschlichen Gehirn abgeschaut. "Unsere Software assoziiert und lernt", sagt Volker Stümpflen, Geschäftsführer von Clueda. "Dadurch ist sie in der Lage, aus großen Datenmengen genau diejenigen Informationen herauszufiltern, die unter bestimmten Gesichtspunkten relevant sind."
Volker Stümpflen und seine Kollegen Mara Hartsperger und Benedikt Wachinger haben am HMGU-Institut für Bioinformatik und Systembiologie gemeinsam an der Erforschung komplexer, genetisch bedingter Erkrankungen gearbeitet. Dass Wissenschaftler wie sie zu Firmengründern werden, ist keine Seltenheit mehr. Das zeigen Zahlen des Stifterverbandes für die Deutsche Wissenschaft. Allein aus deutschen Hochschulen heraus entstanden demnach 2012 1.145 Unternehmen ("Gründungsradar" des Stifterverbandes). Außeruniversitäre Forschungsorganisationen wie die Fraunhofer-Gesellschaft mit ihrem starken anwendungsbezogenen Forschungsansatz oder die Max-Plank-Gesellschaft und die Helmholtz-Gemeinschaft sind in diesen Zahlen noch gar nicht enthalten.
Stümpflen und sein Kollegen beschäftigten sich am Helmholtz Zentrum München unter anderem mit dem Problem der Publikationsflut: Allein im Bereich Diabetes existierten damals etwa 400.000 Publikationen. Wollte eine Person alle diese Publikationen tatsächlich lesen, so wäre sie etwa 200 Jahre beschäftigt. Aus den von den Wissenschaftlern entwickelten Ansätzen, mittels Computer die Informationen zu sortieren und Zusammenhänge zu erkennen, entstand die Idee für die Entwicklung von weiteren Produkten und der Gründung einer Firma.
"Unsere Software ist in der Lage Entscheidungen zu treffen", sagt Stümpflen. Die Dokumente würden zunächst "semantisch prozessiert". Im Klartext: Die Software analysiert nicht nur die grammatikalische Struktur der Sätze, sondern auch die sich daraus ergebenden Zusammenhänge und speichert sie in einer Art assoziativem Wissensnetzwerk. "Mit ihrem Wissen kann sie dann zum Beispiel die Überschrift "VW - kauft - Porsche" als aktienkursrelevant bestimmen", sagt Stümpflen.
Um das zu schaffen, muss sie - ähnlich wie ein Kind - zunächst eine ganze Menge an Begriffen und deren Bedeutung lernen. Im medizinischen Bereich etwa sind es rund 600.000 Begriffe, mit denen die Software als Wissensbasis gefüttert wird. Ab einer gewissen Menge weiß das System dann genug, um sich selbst die Bedeutung weiterer Begriffe zu erschließen.
Für das zusammen mit der Baader Bank entwickelte Produkt "Real Time Analytics" hat Clueda vor kurzem den "Best in Big Data Award" der Zeitschrift Computerwoche erhalten. Die Software hilft Investoren und Börsenhändlern, aus der Masse aller Informationen die kursrelevanten Neuigkeiten herauszufiltern. Auch für Mediziner haben die Ex-Helmholtz-Forscher ein Angebot entwickelt: Die Software hilft Ärzten dabei, in der Masse von Patientenakten, Arztbriefen und Befunden Hinweise auf bestimmte Krankheitsbilder und Ursachen zu erkennen. Auch bei der Rekrutierung von "passenden" Patienten für klinische Studien und der Erkennung von bislang unbekannten Zusammenhängen zwischen Medikamenten, Genen oder Krankheitsbildern sind Anwendungen geplant.
Leser:innenkommentare