Medical Data Science

Der Innovationsbereich widmet sich den KI- und Data-Science-Methoden für die digitale Gesundheit in der Arzneimittelforschung, der präklinischen und klinischen Forschung. Am Fraunhofer ITMP konzentriert sich die medizinische Datenwissenschaft auf die vier Hauptbereiche des Fraunhofer-4D-Konzepts in der Gesundheitsforschung: »Drugs«, »Devices«, »Data« und »Diagnostics« (siehe auch 4D-Klinik). Der Innovationsbereich Medical Data Science beschäftigt sich mit der Verarbeitung und Analyse unterschiedlichster medizinischer Daten, wie z. B. Daten aus Kliniken und klinischen Studien, OMICS-Technologien, elektronischen Patientenakten, medizinischer Bildgebung und Wearables. Zu unseren Kernkompetenzen gehören maschinelles Lernen, Wissensgraphen und föderiertes Lernen sowie der FAIRe (Findable, Accessible, Interoperable, Reusable) Umgang mit medizinischen Daten.

Ein besonderer Schwerpunkt liegt auf der Erforschung immunvermittelter Erkrankungen in Zusammenarbeit mit Klinikern, der pharmazeutischen Industrie und akademischen Partnern. Modernste Algorithmen des maschinellen Lernens werden zur Diagnose, Prognose und Therapie in der Präzisionsmedizin für immunvermittelte Erkrankungen eingesetzt. Das Fraunhofer ITMP verfügt über eine hohe Expertise in der Entwicklung von Soft- und Hardwarelösungen (einschließlich seiner Hochdurchsatzlabore) für offene Forschungsplattformen für Forschung und Industrie. Diese Plattformen ermöglichen die Erforschung und praktische Erprobung von Konzepten der digitalen Gesundheitsforschung und kommerzieller Angebote.

 

Kernkompetenzen:

  • Maschinelles Lernen in 4D (»Drugs«, »Devices«, »Data« und »Diagnostics«)
  • Wissensgraphen und graphische neuronale Netzwerke für die medizinische Forschung
  • FAIRes (Findable, Accessible, Interoperable, Reusable) medizinisches Datenmanagement
  • Generative KI und synthetische medizinische Daten
  • Biostatistische Unterstützung von klinischen und präklinischen Studien
  • Föderierte Lerninfrastruktur und Plattform für medizinische Datenwissenschaft

Föderierte Infrastrukturen für das Gesundheitswesen

Der Gesundheitssektor öffnet sich zunehmend dem Datenaustausch und erprobt eine Vielzahl digitaler Lösungen, darunter auch föderierte Lerninfrastrukturen. Das föderierte Lernen für das Gesundheitswesen ist ein Paradigma des maschinellen Lernens, das die Herausforderungen des Managements medizinischer Daten und des Datenschutzes angeht, indem Algorithmen gemeinsam trainiert werden, ohne dass die Daten selbst zwischen verschiedenen Akteuren wie Kliniken, Pharmaunternehmen, akademischen und anderen öffentlichen Einrichtungen ausgetauscht werden.

Durch föderiertes Lernen können Erkenntnisse durch einen zentralen Aggregationsserver, z. B. ein Konsensmodell, gewonnen werden, ohne dass medizinische Daten oder Patientendaten die Firewalls der Einrichtungen, in denen sie gespeichert sind, verlassen. Das maschinelle Lernen wird lokal in jeder teilnehmenden Einrichtung trainiert, und nur die Modelleigenschaften (z. B. Parameter, Gradienten) werden übertragen. Kurz gesagt, beim föderierten Lernen reist das KI-Modell zwischen den teilnehmenden Kunden, nicht die Daten. Die systematische Planung einer solchen Infrastruktur für unsere Kunden und Konsortien wird durch das Angebot des prototypischen Aufbaus und Betriebs von Forschungsplattformen praktisch unterstützt.

Das Fraunhofer ITMP treibt Initiativen voran, die den Austausch von Forschungsdaten nach deutschen Standards (z. B. DSGVO, Ethikanträge) und auf europäischer Ebene (European Health Data Space, GAIA-X, European Open Science Cloud und International Data Spaces Association) ermöglichen. Wir bieten Lösungen für eine föderierte, skalierbare und interoperable Dateninfrastruktur, um ein neues Paradigma der heterogenen Gesundheitsforschung zu etablieren, das die Zusammenarbeit zwischen Gesundheitsdienstleistern, Forschern und Industriepartnern ermöglicht (siehe auch Medical Data Space).

Studien- und Kohortenanalysen

Das Fraunhofer ITMP unterstützt klinische und präklinische Studien sowie Kohortenanalysen mit seiner Expertise in:

  • Analyse und Steuerung von Studien der Phase I bis IV, sowie POC Studien
  • KI und maschinelles Lernen
  • Identifizierung geeigneter Zielpopulationen und optimierter Endpunkte
  • Mathematische Modellierung und statistische Verfahren
  • Projektspezifische Ein- und Ausgabeformate und Dashboards

Zum Einsatz kommt eine breite KI-Toolbox aus kommerziellen und proprietären Softwaretools. Die Kompetenz des Fraunhofer ITMP basiert auf der Integration von Data Scientists in die klinische Routine mit Fokus auf die Indikationsgebiete immunvermittelte und entzündliche Erkrankungen am Standort Frankfurt. In Kooperation mit Fraunhofer SCAI, Fraunhofer ISST und anderen Fraunhofer-Instituten werden große Datenmengen mit modernster künstlicher Intelligenz und maschinellem Lernen analysiert und frühzeitig zur Verbesserung der klinischen Versorgung und des Erkenntnisgewinns eingesetzt.

Wissensgraphen für die Arzneimittelforschung und das Repurposing von Arzneimitteln

Wissensgraphen (Knowledge Graphs, KGs) sind fortgeschrittene Formen von Netzwerken, die die Semantik der konstituierenden Entitäten sowie die Interaktionen zwischen ihnen erfassen. Im Kontext der Biomedizin und der Biowissenschaften stellen KGs krankheitsassoziierte biologische und pathophysiologische Phänomene dar, indem sie verschiedene miteinander in Beziehung stehende Entitäten wie Proteine und ihre biologischen Prozesse, molekulare Funktionen und Pfade, Chemikalien und ihre Wirkungsmechanismen und Nebenwirkungen systematisch zusammenstellen. Sie wurden in verschiedenen Anwendungsfällen und nachgelagerten Analysen im Zusammenhang mit dem Gesundheitswesen, dem pharmazeutischen und klinischen Umfeld eingesetzt. Die Erstellung von KGs ist jedoch kostspielig und zeitaufwändig, da sie eine umfangreiche manuelle Bearbeitung erfordert. Darüber hinaus haben maschinengestützte Methoden wie Text-Mining-Workflows und Large Language Models (LLMs) ihre eigenen Unzulänglichkeiten und werden nur langsam verbessert.

Wir haben einen vollautomatischen Arbeitsablauf - den sogenannten Knowledge Graph Generator (KGG) - entwickelt, um KGs zu erstellen, die den Chemotyp und Phänotyp von Krankheiten darstellen. Der KGG bettet das zugrunde liegende Schema kuratierter öffentlicher Datenbanken ein, um relevantes Wissen abzurufen, das als Goldstandard für qualitativ hochwertige Daten gilt. Graphische neuronale Netze können für die Vorhersage von Links und Knotenpunkten in den KGs für die präklinische Arzneimittelforschung, das Verständnis von Krankheitsmechanismen/Komorbidität und die Umwidmung von Arzneimitteln verwendet werden.

Der KGG baut auf unseren früheren Beiträgen zum BY-COVID-Projekt auf, in dem wir Arbeitsabläufe zur Identifizierung bioaktiver Analoga für die in COVID-NMR-Studien identifizierten Fragmente (Berg, H et al., 2022), sowie zur Darstellung der Mpox-Biologie (Karki, R et al., 2023) entwickelt haben.

FAIRer Umgang mit und Analyse von medizinischen Daten

Die Gewinnung von Informationen und Erkenntnissen aus unstrukturierten und »unsauberen« Daten erfordert ein FAIRes (»Findable«, »Accessible«, »Interoperable«, »Reusable«) Datenmanagement, das auf angepasste Systemabgleiche und Konventionen, Standardisierungen und Ontologiekataloge sowie EDA-Werkzeuge und -Workflows zurückgreift. In unseren Projekten überführen wir Daten- und Methodenvalidierung in Validierungsstudien. Die Moderation von »Fragen an die Daten« hat einen hohen Stellenwert und ist insbesondere bei KI-Anwendungen während der Projektformulierung zu berücksichtigen. Die Definition, Verteilung und Generierung von Trainings- oder Validierungsdatensätzen ist eine Voraussetzung für KI-Entwicklungen und kann durch unsere Real-World-Evidenz oder synthetische Kohorten unterstützt werden.

IDERHA: Integration heterogener Daten und Evidenz für regulatorische Akzeptanz und HTA

IDERHA ist eine europäische öffentlich-private Partnerschaft, die im April 2023 ins Leben gerufen wurde. Dieses bahnbrechende Projekt befasst sich mit den Hindernissen, die dem Zugang, der Integration und der Analyse von Gesundheitsdaten im Wege stehen, um ihren Wert für die Patientenversorgung und die medizinische Forschung zu maximieren.

Im Rahmen von IDERHA wird ein offener, krankheitsunabhängiger, föderierter Datenraum entwickelt. Der föderierte Datenraum ermöglicht Konnektivität, Zugang, Nutzung und Wiederverwendung von digitalen Gesundheitsdaten. Im Rahmen von IDERHA werden konsensfähige politische Empfehlungen für den Zugang zu Gesundheitsdaten und heterogener Gesundheitsforschung, wie z. B. Real-World-Evidence (RWE), für die Entscheidungsfindung in den Bereichen Regulierung und HTA entwickelt.

Partner: IDERHA wird geleitet von Fraunhofer ITMP und Johnson & Johnson Medical GmbH in einem Konsortium aus 33 akademischen, klinischen, medizintechnischen, pharmazeutischen und IT-Partnern sowie Patientenorganisationen und Behörden, darunter die Fraunhofer-Institute SCAI und ISST.

Weiterführende Informationen 

SYNTHIA: Rahmenwerk zur Generierung synthetischer Daten für die integrierte Validierung von Anwendungsfällen und KI-Anwendungen im Gesundheitswesen

SYNTHIA ist eine ehrgeizige Zusammenarbeit zwischen öffentlichen und privaten Institutionen, um die verantwortungsvolle Nutzung von synthetischen Daten (SD) in Gesundheitsanwendungen zu erleichtern. Das Projekt wird die methodischen und technischen Aspekte der Generierung von SD durch die Entwicklung neuer und die Weiterentwicklung etablierter Techniken für verschiedene Datenmodalitäten, einschließlich Genomik und Bildgebung, verbessern, um die Generierung realistischer multimodaler und longitudinaler Daten zu verbessern.

Die offene SYNTHIA-Verbundplattform wird die verantwortungsvolle Nutzung von SD durch die Gesundheitsforschungsgemeinschaft erleichtern, insbesondere den langfristigen Zugang zu umfassend validierten, wiederverwendbaren synthetischen Datensätzen sowie zu SD-Workflows und SD-Bewertungsrahmen. Die multidisziplinäre Zusammenarbeit von SD-Entwicklern, FAIR-Datenexperten, klinischen Forschern, Entwicklern von Therapien und datenbasierten Werkzeugen, Rechtsexperten, sozioökonomischen Analysten, Regulierungsexperten, politischen Befürwortern und Kommunikationsexperten wird eine 360°-Sicht darauf bieten, wie Gesundheitsanwendungen durch die Nutzung von SD vorangebracht werden können.

Partner: Konsortium aus 43 akademischen, klinischen, pharmazeutischen, IT- und öffentlichen Partnern, einschließlich der Fraunhofer-Institute ITMP, SCAI und MEVIS.

Weiterführende Informationen

FAIRplus

Die riesigen Datenmengen, die in der biowissenschaftlichen Forschung entstehen, haben das Potenzial, unser Verständnis von Krankheiten zu verbessern und die Entwicklung von Medikamenten voranzutreiben. Doch die meisten Daten sind in proprietären Datenbanken versiegelt und in unterschiedlichen Formaten gespeichert. Ziel von FAIRplus ist es, Leitlinien und Werkzeuge bereitzustellen, die die Anwendung der FAIR-Prinzipien auf Daten aus bestimmten IMI-Projekten und auf Datensätze von Pharmaunternehmen erleichtern. FAIR steht für auffindbar (»Findable«), zugänglich (»Accessible«), interoperabel (»Interoperable«), wiederverwendbar (»Reusable«). Das Projekt wird es somit anderen Forschern erleichtern, die Daten zu finden und in ihre eigene Forschung zu integrieren. Das Projekt wird auch Schulungskurse für Datenwissenschaftler in Universitäten, kleinen und mittleren Unternehmen (KMU) und Pharmaunternehmen organisieren. Letztendlich hofft das Projekt, die Kultur des Datenmanagements in den Biowissenschaften zu verändern.

Weiterführende Informationen

Rischke S, Schäfer SMG, König A, Ickelsheimer T, Köhm M, Hahnefeld L, Zaliani A, Scholich K, Pinter A, Geisslinger G, Behrens F, Gurke R.
Metabolomic and lipidomic fingerprints in inflammatory skin diseases - Systemic illumination of atopic dermatitis, hidradenitis suppurativa and plaque psoriasis.
Clin Immunol. 2024 Aug;265:110305
doi: 10.1016/j.clim.2024.110305

Karki R, Gadiya Y, Gribbon P, Zaliani A.
Pharmacophore-Based Machine Learning Model To Predict Ligand Selectivity for E3 Ligase Binders.
ACS Omega. 2023 Aug 9;8(33):30177-30185
doi: 10.1021/acsomega.3c02803

Rocca-Serra P, Gu W, Ioannidis V, Abbassi-Daloii T, Capella-Gutierrez S, Chandramouliswaran I, Splendiani A, Burdett T, Giessmann RT, Henderson D, Batista D, Emam I, Gadiya Y, Giovanni L, Willighagen E, Evelo C, Gray AJG, Gribbon P, Juty N, Welter D, Quast K, Peeters P, Plasterer T, Wood C, van der Horst E, Reilly D, van Vlijmen H, Scollen S, Lister A, Thurston M, Granell R; FAIR Cookbook Contributors; Sansone SA
The FAIR Cookbook - the essential resource for and by FAIR doers.
Sci Data. 2023 May 19;10(1):292
doi: 10.1038/s41597-023-02166-3

Karki R, Gadiya Y, Zaliani A, Gribbon P.
Mpox Knowledge Graph: a comprehensive representation embedding chemical entities and associated biology of Mpox.
Bioinform Adv. 2023 Apr 3;3(1):vbad045
doi: 10.1093/bioadv/vbad045

Berg H, Wirtz Martin MA, Altincekic N, Alshamleh I, Kaur Bains J, Blechar J, Ceylan B, de Jesus V, Dhamotharan K, Fuks C, Gande SL, Hargittay B, Hohmann KF, Hutchison MT, Marianne Korn S, Krishnathas R, Kutz F, Linhard V, Matzel T, Meiser N, Niesteruk A, Pyper DJ, Schulte L, Trucks S, Azzaoui K, Blommers MJJ, Gadiya Y, Karki R, Zaliani A, Gribbon P, da Silva Almeida M, Dinis Anobom C, Bula AL, Bütikofer M, Putinhon Caruso Í, Caterina Felli I, Da Poian AT, Cardoso de Amorim G, Fourkiotis NK, Gallo A, Ghosh D, Gomes-Neto F, Gorbatyuk O, Hao B, Kurauskas V, Lecoq L, Li Y, Cunha Mebus-Antunes N, Mompeán M, Cristtina Neves-Martins T, Ninot-Pedrosa M, Pinheiro AS, Pontoriero L, Pustovalova Y, Riek R, Robertson AJ, Jose Abi Saad M, Treviño MÁ, Tsika AC, Almeida FCL, Bax A, Henzler-Wildman K, Hoch JC, Jaudzems K, Laurents DV, Orts J, Pierattelli R, Spyroulias GA, Duchardt-Ferner E, Ferner J, Fürtig B, Hengesbach M, Löhr F, Qureshi N, Richter C, Saxena K, Schlundt A, Sreeramulu S, Wacker A, Weigand JE, Wirmer-Bartoschek J, Wöhnert J, Schwalbe H.
Comprehensive Fragment Screening of the SARS-CoV-2 Proteome Explores Novel Chemical Space for Drug Development. Angew Chem Int Ed Engl. 2022 Nov 14;61(46):e202205858
doi: 10.1002/anie.202205858

Khorchani T, Gadiya Y, Witt G, Lanzillotta D, Claussen C, Zaliani A.
SASC: A simple approach to synthetic cohorts for generating longitudinal observational patient cohorts from COVID-19 clinical data.
Patterns (N Y). 2022 Apr 8;3(4):100453
doi: 10.1016/j.patter.2022.100453