Forschergeist
Horizonte für Bildung und Forschung
https://forschergeist.de


FG095 Federated Secure Computing

Offene Software-Werkzeuge zur Forschung an privaten Daten ohne Aufgabe der Privatsphäre

Medizinische Erkenntnis durch Auswertung von Patientendaten aus verschiedenen Quellen – oder Schutz sensibler, persönlicher Informationen vor Weitergabe an Dritte: Das sind zwei berechtigte Anliegen, die meist nur schwer unter einen Hut zu bekommen sind. Der Weg, alle relevanten Daten in einen Topf zu werfen und auszuwerten, ist oft aus rechtlichen Gründen verbaut.

Doch es gibt eine Alternative, die den Konflikt zwischen Kollaboration und Datenschutz auflösen kann. Das Federated Secure Computing genannte Verfahren setzt darauf, dass die Daten quasi ihren Heimathafen gar nicht verlassen. Wenn etwa mehrere Forschungseinrichtungen ihre jeweiligen Datenbestände analysieren, tun sie das für sich parallel auf dieselbe Methode und führen dann ihre Ergebnisse zusammen. Das ist kryptografisch abgesichert, so dass sich keine Rückschlüsse auf einzelne Originaldaten ziehen lassen. Und die Resultate sind im Endeffekt genauso gut wie bei einer gemeinsamen Datenbasis.

Hendrik Ballhausen von der Ludwig-Maximilians-Universität München ist einer der Köpfe dieses innovativen Projekts, das vom Stifterverband im Rahmen der Initiative „Wirkung hoch 100“ gefördert wird. Die zugrunde liegenden mathematischen Verfahren gibt es schon seit den 1970er-Jahren. Neu ist der Open-Source-Ansatz, dieses verteilte Rechnen in schlanke, effiziente Anwendungen zu verpacken, um zum Beispiel Korrelationen in Daten zu erkennen. Dies nutzt nicht nur der medizinischen Forschung, sondern könnte etwa auch in der Wirtschaft zur Erstellung von Branchen-Benchmarks dienen – wenn Unternehmen, die miteinander im Wettbewerb stehen, ihre Daten einfließen lassen, ohne sie aus der Hand zu geben.

https://forschergeist.de/podcast/fg095-federated-secure-computing/
Veröffentlicht am: 21. Juni 2022
Dauer: 1:18:34


Kapitel

  1. Intro 00:00:00.000
  2. Begrüßung 00:00:42.244
  3. Persönlicher Hintergrund 00:01:30.915
  4. Digitale Transformation in der Medizin 00:08:16.515
  5. Medizinische Daten 00:12:36.197
  6. Daten und Corona-Krise 00:14:50.284
  7. Datenorganisation und Privatsphäre 00:22:13.545
  8. Federated Secure Computing 00:36:27.463
  9. Technologie 00:46:23.823
  10. Zielgruppen des Projekts 00:55:41.291
  11. Beispiele und rechtliche Aspekte 00:59:39.198
  12. Projektstart 01:14:25.719
  13. Ausklang 01:17:11.229

Transkript

Tim Pritlove
0:00:43
Hendrik Ballhausen
0:01:25
Tim Pritlove
0:01:27
Hendrik Ballhausen
0:01:40
Tim Pritlove
0:01:42
Hendrik Ballhausen
0:01:43
Tim Pritlove
0:01:50
Hendrik Ballhausen
0:01:57
Tim Pritlove
0:02:15
Hendrik Ballhausen
0:02:18
Tim Pritlove
0:02:19
Hendrik Ballhausen
0:02:20
Tim Pritlove
0:02:22
Hendrik Ballhausen
0:02:33
Tim Pritlove
0:02:56
Hendrik Ballhausen
0:02:58
Tim Pritlove
0:03:30
Hendrik Ballhausen
0:03:34
Tim Pritlove
0:04:25
Hendrik Ballhausen
0:04:26
Tim Pritlove
0:04:49
Hendrik Ballhausen
0:04:51
Tim Pritlove
0:04:52
Hendrik Ballhausen
0:04:53
Tim Pritlove
0:04:56
Hendrik Ballhausen
0:04:59
Tim Pritlove
0:05:05
Hendrik Ballhausen
0:05:07
Tim Pritlove
0:05:13
Hendrik Ballhausen
0:05:15
Tim Pritlove
0:05:44
Hendrik Ballhausen
0:05:49
Tim Pritlove
0:06:39
Hendrik Ballhausen
0:06:40
Tim Pritlove
0:07:03
Hendrik Ballhausen
0:07:07
Tim Pritlove
0:07:41
Hendrik Ballhausen
0:07:41
Tim Pritlove
0:07:43
Hendrik Ballhausen
0:07:46
Tim Pritlove
0:07:52
Hendrik Ballhausen
0:08:05
Tim Pritlove
0:08:15
Hendrik Ballhausen
0:08:22

Ja.

Tim Pritlove
0:08:24
Hendrik Ballhausen
0:08:26
Tim Pritlove
0:08:54
Hendrik Ballhausen
0:09:22
Tim Pritlove
0:10:03
Hendrik Ballhausen
0:10:31

Ja, auf der einen Seite die eigene Forschung, also das habe ich dann halt doch nicht ganz sein lassen, so wie die Kollegen halt bis abends ihre PatientInnen haben, habe ich halt bis abends meine Aktenmappen und nach Feierabend geht es dann ans Paperschreiben. Und auf der anderen Seite aber eben auch dadurch, dass ich mich für die Fakultät um diese Thema, man darf ja nicht Digitalisierung sagen, man muss ja digitale Transformation sagen, dass ich mich darum kümmern sollte und dann merkt man ja relativ schnell, dass es schon unheimlich viel gibt und man merkt auf der anderen Seite, dass es halt noch so ein paar Themen gibt, die wenig beachtet werden. Und was halt total, wo es total viel schon gibt, das ist halt alles, was irgendwie in die Richtung geht, Daten sammeln und Daten verarbeiten im weitesten Sinne. Das machen ja die Leute auch schon wirklich, wirklich lange. Und da, wo es halt jetzt gerade groß das Thema für alle ist, was jetzt neu kommt, das ist halt künstliche Intelligenz, das ist maschinelles Lernen. Und das, was noch gar nicht so da ist, das sind die Ansätze, die fragen, ja, wie wollen wir denn eigentlich mit den Daten wirklich umgehen? Wollen wir möglichst große Datensammlungen anlegen, wem gehören die Daten? Früher war völlig klar, die Daten, die gesammelt, erhoben werden, die gehören dem Arzt, die gehören dem Universitätsklinikum. Nur irgendwann später kam dann sozusagen, ja wir sollten den Patienten zumindest um Consent bitten, um Zustimmung bitten, dass uns diese Daten gehören dürfen. Ja und heute fängt man so langsam an zu fragen, gehören die Daten vielleicht eigentlich der Patientin zunächst mal, bevor der sie hergibt oder bevor sie sie vielleicht auch gar nicht hergeben möchte? Und die spannende Frage dann eigentlich ist auch, wer behält die Hoheit über diese Daten? Wer muss auch später noch irgendeiner Verwendung zustimmen?

Tim Pritlove
0:12:34
Hendrik Ballhausen
0:12:47

Ja, also in der Medizin ist das eigentlich immer ganz ähnlich. Das sind zunächst mal Daten, die die Patientinnen und Patienten beschreiben. Die Demographics. Also wie alt ist derjenige, wo kommt der her, körperliche Eigenschaften, von Größe über Gewicht, Geschlecht, etc. pp., Herkunft. Dann sind das Daten, die das akute Ereignis betreffen, also warum ist diejenige oder derjenige jetzt im Krankenhaus? Was hat der, Diagnosen. Und dann natürlich am Ende Aufzeichnungen über die Behandlung. Man möchte ja auch letztlich lernen, ein lernendes System haben, welche Therapieentscheidungen sind die richtigen. Und dann die berühmten Endpunkte. Wird der Tumor geheilt, gibt es eine Metastase, wird der Patient entlassen, kommt der wieder nach einer Woche? Das sind dann sozusagen die spannenden Endpunkte, auf die dann auch die meisten klinischen Studien gemünzt sind. Und man muss sagen, dass im Bereich der Medizin das formalisierte Format das sind die klinischen Studien. Das sind auch, sagen wir mal, die hochwertigen Daten, die unter wissenschaftlich strengen Gesichtspunkten gesammelt werden, wo die Fragestellung im Vorhinein festgelegt ist, die Endpunkte im Vorhinein festgelegt wird, wo man dann möglichst wenig „schummeln“ kann. Denn dieses explorative Suchen in großen Datenmengen, was ja beispielsweise heutzutage in der Wirtschaft sehr gern gemacht wird, ob es jetzt um online-Marketing geht oder wenn Salesforce analysiert, was sind gute Abläufe im Unternehmen, da wird ja zunächst mal in großen Datenmengen einfach gesucht, finden wir irgendein Muster. Und in der Medizin sind wir meisten oder sollten wir strenger sein und sollten eigentlich mit einer wissenschaftlichen Forschungsfrage rangehen und dann schauen, ob wir die tatsächlich in einer idealerweise doppelt verblindeten Studie oder wie auch immer verifizieren können.

Tim Pritlove
0:14:48

An der Stelle vielleicht kurze Anmerkung, Forschergeist Nummer 56 mit dem passenden Titel, die digitale Medizin, da hatte ich mich mit Sebastian Kuhn unterhalten, der ja im Prinzip auch genau das beklagt hat, dass eigentlich sehr viele Daten da sind so oder sehr viele Daten sich im Prinzip anbieten und dass es jetzt eigentlich der nächste Schritt für die Medizin sein müsste, mit denen halt irgendetwas anzufangen, einerseits, andererseits natürlich auch Apps, zum Beispiel zur, ja gar nicht mal nur zur Diagnose, aber auch zur Diagnose oder eben auch tatsächlich zur Behandlung für bestimmte Fälle oder als Therapiemaßnahme mit einzubringen, da haben wir eine relativ breiten Bogen gespannt. Jetzt ist natürlich klar, okay das Datenmaterial ist da, es ist, sagen wir mal, ganz klar das klassischen personenbezogene Datum, was man hier vorfindet. Und ich würde meinen, in der Wahrnehmung der Leute ist es so für sie so mit das persönlichste in gewisser Hinsicht. Also auch so gefühlt sind das Daten, die einem sehr nahe sind, im wahrsten Sinne des Wortes natürlich, wenn es um den eigenen Körper, die eigene Gesundheit geht, so dass große Vorbehalte existieren in diesem ganzen Bereich. Und man sieht ja auch, dass die ganzen Digitalisierungsmaßnahmen, die im Gesundheitssystem bisher vorgenommen wurden, nicht sonderlich erfolgreich waren. Also wir haben sehr schön gesehen jetzt in der Corona-Krise, wieviele Informationen nicht vorhanden sind. Man weiß nicht, wie sind die Leute geimpft, man hat keine große Erkenntnis über die Symptome etc.. Also nicht überall, aber an vielen Stellen hätte man sich ja quasi mehr gewünscht, als letztlich da war.

Hendrik Ballhausen
0:16:49

Ja, also ich glaube, das muss man wirklich differenziert sehen. Es ist richtig, dass man häufig sich wünscht, dass mehr ginge, aber es ist natürlich auch immer die Frage, zu welchem Preis? Die Corona-Krise ist ein Beispiel, wo man natürlich sich aufgeregt hat, dass vielleicht irgendwelche Gesundheitsämter Daten jetzt nicht ideal austauschen konnten, aber es ist zugleich auch ein Paradebeispiel für etwas, was sehr gut funktioniert hat. Beispielsweise diese Corona Warn App, die war ja ein Beispiel, dass jetzt Millionen Menschen in sehr sehr kurzer Zeit sich verschaltet haben und sich gegenseitig in einem, übrigens auch dezentralen Ansatz, gewandt haben. Ein anderes Beispiel, was jetzt in der Öffentlichkeit sicherlich nicht so wahrgenommen wurde, war, dass auch in dem sogenannten Netzwerk Universitätsmedizin, das ist also ein Netzwerk, das binnen, eigentlich man muss sagen, Tagen und Wochen nach Beginn der Krise aufgesetzt wurde, wo alle deutschen Universitätskliniker zusammenarbeiten, auch Datenplattformen geschaffen wurden, dass die wirklich universitätsmedizinischen Daten sehr viel besser, sehr viel schneller als zuvor ausgetauscht werden konnten. Also da ist auch wirklich viel geschehen, was man vielleicht von außen nicht sieht und dass wir nach letztlich einem Jahr eines völlig neuen Krankheitsbildes nicht nur zur Diagnostik, wir hatten ja ganz schnell auch Schnelltests, auch zuverlässige PCR-Tests, und dass dann nach einem Jahr im Prinzip eine Prophylaxe zur Verfügung stand und auch Therapieansätze, wenn man mal andere Erkrankungen sich anguckt, das war ja eigentlich jetzt bei aller Kritik, weil uns das alle sehr betroffen hat, das war ja eigentlich auch eine totale Erfolgsgeschichte.

Tim Pritlove
0:18:44
Hendrik Ballhausen
0:19:24

Also du hast ja eingangs auch ganz richtige Sachen gesagt. Also Gesundheitsdaten genießen ja auch vor dem Gesetz einen besonderen Schutzstatus. Du hast gesagt, das sind mit die sensibelsten Daten, die es gibt, das ist richtig. Zusammen beispielsweise mit jetzt Daten zum Beispiel über die sexuelle Orientierung, gehören die zum privatesten, was wir haben. Andererseits beobachtet man da natürlich auch eigentlich eine große Divergenz zwischen dem, was die Gesellschaft für wichtig hält und was der einzelne für wichtig hält. Interessanterweise, wenn man mit einzelnen Menschen spricht, dann haben die in der Regel oft gar keine große Scheu, ihre Daten zu teilen, wenn man ihnen richtig erklärt, wofür die da sind und ihnen auch erklärt, was mit den Daten geschehen wird. Häufig sind diese Daten ja auch dann interessant, gerade wenn sie über eine größere Menge von Menschen erhoben werden, und zumindest dann, wenn sie anonymisiert werden können und nur eigentlich in aggregierter Form, das heißt, dass man jetzt Summen bildet, dass man nicht über den Einzelnen mehr Datensätze hat, sondern dass man nur sagen kann, so und so viele Menschen in Summe haben jetzt dieses Merkmal. Dann wird das Problem auch sehr viel kleiner sehr schnell. Andererseits und das ist ja auch das Paradoxe, an anderer Stelle geben wir diese Daten ja sehr viel bereitwilliger her. Du hast Apps erwähnt, was unsere Smartphones über uns an Bewegungsprofilen, auch Sozialprofilen, ökonomischen Profilen sammeln, indem wir einfach nur wischen und uns gar nicht durchlesen, zu was wir da zustimmen, das ist Größenordnungen mehr als das, was sozusagen nach schriftlicher Information und Unterschrift in einem Universitätsklinikum vielleicht über mich gesammelt wird. Und vor allen Dingen natürlich auch mit einem ganz anderen Interesse gesammelt und verarbeitet wird für mich, nicht gegen mich. Muss man ganz klar sagen, da kommt jetzt der Ökonom in mir durch, je mehr ich über meinen Konsumenten weiß, desto mehr kann ich ihm sozusagen, desto näher komme ich an seinen Reservationspreis ran, desto mehr Wohlfahrt kann ich ihm wegnehmen. Das ist ja oft, dass wir heutzutage beobachten, wenn wir irgendwas kaufen, dass wir uns gar nicht mehr freuen, weil das Unternehmen so geschickt war, den Preis oder die Qualität der Ware so zu setzen, dass wir gerade noch bereit sind, das zu kaufen. Und gar nicht das Gefühl haben, wir hätten jetzt irgendwie ein riesengroßen Schritt nach vorne gemacht. Und das ist in der Medizin, muss man sagen, halt wirklich anders. Zumindest in der universitären Medizin, das sind ja öffentlich-rechtliche Einrichtungen, die keinen Profit machen, die haben in der Regeln wirklich ein wissenschaftliches Interesse. Und da das die Forschenden zum großen Teil auch Ärztinnen und Ärzte sind, die haben zuallermeist auch wirklich ein Interesse, dem Patienten, der Patientin zu nutzen.

Tim Pritlove
0:22:13
Hendrik Ballhausen
0:22:31
Tim Pritlove
0:23:50
Hendrik Ballhausen
0:24:02

Ja, also ein Klassiker ist, Klinikum A hat eine klinische Studie gemacht, die haben written informe consent von ihren Patienten, dass sie das auch auswerten dürfen, Klinikum B hat die gleiche Studie gemacht und die merken eigentlich, sie könnten viel granularer auswerten, wenn sie jetzt die Daten gegenseitig sich zeigen könnten, dürfen sie aber nicht. Das sind, die Daten müssen in Gewahrsam des Klinikums bleiben, bzw. da sind dann oft auch, sobald eine Landesgrenze in Deutschland dazwischenkommt, da sind noch mal andere Datenschutzgesetze, das sind andere Ethikkommissionen, und das wird dann sehr schwierig, und der einfache Weg ist dann, dass man dann eine Metaanalyse macht, das heißt, man nimmt sozusagen die Summe der Erkenntnisse der einen Studie und die Summe der Erkenntnisse der anderen Studie und versucht, die irgendwie zu verheiraten, aber das ist halt nicht so einfach und das ist halt auch nicht so gut, was heißt so gut, man kann oft nicht genau so viel ableiten, wie man mit den Rohdaten beider Studien addieren könnte. Das ist ein Beispiel für, um jetzt mal einen Fachausdruck zu bringen, eine sogenannte horizontale Partitionierung, also jeder hat die gleichen Daten, aber in Summe hat man mehr davon. Dann gibt es noch ein anderes Problem, das ist eigentlich viel größer, das ist die vertikale Partitionierung, das ist, wenn der eine die einen Daten hat und der andere hat die anderen Daten, also über die gleichen Leute. Beispielsweise der eine weiß, sind das Frauen oder Männer und der andere weiß, sind das Raucher oder Nichtraucher. Nichtraucherinnen und Raucherinnen. Und das wird dann schon sehr viel schwieriger, weil man kann sich überlegen, da kann man eben nicht mehr erst summieren und dann austauschen, sondern da muss man eigentlich über den einzelnen Patienten, die einzelne Patientin wissen, ist das eine Frau, ist das ein Mann, ist das ein Raucher, eine Nichtraucherin. Und dafür gibt es Verfahren, auch mathematische Verfahren, kryptografische Verfahren, aber es ist halt immer sehr sehr viel schwieriger, als die Daten in einen großen Topf zu werfen. Und deswegen kann man auch verstehen, dass der allererste Reflex, der allererste Impuls, was die Leute auch können, ist, große Datentöpfe, große Datalags, große Datensilos zu schaffen und die Juristen dann zu beschäftigen, dass die einen entsprechenden Rahmenvertrag dann darum bauen. Und so funktioniert es da zurzeit und man muss sagen, ja auch gar nicht unerfolgreich. Also es gibt ja in Deutschland die große Medizininformatikinitiative, die sich genau mit dem Thema beschäftigt, wie können wir Daten austauschen, wie können wir Daten auch harmonisieren, wie schaffen wir es, das ist ja die eigentliche digitale Transformation, wie schaffen wir es, dass an den Standorten nicht nur Daten zur Verfügung stehen, sondern eben auch strukturierte Daten.

Tim Pritlove
0:26:38
Hendrik Ballhausen
0:26:42
Tim Pritlove
0:27:54
Hendrik Ballhausen
0:27:57
Tim Pritlove
0:28:29
Hendrik Ballhausen
0:28:47
Tim Pritlove
0:29:06
Hendrik Ballhausen
0:29:25

/lacht/ Naja, manche Länder, UK, Dänemark, glaube ich, die gehen ja durchaus diese Richtung, dass die wirklich große nationale Datenbanken haben, die haben natürlich wieder andere Nachteile. Es gibt, je größer die Datenbank ist, desto größer ist natürlich auch die Zielscheibe, die man drauf malt, für beispielsweise irgendwelche Hackerangriffe, das ist natürlich immer alles im Vorwege total abgesichert, aber wie man auch an der Gesundheitskarte und anderen Systemen sieht, je größer so ein System wird, desto mehr Akteure gibt es, die in irgendeiner Form involviert sind, desto mehr Schnittstellen gibt es und desto größer wird letztlich auch die Angriffsfläche. Und insofern würde ich sagen, jain, vielleicht skaliert das in der Medizin sogar, die Frage ist, gibt es andere Ansätze, die vielleicht in den moderneren demokratischeren auch Prozess hinweisen. Du hast die Apps erwähnt, ja das wäre vielleicht auch noch mal meine Antwort auf, wem gehören die Patienten? Heutzutage, wenn die Daten am Universitätsklinikum entstehen und wir wollen ja zum Beispiel auch zunehmend an die Daten, die beispielsweise bei den Niedergelassenen entstehen, das ist ja auch ein riesiger Datenschatz, der noch in keiner Weise irgendwie gehoben ist. Und weil mal ehrlich gesagt, die Universitätskliniker sehen ja oft auch die Sonderfälle. Aber der Niedergelassene der sieht eigentlich das, was die Bevölkerung wirklich auch viel betrifft. Und du hast die Apps erwähnt, ja, und in Zukunft tragen die Leute halt die Apps bei sich und dann werden wir als Universitätsmedizin eines Tages wirklich die Leute bitten müssen, darf ich die Daten aus deiner App haben? Es ist noch nicht mal so, dass wir fragen müssen, dürfen wir die Daten, die wir von dir haben, verwenden, sondern, wirst du uns wirklich deine Daten geben? Und da kann man sich natürlich überlegen, wenn man ohnehin diesen Schritt vor sich hat, dass man auf dezentrale Daten zugreifen muss, können wir dann vielleicht heute schon lernen, auch auf dezentralen Daten zu rechnen, dass wir die gar nicht mehr austauschen müssen?

Tim Pritlove
0:31:31
Hendrik Ballhausen
0:32:37
Tim Pritlove
0:33:13
Hendrik Ballhausen
0:33:15
Tim Pritlove
0:33:16
Hendrik Ballhausen
0:33:20
Tim Pritlove
0:33:21
Hendrik Ballhausen
0:34:11
Tim Pritlove
0:34:22
Hendrik Ballhausen
0:34:25
Tim Pritlove
0:34:28
Hendrik Ballhausen
0:34:31

Ja.

Tim Pritlove
0:34:32
Hendrik Ballhausen
0:34:41
Tim Pritlove
0:36:21
Hendrik Ballhausen
0:36:24
Tim Pritlove
0:36:25
Hendrik Ballhausen
0:37:29
Tim Pritlove
0:38:52
Hendrik Ballhausen
0:39:44
Tim Pritlove
0:40:24
Hendrik Ballhausen
0:41:18
Tim Pritlove
0:41:20
Hendrik Ballhausen
0:41:42
Tim Pritlove
0:42:18
Hendrik Ballhausen
0:42:26
Tim Pritlove
0:42:28
Hendrik Ballhausen
0:42:46
Tim Pritlove
0:43:33
Hendrik Ballhausen
0:43:50

Richtig, ja. Also ein anderes Verfahren, was da oft als der Goldstandard auch bezeichnet wird, das ist Secure Multiparty Computation. Also sicheres Rechnen von verschiedenen Parteien. Und wir haben in 2019 einen Pilotversuch gemacht, wo wir Patientendaten der LMU und der Charité in Berlin, also auch über Landesgrenzen hinweg, das waren Glioblastomdaten(?), also Daten von Krebspatientinnen und Krebspatienten, miteinander verrechnet haben, ohne die auszutauschen. Und das hat eigentlich super funktioniert. Das Problem dabei war, es waren damit vier Monate lang die Leute beschäftigt. Also wir hatten einen Expertenprogrammierer von der TU, der das für uns programmiert hat, der ist inzwischen auch beim Bundesamt für Sicherheit in der Informationstechnik, weil solche Leute sind immer sofort weg, die so was können. Wir hatten jeweils einen Systemadministrator an der Charité und an der LMU, wir hatten zwei große schwere Server und am Ende lief das und es lief mühsam und wenn man jetzt eine andere Analyse hätte machen wollen, dann hätte man eigentlich sozusagen wieder bei null anfangen müssen. Und in dem Moment ist uns dann auch klargeworden, das ist nicht so einfach, so problemlos, vor allen Dingen sind wir dann losgezogen und haben versucht, Leuten das zu verkaufen, also jetzt nicht als Produkt zu verkaufen, sondern Manager auch in anderen Unternehmen von dieser Idee zu überzeugen. Weil in der Industrie hat man das viel häufiger, dass man sich Daten gar nicht zeigen kann, weil es Geschäftsgeheimnisse sind, also selbst wenn man wollte. Und wir haben eigentlich immer dieselbe Antwort bekommen. Der Chef der fand das eigentlich immer super, der hat das gesehen, der hat das grundsätzliche Problem gesehen, Datenschutz versus Kollaboration. Der Chief Technology Officer, der fand das eigentlich auch immer super, der hat gesagt, hier ist unser Alleinstellungsmerkmal und neue Technologie und klasse und wollen wir mal ausprobieren und dann kam der CIO der Chief Information Officer und das waren immer die Jungs, die gesagt haben, um Gottes Willen bitte nicht. Wir haben die Skills nicht, wir haben die Leute nicht, wir verstehen das nicht, wir wollen das nicht, wir haben so was noch nie gemacht. Und die hatten dann natürlich auch die Datenschützer im Schlepptau, die auch gesagt haben, ja ist toll, aber wir verstehen das eigentlich nicht, wir haben Angst, das zu unterschreiben. Und so Datensammeln das verstehen wir, das können wir unterschreiben, da verstehen wir das Risiko, da verstehen wir die Haftung. Aber ihr bringt da so ein virtuelles Netzwerk, wo eigentlich völlig unklar ist am Ende, wer hat eigentlich die Daten, wo sind denn die, wer verarbeitet denn da eigentlich was? Das wollen wir nicht, das können wir nicht.

Tim Pritlove
0:46:23
Hendrik Ballhausen
0:46:53
Tim Pritlove
0:46:58
Hendrik Ballhausen
0:46:59

Aber dann wären wir schon im algorithmischen Bereich. Also wenn du zwei plus zwei rechnen willst, ist es schwierig, weil sobald, also nehmen wir mal an, die zwei kommt von dir und die andere zwei kommt von mir, und wir beide rechnen gemeinsam aus, dass das vier ist, dann weißt du hinterher, was meine Zahl war. Das funktioniert nicht. Aber wenn wir jetzt hier noch jemanden drittes am Tisch sitzen hätten und wir alle drei hätten eine Zahl im Kopf und wir wollen die Summe von diesen drei Zahlen wissen, das ginge. Und das würde so funktionieren, dass ich einen Würfel werfe. Ich würfle eine Zahl und diese Zahl die ziehe ich von meiner geheimen Zahl im Kopf ab und ich sage dir aber, was ich gewürfelt habe, das darf die dritte Person nicht wissen und du addierst das bei deiner Zahl in deinem Kopf hinzu. Dann kannst du dir vorstellen, ich habe es abgezogen, du hast es dazuaddiert dieses Würfelergebnis, da hat sich die Gesamtsumme im System nicht verändert, aber dass ich dir eine gewürfelte Zahl genannt habe, hat dir auch keine Information verraten, weil das war ja eine zufällige Zahl. Und dasselbe machst du mit der dritten Person, du würfelst ihr also auch was zu und ihr addiert und ihr subtrahiert und dann machen wir das noch ein drittes Mal im Kreis und dann kannst du dir überlegen, wenn du das jetzt auf Papier als Formeln hinschreiben würdest, dass wir hinterher alle eine neue Zahl im Kopf haben, die wir uns verraten können, weil da ist jetzt genügend Zufall, genügend Unsicherheit drin, dass wir am Ende immer noch auf dieselbe Summe kommen, also das richtige Ergebnis, aber keiner von uns weiß, welche Zahlen die anderen beiden im Kopf hatten. Da müssten sich jetzt zwei von uns zusammentun gegen den dritten, dann könnten wir es wieder ausrechnen. Das nur mal so ein ganz einfaches Beispiel für eine Summenberechnung, weil du das Beispiel gebracht hast, auf sichere Art und Weise.

Tim Pritlove
0:48:43
Hendrik Ballhausen
0:48:45
Tim Pritlove
0:48:53
Hendrik Ballhausen
0:48:58
Tim Pritlove
0:49:28
Hendrik Ballhausen
0:49:33
Tim Pritlove
0:49:34
Hendrik Ballhausen
0:49:37
Tim Pritlove
0:49:54
Hendrik Ballhausen
0:50:07
Tim Pritlove
0:51:11
Hendrik Ballhausen
0:51:20

Das ist, ja, wie soll man sagen, der Pyrrhussieg des Secure Multiparty Computation. Es hat irgendwann mal jemand mathematisch bewiesen, dass man tatsächlich jede Funktion auf sichere Weise berechnen kann. Das heißt, zumindest theoretisch könnten wir alles, was wir berechnen können, indem wir die Daten zusammenschmeißen, auch berechnen, indem wir die Daten lokal lassen. Du hast aber nach der Komplexität gefragt. Und das wissen die Leute, die sich mal so ein bisschen mit Computern und Algorithmen beschäftigt haben, spannend ist ja immer auch, wie lange laufen die Algorithmen? Ist das jetzt auch in realistischer Zeit, ist das mit realistischem Speicher zu lösen? Und da muss man sagen, da ist jetzt ein großes Problem, dass beispielsweise, wenn wir uns Bitcoin anschauen, wenn wir uns die Blockchain anschauen, das ist eigentlich so das Gegenbeispiel, bei Blockchain geht es eigentlich um Nichtverfälschbarkeit und Nachvollziehbarkeit, ist aber auch ein dezentraler Ansatz. Bei uns geht es eben darum, auch dezentral, aber eben nicht nachvollziehbar, nicht transparent. Trotzdem sind die Algorithmen, die dahinterstehen, oft sehr ähnlich und wie wir wissen von der Blockchain und von Bitcoin, solange das so ein Proof of work Sceem(?) ist, dann wird da sehr viel Energie verbraten. Und das ist bei einigen dieser Verfahren hier auch. Und insbesondere bei diesen Verfahren, die jetzt universell sein wollen, also womit man jedes Problem lösen kann, die sind extremst rechenaufwendig. Das ist in der Praxis kein Problem, also wir reden jetzt nicht darüber, dass Hochleistungsrechner ein Jahr arbeiten oder so. Sondern wir reden vielleicht darüber, dass die ein paar Minuten rechnen. Aber die rechnen halt da ein paar Sekunden oder ein paar Minuten, wo normalerweise der Rechner in einer Milliardstel Sekunde eine Summe gebildet hätte. Das heißt, schon ein millionen-, milliardenfacher Mehraufwand. Und deswegen wissen wir oft gar nicht, ob wir uns jetzt wünschen sollen, dass unsere Verfahren so weit Anwendung finden, denn wenn jetzt irgendwann wirklich Millionen, Milliarden Menschen das verwenden würden, und das wirklich global skaliert, dann hätten wir tatsächlich dasselbe Problem wie bei Bitcoin, dass wir wirklich also Energiemengen von kleinen Staaten verwenden.

Tim Pritlove
0:53:28
Hendrik Ballhausen
0:53:33
Tim Pritlove
0:53:34
Hendrik Ballhausen
0:53:41
Tim Pritlove
0:53:50
Hendrik Ballhausen
0:54:25

Ja.

Tim Pritlove
0:54:26
Hendrik Ballhausen
0:54:29
Tim Pritlove
0:55:39
Hendrik Ballhausen
0:56:38
Tim Pritlove
0:57:13
Hendrik Ballhausen
0:57:15
Tim Pritlove
0:58:36
Hendrik Ballhausen
0:58:39
Tim Pritlove
0:59:38
Hendrik Ballhausen
0:59:46

Ich bringe gerne mal so ein, zwei Beispiele, die wir auch mal gebrainstormt haben, ohne jetzt irgendwie einen konkreten Interessenten zu benennen. Man könnte sich überlegen, dass überall im Vertrieb, da gibt es häufig Vertriebe, dass die Vertriebler Selbständige sind. Das heißt, es gibt irgendwo einen großen Konzern und der hat ein Heer von Vertrieblern und die sind aber eigentlich im Prinzip alles kleine Konkurrenten untereinander. Jeder Vertriebler möchte gerne selber das neue Geschäft machen. Andererseits würden diese Vertriebler unglaublich gerne voneinander lernen, was ist eigentlich die best practice, wie machen das die anderen? Wollen sich aber gegenseitig natürlich nicht die Daten zeigen lassen. Also wieviele Minuten verbringe ich mit einem Kunden? Wieviele Verträge schreibe ich pro Zeit? Diese typischen Key Performance Indicators, wo normalerweise ein Unternehmensberater für viel Geld käme, mit denen allen einzeln spricht und dann hinterher eine Präsentation für den Vorstand macht. Das könnten diese Vertriebler jetzt auch untereinander machen, ohne eine dritte Partei zu brauchen. Und man könnte Branchenbenchmarks machen, also ein Branchenverband könnte sagen, wir wollen, auch ohne dass unsere Unternehmen, vielleicht sind es kleine Mittelständler, ohne dass die jetzt einen teuren Berater einkaufen müssen, dass die sich einfach austauschen können. Und da kann man natürlich jetzt so etwas schillerndere Beispiele bringen, dass natürlich auch so Apps wie Tinder eigentlich letztlich nichts anderes sind, als Leute dezentral irgendwie zusammenzubringen, ohne dass man sich jetzt der Peinlichkeit preisgibt, sich gegenseitig zu verraten, wen man toll findet. Also die Welt ist unglaublich weit.

Tim Pritlove
1:01:16
Hendrik Ballhausen
1:01:48

Wenn man so ein Projekt aufzieht, dann sollte man das Stichwort Krypto besser nicht auf der Webseite haben, sonst ist man schon mal falsch einsortiert. Wenn man Kryptographie sagt, ist es schon etwas besser. Wir sprechen eigentlich von verteiltem Rechnen und erklären den Leuten dann was wir meinen. Was natürlich auch Vertrauen schafft ist, dass wir alles OpenSource haben. Also es gibt nichts, was jetzt nur wir haben, was jemand anderes nicht hätte, der das verwenden möchte, der Code ist online, der Code ist public, der Code ist free. Es ist auch nicht so, die erste Frage, die immer kommt, müssen wir unsere Daten dann auf eure Server? Nein, wir haben noch nicht mal Server. Wir haben jetzt schon Server, aber das sind Testserver und die stellen wir kostenlos zur Verfügung und wir schreiben in die Nutzungsrichtlinien, dass natürlich niemand irgendwelche sensitiven Daten hochladen kann. Und das schafft natürlich Vertrauen. Weiter Vertrauen schafft, dass wir öffentlich-rechtlich sind und öffentlich-rechtlich finanziert sind. Wir machen keinen Profit damit. Wir haben keine Daten, wir verarbeiten keine Daten. Und wenn man dann mit den Leuten ins Gespräch kommt und insbesondere auch den Datenschützern das erklärt, dann verstehen die das in der Regel schon. Es ist allerdings natürlich wie gesagt es ist für jeden, der da irgendwie mitmacht, es ist immer eine Abkehr vom Bisherigen. Und auch für den Datenschützer, der jetzt völlig neu bewerten muss, nicht ob er etwas darf, das muss er nach wie vor bewerten, sondern auch ob er etwas kann, ob das Verfahren etwas kann, was das Verfahren verspricht. Und das sind ja oft mathematische Beweise der Sicherheit. Und andererseits man muss auch sagen, wir trauen ja auch proprietärer Software. Wir vertrauen ja proprietären Anbietern an anderer Stelle viel viel viel mehr und nutzen deren Systeme, ohne diese Frage überhaupt zu stellen. Aber sobald jemand kommt und sagt, wir machen das jetzt auf sichere Art und Weise, dann werden die Leute eigentlich erst hellhörig und fragen nach. Aber ich glaube, wir können das sehr gut erklären.

Tim Pritlove
1:03:51
Hendrik Ballhausen
1:05:02

Also zunächst mal wird diese Initiative auch anwaltlich begleitet. Also wir haben da einen Anwalt, der sich da in dieses Thema sehr tief eingearbeitet hat. Du hast natürlich richtig gesagt, es ist noch nicht vor Gericht gewesen. Also es gibt meines Wissens ein einziges EuGH-Urteil zu der Sache, da ging es um, aber jetzt nicht aus Deutschland, sondern, ich glaube, es war Estland, die da sehr viel weiter im, wie nennt man das, E-Government sind, das heißt, dass die Bürger digital ihre Verwaltungsakte nutzen können. Und es hat halt noch nie ein BGH geurteilt, es hat noch nie vor dem Deutschen Amtsgericht eine Zivilklage gegeben, weil einer vom anderen was wollte daraus. Insofern das einzige, was es gibt, sin anwaltliche Gutachten und die sagen eigentlich so grundsätzlich, also der Grundtenor ist, es ist eine Verbesserung gegenüber dem Status quo datenschutzrechtlich, aber die Akteure sind meistens noch in derselben Verantwortung, die sie ohne diese Verfahren hätten. Das heißt, wo früher ein Kooperationsvertrag geschlossen werden musste, muss auch heute noch ein Kooperationsvertrag geschlossen werden. Wo man früher Terminus Technicus von einer gemeinsamen Datenverarbeitung in gemeinsamer Verantwortung gesprochen hätte, würde man auch heute noch davon sprechen, auch ohne dass die Leute gegenseitig ihre Daten sehen. Jetzt hast du nach dem Startup gefragt. Startups scheinen das Problem irgendwie weniger zu haben, die sind meistens sehr risikoaffig. Also ein Startup, das jetzt wegen einem Datenschutzskandal pleite geht, das gibt es schon, das gibt es aber auch ohne unsere Verfahren, das gibt es dann vielleicht mit unseren Verfahren ein bisschen seltener. Und der Branchenverband, letztlich ist das auch wieder Vertrauen. Das Startup muss halt vertrauenswürdig gegenüber dem Branchenverband auftreten, muss es denen erklären, muss auch die eigenen Interessen offenlegen und der Branchenverband ist dann hoffentlich gegenüber seinen Mitgliedern auch in einer Position, dass die dem trauen, dass wenn der Vorstand da etwas für gut befunden hat, dass man dem auch folgen kann. Aber da gibt es jetzt keine Deus ex Machina Lösung, sondern das ist letztlich, das sind wieder Menschen, das sind Prozesse, es sind Abstimmungen und am Ende des Tages auch dort Vertrauen.

Tim Pritlove
1:07:26
Hendrik Ballhausen
1:08:12
Tim Pritlove
1:08:13
Hendrik Ballhausen
1:08:44
Tim Pritlove
1:10:00
Hendrik Ballhausen
1:10:48
Tim Pritlove
1:10:55
Hendrik Ballhausen
1:10:56

Und das sind eigentlich auch nicht die, die dafür bekannt wären, dass sie jedem Trend hinterherlaufen, sondern die eigentlich eher darauf bedacht sind, ihre Formalismen auch zu wahren. Das ist eigentlich ein guter Gedanke, ich würde mir den auch gerne mitnehmen, dass man vielleicht darauf setzt, dass diese Zusammenarbeit von den domänenspezifischen Datenschutzbeauftragten, die ja auch auf der anderen Seite ihre Daten sehr gut verstehen, und dass es dann vielleicht so Startups gäbe, die halt so branchenspezifische Lösungen anbieten, die dann wirklich einfach genug sind, am Ende des Tages muss es ja wirklich auch ein Programm sein, das läuft. Also unser OpenSource-Projekt das sind Bibliotheken, das wendet sich aber nicht an Anwender, das wendet sich wieder an Programmierer. Und wir haben uns schon sehr viel Mühe gegeben, beispielsweise auch, ohne jetzt zu technisch zu werden, wir haben unsere Bibliothek so erweitert, dass man damit auch Webseiten bauen kann. Das heißt, man muss gar nicht mehr unbedingt jetzt ein Programm bauen, da muss nicht irgendwo ein komplexer Server mit einer komplexen Anwendung laufen, sondern man kann auch einfach zwei Webseiten miteinander rechnen lassen. Das heißt, du hast deinen Browser offen, ich habe meinen Browser offen, dritte Person hat ihren Browser offen, und dann können wir genau das machen. Und dann müsste so ein Startup eigentlich nichts anderes machen als sagen, wir bauen jetzt eine schöne Webseite, irgendwie branchenspezifisch, je nachdem ob es jetzt Agrar ist oder Stahl ist, sondern irgendwie vielleicht in grün oder grau gehalten und in dem Nutzerinterface, natürlich auch entsprechende sozusagen Zugangskontrollen, und dann könnte man auch einfach Webseiten bauen, die das machen. Und das wäre dann schon viel zugänglicher als den Leuten zu sagen, ihr braucht jetzt einen total komplizierten TechStack(?), ihr braucht einen schwierigen Server mit einem bestimmten Betriebssystem, das war auch übrigens einer, wenn ich das noch sagen darf, einer unserer Ansätze, warum Federates Secure Computing, was ist die Federation darin? Wir wollen halt auch unterschiedliche Systeme zusammenbringen. Wenn man einen Branchenverband hat mit vielleicht 40 Mitgliedsunternehmen, dann werden die unterschiedliche IT-Systeme haben. Und das sehen wir zum Beispiel auch in der Medizininformatikinitiative, da gemeinsame Standars zu schaffen, hat Jahre gedauert. Das heißt, jetzt 40 Leuten zu sagen, ihr braucht dasselbe Betriebssystem und ihr braucht noch denselben Technologie Stack(?) und so weiter und so fort.

Tim Pritlove
1:13:19
Hendrik Ballhausen
1:13:21
Tim Pritlove
1:13:58
Hendrik Ballhausen
1:14:10
Tim Pritlove
1:14:11
Hendrik Ballhausen
1:14:20
Tim Pritlove
1:14:25
Hendrik Ballhausen
1:14:30
Tim Pritlove
1:14:43
Hendrik Ballhausen
1:14:49
Tim Pritlove
1:15:25
Hendrik Ballhausen
1:15:29
Tim Pritlove
1:16:36
Hendrik Ballhausen
1:16:40
Tim Pritlove
1:17:09
Hendrik Ballhausen
1:17:18
Tim Pritlove
1:17:19