Nach einer erkenntnisreichen Abwägung der Frage: “Synthetische Daten oder Livedaten” kommt Alexander im Podcast mit Markus schnell zur praktischen Bedeutung der Datenwissenschaft (Data Science) für das Testdatenmanagement. Er platziert das Thema in ein Set von eigenen Datenregeln, die sich auf Technik, Datenqualität und Realität beziehen. Am Beispiel der Verwendungsanalyse von realen Daten und der Datenreduktion macht Alexander den praktischen Bezug der Data Science für das Testdatenmanagement erkennbar. Die Zeitvorteile, die sich aus der Anwendung des Datenwissens insbesondere bei großen Datenmengen ergeben, deuten für Alexander auf eine weiter steigende Bedeutung des Themas in der Zukunft hin.
Podcast #47 Test Data Management meets Data Science
Hör' Dir hier den ganzen Podcast an:
Diese Themen erwarten Dich:
[00:28] Inhalt des Podcasts
[01:00] Vorstellung Alexander Becker
[01:35] Vorteile synthetischer Daten
[02:04] Vorteile Livedaten
[02:42] Einfluss von Testarten und Testphasen
[03:59] Livedaten und synthetische Daten in einem Projekt
[04:36] Livedaten und Testdatenbereitstellung
[05:11] Möglichkeiten von Data Science für Testdaten
[05:58] Kategorien von Datenregeln
[06:28] Technischen Regeln
[06:53] Datenqualitätsregeln
[07:35] “Realitätsregeln”
[08:00] Data Science Ansätze und Realitätsregeln
[08:22] Nutzen von Regressionsanalysen
[08:58] “Realitätsregeln” und risikobasiertes Testen
[09:53] „Realitätsregeln” ohne Zugriff auf Livedaten
[10:32] Data-Science-Ansätze und “Realitätsregeln” (II)
[11:52] Testdatenreduktion und Data Science
[13:08] Nachteile synthetischer Ansätze
[13:45] Problematik kompletter Produktionskopien
[14:10] Testrelevante Datenkonstellationen
[14:39] Ermittlung testrelevanter Datenkonstellationen
[15:30] Vorteile von Clustering-Algorithmen
[16:16] Identifikation repräsentativer Datensätze
[16:52] Einsatz Data Science
[19:08] Maschinelles Lernen für Datenregeln in der Praxis
[19:50] Aufwand und Regressionsanalyse
[20:43] Genutzte Algorithmen
[21:32] Unterschied Testdatenreduktion und Realitätsregeln
[22:34] Zukuntft Data Science beim Testdatenmanagement
[23:45] Informationen zu den Regeln und zu Clustering-Algorithmen
[24:20] Beratungsleistungen Alexander Becker und Kontaktaufnahme
[24:57] Seminarangebot der Qytera
Synthetische vs. Live-Daten im Testdaten-management
Eine der zentralen Diskussionen im Testdatenmanagement ist die Wahl zwischen synthetischen Daten und Live-Daten. Synthetische Daten können passgenau zugeschnitten werden, was sie ideal für frühe Testphasen macht. Sie ermöglichen es, spezifische Szenarien zu testen und sind besonders nützlich für Black-Box- oder White-Box-Tests. Auf der anderen Seite spiegeln Live-Daten die Realität wider und sind unersetzlich für spätere Testphasen, insbesondere wenn Enduser involviert sind. Live-Daten bieten realistische Testszenarien und sind oft kostengünstiger zu beschaffen.
Die Rolle von Data Science im Testdatenmanagement
Der Einsatz von Data Science eröffnet völlig neue Möglichkeiten im Umgang mit Testdaten. Durch Mustererkennung können Daten besser analysiert und verstanden werden. Insbesondere Regressionsanalysen sind hier ein wertvolles Werkzeug, um statistische Zusammenhänge aufzudecken. Diese Art der Analyse hilft dabei, Daten besser kennenzulernen und realistische Testszenarien zu entwickeln. Data Science bietet somit eine solide Grundlage für die Erstellung von Testdaten, die nah an der Realität liegen.
Regeln für Daten: Technische Regeln, Datenqualitätsregeln, Realitätsregeln
Alexander erklärt drei wichtige Kategorien von Regeln für Daten: Technische Regeln geben vor, welche Datentypen verwendet werden sollen und wie groß diese sein dürfen. Datenqualitätsregeln stellen sicher, dass Attribute nur innerhalb realistischer Wertebereiche liegen – zum Beispiel sollte ein Mensch keinen negativen Blutdruck haben. Realitätsregeln hingegen basieren auf tatsächlichen Live-Daten und decken oft nicht offensichtliche Zusammenhänge auf. Diese Regeln sind besonders wertvoll, da sie aus dem realen Betrieb abgeleitet werden und daher sehr praxisnah sind.
Praktische Anwendung von Clustering-Algorithmen
Ein Highlight dieser Episode ist die Diskussion über Clustering-Algorithmen zur Testdatenreduktion. Alexander beschreibt ein Projekt, bei dem sie ein großes Datenmodell mit hunderten Millionen Datensätzen analysierten. Mit Hilfe von Clustering konnten sie ähnliche Datensätze gruppieren und repräsentative Beispiele für Tests herauspicken. Dies spart nicht nur Zeit, sondern stellt auch sicher, dass alle relevanten Szenarien abgedeckt werden – inklusive der seltenen Edge Cases.
Infos und Kontakt
Alexander Becker kann kontaktiert werden via email (kontakt@alexander-becker.net) oder linkedin https://www.linkedin.com/in/alexander-becker-aa075621
Grundlagen:
Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking
Online Kurse/ Materialien von IBM
Was ist maschinelles Lernen (ML)? | IBM
Was ist Clustering? | IBM
Was ist k-Means-Clustering? | IBM