Kapitel 11

2021-01-28 12:44:44 +01:00
parent 7641f3c31f
commit e2ea83c7de
1 changed files with 257 additions and 0 deletions
--- a/Datenbanksysteme.md
+++ b/Datenbanksysteme.md
@@ -1622,5 +1622,262 @@ Statistische Datenbanken
  - Unterdrücken von Tupeln: Löschen von Tupeln, welche die k-Anonymität verletzen und damit identifizierbar sind
 # NoSQL Datenbanken
 ## Motivation für NoSQL
 - NoSQL = Not only SQL
 - im Umfeld vieler aktueller Buzzwords
  - NoSQL
  - Big Data
  - BASE
  - ...
 - oft einfach als Etikett einer Neuentwicklung eines DBMS pauschal vergeben
 Was ist NoSQL?
 - SQL - No!
  - SQL-Datenbanken sind zu komplex, nicht skalierbar, ...
  - man braucht was einfacheres!
 - Not only SQL
  - SQL-Datenbanken haben zu wenig (oder die falsche) Funktionalität
  - Operationen auf Graphen, Data Mining Operatoren, ...
 - New SQL
  - SQL-Datenbanken sind (software-technisch) in die Jahre gekommen
  - eine neue Generation von DBMS muss her (ohne die etablierten Vorteile von SQL zu ignorieren)
 Kritik an RDBMS / SQL
 - nicht skalierbar
  - Normalisierung von Relationen, viele Integritätsbedingungen zu prüfen
  - kann man in RDBMS auch vermeiden!
 - starre Tabellen nicht flexibel genug
  - schwach typisierte Tabellen (Tupel weichen in den tatsächlich genutzten Attributen ab)
  - viele Nullwerte wenn alle potentiellen Attribute definiert
  - alternativ Aufspaltung auf viele Tabellen
  - Schema-Evolution mit alter table skaliert bei Big Data nicht
  - tatsächlich in vielen Anwendungen ein Problem
 - Integration von spezifischen Operationen (Graphtraversierung, Data-Mining-Primitive) mit Stored Procedures zwar möglich führt aber oft zu schwer interpretierbarem Code
 ## Datenmodelle für NoSQL
 Datenmodelle für NoSQL
 - KV-Stores
 - Wide Column Stores
 - Dokumenten-orientierte Datenhaltung
 - Graph-Speicher
 - ...
 Anfragesprachen für NoSQL
 - unterschiedliche Ansätze:
 - einfache funktionale API
 - Programmiermodell für parallele Funktionen
 - angelehnt an SQL-Syntax
 - ...
 ## KV-Stores und Wide Column
 Datenmodell: Key-Value-Stores
 - Key-Value-Store: binäre Relationen, bestehend aus
  - einem Zugriffsschlüssel (dem Key) und
  - den Nutzdaten (dem Value)
 - Nutzdaten
  - binäre Daten ohne Einschränkung,
  - Dateien oder Dokumente, → Document Databases
  - oder schwachstrukturierte Tupel → Wide Column Store
 - Anfragen an KV-Stores
  - einfache API
    ```sql
    store.put(key, value)
    value = store.get(key)
    store.delete(key)
    ```
  - aufgesetzte höherer Sprache angelehnt an SQL
    - Map-Reduce: Framework zur Programmierung paralleler Datenaggregation auf KV-Stores
 - Beispielsysteme für KV-Stores
  - Amazon DynamoDB
  - Riak
 Datenmodell: Wide Column
 - Basisidee: KV-Store mit schwachstrukturiertem Tupel als Value
 - Value = Liste von Attributname-Attributwert-Paaren
  - schwache Typisierung für Attributwerte (auch Wiederholgruppen)
 - nicht alle Einträge haben die selben Attributnamen
  - offene Tupel
  - Hinzufügen eines neuen Attributs unproblematisch
  - Nullwerte aus SQL ersetzt durch fehlende Einträge
 - Beispiel in DynamoDB
 - Anfragen bei Wide Column
  - CRUD: Create, Read, Update und Delete
  - in DynamoDB
    - *PutItem* fügt einen neuen Datensatz mit der gegebenen Attribut-Wert-Liste ein bzw. ersetzt einen existierenden Datensatz mit gleichem Schlüssel.
    - *GetItem*-Operation liest alle Felder eines über einen Primärschlüssel identifizierten Datensatzes.
    - *Scan* erlaubt einen Lauf über alle Datensätze mit Angabe von Filterkriterien.
  - Aufruf über HTTP oder aus Programmiersprachen heraus
 ## Document Stores
 Datenmodell: dokumentenorientierte Speicherung
 - Basisidee: KV-Store mit (hierarchisch) strukturiertem Dokument als Value
 - strukturiertes Dokument:
  - JSON-Format: geschachtelte Wide Column-Daten
  - XML (eher unüblich auf KV-Stores)
 - Anfragen bei dokumentenorientierter Speicherung
  - CRUD erweitert um dokumentspezifische Suche
  - Beispiele (MongoDB mit BSON statt JSON) `db.kritiker.find({Name: "Bond"})`
 - Beispielsysteme für dokumentenorientierte Speicherung
  - MongoDB
  - CouchDB
 ## Graph Stores
 Graph-Datenmodelle: Grundlagen
 - spezielle Form der Datenrepräsentation = Graphen, insb. Beziehungen zwischen Objekten
 - Anwendungsgebiete:
  - Transportnetze
  - Networking: Email-Verkehr, Mobilfunk-Nutzer
  - Soziale Netzwerke: Eigenschaften, Communities
  - Web: Verlinkte Dokumente
  - Chemie: Struktur chemischer Komponenten
  - Bioinformatik: Proteinstrukturen, metabolische Pathways, Genexpressionen
 - Graph $G = (V, E)$
  - $V$: Menge der Knoten (vertices)
  - $E \subseteq V \times V$: Menge der Kanten (edges)
  - Kanten können mit Gewicht versehen werden
 - Adjazenzmatrix
  - Repräsentation von Graphen durch Matrix (Knoten als Zeilen und Spalten)
  - ungerichteter Graph: symmetrische Matrix
  - ungewichteter Graph: Zellen nur 0 oder 1
 - Knotengrad
  - Eigenschaft eines Knotens: Anzahl der verbundenen Knoten
  - bei gerichteren Graphen: Unterscheidung in Eingangs- und Ausgangsgrad
 - Traversierung
  - Tiefensuche (DFS): zunächst rekursiv alle Kindknoten besuchen bevor alle Geschwisterknoten besucht werden
    - Bestimmung der Zusammenhangskomponente
    - Wegsuche um Labyrinth
  - Breitensuche (BFS): zunächst alle Geschwisterknoten besuchen bevor die Kindknoten besucht werden
    - Bestimmung des kürzesten Weges
 Subjekt-Prädikat-Objekt-Modell: RDF
 - Sprache zur Repräsentation von Informationen über (Web)-Ressourcen
 - Ziel: automatisierte Verarbeitung
 - zentraler Bestandteil von Semantic Web, Linked (Open) Data
 - Repräsentation von Daten, aber auch Wissensrepräsentation (z.B. Ontologie)
 Ontologien
 - Ontologie = formale Spezifikation einer Konzeptualisierung, d.h. einer Repräsentation von Begriffen (Konzepten) und deren Beziehungen
 - Anwendung: Annotation von Daten, semantische Suche
 RDF: Graphen & Tripel
  - Graph = Menge von Tripeln, die Aussagen über Web-Ressourcen repräsentieren
  - Identifikation der Web-Ressourcen über Uniform Resource Identifier (URI)
  - Tripel: subjekt prädikat objekt .
  - Beispiel `<http://weindb.org/weine/2171> \ ` und `<http://weindb.org/ontologie/name> "Pinot Noir".`
  - Subjekt: URI-Referenz, d.h. Ressource, auf die sich die Aussage bezieht
  - Prädikat: Eigenschaft, ebenfalls in Form einer URI-Referenz
  - Objekt: Wert der Eigenschaft als Literal (Konstante) oder URI- Referenz
 - abkürzende Notation für Namensräume über Präfixe:
    ```sql
      prefix wo: <http://weindb.org/ontologie/>
      prefix weine: <http://weindb.org/weine/>
      weine:2171 wo:name "Pinot Noir".
    ```
 - Komplexe Graphen
  - mehrere Aussagen zum gleichen Subjekt
  - Objekte nicht nur Literale sondern selbst Objekte (URI)
    ```sql
    weine:2171 wo:name "Pinot Noir".
    weine:2171 wo:farbe "Rot".
    weine:2171 wo:jahrgang "1999".
    weine:2171 wo:erzeuger werzeuger:567 .
    ```
 - Repräsentation, Schema und Vokabulare
  - Repräsentation von RDF-Daten: N-Tripel, RDF/XML
  - RDF Schema:
    - objektorientierte Spezifikationssprache
    - erweitert RDF um Typsystem: Definition von Klassen und Klassenhierarchien mit Eigenschaften, Ressourcen als Instanzen von Klassen
    - RDF Schema ist selbst RDF-Spezifikation
  - Beispiel RDF Schema
    ```sql
    Wein rdf:type rdfs:Class .
    Schaumwein rdf:type rdfs:Class .
    Schaumwein rdfs:subClassOf Wein .
    Name rdf:type rdf:Property .
    Jahrgang rdf:type rdf:Property .
    Jahrgang rdfs:domain Wein .
    Jahrgang rdfs:range xsd:integer .
    ```
  - für komplexere Ontologien: OWL (Web Ontology Language)
  - Vokabular: vordefinierte Klassen und Eigenschaften
    - Bsp: Dublin Core (Metadaten für Dokumente), FOAF (Soziale Netze), ...
    - wichtig z.B. für Linked Open Data
 SPARQL als RDF-Anfragesprache
 - SPARQL Protocol And RDF Query Language: Anfragesprache für RDF
 - W3C-Recommendation
 - unterschiedliche Implementierungen möglich:
  - Aufsatz für SQL-Backends (z.B. DB2, Oracle)
  - Triple Stores (RDF-Datenbank)
  - SPARQL-Endpoints
 - syntaktisch an SQL angelehnt, aber Unterstützung für Graph-Anfragen
 - SPARQL-Elemente
  - Grundelemente: select-where-Block und Tripelmuster `?wein wo:name ?name .`
  - Auswertung: finden aller Belegungen (Bindung) für Variable (?name) bei Übereinstimmung mit nicht-variablen Teilen
    ```sql
    <http://weindb.org/weine/2171> wo:name "Pinot Noir".
    <http://weindb.org/weine/2168> wo:name "Creek Shiraz".
    <http://weindb.org/weine/2169> wo:name "Chardonnay".
    ```
 - SPARQL: Basic Graph Pattern
  - Graphmuster (BGP = Basic Graph Pattern): Kombination von Tripelmustern über gemeinsame Variablen
    ```sql
    ?wein wo:name ?name .
    ?wein wo:farbe ?farbe .
    ?wein wo:erzeuger ?erzeuger .
    ?erzeuger wo:weingut ?ename .
    ```
  - Einsatz in SPARQL-Anfragen im where-Teil
    ```sql
    select ?wein ?name ?farbe ?ename
    where { ?wein wo:name ?name .
      ?wein wo:farbe ?farbe .
      ?wein wo:erzeuger ?erzeuger .
      ?erzeuger wo:weingut ?ename . }
    ```
 - SPARQL: Weitere Elemente
  - filter: Filterbedingungen für Bindungen
  - optional: optionale Muster – erfordern nicht zwingend ein Matching
    ```sql
    prefix wo: <http://weindb.org/ontologie/>
    select ?name
    where { ?wein wo:name ?name . }
      optional { ?wein wo:jahrgang ?jahrgang } .
      filter ( bound(?jahrgang) && ?jahrgang < 2010 )
    ```
 - Property-Graph-Modell
  - Knoten und (gerichtete) Kanten mit Eigenschaften (Properties)
  - nicht streng typisiert, d.h. Eigenschaften als Name-Wert-Paare
  - Unterstützung in diversen Graph-Datenbanksystemen: neo4j, Microsoft Azure Cosmos DB, OrientDB, Amazon, Neptune, ...
  - Property-Graph-Modell in Neo4j
    - Elemente: Nodes, Relationships, Properties, Labels
    - Properties = Key-Value-Paare: Key (=String), Value (=Java-Datentypen + Felder)
    - Nodes mit Labels (≈ Klassenname)
    - Relationships: sind gerichtet, mit Namen und ggf. Properties
  - Anfragen auf Graphen
    - keine Standardsprache
    - aber wiederkehrende Grundelemente
      - Graph Matching: Knoten, Kanten, Pfade (siehe BGP in SPARQL)
      - Filter für Knoten- und Kanteneigenschaften
      - Konstruktion neuer Graphen
    - Anfragen in Cypher
      - Basis: Muster der Form „Knoten → Kante → Knoten ...“ `(von)-[:relationship]->(nach)`
      - Beschränkung über Label und Properties `(e:ERZEUGER)-[:LIEGT_IN]->(a:ANBAUGEBIET {gebiet: 'Napa Valley' } )`
      - Klauseln
        - match: Beispielmuster für Matching
        - return: Festlegung der Rückgabedaten (Projektion)
        - where: Filterbedingung für „gematchte“ Daten
        - create: Erzeugen von Knoten oder Beziehungen
        - set: Ändern von Property-Werten
 Zusammenfassung
 - NoSQL als Oberbegriff für diverse Datenbanktechniken
 - große Bandbreite: von einfachen KV-Stores bis zu Graphdatenbanken
 - höhere Skalierbarkeit / Performance gegenüber SQL-DBMS meist durch Einschränkungen erkauft
 - Abschwächung von ACID-Eigenschaften
 - begrenzte Anfragefunktionalität
 - Nicht-Standard bzw. proprietäre Schnittstellen
 # Anwendungsprogrammierung