Kapitel 6

2021-05-21 11:15:49 +02:00 · 2021-05-21 11:15:49 +02:00 · 3746571f30
commit 3746571f30
parent 1954078478
19 changed files with 289 additions and 0 deletions
--- a/Assets/DBimpl-erweiterbares-hashing-2.png
+++ b/Assets/DBimpl-erweiterbares-hashing-2.png
--- a/Assets/DBimpl-erweiterbares-hashing-3.png
+++ b/Assets/DBimpl-erweiterbares-hashing-3.png
--- a/Assets/DBimpl-erweiterbares-hashing.png
+++ b/Assets/DBimpl-erweiterbares-hashing.png
--- a/Assets/DBimpl-grid-beispiel-1.png
+++ b/Assets/DBimpl-grid-beispiel-1.png
--- a/Assets/DBimpl-grid-beispiel-5.png
+++ b/Assets/DBimpl-grid-beispiel-5.png
--- a/Assets/DBimpl-grid-beispiel-6.png
+++ b/Assets/DBimpl-grid-beispiel-6.png
--- a/Assets/DBimpl-grid-files.png
+++ b/Assets/DBimpl-grid-files.png
--- a/Assets/DBimpl-grid-start.png
+++ b/Assets/DBimpl-grid-start.png
--- a/Assets/DBimpl-hashing-split.png
+++ b/Assets/DBimpl-hashing-split.png
--- a/Assets/DBimpl-lineares-hashen.png
+++ b/Assets/DBimpl-lineares-hashen.png
--- a/Assets/DBimpl-lineares-hashing-problem.png
+++ b/Assets/DBimpl-lineares-hashing-problem.png
--- a/Assets/DBimpl-spiral-hashing-2.png
+++ b/Assets/DBimpl-spiral-hashing-2.png
--- a/Assets/DBimpl-spiral-hashing.png
+++ b/Assets/DBimpl-spiral-hashing.png
--- a/Assets/DBimpl-trie.png
+++ b/Assets/DBimpl-trie.png
--- a/Assets/Dbimpl-grid-beispiel-2.png
+++ b/Assets/Dbimpl-grid-beispiel-2.png
--- a/Assets/Dbimpl-grid-beispiel-3.png
+++ b/Assets/Dbimpl-grid-beispiel-3.png
--- a/Assets/Dbimpl-grid-beispiel-4.png
+++ b/Assets/Dbimpl-grid-beispiel-4.png
--- a/Assets/Dbimpl-hashverfahren.png
+++ b/Assets/Dbimpl-hashverfahren.png
--- a/Implementierungstechniken.md
+++ b/Implementierungstechniken.md
@ -1255,3 +1255,292 @@ LSM-Baum: Lesezugriffe
 - noch nicht betrachtet: Nebenläufigkeitskontrolle und Wiederherstellung im Fehlerfall
 - diverse Varianten und Optimierungen
 - LSM-Baum für schreibintensive Workloads
 # Hashing
 ## Hashing
 - Zugriff über Adressberechnung aus Schlüssel
 - linearer Adressraum der Grösse $n$
    - Adressierung in einem Array
 - Ziel: direkter Zugriff in $O(1)$ statt logarithmisch wie bei Bäumen
 Hashverfahren
 - Schlüsseltransformation und Überlaufbehandlung
 - DB-Technik:
    - Disk-basiert: Bildbereich entspricht Seiten-Adressraum
    - Hauptspeicher: Adresse in einem Array (Hauptspeicheradresse plus Offset)
 - Dynamik: dynamische Hashfunktionen oder Re-Hashen
 Grundprinzipien
 - Basis-Hashfunktion: $h(k)= k mod m$
    - $m$ oft Primzahl da besseres Verhalten bei Kollisionen
    - oder $m=2^k$ aufgrund einfacher Berechnungen
 - Überlauf-Behandlung
    - Überlaufseiten als verkettete Liste
    - lineares Sondieren
    - quadratisches Sondieren
    - doppeltes Hashen
    - ...
 Hashverfahren für blockorientierte Datenhaltung
 ![](Assets/Dbimpl-hashverfahren.png)
 Operationen und Zeitkomplexität
 - lookup, modify, insert, delete
 - lookup benötigt maximal $1+ #B(h(w))$ Seitenzugriffe
 - $#B(h(w))$ Anzahl der Seiten (inklusive der Überlaufseiten) des Buckets für Hash-Wert $h(w)$
 - Untere Schranke 2 (Zugriff auf Hashverzeichnis plus Zugriff auf erste Seite)
 Statisches Hashen: Probleme
 - mangelnde Dynamik
 - Vergrößerung des Bildbereichs erfordert komplettes Neu-Hashen
 - Wahl der Hashfunktion entscheidend; 
  - Bsp.: Hash-Index aus 100 Buckets, Studenten über 6-stellige MATRNR (wird fortlaufend vergeben) hashen
  - ersten beiden Stellen: Datensätze auf wenigen Seiten quasi sequenziell abgespeichert
  - letzten beiden Stellen: verteilen die Datensätze gleichmäßig auf alle Seiten
 - Sortiertes Ausgeben einer Relation nicht unterstützt
 ## Hash-Funktionen
 - klassisch, etwa Divisions-Rest-Methode
    $h() = x mod m$
 - zusammengesetzt, etwa $h(k)= h_2 (h_1 (k))$ (siehe später Spriralhashen)
 - ordnungserhaltend
    $k_1 < k_2 => ( h(k_1) = h(k_2) \vee h(k_1) < h(k_2))$
 - dynamisch (siehe später)
 - mehrdimensional (siehe später)
 - materialisiert (etwa Dictionary Encoding, siehe später)
 Ordnungserhaltenes Hashen
 - Schlüsselwerte werden als 8-Bit-Integer-Werte ohne Vorzeichen kodiert und sind gleichmässig im Bereich $0...2^8-1$ verteilt.
 - Die Extraktion der ersten drei Bits ergibt eine ordnungserhaltende Hashfunktion für den Bereich $0...2^3-1$.
 - Sind die Schlüsselwerte nicht gleichverteilt, etwa weil es sich um fortlaufend vergebene Nummern handelt, ist das Ergebnis zwar weiterhin ordnungserhaltend, aber die Hash-Tabelle ist sehr ungleichmäßig gefüllt.
 ## Hardware-sensitives Hashen
 Neue Hardware und Hash-Funktionen
 - Beobachtung: Hashen mit klassischem Sondieren ungünstig für neue Hardware
  - schwer parallelisierbar
  - Clustern von Werten verletzt Nähe der Werte (bei Cache Lines)
 - Varianten versuchen beide Punkte anzugehen
    - Cuckoo-Hashing
    - optimiertes lineares Sondieren
    - Hopscotch-Hashing
    - Robin-Hood-Hashing
 Cuckoo-Hashen
 - Kuckucks-Hashen
 - soll Parallelität erhöhen im Vergleich zu linearem Sondieren
 - Idee: Zwei Tabellen mit zwei Hash-Funktionen
    - im Fall einer Kollision in einer Tabelle wird in der zweiten Tabelle gesucht
    - ist dort der Platz belegt, wird der dortige Eintrag verdrängt in die jeweils andere Tabelle
          - _Kuckuck wirft Ei aus dem Nest_
    - dies wird solange gemacht bis ein freier Platz gefunden wird
 - Beispiel
  - zwei einfache Hash-Funktionen, die jeweils die letzte beziehungsweise vorletzte Dezimalstelle einer Zahl extrahieren
      $h_1(k) = k mod 10$
      $h_2(k) = (k/10) mod 10$
  - Bei einer Suche muss immer in beiden Tabellen nachgeschaut werden, also $T_1[h_1(k)] = k\vee T_2[h_2(k)] = k$.
  - Wir fügen die Zahlen $433, 129$ und $555$ in die Tabelle $T_1$ ein. Beim Einfügen von $783$ ist der Platz in Tabelle $T_1$ belegt, so dass diese Zahl in $T_2$ gespeichert werden muss. Wird nun mit $103$ eine weitere Zahl eingefügt, die mit $433$ unter $h_1$ kollidiert, ist dies mit $h_2$ weiterhin möglich.
 Cuckoo Beispiel
 - Ergebnis des Einfügens von 433, 129 , 555 , 783 , 103
 |       | 0   | 1   | 2   | 3   | 4   | 5   | 6   | 7   | 8   | 9   |
 | ----- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
 | $T_1$ |     |     |     | 433 |     | 555 |     |     |     | 129 |
 | $T_2$ | 103 |     |     |     |     |     |     |     | 783 |
 - Wird nun die Zahl $889$ eingefügt, so sind beide möglichen Positionen belegt. $889$ kann in $T_1$ die dort stehende Zahl $129$ verdrängen, die in $T_2$ an der Position $T_2[2]$ gespeichert werden kann.
 |       | 0   | 1   | 2   | 3   | 4   | 5   | 6   | 7   | 8   | 9   |
 | ----- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
 | $T_1$ |     |     |     | 433 |     | 555 |     |     |     | 129 |
 | $T_2$ | 103 |     | 129 |     |     |     |     |     | 783 |
 - Wird nun $789$ eingefügt, sind wiederum beide Positionen belegt. Das Verdrängen von $889$ aus $T_1$ würde zu einem kaskadierenden Verdrängen führen: $889$ würde in $T_2$ dann $783$ verdrängen, das wiederum $433$ in $T_1$ verdrängen würde. Dies würde gehen da $433$ an der Stelle $T_2[3]$ Platz hätte
 |       | 0   | 1   | 2   | 3   | 4   | 5   | 6   | 7   | 8   | 9   |
 | ----- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
 | $T_1$ |     |     |     | 783 |     | 555 |     |     |     | 129 |
 | $T_2$ | 103 |     | 129 | 433 |     |     |     |     | 783 |
 Weitere Prinzipien der Optimierung
 - Lokalität von Datenzugriffen verringert die Wahrscheinlichkeit von Cache Misses
 - Blockung von Daten kann an die Grösse von Cache-Lines (64 Bytes) angepasst werden, und erhöht den Durchsatz
 - Parallelisierung für SIMD basierend auf einer Vektorisierung der Daten kann insbesondere SIMD-basierte Co-Prozessoren gut ausnutzen, aber greift auch bei MICs
 Optimiertes lineares Sondieren
 - Lineares Sondieren ist gut geeignet, um den Sondierungsvorgang auf Vektoren zu parallelisieren
  - Suchschlüssel kann in einen Vektor der Länge $n$ an alle Positionen kopiert werden
  - beginnend ab derem initialen Sondierungspunkt $h(k)$ können dann Vektoren jeweils mit Vektoren aus der Hash-Tabelle verglichen werden, also zuerst mit
    $H[h)k),...,h(k)+n - 1]$, dann mit $H[h(k) + n,...,h(k) + 2n-1 ]$, etc.
  - Vergleich kann parallel erfolgen; muss sowohl auf Vorhandensein von $k$ als auch auf Existenz einer leeren Position prüfen
 Hopscotch-Hashen
 - Hopscotch: _Himmel und Hölle_ beziehungsweise _wild herumhopsen_
 - Begrenzung des Sondierungsraum auf eine (konstante) Länge
 - Idee:
    - beim Einfügen erfolgt die Suche (parallel) in der festen Nachbarschaft
    - wird Schlüssel $k$ nicht gefunden und existiert kein freier Slot in der festen Nachbarschaft, dann wird versucht, $k$ mit einem anderen Schlüssel aus der festen Nachbarschaft zu tauschen
    - dafür wird die nächste freie Stelle gesucht; von dieser wird rückwärts in Richtung $h(k)$ gesucht und jeder Eintrag $k′$ untersucht
    - wenn die aktuelle freie Stelle noch in der festen Nachbarschaft von $k′$ liegt, wird getauscht: $k′$ springt auf die freie Stelle
 Robin-Hood-Hashen
 - Robin-Hood: _Nimm von den Reichen gib es den Armen_
 - Basisidee: in der Situation, dass beim Sondieren für $k$ ein Platz bereits mit einem Element $k′$ besetzt ist, wird der nächste Sondierungsschritt mit demjenigen Element weitergeführt, das die kleinere Distanz zum eigentlichen Hash-Wert $h(k)$ bzw. $h(k′)$ hat
 ## Dynamische Hash-Verfahren
 Lineares Hashen
 - Folge von Hash-Funktionen, die wie folgt charakterisiert sind:
  - $h_i$: dom(Primärschlüssel) ->$\{0,..., 2^i \times N\}$ ist eine Folge von Hash-Funktionen mit $i\in\{0,1,2,...\}$ und $N$ als Anfangsgröße des Hash-Verzeichnisses
  - Wert von $i$ wird auch als Level der Hash-Funktion bezeichnet 
  - $dom(Primärschlüssel)$ wird im folgenden als $dom(Prim)$ abgekürzt
 - Für diese Hash-Funktionen gelten die folgenden Bedingungen:
    - $h_{i+1}(w) = h_i(w)$ für etwa die Hälfte aller $w\in dom(Prim)$
    - $h_{i+1}(w) = h_i(w) + 2^i\times N$ für die andere Hälfte
  - Bedingungen sind zum Beispiel erfüllt, wenn $h_i(w)$ als $w mod(2^i\times N)$ gewählt wird
  - Darstellung durch Bit-Strings, Hinzunahme eines Bits verdoppelt Bildbereich
 Prinzip lineares Hashen
 - für ein $w$ höchstens zwei Hash-Funktionen zuständig, deren Level nur um 1 differiert, Entscheidung zwischen diesen beiden durch Split-Zeiger
  - $sp$ Split-Zeiger (gibt an, welche Seite als nächstes geteilt wird)
  - $lv$ Level (gibt an, welche Hash-Funktionen benutzt werden)
 - Aus Split-Zeiger und Level läßt sich die Gesamtanzahl $Anz$ der belegten Seiten wie folgt berechnen:
  - $Anz = 2^{lv} + sp$
 - Beide Werte werden am Anfang mit 0 initialisiert.
 ![](Assets/DBimpl-lineares-hashen.png)
 Lookup
 - $$s := h_{lv}(w)$;
 - if $s < sp$
 - then $s := h_{lv + 1}(w)$;
 - zuerst Hash-Wert mit der "kleineren" Hash-Funktion bestimmen
 - liegt dieser unter dem Wert des Split-Zeigers => größere Hash-Funktion verwenden
 Splitten einer Seite
 1. Die Sätze der Seite (Bucket), auf die $sp$ zeigt, werden mittels $h_{lv+1}$ neu verteilt (ca. die Hälfte der Sätze wird auf Seite (Bucket) unter Hash-Nummer $2^{lv}*N +sp$ verschoben)
 2. Der Split-Zeiger wird weitergesetzt: $sp:=sp +1;$
 3. Nach Abarbeiten eines Levels wird wieder bei Seite 0 begonnen; der Level wird um 1 erhöht:
 ```
 if sp = 2^{lv} * N then
    begin
        lv := lv + 1 ;
        sp := 0
    end;
 ```
 ![](DBimpl-hashing-split.png)
 Problem lineares Hashen
 ![](Assets/DBimpl-lineares-hashing-problem.png)
 Erweiterbares Hashen
 - Problem: Split erfolgt an fester Position, nicht dort wo Seiten überlaufen
 - Idee: binärer Trie zum Zugriff auf Indexseiten
 - Blätter unterschiedlicher Tiefe
    - Indexseiten haben Tiefenwert
    - Split erfolgt bei Überlauf
 - aber: Speicherung nicht als Trie, sondern als Array
    - entspricht vollständigem Trie mit maximaler Tiefe
       - "shared" Seiten als Blätter
    - Array der Grösse 2 _d_ für maximale Tiefe _d_
       - erfordert nun nur einen Speicherzugriff!
    - bei Überlauf: Indexgrösse muss möglicherweise verdoppelt werden!
 - Ausgangslage:
    - Einfügen von 00111111 würde Überlauf bei erreichter maximaler Tiefe erzeugen
        ![](Assets/DBimpl-erweiterbares-hashing.png)
    - Verdopplung der Indexgrösse
        ![](Assets/DBimpl-erweiterbares-hashing-2.png)
    - nun möglich: Split der Seite
        ![](Assets/DBimpl-erweiterbares-hashing-3.png)
 Variante: Array als Trie gespeichert
 ![](Assets/DBimpl-trie.png)
 Spiral-Hashen
 - Problem: zyklisch erhöhte Wahrscheinlichkeit des Splittens
 - Lösung: unterschiedliche Dichte der Hashwerte
    - Interpretation der Bit-Strings als binäre Nachkommadarstellung einer Zahl zwischen $0.0$ und $1.0$
    - Funktion von $[0.0,1.0] -> [0.0,1.0]$ so dass Dichte gleichmässig verteilter Werte nahe $1.0$ doppelt so gross ist wie nahe $0.0$
 - Umverteilung mittels Exponentialfunktion
 - Funktion $exp(n)$   $exp(n) = 2^n - 1$ erfüllt die Bedingungen
 - insbesondere gilt $2^0 - 1 = 0$ und $2^1 - 1 = 1$
 - Hashfunktion exhash
    $exhash(k) = exp(h(k)) = 2^{h(k)} - 1$
 - Wirkung der verwendeten Hashfunktion im Intervall $0.0$ bis $1.0$
    | $n$   | $2^n-1$     |
    | ----- | ----------- |
    | $0.0$ | $0.0$       |
    | $0.1$ | $0.0717735$ |
    | $0.2$ | $0.1486984$ |
    | $0.3$ | $0.2311444$ |
    | $0.4$ | $0.3195079$ |
    | $0.5$ | $0.4142136$ |
    | $0.6$ | $0.5157166$ |
    | $0.7$ | $0.6245048$ |
    | $0.8$ | $0.7411011$ |
    | $0.9$ | $0.866066$  |
    | $1.0$ | $1.0$       |
 - Spiralförmiges Ausbreiten
    - Ausgangslage: 4 Seiten der Tiefe 2
    ![](Assets/DBimpl-spiral-hashing.png)
 - Spiralförmiges Ausbreiten
    - Split der Seite mit der höchsten Dichte
    - Ergebnis: 5 Seiten, davon 3 der Tiefe 2 und 2 der Tiefe 3
    ![](Assets/DBimpl-spiral-hashing-2.png)
 ## Grid-File
 Grid-Files
 - bekannteste und von der Technik her attraktive mehrdimensionale Dateiorganisationsform
 - eigene Kategorie: Elemente der Schlüsseltransformation wie bei Hashverfahren und Indexdateien wie bei Baumverfahren kombiniert
  - deshalb hier bei Hash-Verfahren betrachtet
 Grid-File: Zielsetzungen
 - Prinzip der 2 Plattenzugriffe: Jeder Datensatz soll bei einer _exact-match_ -Anfrage in 2 Zugriffen erreichbar sein
 - Zerlegung des Datenraums in Quader: _n_ -dimensionale Quader bilden die Suchregionen im Grid-File
 - Prinzip der Nachbarschaftserhaltung: Ähnliche Objekte sollten auf der gleichen Seite gespeichert werden
 - Symmetrische Behandlung aller Raum-Dimensionen: _partial-match_ -Anfragen ermöglicht
 - Dynamische Anpassung der Grid-Struktur beim Löschen und Einfügen
 Prinzip der zwei Plattenzugriffe
 - bei exact-match
    1. gesuchtes _k_ -Tupel auf Intervalle der Skalen abbilden; als Kombination der ermittelten Intervalle werden Indexwerte errechnet; Skalen im Hauptspeicher => noch kein Plattenzugriff
    2. über errechnete Indexwerte Zugriff auf das _Grid-Directory_ ; dort Adressen der Datensatz-Seiten gespeichert; erster _Plattenzugriff_.
    3. Der Datensatz-Zugriff: zweiter _Plattenzugriff_.
 Aufbau eines Grid-Files
 ![](Assets/DBimpl-grid-files.png)
 - Grid: $k$ eindimensionale Felder (Skalen), jede Skala repräsentiert Attribut
 - _Skalen_ bestehen aus Partition der zugeordneten Wertebereiche in Intervalle
 - Grid-Directory besteht aus Grid-Zellen, die den Datenraum in Quader zerlegen
 - Grid-Zellen bilden eine Grid-Region, der genau eine Datensatz-Seite zugeordnet wird
 - Grid-Region: $k$-dimensionales, konvexes (Regionen sind paarweise disjunkt)
 Operationen
 - Zu Anfang: Zelle = Region = eine Datensatz-Seite
 - Seitenüberlauf:
    - Seite wird geteilt
    - falls zugehörige Gridregion aus nur einer Gridzelle besteht, muss ein Intervall auf einer Skala in zwei Intervalle unterteilt werden
    - besteht Region aus mehreren Zellen, so werden diese Zellen in einzelne Regionen zerlegt
 - Seitenunterlauf:
    - Zwei Regionen zu einer zusammenfassen, falls das Ergebnis eine neue, konvexe Region ergibt
 Beispiel
 - Start-Grid-File
    ![](Assets/DBimpl-grid-start.png)
    - Datensätze einfügen: $(45,D),(2,B),(87,S),(75,M),(55,K),(3,Y),(15,D),(25,K),(48,F)$
    - jede Seite des Grid-Files fasst bis zu drei Datensätze
 - Eingefügt: $(45, D), (2, B), (87, S)$
    ![](Assets/DBimpl-grid-beispiel-1.png)
 - Einfügen von $(75, M)$ erzwingt Split
    ![](Assets/Dbimpl-grid-beispiel-2.png)
 - Eingefügt: $(55, K)$
    ![](Assets/Dbimpl-grid-beispiel-3.png)
 - Einfügen von $(3, Y)$ erzwingt wiederum einen Split
    ![](Assets/Dbimpl-grid-beispiel-4.png)
 - Eingefügt: (15, D), (25, K),
    ![](Assets/DBimpl-grid-beispiel-5.png)
 - Einfügen von (48, F) erzwingt wiederum einen Split
    ![](Assets/DBimpl-grid-beispiel-6.png)
 Buddy-System
 - Beschriebenes Verfahren: Buddy-System (Zwillings-System)
 - Die im gleichen Schritt entstandenen Zellen können zu Regionen zusammengefasst werden; Keine andere Zusammenfassung von Zellen ist im Buddy-System erlaubt
 - Unflexibel beim Löschen: nur Zusammenfassungen von Regionen erlaubt, die vorher als Zwillinge entstanden waren
 - Beispiel: $(15,D)$ löschen: Seiten 1 und 4 zusammenfassen; $(87,S)$ löschen, Seite 2 zwar unterbelegt, kann aber mit keiner anderen Seite zusammengefasst werden