Busting Big Data

Eine Antithese (griechisch αντίθεσις – Gegensatz, Opposition von anti~ – gegen~ und These – Behauptung, Leitsatz) bezeichnet allgemein eine Gegenbehauptung zu einer Ausgangsbehauptung (These). Dabei werden zwei Wörter, Begriffe, Satzteile oder Sätze einander gegenübergestellt, die sich im Sinn widersprechen: Durch diese Gegenüberstellung wird ein Gegensatz oder Widerspruch besonders hervorgehoben. Mit einer Antithese kann man eine Widerlegung erreichen. Eine Antithese wird oft mit "aber" eingeleitet. In der Literatur ist eine Antithese eine rhetorische Figur, in der unter einem Oberbegriff in direktem Gegensatz zueinander stehenden Begriffe oder Gedanken kombiniert werden. Dadurch können unter anderem Zwiespalt, Spannung und Zerrissenheit ausgedrückt werden. Beispiele sind: Himmel und Hölle; Gut und Böse; Tugend und Laster. Diese sogenannte Antithetik ist insbesondere in der Lyrik seit der Barockzeit beliebt. Beispiel: In der Bergpredigt greift Jesus sechs bekannte Gesetze aus den zehn Geboten auf. Eine bekannte Antithese ist die über die Vergeltung (Matthäus 5,38): "Ihr wisst, dass es heißt: Auge um Auge, Zahn um Zahn. Ich aber sage euch: Ihr sollt euch überhaupt nicht gegen das Böse wehren. Wenn dich einer auf die rechte Wange schlägt, dann halt ihm auch die linke hin."
Benutzeravatar
Franz_Nord
Verteidiger des wahren Blödsinns|Verteidiger des wahren Blödsinns|Verteidigerin des wahren Blödsinns
Beiträge: 98
Registriert: 17. Juni 2018, 15:59
Disorganisation: Chaos-Kult, Kabale der lachenden Göttin

Re: Busting Big Data

Beitrag von Franz_Nord »

Erster Fnord der [color=#FFFF00][font=Consolas]Kabale der lachenden Göttin[/font][/color]
Erster Häretiker des Chaos Kults
Fnordmeister von Schloss Gammelot und Erster der Krempelritter der Tafelecke
Benutzeravatar
fehlgeleitet
Ausgetreten|Ausgetreten|Ausgetreten
Beiträge: 2774
Registriert: 15. November 2015, 18:04

Re: Busting Big Data

Beitrag von fehlgeleitet »

danke für diesen aufklärerischen artikel, der schlägt ja in meine kerbe ;-P
"Die Lehre vcn Marx ist allmächtig, weil sie wahr ist" (Lenin)

"Ideologiekrtiker setzen alle Hebel in Bewegung, um die Leute davon abzubringen, an eine jüdisch-bolschewistische Weltverschwörung zu glauben; wir derweil arbeiten an eben dieser." (Marlon Grohn)
LordCaramac
Schlandmeisterin|Schlandmeister|Schlandmeisterin
Beiträge: 525
Registriert: 21. Dezember 2010, 03:38
Disorganisation: St Yogi Bear Cabal

Re: Busting Big Data

Beitrag von LordCaramac »

Mein autoritär-marxistischer Ex-Mitbewohner findet ja immer noch China ganz großartig und würde sich wünschen, die ganze Welt täte sich China anschließen, weil seiner Ansicht nach nur eine harte sozialistische Weltdiktatur diese Zivilisation noch vor dem Untergang retten kann...
Benutzeravatar
Bwana Honolulu
Hausmeistens|Hausmeister|Hausmeisterin
Beiträge: 12200
Registriert: 8. September 2010, 10:10
Disorganisation: Aktion 23, Zimmer523, GEFGAEFHB, ddR, Fractal Cult, EHNIX, The ASSBUTT
Wohnort: leicht verschoben
Pronomen: er/ihm
Kontaktdaten:

Re: Busting Big Data

Beitrag von Bwana Honolulu »

Inkonsequent. Dann soll er lieber auf das Modell Nordkorea setzen. :uglevil:
Wenn ich schon der Affe bin, dann will ich der Affe sein, der dem Engel auf's Maul haut. XD
‒✴△♀ ✴ө△ʘ!
Seine Quasarische Sphärizität, der Bwana Honolulu,
Überbefehlshabender des Selbstmordkommandos Ω,
Herrscher über alles, alles andere und wieder nichts,
Urgroßpapapapst und Metagottkaiser in Zimmer523,
Grand Admirakel der berittenen Marinekavallerie zur See,
Reichsminister für Popularpodicifikation,
Hüter des Heiligen Q.
Benutzeravatar
fehlgeleitet
Ausgetreten|Ausgetreten|Ausgetreten
Beiträge: 2774
Registriert: 15. November 2015, 18:04

Re: Busting Big Data

Beitrag von fehlgeleitet »

LordCaramac hat geschrieben:Mein autoritär-marxistischer Ex-Mitbewohner findet ja immer noch China ganz großartig und würde sich wünschen, die ganze Welt täte sich China anschließen, weil seiner Ansicht nach nur eine harte sozialistische Weltdiktatur diese Zivilisation noch vor dem Untergang retten kann...
DKP?
"Die Lehre vcn Marx ist allmächtig, weil sie wahr ist" (Lenin)

"Ideologiekrtiker setzen alle Hebel in Bewegung, um die Leute davon abzubringen, an eine jüdisch-bolschewistische Weltverschwörung zu glauben; wir derweil arbeiten an eben dieser." (Marlon Grohn)
Benutzeravatar
Bwana Honolulu
Hausmeistens|Hausmeister|Hausmeisterin
Beiträge: 12200
Registriert: 8. September 2010, 10:10
Disorganisation: Aktion 23, Zimmer523, GEFGAEFHB, ddR, Fractal Cult, EHNIX, The ASSBUTT
Wohnort: leicht verschoben
Pronomen: er/ihm
Kontaktdaten:

Re: Busting Big Data

Beitrag von Bwana Honolulu »

Nee, falls Lord Caramac das /dev/null des ddR meinen sollte, dann ist derjenige bei der Linken. Du kennst den auch vom Treffen im Unigarten, der zottelig-schmuddelige Kerl mit dem Märchenonkelgesicht, der auch letztes Jahr zufällig am Sektenberatungsstand vorbeischneite...
Wenn ich schon der Affe bin, dann will ich der Affe sein, der dem Engel auf's Maul haut. XD
‒✴△♀ ✴ө△ʘ!
Seine Quasarische Sphärizität, der Bwana Honolulu,
Überbefehlshabender des Selbstmordkommandos Ω,
Herrscher über alles, alles andere und wieder nichts,
Urgroßpapapapst und Metagottkaiser in Zimmer523,
Grand Admirakel der berittenen Marinekavallerie zur See,
Reichsminister für Popularpodicifikation,
Hüter des Heiligen Q.
Benutzeravatar
fehlgeleitet
Ausgetreten|Ausgetreten|Ausgetreten
Beiträge: 2774
Registriert: 15. November 2015, 18:04

Re: Busting Big Data

Beitrag von fehlgeleitet »

Habe in letzter Zeit viel zu OCR recherchiert und war überrascht, wie wenig die Technik kann. bei OCR geht es um Schrifterkennung. Also ich nehme mein Handy, fotografiere einen Text und habe dann eine editierbare Datei, zum Beispiel im txt format.

OCR Programme gibt es wie Sand am Meer, die Trefferwahrscheinlichkeit pro Zeichen liegt zwischen 80-99%. Geht es um die Korrektheit von ganzen Wörtern werden aus den 99% ganz schnell 95%. Das das ganze Dokument korrekt erkannt wird, ist entsprechend unwahrscheinlich.

Außerdem scheint jedes OCR Programm individuelle stärken und Schwächen zu haben, man kann sich also noch nichtmal drauf verlassen, für einen Batzen Geld ein zuverlässiges Programm zu bekommen.
"Die Lehre vcn Marx ist allmächtig, weil sie wahr ist" (Lenin)

"Ideologiekrtiker setzen alle Hebel in Bewegung, um die Leute davon abzubringen, an eine jüdisch-bolschewistische Weltverschwörung zu glauben; wir derweil arbeiten an eben dieser." (Marlon Grohn)
Benutzeravatar
fehlgeleitet
Ausgetreten|Ausgetreten|Ausgetreten
Beiträge: 2774
Registriert: 15. November 2015, 18:04

Re: Busting Big Data

Beitrag von fehlgeleitet »

Ich bin derweil der Frage was eine KI kann bzw. nicht kann etwas näher gekommen. Die besten KIs setzen auf "deep learning". Das hat was mit neuronalen Netzwerken (NN) zu tun, die sehen in etwa so aus:

Bild

Zuerst einmal: Ein biologisches Neuron ist sehr viel komplexer als ein solcher Knotenpunkt.

Jeder Knotenpunkt steht für eine mathematische Funktion der Form (wx+b)A(x), also links eine lineare Funktion (eine Gerade) und rechts einer sogenannten "Aktivierungsfunktion", die dafür sorgt, dass die Knotenpunkte des neuronalen Netzwerks zueinander inkommensurabel sind. Die Aktivierungsfunktion ist also irgendetwas nicht-lineares, zb der tangens hyperbolicus.

Ein solches Netzwerk hat noch keinerlei "Intelligenz", man muss das neuronale Netzwerk erst trainieren.

Angenommen wir wollen nun das NN darauf trainieren, Spammails zu filtern, dann hauen wir links eine (möglichst große) Menge Spammails rein, die bestimmte Merkmale aufweisen (zb Wörter, absenderadresse, betreff, Headerinformationen usw. usf, genauere Infos braucht man nicht, man kommt also ohne jede Semantik aus) und sagen dem Netzwerk gleichzeitig, ob es sich um eine spammail oder nicht handelt. Dementsprechend ändert das NN dann die Gewichtungen der einzelnen Knotenpunkte, erhöht/verringert also das "W" bzw. das "b".
Je mehr Daten, desto genauer wird die Ausrichtung des NN.

Danach lassen wir unser NN auf einen Testdatensatz los, der ihm bis dahin unbekannt ist und schauen ob das NN den weitgehend richtig zuordnet.

Passt alles sind wir auf dem richtigen weg, gibt es eine große Differenz zwischen Trainingsdatensatz und Testdatensatz liegt wahrscheinlich "overfitting" vor, dasss NN hat sich zu sehr auf den Trainingsdatensatz eingeschossen und fährt mit Scheuklappen durch die Gegend. Dannn müssen wir herumoptimieren und das Spielchen wiederholen.

Auf dieser Technologie basiert also der ganze Big Data Krams, und jederman kann mit Anleitung in Phyton oder R ein NN trainieren, das recht zuverlässig Katzenbilder erkennt. Oder er packt ein Framework wie Tensorflow drauf und macht sich die Arbeit noch einfacher. Alles kann das NN allerdings nicht - Gesichtserkennung braucht ne Menge Rechenpower und feinste Technologie, google hat das ne Menge auf dem Kasten und rückt es nicht raus. Jeder der was brauchbares produziert bleibt wohl auf seinem Wissen sitzen.

Natürlich lassen sich auch verschiedene NN zusammenschalten etc pp. Vieles ist allerdings Inginieursmathematik, es hat also wenig mit System und viel mehr etwas mit herumprobieren zu tun. Viele Methoden werden also einfach benutzt, ohne dass der Programmierer versteht was er da macht. Jedenfalls überblickt der Demiurg sein Werk nur teilweise.
"Die Lehre vcn Marx ist allmächtig, weil sie wahr ist" (Lenin)

"Ideologiekrtiker setzen alle Hebel in Bewegung, um die Leute davon abzubringen, an eine jüdisch-bolschewistische Weltverschwörung zu glauben; wir derweil arbeiten an eben dieser." (Marlon Grohn)
Benutzeravatar
fehlgeleitet
Ausgetreten|Ausgetreten|Ausgetreten
Beiträge: 2774
Registriert: 15. November 2015, 18:04

Re: Busting Big Data

Beitrag von fehlgeleitet »

So, 2. Teil der neuronalen Netze(NN).

Also ich bleibe noch eine Antwort auf die Frage schuldig, wie das NN seine Fehler korrigiert. Das passiert folgendermassen: Das Ausgangssignal des Trainingsdatensatz wird in eine Kostenfunktion eingesetzt. Die Kostenfunktion ist eine Metrik (ein Maß), die die Abweichung der Vorhersagen des NN von den "echten" Werten zu messen.

In der Naturwissenschaft wählt man zum Beispiel häufig die Methode der kleinsten Quadrate, um eine Funktion durch ein paar Messwerte zu legen:

Bild

Dies habe ich aber nur der Anschaulichkeit halber hier rein gestellt, unser Verfahren funktioniert nämlich ein wenig anders: Und zwar rechnet man das Optimum einer solchen Funktion für mehrere Dimensionen mithilfe eines Gradienten aus.

Bild

Also umgangssprachlich bildet man die Ableitung der Kostenfunktion in jede Dimension und versucht dann in Richtung der größten Senkung vorzustoßen:

Bild

Mit der "learning_rate" alpha gibt man die Geschwindigkeit an, mit der man Vorzustoßen gedenkt. Dann ändert man Wx+b des entsprechenden Layers und wendet dann das Verfahren iterativ auf die vorherigen Layer an. Lokale Minima stellen bei großen Dimensionen wenig Probleme da, da mit der Anzahl der Dimensionen die Wahrscheinlichkeit sinkt in einer Sackgasse zu landen.

Die Anzahl der Dimensionen wird durch das Ausgangssignal bestimmt.

Fügt man der Neugewichtung noch ein wenig "zufall" hinzu, ist ziemlich ausgeschlassen, dass die Funktion irgendwo hängen bleibt, da sie quasi hin und her schlingert.
"Die Lehre vcn Marx ist allmächtig, weil sie wahr ist" (Lenin)

"Ideologiekrtiker setzen alle Hebel in Bewegung, um die Leute davon abzubringen, an eine jüdisch-bolschewistische Weltverschwörung zu glauben; wir derweil arbeiten an eben dieser." (Marlon Grohn)
Antworten