so, ich habe mich jetzt auf https://www.coursera.org/ registriert und mache ein Aufbaustudium Datascience, danach wollte ich noch IT-Sicherheit machen. Kostet 49$ im Monat, ich plane in 4 Monaten beide Aufbaulehrgänge erledigt zu haben.
Die Einstiegsvideos sind etwas großmäulig ala "Kunst trifft Wissenschaft" und "werde Millionär". wirkt natürlich unseriös.
Die Programmiersprache "R" scheint dabei im Mittelpunkt zu stehen.
Sie versprechen aus dir ne Art Hacker zu machen, der sich auch noch auf Statistik versteht.
Neben dem Zertifikat erhoffe ich mir einen Einblick in die Möglichkeiten der künstlichen Intelligenz die ja eben auf diesem "Big Data" Zeug basiert.
Zur Zeit kämpfe ich noch mit installationsproblemen von RStudio unter Debian, dass ganze Internet ist voll von Leuten, die dasselbe Problem haben
Ich krieg RStudio zwar installiert, aber nicht gestartet. Schau ich mir nach dem Aufstehen weiter an.
In der bisher gelesenen Literatur steht unheimlich viel triviales Zeug. Viel geht um reine Formalitäten, also wie man Datensätze standardisiert und bereinigt. Es geht um verbreitete Fehlschlüsse, haut mich alles nicht vom Hocker.
auf lhttps://leanpub.com/ gibts viele freie Bücher zu dem Thema.
Ich könnte mir vorstellen, dass trotz aller Betonung, dass "Korrelation keine Ursache-Wirkung" beschreibt doch viele Fehler in der Richtung gemacht werden. Schaun wir mal.
edit: Rstudio läuft jetzt. Ich Depp hatte den Server installiert anstatt die Desktopversion.
Re: Busting Big Data
Verfasst: 16. September 2018, 21:19
von fehlgeleitet
Data-Mining auf Spiegel.de
Amateurspionage vom heim PC
Re: Busting Big Data
Verfasst: 20. September 2018, 22:30
von fehlgeleitet
So habe den R-Einführungs-Kurs abgeschlossen.
Erster Eindruck: "R" ist eine Art emacs für Tabellen. Also eine vollwerige Programmiersprache, die ein wenig an Lisp errinert. Es gibt zahlreiche Pakete, die Funktionen liefern den Code insgesamt recht übersichtlich zu machen, wenn man die Pakete alle kennt. Ansonsten happy-manual reading. Wobei man R nicht vorwerfen kann, besonders konterintuitiv zu sein. R ist sogar recht tolerant was Fehler im Code angeht und viele Funktionen sind recht einfach zu bedienen, wenn man erstmal weiß wie sie heißen. Aber das weiß man eben nicht immer
Die Fummelei trieb mich gelegentlich zur weißglut, aber das hat das herumdoktorn in tabellen eben so an sich. Wenigstens existieren viele Funktionen, um sehr verschiedene Dateitypen auszulesen, so dass das Abspeichern eines Datensatzes in der Regel ein Einzeiler ist.
R ist so langsam wie man es von einer Interpretersprache erwartet. Phyton ist wesentlich schneller und allgemeiner einsatzfähiger. R ist wirklich dazu da, auf einer professionellen Ebene Statistik mit großen Datenmengenzu betreiben, für alle anderen Zwecke gibt es sicherlich bessere Lösungen. Auch die Echtzeitbearbeitung von Daten ist etwas, was man besser Phyton überlässt - R ist einfach zu schwerfällig und hat zu viele Vorraussetzungen. Auf einem Microcontroller beispielsweise ist Phyton kein Problem, aber R benötigt ein ganzes Betriebssystem.
Re: Busting Big Data
Verfasst: 20. September 2018, 23:04
von Bwana Honolulu
Naja, Python ist ja auch eigentlich 'ne Scirptsprache, aber das, was du da auf 'ne Microcontroller ausführst, ist einfach 'ne spezialisierte und relativ hochoptimierte Implementierung davon. Von daher etwas unfair, das mit so 'ner Vanilla-Version von R zu vergleichen.
Hattest du mit Lisp im Studium zu tun oder hattest du dich damit im Zuge von dem KI-Kram mal beschäftigt? Ich weiß es gerade nicht mehr...
Re: Busting Big Data
Verfasst: 20. September 2018, 23:15
von fehlgeleitet
Bwana Honolulu hat geschrieben:Naja, Python ist ja auch eigentlich 'ne Scirptsprache, aber das, was du da auf 'ne Microcontroller ausführst, ist einfach 'ne spezialisierte und relativ hochoptimierte Implementierung davon. Von daher etwas unfair, das mit so 'ner Vanilla-Version von R zu vergleichen.
Hattest du mit Lisp im Studium zu tun oder hattest du dich damit im Zuge von dem KI-Kram mal beschäftigt? Ich weiß es gerade nicht mehr...
ich hatte im Studium scheme, dass ist ein Lisp-Dialekt
edit: außerdem ist R auch lahmer als phyton wenn man es auf nem normalen Rechner nutzt.
Re: Busting Big Data
Verfasst: 14. Oktober 2018, 13:22
von fehlgeleitet
Eine Sache ist mir mit dem Data Science inzwischen klar geworden: Wenn man keine Ahnung von dem Fachgebiet hat, aus dem die Daten stammen, kann man mit den Daten auch nicht viel anfangen.
Sagen wir, ich habe einen Haufen Daten über Krankenhäuser und will aus diesen Daten herauskriegen, was das beste Krankenhaus sein mag. Ein naiver Ansatz wäre es, nach der geringsten Sterberate zu suchen, doch dann landet man wahrscheinlch bei einem Schöhnheitschriugen.
Data Science ist eben ein großes Wort für computergestützte Statistik, und wenn du kein Arzt bist dann weißt du mit den Daten von Krankenhäusern nicht viel anzufangen außer ein paar arithmetische Operationen durchzuführen, sagen wir Mittelwert und Varianz auszurechnen, was für sich genommen jedoch relativ wertlos ist.
Wie eine KI auf Basis dieser Daten Wissenschaft betreiben soll, wie es sich zum Beispiel das Pentagon vorstellt, ist mir völlig schleierhaft
Re: Busting Big Data
Verfasst: 14. Oktober 2018, 14:50
von Cpt. Bucky Saia
Hat ich aber irgendwo auch schon mal erwähnt das man nicht genug variablen kennt um effektiv mit großen Daten zu arbeiten.
Re: Busting Big Data
Verfasst: 17. Oktober 2018, 13:37
von fehlgeleitet
Microsoft Vorlesung über den mathematischen Kern von Data Science, ich arbeite das in den nächsten Tagen durch.
Es häufen sich die Berichte das sich die großen Erwartungen von Data Science/Machine Learning nicht erfüllen.
Statt der Prüfung einer sinnvollen Theorie artet Machine Learning immer mehr in eine Art wildes herumprobieren aus, dass man kaum noch als wissenschaftlich bezeichnen kann. Diese Info habe ich von einem Dozenten, der Machinelearning an der Uni liest.
Re: Busting Big Data
Verfasst: 5. November 2018, 00:51
von Bwana Honolulu
Hatten wir nicht letztens auch 'nen Artikel hier, wo's darum ging, daß man transparentere KIs zu entwickeln versucht, deren Entscheidungen für Menschen besser nachvollziehbar sind, weil halt manche KIs sogar super funktionieren, aber keine weiß, warum?