Προς φίλο
@Volkswagen Fan,
@Andypro και άλλους:
Σκέφτηκα να ορίσουμε λίγο τις λέξεις των
δεδομένων επειδή πολλές φορές στα Ελληνικά μιλάμε στο περίπου, εννοώντας άλλα, ή προκαλώντας σύγχυση πιθανόν και σε νέους απόφοιτους. Με ψάξιμο είδα ότι ο κλάδος των δεδομένων διαχωρίζεται σε δυο κλάδους:
- Επιστήμη Δεδομένων (Data Science) για υπόβαθρο σε Πληροφορική
- Ανάλυση Δεδομένων (Data Analysis or Data Learning) για υπόβαθρο σε Μαθηματικά** και Στατιστική ή Οικονομικά (υπό συνθήκη)
Data Analysis:
- Συνδέεται με: Αριθμητική Ανάλυση, Συναρτησιακή Ανάλυση (Ανάλυση σε Χώρους Hilbert, Ορθογώνια Γεωμετρία), Κυρτή Βελτιστοποίηση και μέρος της Μαθηματικής Στατιστικής (με τις παρακάτω 4 ενότητες)
Η Ανάλυση Δεδομένων αφορά τον υβριδικό επιστημονικό κλάδο της Συναρτησιακής Ανάλυσης και της Μαθηματικής Στατιστικής μέσω της Αριθμητικής Ανάλυσης που ονομάζεται ως Statistical Learning or Statistical Analysis και έχει υποκλάδους: Dictionary Learning, Digital Signal Processing, Acoustic Tomography, κτλ αποτελώντας ένα γενικότερο πλαίσιο της σύγχρονης Μαθηματικής Βελτιστοποίησης.
Με προσωπική έρευνα σε διάφορα επιστημονικά περιοδικά και blogs κατέληξα ότι: η
Mαθηματική Στατιστική που χρησιμοποιείται σε εταιρίες, οργανισμούς, τράπεζες και βιομηχανίες είναι διάφορες αλγοριθμικές μέθοδοι από τα κλασικά κεφάλαια Στατιστικής και Πιθανοτήτων:
- Θεωρία Εκτιμήσεων σύνδεση με Αριθμητική Ανάλυση
- Έλεγχοι Υποθέσεων
- Παλινδρόμηση (Γραμμικά και Μη Γραμμικά Μοντέλα) γέφυρα με Οικονομετρία
- Πιθανοτικά Μοντέλα Αποφάσεων (Exploit Data Statistics)
ρίχνοντας "γέφυρα" είτε
- στην επαγγελματική ειδικότητα του
Business Analytics
(συνώνυμη λέξη με τις πέντε ενότητες παραπάνω)
είτε
- στην
στατιστική προσέγγιση της μηχανικής μάθησης (Στατιστική Ανάλυση)
Η
ανάλυση χρονοσειρών είναι μια ειδική ενότητα στατιστικής που μπλέκει και στοχαστικές διαδικασίες με περιορισμό μόνο για όσους πάνε στον χρηματοοικονομικό τομέα με επιπλέον πιστοποιήσεις (CFA, κτλ). Ειδική ενότητα αποτελεί η
στατιστική Bayes με σχετικές εφαρμογές στην Θεωρία Λήψης Αποφάσεων.
Ενδεικτικά:
Η μηχανική μάθηση (machine learning) ανήκει στην
επιστήμη δεδομένων που απευθύνεται σε πτυχιούχους Πληροφορικής γιατί μπλέκει και άλλες πιο τεχνικές ενότητες από την Πληροφορική, τους Ηλεκτρονικούς Μηχανικούς και τους Μηχανικούς ή Επιστήμονες Πληροφορίας.
** Η
ανάλυση δεδομένων (statistical learning: regression und classification) σε συνδυασμό με προγραμματισμό, αποτελεί ένα δυνατό μαθηματικό προφίλ για θέσεις σε επενδυτικές τράπεζες, χρηματιστηριακές εταιρίες, ασφαλιστικές εταιρίες, φαρμακευτικές εταιρίες, βιομηχανίες κατασκευής τεχνολογίας, δικαστήρια, νοσοκομεία, σχολικές εταιρίες, κτλ. Δηλαδή, ένας μαθηματικός ή φυσικός που έχει εξειδίκευση στην ανάλυση δεδομένων και εργάζεται σε μια ασφαλιστική εταιρία δεν θεωρείται αναλογιστής (που θέλει άλλη πιστοποίηση για την άδεια επαγγέλματος) για παράδειγμα, αλλά μπορεί να ασχοληθεί με τα δεδομένα των ασφαλιστικών προτύπων.
Η
στατιστική μάθηση ή
στατιστική ανάλυση περιέχει δυο μεγάλους θεματικούς άξονες:
- Γραμμική/Μη Γραμμική Παλινδρόμηση (σύνδεση με την
Μαθηματική Στατιστική και
Οικονομετρία)
- Μέθοδοι Ταξινόμησης Δεδομένων.