📊 Καθαρισμός και Μετασχηματισμός Δεδομένων

Data Cleaning & Transformation

📖 Περιγραφή Μαθήματος

Το μάθημα "Καθαρισμός και Μετασχηματισμός Δεδομένων" αποτελεί έναν ολοκληρωμένο οδηγό για μία από τις πιο κρίσιμες διαδικασίες στον κύκλο ζωής των δεδομένων. Σύμφωνα με έρευνες, οι επαγγελματίες δεδομένων αφιερώνουν έως και 80% του χρόνου τους στον καθαρισμό δεδομένων, καθιστώντας την κατανόηση αυτών των τεχνικών απαραίτητη για κάθε σύγχρονο επαγγελματία.

Μέσα από 6 ενότητες και πρακτικά παραδείγματα, θα μάθετε να εντοπίζετε και να διορθώνετε προβλήματα ποιότητας δεδομένων, να χρησιμοποιείτε επαγγελματικά εργαλεία, και να εφαρμόζετε βέλτιστες πρακτικές που χρησιμοποιούνται σε πραγματικά επιχειρηματικά περιβάλλοντα.

🎯 Μαθησιακοί Στόχοι

Με την ολοκλήρωση του μαθήματος, οι εκπαιδευόμενοι θα είναι σε θέση να:

  • Κατανοούν τη σημασία του καθαρισμού δεδομένων και τον αντίκτυπό του στην ποιότητα των αναλύσεων
  • Αναγνωρίζουν κοινά προβλήματα δεδομένων (ελλιπή δεδομένα, διπλότυπα, ακραίες τιμές, ασυνέπειες)
  • Εφαρμόζουν κατάλληλες τεχνικές καθαρισμού για κάθε τύπο προβλήματος
  • Χρησιμοποιούν εργαλεία όπως OpenRefine, Excel Power Query και Python pandas
  • Μετατρέπουν δεδομένα μεταξύ διαφορετικών μορφότυπων (CSV, JSON, XML, RDF)
  • Αξιολογούν την ποιότητα δεδομένων χρησιμοποιώντας μετρικές και frameworks
  • Σχεδιάζουν ολοκληρωμένες διαδικασίες διασφάλισης ποιότητας δεδομένων

📚 Περιεχόμενα Μαθήματος

Ενότητα 1 Εισαγωγή στον Καθαρισμό Δεδομένων
Ενότητα 2 Τεχνικές Καθαρισμού και Μετασχηματισμού
Ενότητα 3 Εργαλεία Καθαρισμού Δεδομένων
Ενότητα 4 Μετατροπή Μορφότυπων Δεδομένων
Ενότητα 5 Επαλήθευση και Διασφάλιση Ποιότητας
Ενότητα 6 Πρακτικές Εφαρμογές (Case Studies)

📝 Αξιολόγηση

  • 3 Ενδιάμεσα Quiz (μετά τις ενότητες 1, 2, 3) - 18 ερωτήσεις συνολικά
  • 1 Τελικό Quiz - 20 ερωτήσεις πολλαπλής επιλογής
  • Βαθμός επιτυχίας: 70%

👥 Σε Ποιους Απευθύνεται

  • Data Analysts και Business Analysts
  • Data Scientists και Machine Learning Engineers
  • Επαγγελματίες ΙΤ που διαχειρίζονται δεδομένα
  • Στελέχη επιχειρήσεων που λαμβάνουν αποφάσεις βάσει δεδομένων
  • Φοιτητές πληροφορικής και στατιστικής
  • Οποιονδήποτε θέλει να βελτιώσει την ποιότητα των δεδομένων του

✅ Προαπαιτούμενα

  • Βασική γνώση χειρισμού υπολογιστή
  • Εξοικείωση με spreadsheets (Excel/Google Sheets)
  • Βασική κατανόηση εννοιών δεδομένων (προαιρετικό)
  • Δεν απαιτείται προηγούμενη εμπειρία προγραμματισμού
⏱️

Διάρκεια

6-8 ώρες

Αυτορυθμιζόμενη μάθηση

🏅

Πιστοποίηση

Βεβαίωση Ολοκλήρωσης

Με επιτυχία στο τελικό quiz

💻

Μορφή

Online / SCORM

Διαδραστικό περιεχόμενο

Το Σύστημα Γεωγραφικών Πληροφοριών (ΣΓΠ), γνωστό ευρέως και ως G.I.S. Geographic Information Systems, είναι σύστημα διαχείρισης χωρικών δεδομένων (spatial data) και συσχετισμένων ιδιοτήτων. Ένα ΣΓΠ είναι ένα εργαλείο "έξυπνου χάρτη", το οποίο επιτρέπει στους χρήστες του να αποτυπώσουν μια περίληψη του πραγματικού κόσμου.
Το OpenStreetMap (OSM) είναι ένας Ανοιχτός Διαδικτυακός Χάρτης. Ανοιχτός διότι όλα τα δεδομένα που περιέχει προέρχονται από τα εκατομμύρια των χρηστών του και διατίθενται σε όλους για κάθε χρήση. Διαδικτυακός διότι όλα τα δεδομένα του είναι διαθέσιμα στο διαδίκτυο. Χάρτης διότι όλα τα δεδομένα του έχουν χαρτογραφική αναφορά και αντιστοιχούν σε φυσικά ή τεχνητά, αντικείμενα ή φαινόμενα στην γήινη επιφάνεια. Η διαφοροποίησή του όμως από τους συμβατικούς χάρτες το κατέστησε μοναδικό ανάμεσα σε όλα τα ανταγωνιστικά ΣΓΠ και αυτή η διαφοροποίηση έγκειται στο γεγονός ότι οι εθελοντές / χρήστες του OSM είναι ελεύθεροι να συλλέξουν, να επεξεργαστούν και να χρησιμοποιήσουν τα χωρικά δεδομένα του.


Στόχος του εκπαιδευτικού υλικού : Μετά το πέρας της εκπαίδευσης οι εκπαιδευόμενοι θα πρέπει να είναι σε θέση:

  • Να  εισάγουν μία παρεχόμενη υπηρεσία ή διαδικασία στο diadikasies.gr.

  • Να μπορούν να την κατηγοριοποιήσουν και να την μεταβάλλουν, (ως προς το περιεχόμενο της και να τη διαγράψουν).

  • Να εισαγάγουν αρχεία πολυμέσων και να δημιουργήσουν εσωτερικούς και εξωτερικούς συνδέσμους.

  • Να δημιουργήσουν μία παρεχόμενη υπηρεσία/διαδικασία με ευανάγνωστη δομή, σωστά κατηγοριοποιημένη με τη νομοθεσία που την τεκμηριώνει και τους απαραίτητους συνδέσμους.


  • Διδάσκοντας: J. St
opendata2


Στόχος του εκπαιδευτικού υλικού: Στο τέλος της ενότητας οι συμμετέχοντες θα μπορούν να:

  1. Περιγράψουν τα ανοιχτά δεδομένα

  2. Περιγράψουν την αξία των ανοιχτών δεδομένων για το δημόσιο τομέα, τις επιχειρήσεις, τους πολίτες και τους ερευνητές

  3. Αναγνωρίσουν την αξία των ανοιχτών προτύπων και να περιγράψουν τις βασικές προκλήσεις για την εφαρμογή ανοιχτών προτύπων

  4. Να περιγράψουν τους βασικούς  δείκτες απόδοσης για τη σύγκριση και τη μέτρηση επιτυχημένων πρωτοβουλιών ανοιχτών δεδομένων

  5. Περιγράψουν τους τρόπους ανόιγματος των δεδομένων από ένα οργανισμό

  6. Αναγνωρίσουν και περιγράψουν το είδος ανοιχτής άδειας που εφαρμόζεται


Αυτό το  μάθημα βασίζεται σε περιεχόμενο από το https://www.europeandataportal.eu/ και το Open Data Goldbook for Data Managers and Data Holders