Κεφάλαιο 1.3 - 1.3.6 Κωδικοποίηση ήχου
Κεφάλαιο 1.3 - 1.3.6 Κωδικοποίηση ήχου
1.3.6 Κωδικοποίηση ήχου
Ο ήχος, είναι η αίσθηση που αντιλαμβανόμαστε όταν τα ακουστικά νεύρα ενεργοποιούνται από μόρια που δονούνται στον αέρα. Οποιοσδήποτε ήχος απαιτεί μια πηγή , όπως μια ανθρώπινη φωνή ή ένα μουσικό όργανο, και ένα μέσο για να ταξιδέψει, τον αέρα, ένα υγρό όπως το νερό ή ένα στερεό.
Όταν μιλάμε, ο ήχος που παράγουμε δημιουργεί μια δόνηση. Αυτές οι δονήσεις αποτελούνται από την ταλάντωση των μορίων του αέρα που χτυπούν μεταξύ τους και δημιουργούν ένα ηχητικό κύμα : ένα αναλογικό σήμα που ταξιδεύει στον αέρα.
Ο ήχος διαφέρει από τους χαρακτήρες ή τους αριθμούς που περιγράψαμε παραπάνω. Ένα κείμενο αποτελείται από ένα πλήθος συγκεκριμένων χαρακτήρων που μπορεί να εύκολα να μετατραπεί σε ψηφιακή μορφή με την βοήθεια των κωδικών που είδαμε παραπάνω. Ο ήχος όμως δεν είναι μετρήσιμος, είναι μια οντότητα που μεταβάλλεται, σε σχέση με το χρόνο, σε ένταση (πλάτος) και συχνότητα (τόνος).

Ο ήχος είναι ένα παράδειγμα αναλογικών δεδομένων. Όπως φαίνεται στην παραπάνω γραφική παράσταση, το πλήθος των τιμών της έντασης του ήχου σε μια χρονική περίοδο είναι άπειρο και δεν μπορούμε να τις αποθηκεύσουμε στη μνήμη του υπολογιστή.
Για να τον επεξεργαστούμε, αποθηκεύσουμε, αναπαράγουμε, μεταδώσουμε με ψηφιακά συστήματα (υπολογιστής, κινητό τηλέφωνο, ψηφιακή τηλεόραση και ραδιόφωνο, media player, Διαδίκτυο κ.τ.λ.) θα πρέπει να μετατραπεί σε ψηφιακή μορφή, δηλαδή σε μια ακολουθία από διακριτές τιμές. Για τη μετατροπή του ήχου από αναλογικό σε ψηφιακό είναι απαραίτητη η διαδικασία της ψηφιοποίησης του. Η διαδικασία αυτή περιλαμβάνει τρία βασικά στάδια: την «δειγματοληψία» του αρχικού σήματος, την «κβάντιση» των τιμών του σήματος που προκύπτει από την δειγματοληψία και τέλος την «κωδικοποίηση».Δειγματοληψία
Δειγματοληψία είναι η διαδικασία λήψης ενός πεπερασμένου πλήθους τιμών του πλάτους του αναλογικού σήματος, σε δεδομένες στιγμές του χρόνου, σε ίσες αποστάσεις μεταξύ τους. Παίρνουμε δηλαδή περιοδικά δείγματα (samples) σε μια συχνότητα που επιλέγουμε. Ο αριθμός λήψης δειγμάτων ανά δευτερόλεπτο ονομάζεται ρυθμός ή συχνότητα δειγματοληψίας (sampling rate).
Πόσα δείγματα πρέπει να πάρουμε ώστε να πετύχουμε ένα ακριβές αντίγραφο του αρχικού αναλογικού ήχου;
Η απάντηση στο ερώτημα δίνεται από το θεώρημα του Nyquist, το οποίο αποδεικνύει ότι: Ένα συνεχές στο χρόνο σήμα που περιέχει συχνότητες όχι μεγαλύτερες από fmax μπορεί να ανακατασκευαστεί ακριβώς από τα δείγματα του, αν τα δείγματα αυτά έχουν ληφθεί με συχνότητα δειγματοληψίας που είναι μεγαλύτερη από 2fmax. Η μέγιστη συχνότητα δειγματοληψίας πρέπει να είναι τουλάχιστον διπλάσια από τη μέγιστη συχνότητα του αναλογικού σήματος στο οποίο γίνεται δειγματοληψία.
Για παράδειγμα, αν η μέγιστη συχνότητα του αναλογικού συστήματος είναι 10 KHz, η συχνότητα δειγματοληψίας πρέπει να είναι τουλάχιστον 20 KHz.
Οι μουσικοί οπτικοί δίσκοι (Audio CD-ROM) χρησιμοποιούν συχνότητα δειγματοληψίας ίση με 44.1KHz (44100 δείγματα ανά δευτερόλεπτο) για την αποθήκευση του ηχητικού σήματος. Η συχνότητα αυτή είναι λίγο μεγαλύτερη από 2 φορές τη συχνότητα των 20 ΚΗz που κατά γενική παραδοχή αποτελεί το άνω όριο για τις συχνότητες που γίνονται αντιληπτές από το ανθρώπινο αυτί. Με ένα τέτοιο ρυθμό δειγματοληψίας διασφαλίζεται ότι όλες οι συχνότητες που είναι μικρότερες ή ίσες με 20 kHz θα αποδοθούν σωστά στο το ψηφιακό σήμα.

Εικόνα 1.3.6.α. Δειγματοληψία διαφόρων συχνοτήτων. Πηγή: https://www.headphonesty.com/2019/07/sample-rate-bit-depth-bit-rate
Κβάντιση
To δεύτερο στάδιο είναι η κβάντιση, δηλαδή η μετατροπή της τιμής των δειγμάτων σε ακεραίους αριθμούς εκφρασμένους στο δυαδικό σύστημα. Πόσα bit θα χρειαστούν για να εκφραστούν οι τιμές των δειγμάτων στο δυαδικό σύστημα;
‘Έστω ότι έχουμε το αναλογικό ηχητικό σήμα της παρακάτω εικόνας (μπλε γραμμή). Ας υποθέσουμε επίσης ότι έχουμε στη διάθεση μας 3 bits για να εκφράσουμε τις διαφορετικές τιμές των δειγμάτων, δηλαδή οι διαφορετικές τιμές που μπορούμε να πάρουμε είναι 23=8. Τα δείγματα αναπαρίστανται με τις κόκκινες τελείες, ενώ οι οριζόντιες διακεκομμένες γραμμές είναι οι 8 επιτρεπτές τιμές κβάντισης (0,1,2,3,-1,-2,-3,-4). Επειδή η κβάντιση εκφράζεται σε ακέραιους δυαδικούς αριθμούς, κάθε τιμή του δείγματος στρογγυλοποιείται στην πλησιέστερη ακέραιη τιμή κβάντισης. Π.χ. το τρίτο δείγμα στην εικόνα έχει τιμή περίπου 2,9 και στρογγυλοποιήθηκε στο 3. Έτσι αντί των κόκκινων τελειών, οι τιμές αντιστοιχούν πλέον στις μαύρες τελείες. Συνεπώς, κοντινές, αλλά διαφορετικές τιμές αναλογικής έντασης αντιστοιχούν στην ίδια ψηφιακή τιμή.Αν τώρα ενώσουμε μεταξύ τους τις μαύρες τελείες, η γραμμή που θα σχηματιστεί είναι το κβαντισμένο, ψηφιακό σήμα.

Εικόνα 1.3.6.β. Κβάντιση σήματος με 3 bit
Στην παρακάτω εικόνα (1.3.6.γ) βλέπουμε το αναλογικό σήμα (κόκκινη γραμμή) και το ψηφιακό (κυανή γραμμή) που προκύπτει έπειτα από κβάντιση των 3 bit με 8 επιτρεπτές τιμές.
Εικόνα 1.3.6.γ. Σύγκριση αναλογικού και ψηφιακού σήματος.
Ας δούμε την κβάντιση του ίδιου σήματος με 4 bit, δηλαδή με 24=16 επιτρεπτές τιμές κβάντισης (Εικόνα 1.3.6.δ).

Εικόνα 1.3.6.δ. Κβάντιση με 4 bit
Συμπεραίνουμε ότι όσο περισσότερα bit διαθέτουμε για τις τιμές των δειγμάτων, τόσο το παραγόμενο ψηφιακό σήμα θα είναι καλύτερη προσέγγιση του αναλογικού.
Κωδικοποίηση
Το τελικό στάδιο για την ψηφιοποίηση ενός αναλογικού σήματος είναι η κωδικοποίηση, δηλαδή η μετατροπή των τιμών κβάντισης σε δυαδικούς αριθμούς, ώστε να είναι δυνατή η αποθήκευση τους στη μνήμη του υπολογιστή για να μπορούν στη συνέχεια να χρησιμοποιηθούν για την μεταφορά, την επεξεργασία και την ανασύνθεση του αρχικού αναλογικού ηχητικού σήματος.
Η πιο συχνά χρησιμοποιούμενη μέθοδος κωδικοποίησης, είναι η παλμοκωδική διαμόρφωση (Pulse Code Modulation, PCM). Ο αριθμός των δυαδικών ψηφίων (bit) που διατίθενται για την αποθήκευση κάθε τιμής καλείται εύρος δείγματος (sample width ή bit depth). Το εύρος δείγματος καθορίζει το πλήθος των διαφορετικών τιμών κβάντισης. Για παράδειγμα, ένα ηχητικό σήμα με εύρος δείγματος 16 bit (ποιότητα CD) μπορεί να περιέχει 65.536 (=216) τιμές. [1]
Αν δεχθούμε ότι το εύρος δείγματος είναι Α και ότι ρυθμός δειγματοληψίας ανά δευτερόλεπτο είναι Β τότε για κάθε δευτερόλεπτο ήχου πρέπει ν’ αποθηκεύσουμε Α Χ Β bits. Το γινόμενο αυτό αναφέρεται ως ρυθμός μετάδοσης (bit rate) και εκφράζει την ταχύτητα δημιουργίας και μετάδοσης ψηφιακών δεδομένων σε μια συγκεκριμένη μονάδα χρόνου και μετριέται σε bits/sec (bps).
Το μέγεθος ενός ασυμπίεστου ψηφιακού ηχητικού αρχείου εξαρτάται, από τέσσερις παραμέτρους: Τη χρονική του διάρκεια, την συχνότητα δειγματοληψίας, το εύρος δείγματος και το πλήθος των καναλιών του. Για να υπολογίσουμε το μέγεθος του αρχείου εφαρμόζουμε τον παρακάτω τύπο:
Μέγεθος (σε bytes)= συχνότητα δειγματοληψίας (Hz) x εύρος δείγματος (bits) x χρονική διάρκεια (sec) x αρ.καναλιών / 8 (bits) γιατί το ζητούμενο μέγεθος είναι σε bytes.
Για παράδειγμα ένα στερεοφωνικό αρχείο (με δύο κανάλια ήχου), με συχνότητα δειγματοληψίας 44.1 kHz (44.100 Ηz), εύρος δείγματος 16 bit και με χρονική διάρκεια 5 λεπτά (300 sec), το μέγεθός του θα είναι περίπου 55,92 Mb.
Από τα παραπάνω καταλαβαίνουμε ότι όσο μεγαλύτερη είναι η συχνότητα δειγματοληψίας και το εύρος δείγματος, τόσο μεγαλύτερο το κομμάτι πληροφορίας που παράγεται και επομένως το ψηφιακό μας σήμα είναι καλύτερη προσέγγιση του αναλογικού από το οποίο προήλθε. Περισσότερη πληροφορία όμως σημαίνει και περισσότερη δυσκολία, καθώς η κατασκευή ενός ποιοτικού ψηφιακού σήματος απαιτεί μεγάλη υπολογιστική ισχύ και μνήμη κατά την αποθήκευση του, την επεξεργασία του και τη μετάδοση του. Για αυτούς τους λόγους είναι απαραίτητη η συμπίεση των αρχείων ήχου ώστε να μπορούν εύκολα να διαχειριστούν.
Συμπίεση
Στην συμπίεση των ηχητικών δεδομένων εφαρμόζονται αλγόριθμοι που συνδυάζουν απωλεστικές και μη απωλεστικές τεχνικές συμπίεσης. Έτσι, υπάρχουν δύο κατηγορίες αλγορίθμων συμπίεσης, οι απωλεστικοί (lossy) και οι μη απωλεστικοί (lossless).
Πολλά αρχεία περιέχουν μεγάλα τμήματα τα οποία επαναλαμβάνονται (όπως ένα αρχείο κειμένου μπορεί να περιέχει πολλές φορές τη λέξη Κωνσταντινούπολη οπότε αρκεί η λέξη να τοποθετηθεί σε έναν πίνακα με λέξεις και να αντικαθίσταται με έναν αριθμό που δείχνει τη θέση της στον πίνακα) ή περιέχουν δεδομένα που η απώλειά τους δεν προκαλεί σοβαρή μεταβολή του περιεχόμενου.
Η συμπίεση μπορεί να μειώσει τον όγκο των δεδομένων που στέλνονται ή αποθηκεύονται, με την ελαχιστοποίηση του πλεονασμού που παρουσιάζεται κατά τη δημιουργία των δεδομένων. Με τη διαδικασία της συμπίεσης η μεταφορά και η αποθήκευση γίνονται με πιο αποδοτικό τρόπο, ενώ παράλληλα διατηρείται η ακεραιότητα των δεδομένων.
Στην μη απωλεστική συμπίεση (lossless compression) διατηρείται η ακεραιότητα των δεδομένων. Τα αρχικά δεδομένα και τα δεδομένα μετά τη συμπίεση και την αποσυμπίεση είναι ακριβώς τα ίδια, και κατά τη διαδικασία δε χάνεται κανένα μέρος των δεδομένων. Τα πλεονάζοντα δεδομένα κωδικοποιούνται κατά τη συμπίεση και αποκωδικοποιούνται κατά την αποσυμπίεση. Αυτοί οι μέθοδοι χρησιμοποιούνται όταν δεν πρέπει να χαθεί ούτε ένα μπιτ δεδομένων όπως στην περίπτωση ενός αρχείου κειμένου ή ενός προγράμματος. [3]
Η απωλεστική συμπίεση στηρίζεται σε ψυχο-ακουστικά μοντέλα βάσει των οποίων εφαρμόζονται αλγόριθμοι που απορρίπτουν τους ήχους που δεν γίνονται αντιληπτοί από το ανθρώπινο αυτί, δηλαδή μεταξύ των συχνοτήτων 20 Hz και 20 ΚΗz. Μπορούμε, λοιπόν, να απορρίψουμε τα δεδομένα που αφορούν σε συχνότητες εκτός των παραπάνω ορίων. Επίσης, όταν υπάρχει ένας ήχος συγκεκριμένης συχνότητας και έντασης, είναι δυνατόν άλλοι ήχοι σε κοντινές συχνότητες και μικρότερης έντασης να μη γίνονται αντιληπτοί από το ανθρώπινο αυτί (φαινόμενο ηχητικής σκίασης). Το ίδιο ισχύει και όταν κάποιος ήχος έχει πολύ χαμηλή ένταση. Στις περιπτώσεις αυτές η κωδικοποίηση απορρίπτει τις σχετικές πληροφορίες, επιτυγχάνοντας μείωση του όγκου του τελικού αρχείου. Οι πληροφορίες που χάνονται είναι τέτοιες που, έτσι και αλλιώς, δεν μπορεί να τις αντιληφθεί το ανθρώπινο αυτί.
Πρότυπα κωδικοποίησης ήχου
Η ποιότητα και η ομοιομορφία της δομής των κωδικοποιήσεων του ήχου απαιτούσε τη σύσταση μιας επιτροπής προτυποποίησης. Η επιτροπή ονομάστηκε Moving Pictures Expert Group (MPEG) και από το τέλος της δεκαετίας του 80 επιφορτίστηκε με την ανάπτυξη προτύπων για την κωδικοποιημένη αναπαράσταση κινούμενων εικόνων, ηχητικών σημάτων και του συνδυασμού τους.
Το πρώτο πρότυπο που αναπτύχθηκε από την επιτροπή ονομάστηκε MPEG-1 Audio και αποτελεί το πρώτο διεθνές πρότυπο που καθορίζει το ψηφιακό μορφότυπο για υψηλής ποιότητας ήχο. Η επιτυχία των προτύπων MPEG οδήγησε στην αποδοχή συμπιεσμένου ήχου υψηλής ποιότητας σε μια ευρεία γκάμα εφαρμογών, όπως η ψηφιακή μετάδοση και οι διαδικτυακές εφαρμογές. Σήμερα το επικρατέστερο πρότυπο MPEG είναι το MP3 (MPEG Layer III).
Το ΜΡ3 είναι ένας τύπος ψηφιακού συμπιεσμένου αρχείου ήχου που πετυχαίνει συμπίεση έως 12 φορές ως προς την αρχική μορφή χωρίς εμφανείς απώλειες στην ποιότητα. Παρέχει τη δυνατότητα αναπαράστασης ήχου κωδικοποιημένου με μορφή Pulse Code Modulation (PCM), δεσμεύοντας όμως πολύ λιγότερο χώρο (για δεδομένα). Αυτό γίνεται μέσω ενός αλγορίθμου σχεδιασμένου να μειώνει δραστικά το πλήθος των ψηφιακών δεδομένων που απαιτούνται για την αποθήκευση και ορθή αναπαραγωγή του ήχου, απορρίπτοντας τμήματα ή περιοχές του ηχητικού σήματος που δεν ακούει το ανθρώπινο αυτί και καταγράφοντας την υπόλοιπη πληροφορία με αποτελεσματικό τρόπο. [2]
Άλλοι τύποι αρχείων ήχου είναι:
.WAV (Waveform Audio File Format) ψηφιακός τύπος αρχείου βασισμένος στην κωδικοποίηση PCM Επιτρέπει την αποθήκευση ήχου με διάφορα sampling και bit rates. Συνήθως χρησιμοποιούνται για να αποθηκεύουν αρχεία ποιότητας CD. Είναι παρόμοια με τα .AIF άλλα είναι πιο περίπλοκα και χρησιμοποιούνται περισσότερο από συστήματα Windows.. AIFF (Audio Interchange File Format) είναι τύπος αρχείου όμοιος με το .WAV. Αναπτύχθηκε από την Apple. Ένα τυπικό αρχείο .AIF ψηφιακού δίσκου έχει συχνότητα δειγματοληψίας 44.1KHz, εύρος δείγματος 16 bit και έχει δυο κανάλια.
.WMA (Windows Media Audio File) αρχείο ήχου συμπιεσμένο με το Windows Media το οποίο κατασκευάστηκε από την Microsoft, έχει ομοιότητες με το MP3. Χρησιμοποιείται κυρίως για την αναπαραγωγή μουσικής στο Διαδίκτυο.
.MID (Musical Instrument Digital Interface, Ψηφιακή Διασύνδεση Μουσικών Οργάνων) είναι το παλαιότερο (1983) και το πλέον διαδεδομένο πρωτόκολλο μουσικής επικοινωνίας, το οποίο επιτρέπει σε ηλεκτρονικά μουσικά όργανα (π.χ. synthesizers), υπολογιστές και άλλο ηλεκτρονικό εξοπλισμό να επικοινωνούν και να συγχρονίζονται μεταξύ τους ελέγχοντας το ένα το άλλο.
Η πληροφορία που μεταφέρεται δεν αποτελεί σήμα ήχου αλλά μηνύματα (οδηγίες εκτέλεσης) που αφορούν το ποια νότα πρέπει να παιχθεί, για πόσο χρόνο και ένταση και από ποιο μουσικό όργανο. Επομένως η "γλώσσα" MIDI ορίζει τον τρόπο αναπαραγωγής της μουσικής με τρόπο παρόμοιο με αυτόν μιας παρτιτούρας.
Τα πλεονεκτήματα του MIDI είναι ότι υπάρχει μεγαλύτερη ευελιξία στην επεξεργασία της μουσικής MIDI ενώ απαιτείται και μικρότερος αποθηκευτικός χώρος (ένα αρχείο MIDI είναι από 200 έως 1.000 φορές μικρότερο από ένα αρχείο ψηφιοποιημένου ήχου ποιότητας CD). Για παράδειγμα, ένα λεπτό μουσικής αποθηκευμένο σε αρχείο WAV απαιτεί περίπου 10 MB, ενώ σε αρχείο MIDI απαιτεί περίπου 6 ΚΒ.