Μελέτη και στατιστική ανάλυση συναισθηματικής βάσης ομιλίας της ελληνικής.
Research and statistical analystis of emotional speech database of greek language.
View/ Open
Date
2015-04-22Author
Φλεντζουρής, Παναγιώτης
Flentzouris, Panagiotis
Metadata
Show full item recordAbstract
Στην ανθρώπινη επικοινωνία, η έκφραση της συναισθηματικής κατάστασης εκτελείται αρχικά με τη διαμόρφωση των εκφράσεων του προσώπου και αφετέρου με την προσωδία της ομιλίας. Κατά συνέπεια για την εύρωστη αναγνώριση της συναισθηματικής κατάστασης, οι ερευνητές εκτελούν πέραν της ανάλυση της έκφρασης του προσώπου και την ανάλυση ακουστικών χαρακτηριστικών του προφορικού λόγου. Ένας εκτενής αριθμός πειραμάτων έχει πραγματοποιηθεί χρησιμοποιώντας τεχνικές επεξεργασίας σήματος με σκοπό την αξιολόγηση ακουστικών χαρακτηριστικών του σήματος ομιλίας τα οποία συνεισφέρουν στην αναγνώριση της συναισθηματικής κατάστασης του ομιλητή. Τα αποτελέσματα αυτής της έρευνας έδειξαν ότι τα σημαντικότερα χαρακτηριστικά ήταν εκείνα τα οποία περιείχαν προσωδιακή πληροφορία του προφορικού λόγου (καμπύλη τονικότητας, ένταση, ενέργεια και διάρκεια τμημάτων ομιλίας). Στόχος της παρούσης πτυχιακής εργασίας είναι η μελέτη και η στατιστική ανάλυση των χαρακτηριστικών αυτών σε μια προσωδιακή βάση συναισθηματικής ομιλίας της Ελληνικής. Στα πλαίσια της εργασίας χρησιμοποιήθηκε βάση δεδομένων συναισθηματικής ομιλίας η οποία περιείχε τα συναισθήματα θυμού, χαράς, λύπης, φόβου καθώς και της ουδέτερης συγκινησιακής κατάστασης. Συγκεκριμένα το σώμα ομιλίας που χρησιμοποιήθηκε αποτελείται από 40 φράσεις, 5 αποτελούμενες από μια ή δύο λέξεις και 35 προτάσεις, με το ίδιο κείμενο για κάθε συναισθηματική κατάσταση. Σε πρώτη φάση, το σήμα ομιλίας τεμαχιοποιήθηκε σε επίπεδο πρότασης, λέξης και φωνήματος. Στη συνέχεια εξάχθηκαν ακουστικά χαρακτηριστικά τα οποία ευθυγραμμίσθηκαν με το κείμενο. Για το σκοπό αυτό χρησιμοποιήθηκε η γλώσσα δέσμης ενεργειών "scripting language" του περιβάλλοντος PRAAT. Μετά την δημιουργία των παραπάνω μελετήθηκαν οι διαφοροποιήσεις των διαρκειών, της ενέργειας και του τονικού ύψους σε διάφορα επίπεδα κατάτμησης της εκφερόμενης φράσης για κάθε συναισθηματική κατάσταση. Για την διεκπεραίωση της πτυχιακής χρησιμοποιήθηκαν τά προγράμματα PRAAT και Matlab. In human communication, the expression of emotional state is conducted firstly with the formation of facial expressions and secondly with the prosody of speech. Consequently, for the robust recognition of emotional state, researchers conduct apart from the analysis of facial expression also the analysis of acoustic characteristics of speech. An extensive number of experiments has been conducted using signal processing techniques in order to evaluate the acoustic characteristics of the speech signal that contribute to the recognition of the emotional state of the speaker. The results of these researches showed that the most important features were those containing prosodic information of speech (tone curve, intensity, energy and duration of parts of the speech). The aim of this thesis is the study and statistical analysis of these characteristics in a prosodic database of emotional speech of Greek language. For the purpose of this thesis was used an emotional speech database that contained the emotions of anger, joy, sadness, fear and neutral emotional state. Specifically the speech body was composed of 40 phrases, 5 composed of one or two words and 35 sentences, with the same text for each emotional state. Initially, the speech signal was cut at sentence level, word and phoneme. Then acoustic characteristics were exported which were aligned with the text.For this purpose scripting language of the .PRAAT program was used. After the creation of the above mentioned parts, the variations of durations, energy and pitch at different segmentation levels of the speaking phrase for each emotional state were considered. For the completion of this thesis two programs were used, PRAAT and Matlab.
Collections
This website uses cookies to ensure you get the best browsing experience.
Continue
More info