Αναγνώριση εκφράσεων προσώπου στην μουσική.
Recognition of facial expressions in music.
Abstract
Η αναγνώριση των συναισθημάτων στο ανθρώπινο πρόσωπο είναι ένα θεμελιώδες πρόβλημα στον τομέα των ηλεκτρονικών υπολογιστών το οποίο αποκτά μεγάλο ενδιαφέρον από την ερευνητική κοινότητα τα τελευταία χρόνια. Σε αυτή την εργασία, θα επικεντρωθούμε στην αναγνώριση εκφράσεων προσώπου το οποίο είναι ο κύριος στόχος της, εντοπίζοντας αυτόματα και ταξινομώντας τις εκφράσεις σε μια αλληλουχία εικόνων ή βίντεο. Θα εξετάσουμε μια ειδική και ενδιαφέρουσα περίπτωση της αναγνώρισης των εκφράσεων προσώπου: την αναγνώριση σε μουσικά βίντεο κλιπ. Η μουσική είναι ένα βασικός τρόπος έκφρασης για τα ανθρώπινα συναισθήματα. Αλλά έχουμε κατά νου ότι υπάρχει ένας μάλλον διαφορετικός τρόπος που το πρόσωπο εκφράζει τα συναισθήματα μέσα σε ένα μουσικό βίντεο κλιπ και στην περίπτωση έκφρασης τους στην καθημερινή ζωή. Θα χρησιμοποιήσουμε τις ήδη γνωστές μεθόδους ταξινόμησης συναισθημάτων, όπως η λογιστική παλινδρόμηση (LogReg), η ταξινόμηση και Δέντρα Παλινδρόμησης (CR-tree) , Γραμμική ανάλυση διακρίνουσας (LDA [17]) , k- nearest neighbor (k-NN) και την τετραγωνική διακριτική ανάλυση (QDA [16]). Επίσης εισάγει την χρήση του αλγορίθμου SIFT[9] για την εξαγωγή τοπικών χαρακτηριστικών σημείων σε μια εικόνα. Σε αυτό το σημείο, για οποιοδήποτε πρόσωπο μέσα σε μια εικόνα, μπορεί να εξάχθούν ενδιαφέροντα σημεία και να χρησιμοποιηθούν ως χαρακτηριστικά του προσώπου. Το σύνολο αυτών των χαρακτηριστικών μπορούν στην συνέχεια να χρησιμοποιηθούν για την εκπαίδευση ενός νευρωνικού δικτύου και αυτό με την σειρά του για την αναγνώριση ανθρώπινων συναισθήματα. Όλα αυτά προϋποθέτουν την δημιουργία μιας νέας βάσης δεδομένων με θέμα τα συναισθήματα του καλλιτέχνη την ώρα που ερμηνεύει ένα μουσικό κομμάτι. Human expression recognition is a fundamental problem in computer vision attracting great interest from the research community over the last years. Human expressions involve facial expressions, gestures, voices, etc. In this paper, we will focus on the facial expression recognition which is the task of automatically identifying and classifying expressions in an image or video sequence. We will consider a specific and interesting case of facial expressions recognition: recognition in music video clips. Music is a basic way of expressing human emotions. But bear in mind that there is a rather different way of face expressing emotions in music video clips compared to the same emotions in everyday life. The proposed scheme employs already known and used methods of classifying emotions such as the Logistic Regression (LogReg), the Classification and Regression Trees (CR-tree), Linear discriminant analysis (LDA [17]), k-Nearest neighbor (k-NN [19]) and Quadratic discriminant analysis (QDA [16]). The paper also introduces the use of SIFT[9] feature extraction algorithm for emotion classification. SIFT is an algorithm in computer vision that detects and describes local features in images. In this context, for any face in an image, interesting points can be extracted to provide a "feature description" of the face. This description, extracted from a training image, can then be used to recognize the facial emotions in the image with a use of a neural network. To perform reliable recognition, it is important that the features extracted from the training image are detectable even under changes in image scale, noise and illumination. This fact of different expression classification for our case results in the need of creating a new data base, obeying the rules of music video clip’s facial expression labeling.
Collections
This website uses cookies to ensure you get the best browsing experience.
Continue
More info