Metodologi Penelitian

Implementasi teknis pengenalan emosi bicara menggunakan Support Vector Machine (SVM).

Dataset: RAVDESS

Penelitian ini menggunakan dataset Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS). Dataset ini merupakan standar industri dalam penelitian afektif yang divalidasi oleh 24 aktor profesional (12 pria, 12 wanita).

24 Aktor
1,440 File Suara
8 Kelas Emosi
48kHz Sample Rate

Alur Pemrosesan (Preprocessing)

1. Audio Trimming

Menghapus bagian hening (silence) di awal dan akhir rekaman untuk fokus pada sinyal suara yang aktif.

2. Normalisasi Amplitudo

Menyamakan level volume audio agar model tidak terpengaruh oleh perbedaan jarak mikrofon atau gain input.

3. Framing & Windowing

Membagi sinyal audio menjadi frame kecil (20-40ms) untuk analisis spektral jangka pendek menggunakan jendela Hamming.

Ekstraksi Fitur Akustik

MFCC

Mel-Frequency Cepstral Coefficients mengekstrak fitur yang merepresentasikan bentuk saluran suara manusia. Kami menggunakan 40 koefisien untuk menangkap detail fonetik yang kaya.

Pitch (F0)

Pitch adalah frekuensi fundamental suara. Emosi seperti marah memiliki pitch tinggi, sedangkan sedih cenderung memiliki pitch rendah dan monoton.

Energy (RMS)

Root Mean Square Energy mengukur intensitas atau kekerasan suara. Fitur ini krusial untuk membedakan emosi dengan gairah tinggi (high arousal) seperti terkejut vs emosi tenang.

Tujuan Penelitian

  • Menganalisis efektivitas fitur MFCC dalam mengenali variasi emosi manusia.
  • Menguji performa kernel RBF pada algoritma SVM untuk klasifikasi data audio non-linier.
  • Memberikan visualisasi proses AI yang transparan bagi peneliti afektif.

Referensi Akademik

Livingstone SR, Russo FA (2018) The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. PLoS ONE 13(5): e0196391. https://doi.org/10.1371/journal.pone.0196391

Konfigurasi SVM

Fungsi Kernel RBF
Hyperparameter C 50
Gamma 0.1

"RBF kernel dipilih karena kemampuannya menangani data non-linier dalam ruang fitur dimensi tinggi hasil ekstraksi MFCC."

Pipeline Visual

Audio Input
Preprocessing
Feature Extraction
SVM Classifier
Emotion Output