افزایش کارایی یک سیستم تشخیص احساس از گفتار با استفاده از انتخاب ویژگی های مؤثر به کمک روش افزایش داده متخاصمی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشکده مهندسی برق - دانشگاه صنعتی شاهرود - شاهرود - ایران

2 دانشکده مهندسی برق- دانشگاه صنعتی شاهرود - شاهرود - ایران

چکیده

فناوری تشخیص احساس از گفتار، می‌تواند به محققان کمک کند تا دریابند چه فاکتورهایی باعث می‌شود برخی از روان‌ درمانگران درمان مؤثرتری نسبت به دیگران ارائه دهند، اطلاعاتی که می‌تواند برای بهبود تشخیص روش درمان استفاده شود. ازاین‌رو، نیاز به پایگاه‌داده احساسی به‌شدت احساس می شود ولی جمع‌آوری پایگاه‌داده با نمونه‌های زیاد نیازمند صرف چندین دهه می باشد. هرچند تعداد نمونه‌ها در پایگاه‌های داده احساسی اندک است ولی ابعاد بردارهای ویژگی استخراج شده در مقایسه با تعداد آنها بالاست. همه این ویژگی‌ها جهت شناخت احساسات مؤثر نیستند و از طرفی احساسات مختلف می‌توانند ویژگی‌های مختلف گفتار را تحت تأثیر قرار دهند. ازاین‌رو، از روش‌های انتخاب ویژگی جهت کاهش ابعاد بردارهای ویژگی استفاده می‌شود. تا کنون، یقینی مبتنی بر موفقیت و یا عدم موفقیت به‌کارگیری روش‌های کاهش ویژگی جهت تشخیص احساس حاصل نشده است.
این مقاله باهدف ایجاد یک شبکه افزایش داده متخاصمی جهت افزایش داده‌‌ها در یک سیستم تشخیص احساس از گفتار، انتخاب ویژگی را موردبحث و بررسی قرار داده و نشان‌داده‌شده است که داده‌‌های مصنوعی تولید شده توسط شبکه افزایش داده متخاصمی نه‌تنها می‌توانند برای افزایش داده‌‌ها بلکه برای انتخاب ویژگی به‌منظور بهبود عملکرد طبقه‌بندی نیز مورداستفاده قرار گیرند. از یک شبکه افزایش داده متخاصمی جهت افزایش نمونه‌ها و از دو شبکه انتخاب ویژگی ترکیبی معیار فیشر و الگوریتم جداساز خطی طی دو مرحله به انتخاب ویژگی پرداخته شد. همچنین از ماشین بردار پشتیبان جهت طبقه‌بندی احساسات استفاده گردید.

کلیدواژه‌ها


عنوان مقاله [English]

Speech Emotion Recognition using Data Augmentation Method by Cycle-Generative Adversarial Networks

نویسندگان [English]

  • Arash Shilandari 1
  • Hossein khosravi 2
  • Hossein Marvi 2
1 Faculty of Electrical Engineering, Shahrood University of Technology, Shahrood, Iran
2 Department of Electrical Engineering, Shahrood University of Technology, Shahrood, Iran
چکیده [English]

Data augmentation and feature selection are key concepts in machine learning. Feature selection methods are important in the optimal performance of learning models. speech emotions recognition involves feature extraction and analysis of feature vectors extracted from speech signals. The number of extracted features is considered depending on the determination of acoustic parameters and statistical changes of these parameters lead to the extraction of high dimensional feature vectors. Although the number of samples in emotional databases is small, the dimensions of the extracted feature vectors are large compared to their number. Not all of these features are effective in recognizing emotions, and on the other hand, different emotions can affect different features of speech. Hence, feature selection methods are used to reduce the dimensions of feature vectors.
The more features extracted from speech, the more data is needed to train the neural network and also select the effective features in speech emotion recognition systems, and in the absence of a large sample of data can be used for data augmentation methods. This paper discusses feature selection intending to create a generative adversarial network to amplify data in a speech emotion recognition system and demonstrates that artificial data generated by generative adversarial networks can not only augment data but also can be used to feature selection to improve classification performance. We used a generative adversarial network to augment data and selected two feature-selective networks including Fisher and LDA algorithm in two steps. Support vector machine was also used to classify emotions.

کلیدواژه‌ها [English]

  • Speech Emotion Recognition
  • Speech Feature Selection
  • Data Augmentation
  • Generative Adversarial Networks

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 10 بهمن 1400
  • تاریخ دریافت: 22 آذر 1400
  • تاریخ بازنگری: 09 دی 1400
  • تاریخ پذیرش: 12 دی 1400
  • تاریخ اولین انتشار: 10 بهمن 1400