بهسازی گفتار دو مرحله‏ای توسط خودرمزگذار عمیق کاهنده نویز

حاج احمدی, امیرحسین; همایونپور, محمد مهدی

فهرست نشریات دارای اعتبار وزارت علوم، تحقیقات و فناوری

تعداد نشریات	45
تعداد شماره‌ها	1,434
تعداد مقالات	17,660
تعداد مشاهده مقاله	57,593,777
تعداد دریافت فایل اصل مقاله	19,302,286

	بهسازی گفتار دو مرحله‏ای توسط خودرمزگذار عمیق کاهنده نویز
مجله مهندسی برق دانشگاه تبریز
مقاله 8، دوره 50، شماره 4 - شماره پیاپی 94، اسفند 1399، صفحه 1533-1540 اصل مقاله (1.09 M)
نوع مقاله: علمی-پژوهشی
نویسندگان
امیرحسین حاج احمدی؛ محمد مهدی همایونپور^*
دانشکده مهندسی کامپیوتر و فناوری اطلاعات - دانشگاه صنعتی امیرکبیر
چکیده
برای حذف نویز از سیگنال گفتار، هم اطلاعات زمان‏کوتاه و هم اطلاعات زمان‏بلند سیگنال می‏توانند مفید باشند. خصوصا اگر نویز دارای ویژگی‏های غیرایستان باشد. لذا در این مقاله سعی شده است تا با استفاده از کاهش تعداد زیرباندهای فرکانسی در فواصل زمانی بلند امکان اعمال ورودی‏های زمان‏بلند را برای شبکه عصبی خودرمزگذار عمیق کاهنده نویز فراهم سازد. همچنین یک روش دو مرحله‏ای بهسازی گفتار ارائه می‏شود که در مرحله نخست بهسازی زمان‏کوتاه و در مرحله دوم بهسازی زمان‏بلند را انجام دهد. آزمایش‏های این مقاله بر روی مجموعه دادگان Aurora-2 انجام شده است. نتایج نشان داده است که روش پیشنهادی می‌تواند از نظر بهسازی گفتار و معیار PESQ نسبت به فیلتر وینر در شرایط آغشتگی به نویز بالا به‏ میزان 0.3 بهبود ایجاد کند. همچنین روش پیشنهادی می‌تواند از نظر دقت بازشناسی خودکار گفتار نسبت به ویژگی‏های مبنا یعنی MFCC حدود 4% بهبود ایجاد کند
کلیدواژه‌ها
بهسازی گفتار؛ خودرمزگذار عمیق کاهنده نویز؛ رمزگذار عمیق؛ کاهش نویز

مراجع
[1] S. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Trans. Acoust. Speech Signal Process., vol. 27, no. 2, pp. 113–120, 1979. [2] K. K. Ravi and P. V. Subbaiah, “A survey on speech enhancement methodologies,” Int. J. Intell. Syst. Appl., vol. 8, no. 12, p. 37, 2016. [3] V. Sunnydayal, N. Sivaprasad and T. K. Kumar, “A survey on statistical based single channel speech enhancement techniques,” Int. J. Intell. Syst. Appl., vol. 6, no. 12, p. 69, 2014. [4] I. Cohen and B. Berdugo, “Noise estimation by minima controlled recursive averaging for robust speech enhancement,” IEEE Signal Process. Lett., vol. 9, no. 1, pp. 12–15, 2002. [5] I. Cohen, “Optimal speech enhancement under signal presence uncertainty using log-spectral amplitude estimator,” IEEE Signal Process. Lett., vol. 9, no. 4, pp. 113–116, 2002. [6] Y. Ephraim and I. Cohen, “Recent advancements in speech enhancement,” Circuits Signals Speech Image Process., 2006. [7] Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean-square error log-spectral amplitude estimator,” IEEE Trans. Acoust. Speech Signal Process., vol. 33, no. 2, pp. 443–445, 1985. [8] Y. Ephraim and D. Malah, “Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator,” IEEE Trans. Acoust. Speech Signal Process., vol. 32, no. 6, pp. 1109–1121, 1984. [9] مسعود ﮔﺮاواﻧﭽﯽزاده، ساناز قائمی ﺳﺮدرودی، « ﺑﻬﺒﻮد ﮐﯿﻔﯿﺖ ﮔﻔﺘﺎر ﻣﺒﺘﻨﯽ ﺑﺮ ﺑﻬﯿﻨﻪﺳﺎزی ازدﺣﺎم ذرات ﺑﺎ اﺳﺘﻔﺎده از وﯾﮋﮔﯽﻫﺎی ﻣﺎﺳﮏﮔﺬاری ﺳﯿﺴﺘﻢ ﺷﻨﻮاﺋﯽ اﻧﺴﺎن»، مجله مهندسی برق دانشگاه تبریز، جلد 46، شماره 3، شماره صفحه 287-297، زمستان 1395. [10] D. Wang, “Time-Frequency masking for speech separation and Its potential for hearing aid design,” Trends Amplif., vol. 12, no. 4, pp. 332–353, 2008. [11] حسین شایقی، علی قاسمی، «پیش‌بینی قیمت روزانه برق با شبکه عصبی بهبودیافته مبتنی بر تبدیل موجک و روش آشوبناک جستجوی گرانشی»، مجله مهندسی برق دانشگاه تبریز، جلد 45، شماره 4، شماره صفحه 103-113، زمستان 1394. [12] فرید کربلایی، حمیدرضا شعبانی، رضا ابراهیم‏پور، «ارزﯾﺎﺑﯽ ﺑﺮونﺧﻂ ﭘﺎﯾﺪاری ﮔﺬرا ﺑﻪ وسیله تعیین دقیق CCT ﺑﺎ اﺳﺘﻔﺎده از ﺷﺒﮑﻪ ﻋﺼﺒﯽ ﺑﺎ ورودی‏های ﻣﺒﺘﻨﯽ ﺑﺮ ﺗﻮاﺑﻊ اﻧﺮژی»، مجله مهندسی برق دانشگاه تبریز، جلد 46، شماره 1، شماره صفحه 277-285، زمستان 1395. [13] Y. Xu, J. Du, L. R. Dai and C. H. Lee, “A regression approach to speech enhancement based on deep neural networks,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 23, no. 1, pp. 7–19, Jan. 2015. [14] F. Weninger et al., “Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR,” in International Conference on Latent Variable Analysis and Signal Separation, 2015, pp. 91–99. [15] B. Li, Y. Tsao and K. C. Sim, “An investigation of spectral restoration algorithms for deep neural networks based noise robust speech recognition.,” in Proceedings of Interspeech 2013, pp. 3002–3006, 2013. [16] Z. Chen, S. Watanabe, H. Erdogan and J. R. Hershey, “Speech enhancement and recognition using multi-task learning of long short-term memory recurrent neural networks,” Unkn. J., vol. 2015–January, pp. 3274–3278, 2015. [17] L. Deng and D. Yu, " Deep learning: methods and applications", Foundations and Trends® in Signal Processing: Vol. 7: No. 3–4, pp 197-387, 2014. [18] L. Dehyadegary, S. Ali Seyyedsalehi and I. Nejadgholi, “Nonlinear enhancement of noisy speech, using continuous attractor dynamics formed in recurrent neural networks,” Neurocomputing, vol. 74, no. 17, pp. 2716–2724, Oct. 2011. [19] S. Tan and K. C. Sim, “Learning utterance-level normalisation using Variational Autoencoders for robust automatic speech recognition,” in 2016 IEEE Spoken Language Technology Workshop (SLT), pp. 43–49, 2016. [20] X. Lu, Y. Tsao, S. Matsuda and C. Hori, “Speech enhancement based on deep denoising autoencoder.,” in Interspeech, pp. 436–440, 2013. [21] Y. Xu, J. Du, L.-R. Dai and C.-H. Lee, “An experimental study on speech enhancement based on deep neural networks,” IEEE Signal Process. Lett., vol. 21, no. 1, pp. 65–68, 2014. [22] G. E. Hinton and R. R. Salakhutdinov, “Reducing the dimensionality of data with neural networks,” science, vol. 313, no. 5786, pp. 504–507, 2006. [23] P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio and P.-A. Manzagol, “Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion,” J Mach Learn Res, vol. 11, pp. 3371–3408, Dec. 2010. [24] T. Gao, J. Du, Y. Xu, C. Liu, L.-R. Dai and C.-H. Lee, “Improving deep neural network based speech enhancement in low SNR environments,” in International Conference on Latent Variable Analysis and Signal Separation, pp. 75–82, 2015. [25] D. Pearce, H. Hirsch and E. E. D. Gmbh, “The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions,” in in ISCA ITRW ASR2000, pp. 29–32, 2000. [26] S. Vihari, A. S. Murthy, P. Soni and D. C. Naik, “Comparison of speech enhancement algorithms,” Procedia Comput. Sci., vol. 89, no. Supplement C, pp. 666–676, Jan. 2016.
آمار تعداد مشاهده مقاله: 639 تعداد دریافت فایل اصل مقاله: 660

سامانه مدیریت نشریات علمی. قدرت گرفته از سیناوب

پیوندهای مفید

آمار

بهسازی گفتار دو مرحله‏ای توسط خودرمزگذار عمیق کاهنده نویز