تعداد نشریات | 44 |
تعداد شمارهها | 1,298 |
تعداد مقالات | 15,883 |
تعداد مشاهده مقاله | 52,116,577 |
تعداد دریافت فایل اصل مقاله | 14,887,928 |
استخراج ویژگیهای مقاوم گفتاری زیر باندی با استفاده از شبکههای درهمپیچش چند دقتی | ||
مجله مهندسی برق دانشگاه تبریز | ||
مقاله 37، دوره 49، شماره 3 - شماره پیاپی 89، آذر 1398، صفحه 1393-1404 اصل مقاله (695.16 K) | ||
نوع مقاله: علمی-پژوهشی | ||
نویسندگان | ||
نوید نادری؛ بابک ناصر شریف* | ||
دانشکده مهندسی کامپیوتر - دانشگاه صنعتی خواجهنصیرالدین طوسی | ||
چکیده | ||
شبکههای عصبی درهمپیچش (CNN) بهعنوان گروهی از شبکههای عصبی عمیق، در سالهای اخیر کاربرد فراوانی در مدلسازی آکوستیک و همچنین استخراج ویژگی و مدلسازی توأم در بازشناسی گفتار یافتهاند. در مقاله حاضر، پیشنهاد میشود تا از CNN برای استخراج ویژگی مقاوم به نویز استفاده شود، درحالیکه ورودی CNN طیف سیگنال گفتار نویزی و خروجی هدف آن خروجیهای متناظر تمیز از بانک فیلتر مل است. بهاینترتیب CNN ویژگیهای مقاوم به نویز را از طیف سیگنال گفتار استخراج مینماید. نقطهضعف CNN در این روش آن است که تنها یک وضوح فرکانسی ثابت را به کار میگیرد. ازاینجهت، در این مقاله استفاده از چند شبکه عصبی درهمپیچش با اندازههای فیلتر درهمپیچش متفاوت، جهت مدلسازی تفاوت وضوح فرکانسی برای استخراج ویژگی از طیف سیگنال گفتار پیشنهاد میشود. روش پیشنهادی را شبکه عصبی درهمپیچش چند دقتی (MRCNN) نامگذاری کردهایم. آزمایشها روی دادگان Aurora2 نشان میدهند که CNN نسبت به شبکه باور عمیق در استخراج ویژگی مقاوم به نویز میانگین دقت بازشناسی را 20 درصد بهبود میدهد. همچنین نتایج نشان میدهند که MRCNN میانگین دقت بازشناسی را نسبت به شبکه عصبی درهمپیچش استاندارد (تک دقتی) 1 درصد بهبود میدهد. | ||
کلیدواژهها | ||
شبکه عصبی درهم پیچش؛ بازشناسی مقاوم گفتار؛ تک دقتی؛ چند دقتی؛ بانک فیلتر مل | ||
مراجع | ||
[1] فائزه بنیاردلان، احمد اکبری، بابک ناصرشریف، «حذف نویز و استخراج ویژگیهای گلوگاه در سطح زیرباند توسط شبکههای خودرمزگذار عمیق برای بازشناسی گفتار»، کنفرانس پردازش سیگنال و سیستمهای هوشمند، دانشگاه صنعتی امیرکبیر، دوره اول، 1394. [2] مجتبی غلامیپور، بابک ناصرشریف، «مقاومسازی ویژگیهای مل کپستروم نسبت به نویز با استفاده از شبکه باور عمیق»، کنفرانس پردازش سیگنال و سیستمهای هوشمند، دانشگاه صنعتی امیرکبیر، دوره اول، 1394. [3] مجتبی حاجی آبادی، عباس ابراهیمی مقدم، حسین خوش بین، «حذف نویز صوتی مبتنی بر یک الگوریتم وفقی نوین»، مجله مهندسی برق دانشگاه تبریز، دوره 46، شماره 3، ص: 139-147، پائیز 1395. [4] مسعود گراوانچیزاده، ساناز قائمی سردرودی، «بهبود کیفیت گفتار مبتنی بر بهینهسازی ازدحام ذرات با استفاده از ویژگیهای ماسکگذاری سیستم شنوائی انسان»، مجله مهندسی برق دانشگاه تبریز، دوره 46، شماره 3، ص: 287-297، پاییز 1395. [5] O. Abdel-Hamid, A. r. Mohamed, H. Jiang, L. Deng, G. Penn and D. Yu, "Convolutional neural networks for speech recognition," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, pp. 1533-1545, 2014. [6] S. Ikbal and H., Bourlard, "Phase autocorrelation derived robust speech features" in Proc. ICASSP, vol. 2, pp. 133-136, 2003. [7] K. Han, Y. He, D. Bagchi, E. Fosler-Lussier and D. Wang, "Deep neural network based spectral feature mapping for robust speech recognition," in Proc. Interspeech, pp. 2484-2488, 2015. [8] O. Abdel-Hamid, A. r. Mohamed, H. Jiang and G. Penn, "Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition," in 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4277-4280, 2012. [9] J. Du, Q. Wang, T. Gao, Y. Xu, L. Dai and C.H. Lee, “Robust Speech Recognition with Speech Enhanced Deep Neural Networks”, Interspeech, pp. 616-620, 2014. [10] X. Feng, Y. Zhang and J. Glass. "Speech feature denoising and dereverberation via deep autoencoders for noisy reverberant speech recognition" In Proc. ICASSP, pp. 1759-1763, 2014. [11] A. Mohamed, G.E. Dahl and G. Hinton, “Acoustic Modeling Using Deep Belief Networks”, Audio, Speech and Language Processing, IEEE Transactions on, Vol. 20, pp. 14-22, 2011. [12] T. N. Sainath, A.-r. Mohamed, B. Kingsbury and B. Ramabhadran, "Deep convolutional neural networks for LVCSR," in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 8614-8618, 2013. [13] O. Abdel-Hamid, L. Deng and D. Yu, "Exploring convolutional neural network structures and optimization techniques for speech recognition," in Interspeech, pp. 3366-3370, 2013. [14] J.-T. Huang, J. Li and Y. Gong, "An analysis of convolutional neural networks for speech recognition," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4989-4993, 2015. [15] D. Palaz,, R. Collobert and M. Magimai Doss, "Estimating phoneme class conditional probabilities from raw speech signal using convolutional neural networks," in Interspeech, pp. 1766-1770, 2013. [16] D. Palaz, M. M. Doss and R. Collobert, "Convolutional Neural Networks-based continuous speech recognition using raw speech signal," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4295-4299, 2015. [17] D. Palaz, and R. Collobert, "Analysis of cnn-based speech recognition system using raw speech as input," in Proceedings of Interspeech, 2015. [18] T. N. Sainath, B. Kingsbury, G. Saon, H. Soltau, A.-r. Mohamed, G. Dahl, et al., "Deep convolutional neural networks for large-scale speech tasks," Neural Networks, vol. 64, pp. 39-48, 2015. [19] Y. Takashima, T. Nakashika, T. Takiguchi and Y. Ariki, "Feature extraction using pre-trained convolutive bottleneck nets for dysarthric speech recognition," in Signal Processing Conference (EUSIPCO), 2015 23rd European, pp. 1411-1415, 2015. [20] A. Lozano-Diez, R. Zazo-Candil, J. Gonzalez-Dominguez, D. T. Toledano and J. n. Gonz?lez-Rodr?guez, "An end-to-end approach to language identification in short utterances using convolutional neural networks," in INTERSPEECH, 2015. [21] S. Thomas, S. Ganapathy, G. Saon and H. Soltau, "Analyzing convolutional neural networks for speech activity detection in mismatched acoustic conditions," in 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2519-2523, 2014. [22] R. Yeh, M. Hasegawa-Johnson and M. N. Do, "Stable and symmetric filter convolutional neural network," in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2652-2656, 2016. [23] T. N. Sainath, O. Vinyals, A. Senior and H. Sak, "Convolutional, long short-term memory, fully connected deep neural networks," in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4580-4584, 2015. [24] T. N. Sainath, R. J. Weiss, A. Senior, K. W. Wilson and O. Vinyals, "Learning the speech front-end with raw waveform cldnns," in Proc. Interspeech, 2015. [25] T. N. Sainath, B. Kingsbury, A.-r. Mohamed and B. Ramabhadran, "Learning filter banks within a deep neural network framework," in Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on, pp. 297-302, 2013. [26] T. N. Sainath, B. Kingsbury, A.-r. Mohamed, G. E. Dahl, G. Saon, H. Soltau, et al., "Improvements to deep convolutional neural networks for LVCSR," in Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on, pp. 315-320, 2013. [27] Y. Zhao, X. Jin, X. Hu, "Recurrent convolutional neural network for speech processing.", in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017. [28] Y. Zhang, W. Chan, N. Jaitly, "Very deep convolutional networks for end-to-end speech recognition.", in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017. [29] K. Choi, G. Fazekas, M. Sandler, K.Cho, "Convolutional recurrent neural networks for music classification", in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017. [30] Y. Qian, M. Bi, T. Tan and K. Yu, "Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 12, pp. 2263-2276, Dec. 2016. [31] W. Dai, C. Dai, S. Qu, J. Li, S. Dos, " very deep convolutional neural networks for raw waveforms", in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017. [32] H.-G. Hirsch and D. Pearce, "The Aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions," in ASR2000-Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW), 2000. [33] A. Agarwal, E. Akchurin, et al., "An Introduction to Computational Networks and the Computational Networks Toolkit", microsoft technical reports, 2016.
| ||
آمار تعداد مشاهده مقاله: 471 تعداد دریافت فایل اصل مقاله: 422 |