تعداد نشریات | 44 |
تعداد شمارهها | 1,303 |
تعداد مقالات | 16,020 |
تعداد مشاهده مقاله | 52,490,256 |
تعداد دریافت فایل اصل مقاله | 15,217,658 |
شکلدهنده پرتو MVDR مرتبه کسری و مبتنی بر آنالیز مقادیر ویژه برای بهسازی گفتار | ||
مجله مهندسی برق دانشگاه تبریز | ||
دوره 53، شماره 1 - شماره پیاپی 103، فروردین 1402، صفحه 37-47 اصل مقاله (1.64 M) | ||
شناسه دیجیتال (DOI): 10.22034/tjee.2023.15979 | ||
نویسندگان | ||
سید مصطفی علویان شهری1؛ حمیدرضا ابوطالبی* 2 | ||
1دانشجوی دکتری، دانشکده مهندسی برق، دانشگاه یزد، یزد، ایران | ||
2استاد، دانشکده مهندسی برق، دانشگاه یزد، یزد، ایران | ||
چکیده | ||
یکی از پرکاربردترین الگوریتمهای شکلدهیپرتو در بهسازی گفتار، الگوریتم حداقل واریانس بدون اعوجاج است. در محاسبه ضرائب این شکلدهنده فرض ناهمبسته بودن نویز و سیگنال مطلوب با توجه به وجود پژواک و نویزهای با طیفی مشابه سیگنال مطلوب برقرار نیست. در نتیجه، ماتریسهای کواریانس و به تبع آن، ضرائب شکلدهنده دارای دقت کافی نخواهد بود. در این مقاله، بهعنوان اولین تغییر در شکلدهندهپرتو حداقل واریانس، با اعمال آنالیز مقادیر ویژه به ماتریس کواریانس سیگنال مطلوب و حذف مقادیر ویژه کوچک، دقت ضرائب شکلدهنده بهبود داده میشود. در دومین تغییر، از تبدیل فوریه مرتبه کسری بهعنوان حالت تعمیمیافته تبدیل فوریه استاندارد استفاده شده است. در ادامه تغییرات پیشنهادی فرمولبندی شده و با بدست آوردن پارامتر بهینه تبدیل فوریه کسری بهصورت تجربی، اثر هریک از دو تغییر با روشهای پایه مقایسه میشود. نتایج نشان میدهد که روشهای پیشنهادی ضمن پایداری نسبت به تغییر پارامترها و شرایط محیطی، در سناریوهای مختلف بهنسبت توان سیگنال به نویزی بین تا دست مییابند. در مقابل، روش پایه عملکردی در محدوده تا دارد. همچنین اگرچه هریک از تغییرات فوق بهتنهایی نیز منجر به بهبود کارایی میشوند، اما بهترین عملکرد در حالتی بدست میآید که هر دو تغییر پیشنهادی با هم اعمال شود. | ||
کلیدواژهها | ||
بهسازی گفتار؛ آرایه میکروفونی؛ آنالیز مقادیر ویژه؛ تبدیل فوریه زمان-کوتاه کسری | ||
مراجع | ||
[1] E. A. P. Habets, J. Benesty, I. Cohen, S. Gannot, and J. Dmochowski, “New insights into the MVDR beamformer in room acoustics,” IEEE Trans. Audio. Speech. Lang. Processing, vol. 18, no. 1, pp. 158–170, 2009. [2] S. Zhang and X. Li, “Microphone array generalization for multichannel narrowband deep speech enhancement,” in Proceedings of INTERSPEECH, pp. 667-670, 2021. [3] آوید آوخ، حمیدرضا ابوطالبی «بهسازی وفقی سیگنال گفتار در محیطهای واقعی با استفاده از ساختار ترکیبی مبتنی بر شکلدهندههای پرتو و فیلتر پسینه»، مجله مهندسی برق دانشگاه تبریز، جلد 48، شماره 2، صفحات 495-481، 1397. [4] امیرحسین حاجاحمدی، محمدمهدی همایونپور، «بهسازی گفتار دومرحلهای توسط خودرمزنگار عمیق کاهنده نویز»، مجله مهندسی برق دانشگاه تبریز، جلد 50، شماره 4، صفحات 1540-1533، 1399. [5] J. Benesty, J. Chen, and E. A. P. Habets, Speech enhancement in the STFT domain. Springer Science & Business Media, 2011. [6] N. Yazdi and K.Todros, “Measure-transformed MVDR beamformeang” IEEE Signal Process. Lett., vol. 27, pp. 1959–1963, 2020. [7] D. Ying and Y. Yan, “Robust and fast localization of single speech source using a planar array,” IEEE Signal Process. Lett., vol. 20, no. 9, pp. 909–912, 2013. [8] V. W. Neo, C. Evers, and P. A. Naylor, “PEVD-based speech enhancement in reverberant environments,” in Proceeding of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 186–190, 2020. [9] V. W. Neo, C. Evers, and P. A. Naylor, “Enhancement of noisy reverberant speech using polynomial matrix eigenvalue decomposition,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 29, pp. 3255–3266, 2021. [10] J. Shi, J. Zheng, X. Liu, W. Xiang, and Q. Zhang, “Novel short-time fractional Fourier transform: theory, implementation, and applications,” IEEE Trans. Signal Process., vol. 68, pp. 3280–3295, 2020. [11] I. S. Yetik and A. Nehorai, “Beamforming using the fractional Fourier transform,” IEEE Trans. Signal Process., vol. 51, no. 6, pp. 1663–1668, 2003. [12] S. Das and I. Pan, Fractional order signal processing: introductory concepts and applications. Springer Science & Business Media, 2011. [13] J. Yin, K. Guo, X. Han, and G. Yu, “Fractional Fourier transform based underwater multi-targets direction-of-arrival estimation using wideband linear chirps,” Appl. Acoust., vol. 169, no. 1, 107477, 2020. [14] E. A. P. Habets, “Room impulse response (RIR) generator,” May 2008. [Online]. Available: https://www.audiolabs-erlangen.de/fau/professor/habets/software/rir-generator. [15] J. S. Garofolo et al., “TIMIT acoustic phonetic continuous speech corpus,” Linguist. Data Consortium, 1993, Accessed: May 24, 2022. [Online]. Available: http://ci.nii.ac.jp/naid/20000921365/en/. [16] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, “Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs,” in Proceeding of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), vol. 2, pp. 749–752, 2001. [17] S. Yook et al., “Modified segmental signal-to-noise ratio reflecting spectral masking effect for evaluating the performance of hearing aid algorithms,” Speech Commun., vol. 55, no. 10, pp. 1003–1010, 2013. [18] Z. Wang, E. Vicent, R. Serizel, and Y. Yan., “Rank-1 constrained multichannel Wiener filter for speech recognition in noisy environments,” Comput. Speech & Lang., vol. 49, pp. 37–51, 2018. | ||
آمار تعداد مشاهده مقاله: 248 تعداد دریافت فایل اصل مقاله: 322 |