سنتز گفتار فارسی با استفاده از فرکانس گام در نرم‌افزار Flite

نعیمی, فاطمه; قدس, وحید

doi:10.22034/jasp.2019.9185

فهرست نشریات دارای اعتبار وزارت علوم، تحقیقات و فناوری

تعداد نشریات	45
تعداد شماره‌ها	1,477
تعداد مقالات	18,019
تعداد مشاهده مقاله	58,372,415
تعداد دریافت فایل اصل مقاله	19,803,824

	سنتز گفتار فارسی با استفاده از فرکانس گام در نرم‌افزار Flite
پردازش سیگنال پیشرفته
مقاله 10، دوره 3، شماره 1 - شماره پیاپی 3، خرداد 1398، صفحه 97-107 اصل مقاله (958.4 K)
نوع مقاله: مقاله پژوهشی
شناسه دیجیتال (DOI): 10.22034/jasp.2019.9185
نویسندگان
فاطمه نعیمی¹؛ وحید قدس^* ²
¹گروه مهندسی برق، واحد سمنان، دانشگاه آزاد اسلامی، سمنان، ایران
²باشگاه پژوهشگران جوان و نخبگان، واحد سمنان، دانشگاه آزاد اسلامی، سمنان، ایران
چکیده
در این پژوهش، طراحی و پیاده‌سازی سنتز کننده گفتار به زبان فارسی با استفاده از نرم‌افزار Flite ارائه شده است. بدین طریق که ابتدا توسط پایگاه داده جملات فارسی فارس‌دات، میانگین و انحراف معیار فرکانس گام و بزرگترین فرکانس گام هر واج واک‌دار را به‌دست می‌آوریم. سپس تغییرات هر واج عبارت موردنظر را از طریق محاسبه مقدار ارزش آن با توجه به فرمول ارائه شده پیشنهادی، در نرم‌افزار وارد می‌کنیم. ویژگی این سنتز کننده، تبدیل متن به گفتار با لهجه و تلفظ فارسی می‌باشد. در انتهای این مقاله، نتایج حاصل از اجرای الگوریتم پیشنهادی با منحنی فرکانس‌های گام به‌دست آمده توسط پایگاه داده جملات فارسی فارس‌دات، مقایسه شده است. همچنین، در این پژوهش چند نمونه از جملات زبان فارسی مربوط به پایگاه داده جملات فارسی فارس‌دات، با استفاده از روش پیشنهادی بر روی نرم‌افزار Flite، مورد سنتز قرارگرفته است. آزمون‌های شنیداری، برای میزان قابل‌فهم بودن، طبیعی بودن و خوشایند بودن جملات مذکور انجام شده است که نتایج آن‌ها برای جملات آموزش به‌ترتیب 4.4، 4.2 و 4.6 می‌باشد. همچنین برای جملات مجموعه آزمون، به‌ترتیب برابر 4.2، 4.1 و 4.3 می‌باشد.
کلیدواژه‌ها
تبدیل متن به گفتار؛ سنتز گفتار؛ فارسی؛ فرکانس گام؛ نرم‌افزار Flite

مراجع
[1] A. B. Black and K. A. Lenzo, Building synthetic voices, For FestVox 2.1 Edition, 2007. [2] محمدمهدی همایون پور، محمد ایزدی، «تبدیل حرف به صدا در سیستم‌های تبدیل متن به گفتار فارسی با استفاده از درخت‌های تصمیم‌گیری CART»، دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران، تهران، 1385. [3] R. Kurzweil, The singularity is near, Penguin Books, ISBN 9-303788-14-0, 2005. [4] A.B. Black and K.A. Lenzo, Flite: a small, fast speech synthesis engine, System documentation Edition 1.3, for Flite version 1.3, 2005. [5] A. B. Black, P. Taylor and R. Caley, The Festival Speech Synthesis System, [Online], Available: http://www.cstr.ed.ac.uk/projects/festival.-html, 1998. [6] محمدمهدی همایون پور، مجید نم نبات، «تبدیل حرف به صدا در زبان فارسی به کمک شبکه‌های عصبی پرسپترون چندلایه‌ای»، فصلنامه مهندسی برق و مهندسی کامپیوتر ایران، شماره 3، صفحات 147-154، پائیز 1386. [7] محمدمهدی همایون پور، سیدمصطفی موسوی، «تولید پارامترهای سنتز گفتار فارسی با استفاده از مدل‌های مخفی مارکوف و درخت تصمیم‌گیری»، نشریه علمی - پژوهشی انجمن کامپیوتر ایران، شماره 1 و 3 (الف)، صفحات 19-30، بهار و پائیز 1383. [8] Y. Sagisaka, “Speech synthesis from text,” IEEE Commun. Mag., pp. 35-41, 1990. [9] منصور شیخان نصیرزاده. مجید و دفتریان. علی، «طراحی و پیاده‌سازی سیستم تبدیل متن به گفتار طبیعی برای زبان فارسی»، مجله علمی- پژوهشی دانشکده مهندسیدانشگاه فردوسی مشهد، شماره 2، صفحات 31-48، 1384. [10] محمدمهدی همایون پور، آرمین سلیمی بدر، «تعیین مرز و نوع عبارات نحوی در متون فارسی»، فصلنامه علمی - پژوهشی پردازش علائم و داده‌ها، شماره 2، صفحات 69-86، 1392. [11] N. Thorensen, “Sentence intonation in textual context-supplementary data,” J. Acoust. Soc. Am., vol. 80, no. 4, pp. 1041-1047, 1986. [12] Y. Sagisaka, “On the prediction of global F₀ shape for Japanese TTS,” In Proc. ICASSP, USA, pp. 325-328, 1990. [13] J. Buhmann, et al. “Intonation modeling for the synthesis of structured documents,” In Proc. ICSLP, USA, pp. 2089-2092, 2002. [14] M. Riedi, “A neural-network-based model of segmental duration for speech synthesis,” In Proc. Eurospeech, Spain, pp. 599-602, 1995. [15] Z. Yiqing, “Syllable duration and its functions in standard Chinese discourse,” In Proc. ICSLP, p. 1097, China, 2000. [16] C.L. Smith, “Modeling durational variability in reading aloud a connected text,” In Proc. ICSLP, pp. 1769-1772, USA, 2002. [17] Y. Sagisaka, and Sato H. “Accentuation rules in Japanese TTS conversion,” Rev. Elect. Commun. Lab., vol. 32, no. 2, pp. 188-199, 1984. [18] P. H. Low and S. Vaseghi, “Application of microprosody models in TTS synthesis,” In Proc. ICSLP, pp. 2413-2416, USA, 2002. [19] Y. Hifny. and M. Rashwan, “Duration modeling for Arabic TTS synthesis,” In Proc. ICSLP, pp. 1773-1776, 2002. [20] A. Breen, “Speech synthesis models: a review,” Elect. Commun. Engng. J., pp. 19-31, 1992. [21] سیدسعید آیت، طراحی و پیاده‌سازی سیستم تولید گفتار فارسی با تأکید بر بهبود هرچه بیشتر کیفیت گفتار تولیدشده، پایان‌نامه کارشناسی ارشد، دانشگاه صنعتی امیرکبیر، ۱۳۷۹. [22] S. Lemmetty, Review of Speech Synthesis Technology, Master Thesis, Helsinki University of Technology, 1999.
آمار تعداد مشاهده مقاله: 960 تعداد دریافت فایل اصل مقاله: 660

سامانه مدیریت نشریات علمی. قدرت گرفته از سیناوب

پیوندهای مفید

آمار

سنتز گفتار فارسی با استفاده از فرکانس گام در نرم‌افزار Flite