تعداد نشریات | 44 |
تعداد شمارهها | 1,323 |
تعداد مقالات | 16,270 |
تعداد مشاهده مقاله | 52,954,052 |
تعداد دریافت فایل اصل مقاله | 15,624,716 |
سنتز گفتار فارسی با استفاده از فرکانس گام در نرمافزار Flite | ||
پردازش سیگنال پیشرفته | ||
مقاله 10، دوره 3، شماره 1 - شماره پیاپی 3، خرداد 1398، صفحه 97-107 اصل مقاله (958.4 K) | ||
نوع مقاله: مقاله پژوهشی | ||
شناسه دیجیتال (DOI): 10.22034/jasp.2019.9185 | ||
نویسندگان | ||
فاطمه نعیمی1؛ وحید قدس* 2 | ||
1گروه مهندسی برق، واحد سمنان، دانشگاه آزاد اسلامی، سمنان، ایران | ||
2باشگاه پژوهشگران جوان و نخبگان، واحد سمنان، دانشگاه آزاد اسلامی، سمنان، ایران | ||
چکیده | ||
در این پژوهش، طراحی و پیادهسازی سنتز کننده گفتار به زبان فارسی با استفاده از نرمافزار Flite ارائه شده است. بدین طریق که ابتدا توسط پایگاه داده جملات فارسی فارسدات، میانگین و انحراف معیار فرکانس گام و بزرگترین فرکانس گام هر واج واکدار را بهدست میآوریم. سپس تغییرات هر واج عبارت موردنظر را از طریق محاسبه مقدار ارزش آن با توجه به فرمول ارائه شده پیشنهادی، در نرمافزار وارد میکنیم. ویژگی این سنتز کننده، تبدیل متن به گفتار با لهجه و تلفظ فارسی میباشد. در انتهای این مقاله، نتایج حاصل از اجرای الگوریتم پیشنهادی با منحنی فرکانسهای گام بهدست آمده توسط پایگاه داده جملات فارسی فارسدات، مقایسه شده است. همچنین، در این پژوهش چند نمونه از جملات زبان فارسی مربوط به پایگاه داده جملات فارسی فارسدات، با استفاده از روش پیشنهادی بر روی نرمافزار Flite، مورد سنتز قرارگرفته است. آزمونهای شنیداری، برای میزان قابلفهم بودن، طبیعی بودن و خوشایند بودن جملات مذکور انجام شده است که نتایج آنها برای جملات آموزش بهترتیب 4.4، 4.2 و 4.6 میباشد. همچنین برای جملات مجموعه آزمون، بهترتیب برابر 4.2، 4.1 و 4.3 میباشد. | ||
کلیدواژهها | ||
تبدیل متن به گفتار؛ سنتز گفتار؛ فارسی؛ فرکانس گام؛ نرمافزار Flite | ||
مراجع | ||
[1] A. B. Black and K. A. Lenzo, Building synthetic voices, For FestVox 2.1 Edition, 2007. [2] محمدمهدی همایون پور، محمد ایزدی، «تبدیل حرف به صدا در سیستمهای تبدیل متن به گفتار فارسی با استفاده از درختهای تصمیمگیری CART»، دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران، تهران، 1385. [3] R. Kurzweil, The singularity is near, Penguin Books, ISBN 9-303788-14-0, 2005. [4] A.B. Black and K.A. Lenzo, Flite: a small, fast speech synthesis engine, System documentation Edition 1.3, for Flite version 1.3, 2005. [5] A. B. Black, P. Taylor and R. Caley, The Festival Speech Synthesis System, [Online], Available: http://www.cstr.ed.ac.uk/projects/festival.-html, 1998. [6] محمدمهدی همایون پور، مجید نم نبات، «تبدیل حرف به صدا در زبان فارسی به کمک شبکههای عصبی پرسپترون چندلایهای»، فصلنامه مهندسی برق و مهندسی کامپیوتر ایران، شماره 3، صفحات 147-154، پائیز 1386. [7] محمدمهدی همایون پور، سیدمصطفی موسوی، «تولید پارامترهای سنتز گفتار فارسی با استفاده از مدلهای مخفی مارکوف و درخت تصمیمگیری»، نشریه علمی - پژوهشی انجمن کامپیوتر ایران، شماره 1 و 3 (الف)، صفحات 19-30، بهار و پائیز 1383. [8] Y. Sagisaka, “Speech synthesis from text,” IEEE Commun. Mag., pp. 35-41, 1990. [9] منصور شیخان نصیرزاده. مجید و دفتریان. علی، «طراحی و پیادهسازی سیستم تبدیل متن به گفتار طبیعی برای زبان فارسی»، مجله علمی- پژوهشی دانشکده مهندسیدانشگاه فردوسی مشهد، شماره 2، صفحات 31-48، 1384. [10] محمدمهدی همایون پور، آرمین سلیمی بدر، «تعیین مرز و نوع عبارات نحوی در متون فارسی»، فصلنامه علمی - پژوهشی پردازش علائم و دادهها، شماره 2، صفحات 69-86، 1392. [11] N. Thorensen, “Sentence intonation in textual context-supplementary data,” J. Acoust. Soc. Am., vol. 80, no. 4, pp. 1041-1047, 1986. [12] Y. Sagisaka, “On the prediction of global F0 shape for Japanese TTS,” In Proc. ICASSP, USA, pp. 325-328, 1990. [13] J. Buhmann, et al. “Intonation modeling for the synthesis of structured documents,” In Proc. ICSLP, USA, pp. 2089-2092, 2002. [14] M. Riedi, “A neural-network-based model of segmental duration for speech synthesis,” In Proc. Eurospeech, Spain, pp. 599-602, 1995. [15] Z. Yiqing, “Syllable duration and its functions in standard Chinese discourse,” In Proc. ICSLP, p. 1097, China, 2000. [16] C.L. Smith, “Modeling durational variability in reading aloud a connected text,” In Proc. ICSLP, pp. 1769-1772, USA, 2002. [17] Y. Sagisaka, and Sato H. “Accentuation rules in Japanese TTS conversion,” Rev. Elect. Commun. Lab., vol. 32, no. 2, pp. 188-199, 1984. [18] P. H. Low and S. Vaseghi, “Application of microprosody models in TTS synthesis,” In Proc. ICSLP, pp. 2413-2416, USA, 2002. [19] Y. Hifny. and M. Rashwan, “Duration modeling for Arabic TTS synthesis,” In Proc. ICSLP, pp. 1773-1776, 2002. [20] A. Breen, “Speech synthesis models: a review,” Elect. Commun. Engng. J., pp. 19-31, 1992. [21] سیدسعید آیت، طراحی و پیادهسازی سیستم تولید گفتار فارسی با تأکید بر بهبود هرچه بیشتر کیفیت گفتار تولیدشده، پایاننامه کارشناسی ارشد، دانشگاه صنعتی امیرکبیر، ۱۳۷۹. [22] S. Lemmetty, Review of Speech Synthesis Technology, Master Thesis, Helsinki University of Technology, 1999. | ||
آمار تعداد مشاهده مقاله: 724 تعداد دریافت فایل اصل مقاله: 455 |