تعداد نشریات | 44 |
تعداد شمارهها | 1,323 |
تعداد مقالات | 16,270 |
تعداد مشاهده مقاله | 52,953,842 |
تعداد دریافت فایل اصل مقاله | 15,624,518 |
ارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی | ||
مجله مهندسی برق دانشگاه تبریز | ||
مقاله 5، دوره 47، شماره 3 - شماره پیاپی 81، آذر 1396، صفحه 857-866 اصل مقاله (758.55 K) | ||
نویسندگان | ||
مریم باسره؛ ولی درهمی* ؛ سجاد ظریفزاده | ||
دانشگاه یزد - پردیس فنی و مهندسی - دانشکده مهندسی کامپیوتر | ||
چکیده | ||
دادگان متنی و از آن جمله متون خبری از حوزههای مهم بازیابی اطلاعات به شمار میرود و استخراج اطلاعات از آنها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت میگیرد. در این پژوهش، راهکاری سه مرحلهای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوههای زبانشناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتاً جامعی از شیوههای آماری ارائه میشود. همچنین، یک مجموعه داده خبری و لیستی از عبارات توقفی خبری ایجاد میگردد. در پژوهش حاضر، با توجه به ویژگیهای دادگان، از دستهبند جنگل تصادفی استفاده و عملکرد خوب آن به کمک نتایج آزمایشها ثابت میشود. به علاوه، استفاده از امتیاز تعلقگرفته به عبارات توسط دستهبند، جهت ایجاد لیستی مرتب از عبارات برای دستهبندی، به جای استفاده ازخروجی دستهبند، پیشنهاد میشود. نتایج، نشاندهنده دقت قابلقبول سیستم ارائهشده است. | ||
کلیدواژهها | ||
عبارات کلیدی؛ استخراج عبارات کلیدی؛ اسناد خبری؛ شیوههای آماری؛ یادگیری با ناظر؛ متنکاوی؛ بازیابی اطلاعات | ||
مراجع | ||
| ||
آمار تعداد مشاهده مقاله: 841 تعداد دریافت فایل اصل مقاله: 1,082 |