تعداد نشریات | 44 |
تعداد شمارهها | 1,323 |
تعداد مقالات | 16,270 |
تعداد مشاهده مقاله | 52,954,071 |
تعداد دریافت فایل اصل مقاله | 15,624,730 |
بهینهسازی هستههای چندگانه در ماشینبردارپشتیبان جفتی برای کاهش شکاف معنایی تشخیص صفحات فریبآمیز | ||
مجله مهندسی برق دانشگاه تبریز | ||
مقاله 13، دوره 46، شماره 4 - شماره پیاپی 78، اسفند 1395، صفحه 135-145 اصل مقاله (674.17 K) | ||
نویسندگان | ||
محمدعلی زارع چاهوکی* 1؛ سیدحمیدرضا محمدی2 | ||
1دانشگاه یزد | ||
2دانشجوی کارشناسی ارشد | ||
چکیده | ||
چکیده: موتورهای جستجو با خزش صفحات موجود در اینترنت و شاخصگذاری آنها، قابلیت جستجوی سریع اطلاعات را به کاربران میدهند. یکی از چالشهای مهم در استفاده از این ابزار، صفحاتی هستند که از آنها بهعنوان صفحات فریبآمیز نام برده میشود. رویکردهای مختلفی جهت تشخیص صفحات فریب ابداع شده است که میتوان به روشهایی مانند سنجش میزان شباهت سبک کدهای صفحات، تحلیل الگوی زبانی صفحات و همچنین استفاده از روشهای یادگیری ماشین بر اساس ویژگیهای صفحات اشاره کرد. ازجمله الگوریتمهای یادگیری ماشین که در این حوزه استفاده شده است ولی نتایج قابلتوجهی را ارائه نکرده، الگوریتم ماشینبردارپشتیبان[i] (SVM) است. استفاده از هسته در ساختار طبقهبند SVM باعث میشود که دادههایی که دارای الگوی غیرخطی هستند با نگاشت به فضایی با ابعاد بیشتر بتوانند با مدل خطی تفکیکپذیر شوند. این کار باعث افزایش دقت تفکیککنندگی مدل یادگیری ماشین میشود. اخیراً توسعهایی از SVM با نام SVM جفتی[ii] (TSVM) ارائه شده است که با تغییر در فرضیه اولیه آن، از دو اَبَرصفحه[iii] برای تفکیک نمونههای هر کلاس استفاده میکند و توانسته نتایج بهتری در طبقهبندی ارائه کند. به دلیل استفاده از دو ابرصفحه در TSVM، لذا بهتر است تا از هستههای چندگانه در ساختار آن استفاده شود. به دلیل اینکه توابع هسته در هر کاربرد اختصاصی هستند لذا نمیتوان از یک هسته عمومی برای همه کاربردها استفاده کرد. در این مقاله برای بهینهسازی ترکیبهای بهینه توابع هسته پایه، از روشی تکاملی مبتنی بر الگوریتم ژنتیک (GA) استفاده شده است که با بهرهگیری از آن در فرآیند تصمیمگیری هر اَبَرصفحه TSVM، بهبود در تشخیص صفحات فریب حاصل گردیده است. برای پیادهسازی و ارزیابی روش پیشنهادی، از مجموعه دادگان UK-2006 و UK-2007 استفاده شده است که نتایج حاصل بیانگر مؤثر بودن ایده پیشنهادی در این پژوهش است. | ||
کلیدواژهها | ||
واژههای کلیدی: موتور جستجو؛ صفحات وبفریب؛ رتبهبندی؛ یادگیری ماشین؛ ماشینبردارپشتیبان جفتی؛ هستههای چندگانه؛ الگوریتم ژنتیک | ||
مراجع | ||
[1] G. V. Cormack, M. D. Smucker, and C. L. A. Clarke, “Efficient and effective spam filtering and re-ranking for large web datasets,” Proceedingsof the Information Retrieval Conference, pp. 1-25, 2010. [2] P. T. Metaxas, and J. DeStefano, “Web spam, propaganda and trust,” Proceedingsof the 1st International Workshop on Adversarial Information Retrieval on the Web, pp. 60-69, 2005. [3] D. Fetterly, M. Manasse, and M. Najork, “Spam, damn spam and statistics,” Proceedings of the 7th International Workshop on the Web and Databases, pp. 210-223, 2004. [4] A. Ntoulas, M. Najork, M. Manasse, and D. Fetterly, “Detecting spam web pages through content analysis,” Proceedings of the 15th International Conference on World Wide Web, China, Beijin University, pp. 83-92, 2006. [5] D. Zhou, J. Huang, and B. Schölkopf, “Learning from labeled and unlabeled data on a directed graph,” Proceedings of the 22nd International Conference on MachineLearning, Brazil, Pugn University, pp. 1036-1043, 2007. [6] L. Becchetti, C. Castillo, D. Donato, R. Baeza-Yates, and S. Leonardi, “Link analysis for web spam detection,” ACM Transactions on the Web (TWEB), vol. 2, no. 2, pp. 1-42, 2008. [7] C. Castillo, D. Donato, A. Gionis, V. Murdock, and F. Silvestri, “Know your neighbors: web spam detection using the web topology,” Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 8-17, 2007. [8] L. Becchetti, C. Castillo, D. Donato, S. Leonardi, and R. Baeza-Yates, “Web spam detection: link-based and content-based techniques,” The European Integrated Project Dynamically Evolving Large Scale Information Systems (DELIS):Proceedings of the Final Workshop, Paderborn University, pp. 99-113, 2008. [9] Y. Liu, R. Cen, M. Zhang, S. Ma, and L. Ru, “Identifying web spam with user behavior analysis,” Proceedings of the 4th International Workshop on Adversarial Information Retrieval on the Web, pp. 9-16, 2009. [10] B. Wu, and B. D. Davison, “Cloaking and redirection: A preliminary study,” Proceedings of the 1st International Workshop on Adversarial Information Retrievalon the Web (AIRWeb), pp. 7-16, 2005. [11] K. Chellapilla, and A. Maykov, “Cross-Lingual web spam classification,” Proceedings of the 3rd International Workshop on Adversarial Information Retrievalon the Web, pp. 81-88, 2007. [12] H. Najadat, and I. Hmeidi, “Web spam detection using machine learning in specific domain features,”Journal of Information Assurance and Security, vol. 38, no. 4, pp. 2117-2123, 2009. [13] A. Torabi, K. Taghipour, and S. Khadivi, “Web spam detection: new approach with hidden markov models,” Information Retrieval Technology, vol. 13, no. 2, pp. 230-239, 2013. [14] B. Tundalwar, R. Rashmi, and M. Kulkarni, “New classification method based on decision tree for web spam detection,” International Journal of Current Engineering and Technology, vol. 8, no. 9, pp 929-940, 2014. [15] A. A. Soni, and A. Mathur, “Content based web spam detection using naive bayes with different feature representation technique,” Journal of Engineering Research and Applications, vol. 3, no. 5, pp. 198-205, 2013. [16] M. Silva, M. Renato, T. A. Almeida, and A. Yamakami, “Artificial neural networks for content-based web spam detection,” Proceedings of the 14th International Conference on Artificial Intelligence (ICAI’12), pp. 1-7. 2012. [17] T. Urvoy, T. Lavergne, and P. Filoche, “Tracking web spam with hidden style similarity,” Proceedings of the 2nd International Workshop on AdversarialInformation Retrieval on the Web (AIRWeb), pp. 25-34, 2006. [18] S. Bernhard, A. Smola, C. Williamson, and L. Bartlett, “New support vector algorithms,” Journal of Neural Computation, vol. 4, no. 7, pp. 1207-1227, 2000. [19] J. S. Taylor, and N. Cristianini, Kernel Methods for Pattern Analysis, Cambridge University Press, Wiley Publishing, 2004. [20] J. S. Taylor, and N. Cristianini, “Support vector machines and kernel method,” Journal of Artificial Intelligence Review, vol. 12, no. 5, 2005. [21] J. R. Khemchandani, “Twin support vector machines for pattern classification,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 29, no. 5, 2007. [22] D. E. Goldberg, E. David, and J. Holland. “Genetic algorithms and machine learning,” Machine Learning, vol. 3, no. 2, pp. 95-99, 1988. [23] H. Castillo, D. Donato, L. Becchetti, P. Boldi, S. Leonardi, M. Santini, and S. Vigna, “A reference collection for web spam,” ACM Sigir Forum, vol. 40, no. 2, pp. 11-24, 2006. [24] L. I. Kuncheva, Combining Pattern Classifiers: Methods and Algorithms, Wiley Press, 2004. [25] M. Tundalwar, R. Rashmi, and M. Kulkarni, “New classification method based on decision tree for web spam detetion,” International Journal of Current Engineering and Eechnology, vol. 4, no. 1, pp 112-117, 2014. [26] M. Silva, M. Renato, T. A. Almeida, and A. Yamakami. “Artificial neural networks for content-based web spam detection,” Proceedings of the 14th International Conference on Artificial Intelligence (ICAI’12), pp. 1-7. 2012. [27] A. Torabi, K. Taghipour, and S. Khadivi, “Web spam detection: new approach with hidden markov models,” Information Retrieval Technology, vol. 3, no. 7, pp. 239-250, 2013. [28] A. Keyhanipour, and B. Moshiri, “Designing a web spam classifier based on feature fusion in the layered multi-population genetic programming framework,” Proceedings of 16th International Conference on Information Fusion, pp. 53-60, 2013. [29] C. Ashish, M. Suaib ,and D. Beg, “Web spam classification using supervised artificial neural network algorithms,” Advanced Computational Intelligence: An International Journal, vol. 2, no. 1, pp. 45-55, 2015. | ||
آمار تعداد مشاهده مقاله: 1,004 تعداد دریافت فایل اصل مقاله: 653 |