تعداد نشریات | 43 |
تعداد شمارهها | 1,275 |
تعداد مقالات | 15,753 |
تعداد مشاهده مقاله | 51,868,894 |
تعداد دریافت فایل اصل مقاله | 14,691,984 |
اعمال مدلهای رگرسیون بر زیرمجموعههای با همبستگی بالا برای بهبود جایگذاری مقادیر جاافتاده عددی | ||
مجله مهندسی برق دانشگاه تبریز | ||
مقاله 22، دوره 48، شماره 3 - شماره پیاپی 85، آذر 1397، صفحه 1187-1200 اصل مقاله (1.46 M) | ||
نویسندگان | ||
امیرمسعود سفیدیان؛ نگین دانشپور* | ||
دانشکده مهندسی کامپیوتر - دانشگاه تربیت دبیر شهید رجایی - تهران | ||
چکیده | ||
حضور مقادیر جاافتاده در دادههای دنیای واقعی مشکلی بسیار رایج و غیرقابلاجتناب است. بنابراین لازم است تا پیش از عملیات اکتشاف دانش، این مقادیر جاافتاده بهطور دقیق پُر شوند. در این مقاله، سه رویکرد جدید برای تخمین مقادیر جاافتاده عددی پیشنهاد میشود. در تمامی روشهای پیشنهادی، مدلهای رگرسیون بر زیرمجموعههایی با همبستگی بالا اعمال میشوند. در انتخاب زیرمجموعههای مطلوب سعی میشود تا همبستگی بین صفت جاافتاده و دیگر صفات حداکثر شود. انتخاب این زیرمجموعهها با استفاده از رویکردهایی مبتنی بر انتخاب روبهجلو انجام میشود. از معیار ضریب همبستگی برای اندازهگیری میزان ارتباط بین صفات استفادهشده است. همچنین در روشهای پیشنهادی، ترتیب صفات جاافتاده برای انجام عمل جایگذاری اولویتدهی میشوند. عملکرد رویکردهای پیشنهادشده بر روی پنج مجموعهداده از دنیای واقعی با مقادیر مختلف جاافتادگی ارزیابیشده است. عملکرد رویکردهای ارائهشده با پنج رویکرد جایگذاری با مقدار میانگین، جایگذاری با استفاده از نزدیکترین همسایگان، روش جایگذاری با خوشهبندی c-means فازی، روش جایگذاری با درخت تصمیم و روشی مبتنی بر رگرسیون به نام «الگوریتم جایگذاری با رگرسیون افزایشیِ صفات» (IARI) مقایسه شده است. از دو معیار شناختهشدهی ریشه میانگین مربعات خطا و ضریب تعیین برای مقایسه عملکرد رویکردهای پیشنهادی با دیگر روشهای جایگذاری استفادهشده است. نتایج آزمایشها نشان میدهد که رویکردهای ارائهشده، حتی زمانی که درصد جاافتادگی بالا است، بهتر از دیگر روشهای مقایسه شده عمل میکنند. | ||
کلیدواژهها | ||
جایگذاری مقادیر جاافتاده؛ همبستگی؛ رگرسیون | ||
مراجع | ||
[1] Y. Qin, S. Zhang, X. Zhu, J. Zhang, and C. Zhang, “Pop algorithm: Kernel-based imputation to treat missing values in knowledge discovery from databases,” Expert Systems with Applications, vol. 36, no. 2, pp. 2794–2804, 2009. [2] مرتضی خرّم کشکولی و مریم دهقانی، «تشخیص، شناسایی و جداسازی عیب توربین گاز پالایشگاه دوم پارس جنوبی با استفاده از روشهای ترکیبی دادهکاوی، k-means، تحلیل مؤلفههای اصلی (PCA) و ماشین بردار پشتیبان (SVM)»، مجله علمی پژوهشی مهندسی برق دانشگاه تبریز، جلد 47، شماره 2، صفحات 501-515، 1396. [3] علیرضا سردار و رمضان هاونگی، «بهبود عملکرد الگوریتم خوشهیابی خودکار تصاویر رنگی به کمک پیشپردازش با شبکه عصبی خودسامانده (SOM)»، مجله علمی پژوهشی مهندسی برق دانشگاه تبریز، جلد 47، شماره 3، صفحات 1082-1073، 1396. [4] G. Sun, J. Shao, H. Han, and X. Ding, “Missing value imputation for wireless sensory soil data: A comparative study,” in 2nd International Conference on Big Data Computing and Communications, pp. 172–184, Springer, Shenyang, China, 2016. [5] M. Lichman, UCI Machine Learning Repository, Available online at: http://archive.ics.uci.edu/ml, Accessed June 2017. [6] P. J. Garcia-Laencina, J. L. Sancho-Gomez, and AR. Figueiras-Vidal, “Pattern classification with missing data: a review,” Neural Computing and Applications, vol. 19, no. 2, pp. 263–282, 2010. [7] E. L. Silva-Ramrez, R. Pino-Mejas, and M. Lpez-Coello, “Single imputation with multilayer perceptron and multiple imputation combining multi-layer perceptron and k-nearest neighbours for monotone patterns,” Applied Soft Computing, vol. 29, no. 1, pp. 65 – 74, 2015. [8] M. G. Rahman and M. Z. Islam, “Missing value imputation using a fuzzy clustering-based EM approach,” Knowledge and Information Systems, vol. 46, no. 2, pp. 389–422, 2016. [9] M. Amiri and R. Jensen, “Missing data imputation using fuzzy-rough methods,” Neurocomputing, vol. 205, no. 1, pp. 152–164, 2016. [10] H. Wang and S. Wang, “Mining incomplete survey data through classification,” Knowledge and information systems, vol. 24, no. 2, pp. 221–233, 2010. [11] C.F. Tsai and F.Y. Chang, “Combining instance selection for better missing value imputation,” Journal of Systems and Software, vol. 122, no. 1, pp. 63– 71, 2016. [12] C. T. Tran, M. Zhang, P. Andreae, and B. Xue, “Improving performance for classification with incomplete data using wrapper-based feature selection,” Evolutionary Intelligence, vol. 9, no. 3, pp. 81–94, 2016. [13] M. G. Rahman and M. Z. Islam, “Data quality improvement by imputation of missing values,” in 5th International Conference on Computer Science and Information Technology (CSIT-2013), pp. 82– 88, Yogyakarta, Indonesia, 2013. [14] B. van Stein and W. Kowalczyk, “An incremental slgorithm for repairing training sets with missing values,” in International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, vol. 611, no. 1, pp. 175–186. Springer International Publishing, Eindhoven, Netherlands, 2016. [15] G. Rahman and Z. Islam, “A decision tree-based missing value imputation technique for data pre-processing,” in Proceedings of the Ninth Australasian Data Mining Conference, vol. 121, no. 1, pp. 41-50. Australian Computer Society, Inc., 2011. [16] L. Breiman, “Random Forests,” Machine learning, vol. 45, no. 1, pp. 5–32, 2001. [17] C.H. Wu, C.H. Wun, and H.J. Chou, “Using association rules for completing missing data,” in 4th International Conference on Hybrid Intelligent Systems, pp. 236–241, Kitakyushu, Japan, IEEE, 2004. [18] N. Singh, A. Javeed, S. Chhabra, and P. Kumar, “Missing value imputation with unsupervised kohonen self organizing map,” Emerging Research in Computing, Information, Communication and Applications, vol. 1, no. 1, pp. 61–76. Springer, New Delhi, India, 2015. [19] J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 3rd Edition, 2011. [20] C. Jiang and Z. Yang, “CKNNI: an improved knn-based missing value handling technique,” in 11th International Conference on Intelligent Computing, pp. 441–452, Springer, Fuzhou, China, 2015. [21] R. Krishnamoorthy, S. S. Kumar, and B. Neelagund, “A new approach for data cleaning process,” in Recent Advances and Innovations in Engineering (ICRAIE), pp. 1-5, IEEE, Jaipur, India, 2014. [22] C. Zhang, X. Zhu, J. Zhang, Y. Qin, and S. Zhang, “GBKII: An imputation method for missing values,” in Advances in Knowledge Discovery and Data Mining: 11th Pacific-Asia Conference, pp. 1080–1087, Springer, Nanjing, China, 2007. [23] B. M. Patil, R. C. Joshi, and D. Toshniwal, “Missing value imputation based on k-mean clustering with weighted distance,” in 3rd International Conference on Contemporary Computing, pp. 600–609, Springer, Noida, India, 2010. [24] V. Ayuyev, J. Jupin, P. Harris, and Z. Obradovic, “Dynamic clustering-based estimation of missing values in mixed type data,” in 11th International Conference on Data Warehousing and Knowledge Discovery, pp. 366–37, Springer, Linz, Austria, 2009. [25] D. Li, J. Deogun, W. Spaulding, and B. Shuart, “Towards missing data imputation: A study of fuzzy k-means clustering Method,” Rough Sets and Current Trends in Computing, vol. 3066, no. 1, pp. 573–579, Springer, 2004. [26] P. Raja and K. Thangavel, “Soft clustering based missing value imputation,” in Digital Connectivity-Social Impact: 51st Annual Convention of the Computer Society of India, pp. 119–133, Springer, Coimbatore, India, 2016. [27] N. Ankaiah and V. Ravi, “A novel soft computing hybrid for data imputation,” in 7th International Conference on Data Mining (DMIN), Las Vegas, USA, 2011. [28] S. Azim, S. Aggarwal, “Hybrid model for data imputation: using fuzzy c-means and multi-layer perceptron,” in Advance Computing Conference (IACC), 2014 IEEE International, pp. 1281–1285, Gurgaon, India, 2014. [29] S. Bashir, S. Razzaq, U. Maqbool, S. Tahir, and A. R. Baig, “Using association rules for better treatment of missing values,” in 10th WSEAS International Conference on Computers, Wisconsin, USA, pp. 1133-1138, 2009. [30] D. R. Wilson and T. R. Martinez, “Reduction techniques for instance-based learning algorithms,” Machine learning, vol. 38, no. 3, pp. 257–286, 2000. [31] Batista, G. E., & Monard, M. C. (2002). A study of k-nearest neighbour as an imputation method. Hybrid Intell Syst (HIS), vol. 87, no. 1, pp. 251-260, 2002. [32] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay, “Scikit-learn: Machine learning in Python,” Journal of Machine Learning Research, vol. 12, no. 1, pp. 2825–2830, 2011. | ||
آمار تعداد مشاهده مقاله: 561 تعداد دریافت فایل اصل مقاله: 453 |