اعمال مدل‌های رگرسیون بر زیرمجموعه‌های با همبستگی بالا برای بهبود جایگذاری مقادیر جاافتاده عددی

سفیدیان, امیرمسعود; دانشپور, نگین

فهرست نشریات دارای اعتبار وزارت علوم، تحقیقات و فناوری

تعداد نشریات	45
تعداد شماره‌ها	1,516
تعداد مقالات	18,527
تعداد مشاهده مقاله	60,635,925
تعداد دریافت فایل اصل مقاله	21,547,129

	اعمال مدل‌های رگرسیون بر زیرمجموعه‌های با همبستگی بالا برای بهبود جایگذاری مقادیر جاافتاده عددی
مجله مهندسی برق دانشگاه تبریز
مقاله 22، دوره 48، شماره 3 - شماره پیاپی 85، آذر 1397، صفحه 1187-1200 اصل مقاله (1.46 M)
نویسندگان
امیرمسعود سفیدیان؛ نگین دانشپور^*
دانشکده مهندسی کامپیوتر - دانشگاه تربیت دبیر شهید رجایی - تهران
چکیده
حضور مقادیر جاافتاده در داده‌های دنیای واقعی مشکلی بسیار رایج و غیرقابل‌اجتناب است. بنابراین لازم است تا پیش از عملیات اکتشاف دانش، این مقادیر جاافتاده به‌طور دقیق پُر شوند. در این مقاله، سه رویکرد جدید برای تخمین مقادیر جاافتاده عددی پیشنهاد می‌شود. در تمامی روش‌های پیشنهادی، مدل‌های رگرسیون بر زیرمجموعه‌هایی با همبستگی بالا اعمال می‌شوند. در انتخاب زیرمجموعه‌های مطلوب سعی می‌شود تا همبستگی بین صفت جاافتاده و دیگر صفات حداکثر شود. انتخاب این زیرمجموعه‌ها با استفاده از رویکردهایی مبتنی بر انتخاب روبه‌جلو انجام می‌شود. از معیار ضریب همبستگی برای اندازه‌گیری میزان ارتباط بین صفات استفاده‌شده است. همچنین در روش‌های پیشنهادی، ترتیب صفات جاافتاده برای انجام عمل جایگذاری اولویت‌دهی می‌شوند. عملکرد رویکردهای پیشنهادشده بر روی پنج مجموعه‌داده از دنیای واقعی با مقادیر مختلف جاافتادگی ارزیابی‌شده است. عملکرد رویکردهای ارائه‌شده با پنج رویکرد جایگذاری با مقدار میانگین، جایگذاری با استفاده از نزدیک‌ترین همسایگان، روش جایگذاری با خوشه‌بندی c-means فازی، روش جایگذاری با درخت تصمیم و روشی مبتنی بر رگرسیون به نام «الگوریتم جایگذاری با رگرسیون افزایشیِ صفات» (IARI) مقایسه شده است. از دو معیار شناخته‌شده‌ی ریشه میانگین مربعات خطا و ضریب تعیین برای مقایسه عملکرد رویکردهای پیشنهادی با دیگر روش‌های جایگذاری استفاده‌شده است. نتایج آزمایش‌ها نشان می‌دهد که رویکردهای ارائه‌شده، حتی زمانی که درصد جاافتادگی بالا است، بهتر از دیگر روش‌های مقایسه شده عمل می‌کنند.
کلیدواژه‌ها
جایگذاری مقادیر جاافتاده؛ همبستگی؛ رگرسیون

مراجع
[1] Y. Qin, S. Zhang, X. Zhu, J. Zhang, and C. Zhang, “Pop algorithm: Kernel-based imputation to treat missing values in knowledge discovery from databases,” Expert Systems with Applications, vol. 36, no. 2, pp. 2794–2804, 2009. [2] مرتضی خرّم کشکولی و مریم دهقانی، «تشخیص، شناسایی و جداسازی عیب توربین گاز پالایشگاه دوم پارس جنوبی با استفاده از روش‌های ترکیبی داده‌کاوی، k-means، تحلیل مؤلفه‌های اصلی (PCA) و ماشین بردار پشتیبان (SVM)»، مجله علمی پژوهشی مهندسی برق دانشگاه تبریز، جلد 47، شماره 2، صفحات 501-515، 1396. [3] علیرضا سردار و رمضان هاونگی، «بهبود عملکرد الگوریتم خوشه‌یابی خودکار تصاویر رنگی به کمک پیش‌پردازش با شبکه عصبی خودسامانده (SOM)»، مجله علمی پژوهشی مهندسی برق دانشگاه تبریز، جلد 47، شماره 3، صفحات 1082-1073، 1396. [4] G. Sun, J. Shao, H. Han, and X. Ding, “Missing value imputation for wireless sensory soil data: A comparative study,” in 2nd International Conference on Big Data Computing and Communications, pp. 172–184, Springer, Shenyang, China, 2016. [5] M. Lichman, UCI Machine Learning Repository, Available online at: http://archive.ics.uci.edu/ml, Accessed June 2017. [6] P. J. Garcia-Laencina, J. L. Sancho-Gomez, and AR. Figueiras-Vidal, “Pattern classification with missing data: a review,” Neural Computing and Applications, vol. 19, no. 2, pp. 263–282, 2010. [7] E. L. Silva-Ramrez, R. Pino-Mejas, and M. Lpez-Coello, “Single imputation with multilayer perceptron and multiple imputation combining multi-layer perceptron and k-nearest neighbours for monotone patterns,” Applied Soft Computing, vol. 29, no. 1, pp. 65 – 74, 2015. [8] M. G. Rahman and M. Z. Islam, “Missing value imputation using a fuzzy clustering-based EM approach,” Knowledge and Information Systems, vol. 46, no. 2, pp. 389–422, 2016. [9] M. Amiri and R. Jensen, “Missing data imputation using fuzzy-rough methods,” Neurocomputing, vol. 205, no. 1, pp. 152–164, 2016. [10] H. Wang and S. Wang, “Mining incomplete survey data through classification,” Knowledge and information systems, vol. 24, no. 2, pp. 221–233, 2010. [11] C.F. Tsai and F.Y. Chang, “Combining instance selection for better missing value imputation,” Journal of Systems and Software, vol. 122, no. 1, pp. 63– 71, 2016. [12] C. T. Tran, M. Zhang, P. Andreae, and B. Xue, “Improving performance for classification with incomplete data using wrapper-based feature selection,” Evolutionary Intelligence, vol. 9, no. 3, pp. 81–94, 2016. [13] M. G. Rahman and M. Z. Islam, “Data quality improvement by imputation of missing values,” in 5th International Conference on Computer Science and Information Technology (CSIT-2013), pp. 82– 88, Yogyakarta, Indonesia, 2013. [14] B. van Stein and W. Kowalczyk, “An incremental slgorithm for repairing training sets with missing values,” in International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, vol. 611, no. 1, pp. 175–186. Springer International Publishing, Eindhoven, Netherlands, 2016. [15] G. Rahman and Z. Islam, “A decision tree-based missing value imputation technique for data pre-processing,” in Proceedings of the Ninth Australasian Data Mining Conference, vol. 121, no. 1, pp. 41-50. Australian Computer Society, Inc., 2011. [16] L. Breiman, “Random Forests,” Machine learning, vol. 45, no. 1, pp. 5–32, 2001. [17] C.H. Wu, C.H. Wun, and H.J. Chou, “Using association rules for completing missing data,” in 4th International Conference on Hybrid Intelligent Systems, pp. 236–241, Kitakyushu, Japan, IEEE, 2004. [18] N. Singh, A. Javeed, S. Chhabra, and P. Kumar, “Missing value imputation with unsupervised kohonen self organizing map,” Emerging Research in Computing, Information, Communication and Applications, vol. 1, no. 1, pp. 61–76. Springer, New Delhi, India, 2015. [19] J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 3rd Edition, 2011. [20] C. Jiang and Z. Yang, “CKNNI: an improved knn-based missing value handling technique,” in 11th International Conference on Intelligent Computing, pp. 441–452, Springer, Fuzhou, China, 2015. [21] R. Krishnamoorthy, S. S. Kumar, and B. Neelagund, “A new approach for data cleaning process,” in Recent Advances and Innovations in Engineering (ICRAIE), pp. 1-5, IEEE, Jaipur, India, 2014. [22] C. Zhang, X. Zhu, J. Zhang, Y. Qin, and S. Zhang, “GBKII: An imputation method for missing values,” in Advances in Knowledge Discovery and Data Mining: 11th Pacific-Asia Conference, pp. 1080–1087, Springer, Nanjing, China, 2007. [23] B. M. Patil, R. C. Joshi, and D. Toshniwal, “Missing value imputation based on k-mean clustering with weighted distance,” in 3rd International Conference on Contemporary Computing, pp. 600–609, Springer, Noida, India, 2010. [24] V. Ayuyev, J. Jupin, P. Harris, and Z. Obradovic, “Dynamic clustering-based estimation of missing values in mixed type data,” in 11th International Conference on Data Warehousing and Knowledge Discovery, pp. 366–37, Springer, Linz, Austria, 2009. [25] D. Li, J. Deogun, W. Spaulding, and B. Shuart, “Towards missing data imputation: A study of fuzzy k-means clustering Method,” Rough Sets and Current Trends in Computing, vol. 3066, no. 1, pp. 573–579, Springer, 2004. [26] P. Raja and K. Thangavel, “Soft clustering based missing value imputation,” in Digital Connectivity-Social Impact: 51st Annual Convention of the Computer Society of India, pp. 119–133, Springer, Coimbatore, India, 2016. [27] N. Ankaiah and V. Ravi, “A novel soft computing hybrid for data imputation,” in 7th International Conference on Data Mining (DMIN), Las Vegas, USA, 2011. [28] S. Azim, S. Aggarwal, “Hybrid model for data imputation: using fuzzy c-means and multi-layer perceptron,” in Advance Computing Conference (IACC), 2014 IEEE International, pp. 1281–1285, Gurgaon, India, 2014. [29] S. Bashir, S. Razzaq, U. Maqbool, S. Tahir, and A. R. Baig, “Using association rules for better treatment of missing values,” in 10th WSEAS International Conference on Computers, Wisconsin, USA, pp. 1133-1138, 2009. [30] D. R. Wilson and T. R. Martinez, “Reduction techniques for instance-based learning algorithms,” Machine learning, vol. 38, no. 3, pp. 257–286, 2000. [31] Batista, G. E., & Monard, M. C. (2002). A study of k-nearest neighbour as an imputation method. Hybrid Intell Syst (HIS), vol. 87, no. 1, pp. 251-260, 2002. [32] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay, “Scikit-learn: Machine learning in Python,” Journal of Machine Learning Research, vol. 12, no. 1, pp. 2825–2830, 2011.
آمار تعداد مشاهده مقاله: 1,008 تعداد دریافت فایل اصل مقاله: 833

سامانه مدیریت نشریات علمی. قدرت گرفته از سیناوب

پیوندهای مفید

آمار

اعمال مدل‌های رگرسیون بر زیرمجموعه‌های با همبستگی بالا برای بهبود جایگذاری مقادیر جاافتاده عددی