مقایسۀ کارایی روش‌های رده‌بندی‌کننده‌ رگرسیون لجستیک و رگرسیون درختی برای متغیر وابسته باینری

نوع مقاله : علمی- پژوهشی

نویسنده

مربی، آمار، دانشگاه پیام نور

چکیده

در این مقاله میزان کارایی مدل‌های رده‌بندی رگرسیون لجستیک باینری و رگرسیون درختی روی متغیر وابسته باینری بررسی می‌شود. شیوۀ پردازش مدل، استفاده از تمام داده‌ها در مرحلۀ آموزشی است. مجموعه داده‌های مورد مطالعه از یک گزارش مطالعاتی دربارۀ سوابق بیماری زردی به دست آمده است که یک مجموعه داده شامل متغیرهای کمی و کیفی است. میزان کارایی دو روش طبقه‌بندی‌کننده‌ رگرسیون لجستیک و رگرسیون رده‌بندی درخت تصمیم، بر اساس معیارهای کارایی آماری نظیر دقت، توجه به موارد خاص، و تحلیل حساسیت است. نتایج تجربی ما نشان می‌دهد که رگرسیون لجستیک، دقت بالای 83% و رگرسیون درختی میزان دقت حدود 73% را بر روی مجموعه نشان داده‌اند. به همین ترتیب میزان حساسیت رگرسیون لجستیک باینری برابر 77% و رگرسیون درختی برابر 66% است. همچنین اندازه توجه به موارد خاص مدل رگرسیون برابر 85% وبرای رگرسیون درختی برابر 76% است. نتایج کارایی مدل نشان می‌دهد رگرسیون لجستیک باینری بهتر از رگرسیون درختی عمل کرده است.

کلیدواژه‌ها


[1] Jiwaei Han, Kamber Micheline, Jian Pei Data mining: Concepts and Techniques, Morgam Kaufmann Publishers (Mar 2006).
[2] Pakgohar, Alireza. Statistical applications in data mining: special view in logistic regression. Islamic Azad University, branch of Mashad. department of Science. M.A degree thesis. 2006. [Persian language].
[3] Pakgohar, Alireza. Evaluation of patients with gastroenteritis, Pneumonia and Jaundice on children, Payame Noor University, Report. 2012. [Persian Language].
[4] SPSS 18(PASW) help file. http//www-.spss.com
[5] Pakgohar, Alireza. Tabrizi, Reza Sigari. Khalili, Mohadeseh. Esmaeili, Alireza. The role of human factor in incidence and severity of road crashes based on the CART and LR regression: a data mining approach, Procedia Computer Science, Volume 3, 2011, Pages 764-769, ISSN 1877-0509, 0.1016/j.procs.2010.12.126.
[6] Alaa M. Elsayad “Predicting the severity of breast masses with ensemble of Bayesian classifiers” journal of computer science 6 (5): 576-584, 2010, ISSN 1549-3636.