مدیریت ریسک اعتباری مشتریان بانکی با استفاده از روش ماشین بردار تصمیم بهبودیافته با الگوریتم ژنتیک با رویکرد داده‌کاوی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 استادیار گروه مهندسی صنایع، دانشکده مهندسی صنایع، دانشگاه پیام نور تهران، ایران

2 کارشناسی ارشد گروه مهندسی صنایع، دانشکده مهندسی صنایع، دانشگاه پیام نور تهران ،ایران

چکیده

مدیریت ریسک اعتباری، رتبه‌بندی اعتباری و ارزیابی میزان ریسک مشتریان، در کنار جذب منابع از اهمیت بالایی برای بانک‌ها برخوردار است؛ زیرا اگر بانک‌ها با تخصیص بهینۀ منابع و کسب درآمد بین فرایند تجهیز و تخصیص منابع خود نتوانند توازن ایجاد کنند، در آینده با مشکلات زیادی روبه‌رو می‌شوند. براساس آمارهای رسمی منتشرشده از سوی بانک مرکزی ج.ا.ا در سال‌های اخیر، میزان مطالبات معوق بانک‌ها بسیار افزایش‌ یافته است؛ زیرا سیستم اعتبارسنجی دقیقی برای ارزیابی اعتبار و اندازه‌گیری میزان ریسک مشتریان وجود ندارد. در این پژوهش، الگویی با استفاده از روش‌های داده‌کاوی برای پیش‌بینی شاخص نرخ وصول مشتریان ارائه می‌شود. رویکردی که در سال‌های اخیر در دنیا به‌عنوان روشی جدید برای اندازه‌گیری ریسک مشتریان به‌جای اندازه‌گیری احتمال نکول مدّنظر قرارگرفته است. نتایج نشان می‌دهد الگوی پیشنهادی این پژوهش، دقت بیشتری دارد. به‌طور کلی، هدف پیش‌بینی درصد وصول مطالبات قراردادهای با احتمال ریسک مطالباتی بالا قبل از اعطای تسهیلات است.

کلیدواژه‌ها


عنوان مقاله [English]

Credit Risk Management of Banking Customers Using Support Vector Machine Optimized by Genetic Algorithm with Data Mining Approach

نویسندگان [English]

  • Meisam Jafari Eskandari 1
  • Milad Rohii 2
1 Associate Prof., Faculty of Industrial Engineering, Industrial Engineering Department, Payame Noor University, Tehran, Iran
2 MSc. Industrial Engineering Department, Faculty of Industrial Engineering Payame Noor University, Tehran, Iran
چکیده [English]

Credit risk management, credit scoring and risk assessment of customers is an important issue in banking industry. Credit scoring is important because if the banks fail to earn resource allocation and create a balance between the processes of mobilizing and allocating resources, they are typically faced with many problems in the future. According to official figures released by the Central Bank of Iran in recent years, the rate of bad loans increased, since the systemic strict validation to evaluate and measure the credit risk of customers do not exist. In this paper, we try to predict customer’s recovery rate index with data mining techniques. Markedly, in recent years in the world new method for measuring customer risk rather than default probability measure has been considered, but due to low precision of forecasting models widely different approaches in research and modeling is investigated. The method used in this paper is support vector regression model whose parameters selection is optimized with genetic algorithm.

کلیدواژه‌ها [English]

  • Credit Risk
  • Recovery rates
  • Rialclaims
  • Support Vector Machine

مقدمه

 

در سال‌های اخیر، توانایی تولید، ضبط و ذخیرۀ داده‌ها بسیار افزایش ‌یافته است. اطلاعاتی که در این داده‌ها می‌تواند نهفته باشد، بسیار مهم است. در دسترس‌بودن حجم بالای داده و نیاز به تبدیل آنها به دانش، صنعت فناوری اطلاعات را برای استفاده از داده‌کاوی تشویق کرده و به سمت آن سوق داده است. صنعت بانکداری در مسیر کسب‌وکار خود در سراسر جهان، دستخوش تغییر فوق‌العاده‌ای شده است. همچنین این صنعت شروع به شناخت تکنیک‌ها و مهارت‌های استفاده از داده‌کاوی برای استفاده در رقابت در بازار بانکی کرده است. بانک‌ها با استفاده از ابزار داده‌کاوی به بخش‌بندی مشتریان، مطالعه سوددهی، رتبه‌بندی اعتباری و پیش‌بینی پرداخت تسهیلات و وصول مطالبات، بازاریابی، شناسایی و کشف تقلب در تراکنش‌ها و غیره توجه کرده‌اند ]10[. مؤسسات اعتباری برای پیش‌بینی وضعیت افرادی که در آینده از عهدۀ انجام تعهدات خود بر نخواهند آمد، مایل به ارزیابی مشتریان هستند. در هر دو حالت (بررسی درخواست‌های وام جدید و کنترل وام‌گیرندگان قبلی) احتمال بازپرداخت در دورۀ وام‌دهی تخمین زده می‌شود و درنتیجه، مشتریان براساس تخمین حاصل دربارۀ ناتوانی در بازپرداخت به سطوح متفاوتی از ریسک رتبه‌بندی خواهند شد. این روش به‌عنوان تعیین ریسک و یا طبقه‌بندی اعتبار شناخته می‌شود ]14.[ در سال‌های اخیر در مباحث مربوط به ریسک اعتباری، مفهوم تازه‌تری برای پیش‌بینی مدّنظر قرار گرفته است و آن شاخصی با نام نرخ وصول1 است؛ به زبان ساده‌تر، صرفاً مشتریان براساس میزان ریسک یا احتمال بازپرداخت‌نکردن وام طبقه‌بندی و رتبه‌بندی نمی‌شوند؛ بلکه از این منظر بررسی می‌شوند که اگر فرضاً احتمال نکول یا بازپرداخت‌نکردن به وجود بیاید، نرخ وصول مطالبات چه میزان خواهد بود؟ و یا به عبارتی، چند درصد از بدهی مشتری وصول می‌شود، در این پژوهش به پیش‌بینی این شاخص توجه ‌شده است. براساس نتایج و الگوی به‌دست‌آمده و اجرای آن بر تسهیلات جاری و مطالبات‌نشده، مشتریان را می‌توان دسته‌بندی کرد و به مشتریان خوش‌حساب یا غیرمطالباتی تسهیلات با نرخ سود کمتر اعطا و مشتریان بدحساب را به‌تدریج، ابتدا از اعطای تسهیلات مجدد جلوگیری و با تدوین برنامۀ مدونی براساس میزان وثایق دریافتی برای وصول مطالبات آنها اقدام کرد. از این نتایج برای راه‌اندازی سامانۀ اعطای تسهیلات به‌صورت هوشمند و تسری آن به‌تمامی واحدهای بانک هنگام اعطای تسهیلات و الگو‌سازی رفتار مشتری جدید براساس ویژگی‌های اعتباری و مقایسه با مشتریان گذشته با ویژگی مشابه می‌توان استفاده کرد.

پرسش اساسی این پژوهش، یافتن پارامترهای بهینۀ الگو‌های پیش‌بینی مجموعۀ SVR برای
پیش‌بینی میزان مطالبات قراردادهای با ریسک زیاد قبل از اعطای تسهیلات است. هدف پژوهش، ارائۀ الگوی جامعی برای پیش‌بینی درصد میزان وصول مطالبات قراردادهای با ریسک زیاد است و نوآوری پژوهش در مقایسه با پژوهش‌های داخلی در درجۀ اول پیش‌بینی نرخ وصول مشتریان اعتباری در صورت مطالبات شدن برای اولین بار با استفاده از داده‌کاوی در ایران و همچنین پیش‌بینی مبلغ زیان ناشی از وصول‌نشدن قراردادهای با نرخ وصول کمتر از 1 به‌جای صرفاً طبقه‌بندی مشتریان به بخش‌های مختلف است که به مورد دوم در پژوهش‌های قبلی در داخل کشور به‌دفعات توجه شده است؛ زیرا در حال حاضر، بانک‌ها در شرایطی مجبور به پرداخت تسهیلات به برخی مشتریان هستند و صرفاً قرارگرفتن مشتری در طبقۀ پرریسک، ملاک پرداخت‌ نکردن تسهیلات نیست و باید با پیش‌بینی دقیق مشخص شود در صورتی‌که تسهیلات به آنها اعطا شود، در آینده چه میزان از مبلغ بدهی مشتری با گذراندن مراحل قانونی قابل وصول خواهد بود.

 

مبانی نظری

در مطالعات لوترمن،[1] به الگوریتم‌های مختلف رگرسیون در الگو‌سازی شاخص درصد مطالبات قابل وصول توجه شده است. 24 روش الگو‌سازی براساس الگوریتم‌های رگرسیون خطی، لجستیک، کمترین مربعات و ... بررسی‌ و همچنین با بررسی روش‌های دیگر نظیر شبکۀ عصبی و ماشین بردار تصمیم مشخص شد که این دو روش نسبت به روش‌های سنتی خطی، کارایی بیشتری دارند ]8[.با بررسی کاربردهای تحلیل تکنیک‌های ابقا زمانی در الگو‌سازی شاخص مذکور و روش‌هایی نظیر رگرسیون کاکس، خطی و لجستیک برای پیش‌بینی این شاخص استفاده‌ شده است ]15[. با مقایسۀ الگو‌های رگرسیون برای تخمین شاخص نرخ وصول با مقایسۀ الگو‌های مختلف با تأکید بر الگو‌های رگرسیونی نظیر رگرسیون ساده، لجستیک، درخت تصمیم و... می‌توان نتیجه گرفت با توجه به نوع داده‌ها هیچ‌کدام از الگو‌ها لزوماً به‌صورت در خور ‌توجهی بهتر از دیگر الگو‌ها نیستند ]2[. اطلاعات حسابداری برای وام‌دهندگان در اقسام قراردادهای بدهی، آنها را در تخصیص مناسب شاخص مذکور به مشتریان می‌تواند مجهز کند. با داشتن اطلاعات حسابداری قراردادهای بدهی مشتریان 47 ماه قبل از نکول، درصد مطالبات غیر قابل وصول را به‌صورت طبیعی قبل از وقوع می‌توان به دست آورد. همچنین مشخص می‌شود افزایش نرخ بهرۀ وام، رابطۀ مستقیمی با این شاخص  و میزان بدهی نیز ارتباط زیادی دارد ]1[. یااو[2] و همکاران (2015) با استفاده از روش رگرسیون بردار تصمیم به الگو‌سازی شاخص درصد مطالبات ‌وصول‌ناپذیر گرفتند. در این پژوهش، تکنیک‌ مذکور و 13 الگوریتم دیگر بررسی و درانتها، مشخص شد این تکنیک بسیار اعتمادپذیرتر از سایر روش‌های الگو‌سازی شاخص مذکور است ]16 .[در پژوهش گرتلر[3] و هیبلن[4] (2013) بهبود پیش‌بینی شاخص درصد مطالبات غیر قابل وصول بانک بررسی شد. در این مطالعه با استفاده از روش‌هایی نظیر نمونه‌گیری مغرضانه، مشخصه‌های متفاوت وامی با توجه به نوع پایان دورۀ مطالبات و تنظیمات اطلاعاتی متفاوت براساس وضعیت نکول بررسی شد      ]5.[ باستوس[5] (2010) برای پیش‌بینی درصد مطالبات غیر قابل وصول وام‌ها در بانک، شاخص مذکور را با استفاده از پیش‌بینی نرخ وصول بررسی و از روش رگرسیون در بخش پارامتریک و درخت تصمیم در بخش نا پارامتریک استفاده کرده است. در نتایج پژوهش نشان داده ‌شده است درخت‌های تصمیم، جایگزین مناسبی برای روش‌های پارامتریک در الگو‌سازی شاخص درصد مطالبات ‌وصول‌ناپذیر هستند ]3[. حاجی کرد و همکاران (1395) با استفاده از الگوی ماشین بردار تصمیم و الگوی هیبریدی الگوریتم ژنتیک برای پیش‌بینی ریسک اعتباری و تقسیم‌بندی مشتریان به دو دستۀ خوش‌حساب و بدحساب استفاده کرده‌اند که نتیجه نشان داد الگوی بهینه‌سازی‌شدۀ ماشین بردار تصمیم با الگوریتم ژنتیک، تأثیر بهتری در پیش‌بینی ریسک اعتباری و دسته‌بندی مشتریان به خوش‌حساب و بدحساب دارد ]9[.کرانی و آقایی‌پور (1393) نظریۀ تحلیل بقا در مدیریت ریسک اعتباری دریافت‌کنندگان تسهیلات (مطالعۀ موردی: بانک مسکن) را بررسی و احتمال‌های نکول آن را براساس الگوی خطرهای متناسب کاکس و برآوردگر حد حاصل‌ضربی تعمیم‌یافته برآورد  کرده‌اند ]7[. نظرپور و رضایی (1392) عقود اسلامی و الگوی پرداخت تسهیلات را بررسی کردند و دریافتند عقود اسلامی غیرمشارکتی (مبادله‌ای) در مقایسه با عقود مشارکتی، ریسک کمتری در بردارد؛ اما این عقود نیز ریسک‌ است و بانک‌های اسلامی را در معرض ریسک اعتباری قرار می‌دهد و بانک‌ها در صورت استقرارنداشتن یک نظام مدیریت ریسک اعتباری متناسب، میزان ریسک اعتبارات و تعیین زیان‌های احتمالی بازپرداخت‌نکردن وام‌ها را نمی‌توانند تشخیص بدهند و درنتیجه، سرمایۀ خود را نخواهند توانست تخصیص بهینه کنند ]11.[

 

روشپژوهش

برای پیش‌بینی و الگو‌سازی شاخص نرخ وصول، علاوه بر مشخصات اعتباری مشتریان، اطلاعات متغیرهای اقتصادی نیز در الگو‌سازی استفاده  و برای محاسبۀ این شاخص، از مشتریانی در الگوسازی استفاده می‌شود که تسهیلات دریافتی آنها به طبقۀ مطالبات غیرجاری (سررسید گذشته/ معوق/ مشکوک‌الوصول) منتقل شده است.

(1)

 

RR نرخ وصول تعهدات مطالبات‌شده، DNR ارزش تنزیل خالص وصول که به خالص تمام هزینه‌های وصول مطالبات گفته می‌شود. EAD میزان بدهی در زمان ایجاد مطالبات. FR ارزش اسمی میزان وصول در دوره (در این پژوهش ارزش وثیقه‌های دریافتی به جای میزان وصولی در دورۀ واقعی در نظر گرفته ‌شده است.AC  هزینه‌های اداری مرتبط با فرایند وصول تعهدات مطالبات‌شده. r نرخ تنزیل و T زمان فرایند وصول مطالبات ]12[. با توجه به اطلاعات اعتباری موجود و مشخص‌نبودن هزینه‌های اداری، نرخ تنزیل و زمان فرایند وصول برای تک‌تک مشتریان و همچنین فرایند وصول مطالبات که بعضاً به‌دلیل بوروکراسی اداری، مکاتبات واحدهای حقوقی، تشکیل دادگاه در کشور ایران که کاملاً متغیر و بعضاً غیر قابل ‌اندازه‌گیری است، فرمول مذکور با توجه به شرایط بانک‌های کشور و اطلاعات موجود بومی‌سازی می‌شود. در این پژوهش، ارزش اسمی میزان وصول به دست آمده است که از اندازه‌گیری ارزش مبلغی وثیقه‌های دریافتی با ضرایب اعلامی از سوی بانک مرکزی ج.ا.ا براساس (دستورالعمل نحوۀ محاسبۀ ذخیرۀ مطالبات، 1390) اعلام‌ شده است  و به‌عنوان DNR در نظر گرفته می‌شود. در حالت کلی برای محاسبۀ نرخ وصول واقعی باید میزان وصول واقعی اتفاق‌افتاده در دوره را جایگزین کرد؛ بنابراین فرمول محاسبۀ نرخ واقعی وصول تعهدات مطالبات شده به‌صورت رابطۀ (‏2) و (3)  است:

(2)

 

(3)

 

 

که در آن  ضریب ارزش وثیقه i و   ارزش اسمی مطلوب است. در پژوهش حاضر در بانک مدّنظر، دو نوع وثیقۀ i=1,2 با ارزش متفاوت با مشتری گرفته می‌شود در جدول (1) لیست وثیقه‌ها به همراه ارزش وزنی آنها آمده است. ارزش وزنی سایر وثیقه‌ها (سفته و برات، قرارداد، چک، ضامن معتبر و امضای مدیران) صفر است (توجه شود در حالت کلی، صورت کسر، میزان وصولی در دوره است که در این پژوهش، ارزش وثیقه‌های دریافتی در نظر گرفته ‌شده است)

(4)

سایر بدهی‌ها+ (سود آینده- اصل مبلغ وام) = میزان بدهی حال مشتری

(5)

 

 

ارزش وثیقه‌های مندرج در بانک اطلاعات مشتریان اعتباری با توجه به ضرایب اعلامی بانک مرکزی ج.ا.ا براساس (دستورالعمل نحوۀ محاسبۀ ذخیرۀ مطالبات، 1390) غیرمنقول 70 درصد، سپرده (قرض‌الحسنه پس‌انداز، سرمایه‌گذاری مدت‌دار و ...) 100، ضمانت صادرات، سهام بورس، غیرمنقول از محل اجرای طرح/ خارج از محل، غیرمنقول ملکی، غیرمنقول کارخانه همگی 70 و غیرمنقول ماشین‌آلات و تجهیزات و کالا 50 درصد است. الگوریتم استفاده‌شده، روش ماشین بردار تصمیم است. روش ماشین بردار تصمیم به دو صورت مبتنی بر طبقه‌بندی و مبتنی بر پیش‌بینی است. در این پژوهش،  پیش‌بینی با روش‌های مبتنی بر رگرسیون انجام می‌گیرد. علت این موضوع، پیوستگی متغیر هدف (نرخ وصول) است و شامل زیرمجموعه‌ای از الگو‌های پیش‌بینی است که شامل الگو‌های مختلف -SVRɛ،
 υ-SVR است؛ با این تفاوت که کلیّۀ این الگو‌ها با روش الگوریتم ژنتیک برای انتخاب متغیرهای الگو، بهینه‌سازی و درنهایت، میزان خطا و کارایی آنها مقایسه می‌شود. مبنای الگو‌سازی در این پژوهش ]4[ و ]13[ است.

روش رگرسیون بردار تصمیم (مبتنی بر پیش‌بینی یا تخمین عددی) برای اهداف پیوسته در داده‌کاوی است.

 

 

 

شکل (1) الگو‌سازی به روش SVR

 

 

 

 

 

 

 

روش الگو‌سازی طبقه‌بندی بردار تصمیم (مبتنی بر طبقه‌بندی) برای پیش‌بینی اهداف گسسته و یا عدد صحیح به کار گرفته می‌شود. برای پیش‌بینی مشتریان بد و خوب با تفکیک هدف از این الگو برای پیش‌بینی می‌توان استفاده کرد.

 

 

 

 

شکل (2) الگو‌سازی به روش SVC

 

 

در روش بردار تصمیم، پارامترهای الگو نظیر C,υ,ε و γ قابل تنظیم است که قبل از الگو‌سازی با انتخاب یک عدد خاص، الگو بر ‌داده‌های آموزشی فرا گرفته شود که با استفاده از روش الگوریتم ژنتیک، انتخاب این پارامترها را با رویکرد کم‌کردن خطای الگو در مقایسه با داده‌های تستی به‌طور بهینه می‌توان انتخاب کرد؛ به عبارتی، طرح کروموزوم، تابع تناسب و نوع معماری سیستم برای انتخاب ویژگی مبتنی بر الگوریتم ژنتیک و بهینه‌سازی پارامترها است. الگوریتم کلی که در تمامی قسمت‌ها تقریباً با اندکی تغییر برای الگو‌سازی استفاده‌شده است، به‌صورت شکل (3) نشان داده شده است.


 

 

 

شکل (3) معماری سیستم پیشنهادی برای انتخاب ویژگی و پارامترهای بهینه با استفاده از الگوریتم ژنتیک

 

 

فرایند داده‌کاوی و الگو‌سازی بر ‌داده‌های یکی از بانک‌های دولتی در فاصلۀ مهر تا شهریورماه سال‌های 1389-1394 به‌صورت ماهانه به تعداد 60 مقطع انجام شده است. حجم جامعۀ آماری مدّنظر، تعداد 25,017,036 قرارداد است. نمونۀ آماری برای آموزش الگو، نمونه‌ای به حجم 500 قرارداد از جامعۀ مدّنظر براساس روش نمونه‌گیری تصادفی ساده بدون جایگزینی بر کلیّۀ قراردادهای مذکور انجام‌ شده است و برای آزمایش دقت داده‌ها در مرحلۀ بررسی دقت الگو از نمونه‌ای با حجم2000 و با روش نمونه‌گیری تصادفی ساده بدون جایگزینی استفاده ‌شده است. برای هر یک از الگو‌ها نیز نمونه‌گیری جدید انجام شده است.


 

 

 

جدول (1) متغیرهای استفاده‌شده در الگو‌سازی نرخ وصول

ردیف

شرح متغیر

نام متغیر

1

کد منطقه

TR_ADMIN

2

کد شعبه

TR_BR

3

کد نوع قرارداد

C_noegharardad

4

سال قرارداد

Year_gharardad

5

کد رشته فعالیت

C_reshtefaaliat

6

مبلغ پرداختنی

Mablagh_pardakhtani

7

مبلغ بازگشتی

Mablagh_bazgashti

8

سود سهم مشتری

Soodsahmmoshtari

9

سود سهم دولت

Soodsahmdolat

10

نرخ سود سهم مشتری

Nerkhsoodsahmmoshtari

11

نرخ سود سهم دولت

Nerkhsood_sahmdolat

12

درصد مشتری

Darsadmoshtari

13

تعداد اقساط

Tedadaghsat

14

کد نوع رکورد

C_noerecord

15

کد بودجه

C_budget

16

کد هدف

C_hadaf

17

مبلغ مصوب

Mablagh_mosavab

18

کد ادارۀ ابلاغ کننده

C_edareeblaghconandeh

19

کد مصوبه

C_mosavabe

20

کد تکلیف

C_taklif

21

کد مدّنظر

C_moredmasraf

22

روش تقسیط

Ravesh_taghseet

23

کد شهر مدّنظر

C_shahrmoredmasraf

24

جنسیت

Gender

25

نرخ تورم

Inflation

26

تولید ناخالص داخلی به قیمت پایه

GDP

27

ارزش اسمی وثیقه‌ها

Arzeshvasaiegh

 

 

 

 

 

با توجه به اینکه برای الگو‌سازی در داده‌کاوی، روش‌های مختلفی وجود دارد؛ نظیر داده‌کاوی نظارت‌شده و غیرنظارت‌شده، برای الگو‌سازی، سناریوهای مختلفی براساس الگو‌های مذکور در بخش قبل در نظر گرفته می‌شود.

 

 

جدول (2) الگو‌های زیرمجموعۀ ماشین بردار تصمیم به تفکیک سناریوهای استفاده‌ شده

روش داده‌کاوی

یک مرحله‌ای

دومرحله‌ای

سه مرحله‌ای

نظارت‌شده

ü

ü

-

غیرنظارت‌شده

-

ü

-

نظارت‌شده + غیرنظارت‌شده

-

-

ü

 

 

در روش‌های الگو‌سازی، روش یک مرحله‌ای مستقیماً نرخ وصول مشتریان را پیش‌بینی می‌کند؛ اما روش‌های دومرحله‌ای و سه مرحله‌ای، ابتدا طبقۀ ریسک را با توجه به طبقه‌بندی با استفاده از درخت تصمیم مشخص و سپس طبقه با ریسک بالا و کم از الگو‌سازی حذف و طبقه با ریسک متوسط پیش‌بینی استفاده می‌شود. در روش داده‌کاوی نظارت‌شدۀ یک مرحله‌ای به‌صورت مستقیم به الگو‌سازی نرخ وصول مشتریان با استفاده از روش‌های بخش قبل توجه می‌شود. الگو‌های استفاده‌شده در این سناریو GA-υ-SVR و GA-ε-SVR است. در روش داده‌کاوی نظارت‌شدۀ دومرحله‌ای، حالت اول بخش الگو‌سازی به‌صورت دومرحله‌ای انجام می‌گیرد؛ یعنی ابتدا، متغیر هدف (نرخ وصول) به سه‌طبقه تقسیم می‌شود. نرخ وصول با مقدار 1 (احتمال وصول 100 درصد)، نرخ وصول با مقدار بین 0 و 1، نرخ وصول با مقدار 0 (احتمال وصول صفر). طبقات بالا به‌ترتیب، با ستون وضعیت (State) در فایل مشتریان با کدهای 1،2 و 3 طبقه‌بندی می‌شوند.


 

جدول (3) طبقه‌بندی وضعیت نرخ وصول مشتریان

شرح

طبقه

برچسب شرح طبقه

نرخ وصول 1

1

LOW

نرخ وصول بین 0 و 1

2

MEDIUM

نرخ وصول 0

3

HIGH

 

 

الگو‌های استفاده‌شده در این سناریوC5.0 +GA-ε-SVR وC5.0 +GA-υ-SVR است.

در روش داده‌کاوی غیرنظارت‌شدۀ دومرحله‌ای حالت دوم، ابتدا داده‌ها خوشه‌بندی می‌شوند و سپس بر اساس خروجی هر خوشه، نمونه‌گیری بر هر خوشه و پیش‌بینی انجام می‌گیرد. روش یک مرحله‌ای در این سناریو بی‌معنی است؛ زیرا خوشه‌بندی به‌صورت خودکار، مرحلۀ اول را انجام می‌دهد (خوشه‌بندی+پیش‌بینی). الگو‌های استفاده‌شده در این بخش عبارت است ازK-MEANS+GA-υ-SVR و K-MEANS+ GA-ε-SVR. در روش داده‌کاوی نظارت‌شده و غیرنظارت‌شدۀ سه مرحله‌ای، ابتدا داده‌ها برچسب‌گذاری و سپس براساس سناریوی الگو‌سازی براساس روش داده‌کاوی غیرنظارت‌شده خوشه‌بندی می‌شوند و سپس براساس خروجی هر خوشه، طبقه‌بندی انجام می‌شود و درنهایت، پیش‌بینی بر جامعۀ طبقه‌بندی‌شده انجام می‌شود. الگو‌سازی در این سناریو به‌صورت سه مرحله‌ای است (خوشه‌بندی+طبقه‌بندی+پیش‌بینی). الگو‌های استفاده‌شده در این سناریو به‌شرحK-MEANS+C5.0 +GA-ε-SVR  و K-MEANS+C5.0 +GA-υ-SVR است.

 

یافته‌ها

درادامه، به‌صورت تفکیک‌شده، نتایج هر سناریو به تفکیک الگو آمده است.

 

 

جدول (4) نتایج الگوی GA-υ-SVR - داده‌کاوی نظارت‌شدۀ یک‌مرحله‌ای

شرح پارامتر

مقدار

مقدار بهینه

بازه تغییرات  C

10-0001/0

601715/6

بازه تغییرات  γ

2-001/0

02263702/0

بازه تغییرات  υ

1-0

3932778/0

تعداد تکرار الگوریتم

10

-

حجم جمعیت

40

-

احتمال جهش

9/0

-

احتمال عبور

1/0

-

مقدار تابع تناسب

03592157/0-

-

 

جدول (5) نتایج الگوی GA-ε-SVR - داده‌کاوی نظارت‌شدۀ یک‌مرحله‌ای

شرح پارامتر

مقدار

مقدار بهینه

بازه تغییرات  C

10-0001/0

993239/5

بازه تغییرات  γ

2-001/0

02769817/0

بازه تغییرات ɛ

2-01/0

1771288/0

تعداد تکرار الگوریتم

10

-

حجم جمعیت

500

-

احتمال جهش

8/0

-

احتمال عبور

05/0

-

مقدار تابع تناسب

03563548/0-

-

 

جدول (6) نتایج الگوی GA-ε-SVR - داده‌کاوی نظارت‌شدۀ دومرحله‌ای

شرح پارامتر

مقدار

مقدار بهینه

بازه تغییرات  C

10-0001/0

155126/5

بازه تغییرات  γ

2-001/0

0158058/0

بازه تغییرات ɛ

2-01/0

5618804/0

تعداد تکرار الگوریتم

10

-

حجم جمعیت

500

-

احتمال جهش

8/0

-

احتمال عبور

05/0

-

مقدار تابع تناسب

02615468/0-

-

 

جدول (7) نتایج الگوی GA-υ-SVR - داده‌کاوی نظارت‌شدۀ دومرحله‌ای

شرح پارامتر

مقدار

مقدار بهینه

بازه تغییرات  C

10-0001/0

858976/8

بازه تغییرات  γ

2-001/0

00272873/0

بازه تغییرات  υ

1-0

3469399/0

تعداد تکرار الگوریتم

10

-

حجم جمعیت

40

-

احتمال جهش

9/0

-

احتمال عبور

1/0

-

مقدار تابع تناسب

02550641/0-

-

 

جدول (8) ستون‌های استفاده‌شده‌ در فرایند خوشه‌بندی (نرمال‌سازی‌شده)

شرح

نام متغیر

وضعیت

ارزش اسمی وثیقه‌ها

Arzeshvasaiegh_Transformed

نرمال‌شده

کد نوع قرارداد (عقد تسهیلاتی)

C_noegharardad

نرمال‌شده

کد رشته فعالیت (بخش اقتصادی)

C_reshtefaaliat

نرمال‌شده

مبلغ تسهیلات پرداختنی

Mablagh_Pardakhtani_Transformed

نرمال‌شده

مبلغ تسهیلات بازگشتی

Mablagh_Bazgashti_Transformed

نرمال‌شده

 

جدول (9) نتایج خوشه‌بندی براساس تقسیم‌بندی مجموعه دادۀ آموزشی و آزمایشی

بخش

مجموعه دادۀ آموزشی

مجموعه دادۀ آزمایشی

جمع کل

بخش اول

864/121/14

684/606/7

548/728/21

بخش دوم

675/136/2

807/151/1

482/288/3

جمع کل

539/258/16

491/758/8

030/017/25

سهم درصد از کل

65%

35%

 

 

جدول (10) نتایج خوشه‌بندی براساس تقسیم‌بندی مجموعه دادۀ آموزشی و آزمایشی

تکرار

میزان خطا

1

567/0

2

57/0

3

335/0

4

096/0

5

0/0

6

0/0

 

 

کل مجموعۀ هر بخش با توجه به اینکه به دو بخش تقسیم ‌شده است، در بخش داده‌های آموزشی آموزش‌دیده و پس از کنترل بر ‌داده‌های آزمایشی در صورت کمترین خطا انتخاب می‌شود.

 

 

جدول (11) نتایج خوشه‌بندی حجم خوشه‌ها و نسبت بزرگ‌ترین خوشه به کوچک‌ترین خوشه

شرح

مقدار

درصد

حجم کمترین خوشه

675/136/2

1/13%

حجم بیشترین خوشه

834/121/14

9/86%

نسبت بیشترین خوشه به کمترین خوشه

61/6

 

 

 

 

 

 

 

 

جدول (12) نتایج اجرای الگوی GA-ε-SVR بر مبنای انتخاب پارامترها با روش الگوریتم ژنتیک براساس روش داده‌کاوی غیرنظارت‌شده و پیش‌بینی نظارت‌شده

شرح پارامتر

مقدار (خوشۀ اول)

مقدار بهینه

(خوشۀ اول)

مقدار (خوشۀ دوم)

مقدار بهینه (خوشۀ دوم)

بازه تغییرات  C

10-0001/0

840047/2

پاسخی از الگوی بهینه‌سازی در هیچ حالتی دریافت نمی‌شود و الگو، جواب بهینه ندارد.

بازه تغییرات  γ

2-001/0

07516971/0

بازه تغییرات  ε

2-01/0

01637873/0

تعداد تکرار الگوریتم

5

-

حجم جمعیت

50

-

احتمال جهش

8/0

-

احتمال عبور

1/0

-

مقدار تابع تناسب

03295078/0-

-

 

جدول (13) نتایج اجرای الگوی GA-υ-SVR بر مبنای انتخاب پارامترها با روش الگوریتم ژنتیک براساس روش داده‌کاوی غیرنظارت‌شده و پیش‌بینی نظارت‌شده

شرح پارامتر

مقدار (خوشۀ اول)

مقدار بهینه

(خوشۀ اول)

مقدار (خوشۀ دوم)

مقدار بهینه (خوشۀ دوم)

بازه تغییرات  C

10-0001/0

315031/3

10-0001/0

029367/9

بازه تغییراتγ

2-001/0

03951537/0

2-001/0

01792443/0

بازه تغییرات υ

1-0

6805159/0

1-0

215487/0

تعداد تکرار الگوریتم

10

-

10

-

حجم جمعیت

50

-

50

-

احتمال جهش

8/0

-

8/0

-

احتمال عبور

1/0

-

1/0

-

مقدار تابع تناسب

01780889/0-

-

06091871/0-

-

 

 

 

 

 

 

جدول (14) نتایج اجرای الگوی GA-ε-SVR براساس روش داده‌کاوی نظارت‌شده و غیرنظارت‌شدۀ سه مرحله‌ای

شرح پارامتر

مقدار (خوشۀ اول)

مقدار بهینه

 (خوشۀ اول)

مقدار (خوشۀ دوم)

مقدار بهینه

 (خوشۀ دوم)

بازه تغییرات  C

10-0001/0

602214/8

10-0001/0

449297/4

بازه تغییرات γ

2-001/0

0.005950706

2-001/0

01056441/0

بازه تغییرات ε

2-01/0

0.08359725

2-01/0

152718/0

تعداد تکرار الگوریتم

10

-

10

-

حجم جمعیت

500

-

500

-

احتمال جهش

8/0

-

0.8

-

احتمال عبور

05/0

-

0.05

-

مقدار تابع تناسب

03049528/0-

-

03323243/0-

-

 

جدول (15) نتایج اجرای الگویGA-υ-SVR براساس روش داده‌کاوی نظارت‌شده و غیرنظارت‌شدۀ سه مرحله‌ای

شرح پارامتر

مقدار (خوشۀ اول)

مقدار بهینه

(خوشۀ اول)

مقدار (خوشۀ دوم)

مقدار بهینه

 (خوشۀ دوم)

بازه تغییرات  C

10-0001/0

231828/2

10-0001/0

487671/3

بازه تغییرات γ

2-001/0

1169861/0

2-001/0

02620457/0

بازه تغییرات υ

1-0

2880869/0

1-0

8379712/0

تعداد تکرار الگوریتم

10

-

10

-

حجم جمعیت

40

-

40

-

احتمال جهش

9/0

-

9/0

-

احتمال عبور

1/0

-

1/0

-

مقدار تابع تناسب

03089376/0-

-

0334725/0-

-

 

نتایج و پیشنهادها

برای راحتی فراخوانی الگو‌ها به‌صورت جدول (16)کدبندی می‌شود.

 

 

 

جدول (16) کدبندی الگو‌های استفاده‌شده

کد الگو

نام الگو

M1

ε-SVR

M2

υ-SVR

M3

C5.0 +GA-ε-SVR

M4

C5.0 +GA-υ-SVR

M5

K-MEANS+GA-ε-SVR

M6

K-MEANS+GA-υ-SVR

M7

K-MEANS+C5.0+GA-ε-SVR

M8

K-MEANS+C5.0+GA-υ-SVR

 

 

در این بخش، ابتدا جامعۀ اصلی مشتریان دارای مطالبات غیرجاری (بدهکار به بانک)  به دو بخش آموزشی و آزمایشی تقسیم می‌شود؛ سپس تمامی الگو‌های به‌دست‌آمده با تنظیمات بهینه بر نمونه‌ای تصادفی با حجم 2000 مشاهده از جامعۀ اصلی (مجموعه داده آزمایشی مربوط به خود) اجرا و نتایج بررسی و خطاها مقایسه می‌شود. برای الگو‌های M1 و M2 مجموعه دادۀ آزمایشی از کل جامعه انتخاب می‌شود و نیازی به تفکیک نیست. با توجه به نتایج به‌دست‌آمده، رتبه‌بندی الگو‌های منتخب نهایی براساس کمترین خطاها و همچنین بیشترین پوشش سطح زیر منحنی به‌شرح جدول (17) است.

 

 

جدول (17) الگو‌های منتخب براساس رتبه‌بندی کمترین میزان خطا

رتبه

کد الگو

MAE

MSE

RMSE

1

M1

07244232/0

03201479/0

1789268/0

2

M6

0720717/0

0358163/0

1873501/0

3

M2

05620081/0

03977469/0

1994359/0

 

 

با توجه به نتایج به‌دست‌آمده براساس اجرای الگو‌های بهینه‌شده با استفاده از الگوریتم ژنتیک مشخص می‌شود الگوی ɛ-SVR بهترین الگو برای پیش‌بینی نرخ وصول مطالبات در روش یک‌مرحله‌ای بدون پیش‌بینی طبقۀ ریسک مشتریان است و در روش دومرحله‌ای، الگوی K-MEANS+GA-υ-SVR بهترین الگو برای پیش‌بینی نرخ وصول مطالبات است. پیشنهاد می‌شود در حوزۀ بانکداری، بانک‌ها به راه‌اندازی سامانۀ جامع اعطای تسهیلات بر مبنای تحلیل اطلاعات مشتریان با استفاده از الگوریتم‌های داده‌کاوی به‌ویژه الگو‌های پیشنهادی در پژوهش حاضر اقدام کنند و قبل از اعطای تسهیلات شعبه با واردکردن اطلاعات لازم مشتری و مقایسه و الگو‌سازی با داده‌های گذشته و بانک اطلاعاتی بانک و یا حتی به‌طور کامل‌تر با جامعۀ سیستم بانکی کشور با تأمل و بررسی بیشتری به اعطای تسهیلات اقدام کنند. بانک‌ها و مؤسسات مالی با روش مذکور در پژوهش حاضر، علاوه بر پیش‌بینی احتمال مطالبات شدن هر مشتری و در صورت مطالبات شدن پیش‌بینی میزان وصول قرارداد مطالبات شده، میزان زیان بانک ناشی از وصول‌نشدن قراردادهای اعتباری را می‌توانند به‌پیش‌بینی و برآورد کنند. راه‌اندازی سامانۀ هوشمند اعطای تسهیلات برای الگو‌سازی با روش‌های داده‌کاوی قبل از اعطای تسهیلات می‌تواند اقدامی در راستای کنترل انضباط اعتباری براساس الزامات بانک مرکزی ج.ا.ا و کمیتۀ بال باشد.

در این پژوهش با توجه به محدودیت‌های موجود، محاسبۀ نرخ وصول به‌صورت کامل انجام نشد و برای الگو‌سازی به‌دلیل مشخص‌نبودن میزان وصول واقعی از ارزش مبلغی وثیقه‌ها برای الگو‌سازی استفاده و صرفاً بر روش الگوسازی تأکید شد. پیشنهاد می‌شود در پژوهش‌های آینده با استفاده از اطلاعات کامل‌تر نظیر زمان فرایند وصول مطالبات، نرخ تنزیل، هزینه‌های وصول مطالبات هر قرارداد نرخ وصول محاسبه شود که طبیعتاً به عدد صفر نزدیک‌تر است. همچنین از روش‌های دیگر الگو‌سازی نیز استفاده شود.



1 RR (Recovery Rate)

[1] Loterman, G

[2] Yao, X

[3] Gürtler, M

[4] Hibbeln, M

3 Bastos, J A

[1] Amiram, D. (2011). Debt contracts and loss given default. Job Market Paper. University of North Carolina-Chapel Hill.
[2] Arsova, A. Haralampieva, M. & Tsvetanova, T. (2011). Comparison of regression models for LGD estimation. Credit Scoring and Credit Control XII Edinburgh: Experian Limited:1-23
[3] Bastos, J. A. (2010). Forecasting bank loans loss-given-default. Journal of Banking & Finance, Vol. 34 (10): 2510-2517.
[4] Chen, K.Y. & Wang, C. H. (2007). Support vector regression with genetic algorithms in forecasting tourism demand. Tourism Management. (28): 215-226
[5] Gürtler, M. & Hibbeln, M. (2013). Improvements in loss given default forecasts for bank loans. Journal of Banking & Finance. (37): 2354-2366.
[6] Huang, C. L. & Wang, C. J. (2006). A GA-based feature selection and parameters optimization. Expert Systems with Applications. (31):  231–240.
[7] Karani, H. & Aghaei Pour, M. (2014). Application of the theory of survival analysis of credit risk management loan recipients. Ravand Quarterly (21):175-200
[8] Loterman, G. (2013). Predicting Loss Given Default PHD Thesis: Ghent University.
[9] Mohammadian H. K. A., Asgharzadeh Z. M. & Emam D. M. (2016). Credit risk assessment of corporate customers using support vector machine and genetic algorithm hybrid model - A case study of Tejarat Bank. Financial Engineering & Portfolio Management. (7): 17-32.
[10] Moin, K. & Baseer A. D. (2012). Use of data mining in banking. International Journal of Engineering Research and Applications (IJERA). (2): 738-742.
[11] Nazarpour, M. T. & Rezaei, A. (2013). Credit risk management in Islamic banking with approach to review contracts and loan payment pattern. Islamic Financial Research. (2):123-156.
[12] Resti, A. & Sironi, A. (2007). Risk Management and Shareholders' Value in Banking. England: John Wiley & Sons.
[13] Sermpinis, G. Stasinakis, C. & Theofilatos, K. (2015). Modeling, forecasting and trading the EUR exchange rates with hybrid rolling genetic algorithms support vector regression forecast combinations. European Journal of Operational Research. (247): 831-846.
[14] Shahrabi, J., Hadavandi, E. (2011). Data Mining In Banking.Tehran: Iranian Academic Center for Education Culture & Research.
[15] Witzany, J. Rychnovsky, M. & Charamza, P. (2012). Survival analysis in LGD modeling. European Financial and Accounting Journal. (7):  6-27.
[16] Yao, X. Crook, J. & Andreeva, G. (2015). Support vector regression for loss given default modelling. European Journal of Operational Research. (240): 528-538.