نوع مقاله : مقاله پژوهشی
نویسندگان
1 استادیار گروه مهندسی صنایع، دانشکده مهندسی صنایع، دانشگاه پیام نور تهران، ایران
2 کارشناسی ارشد گروه مهندسی صنایع، دانشکده مهندسی صنایع، دانشگاه پیام نور تهران ،ایران
چکیده
کلیدواژهها
عنوان مقاله [English]
نویسندگان [English]
Credit risk management, credit scoring and risk assessment of customers is an important issue in banking industry. Credit scoring is important because if the banks fail to earn resource allocation and create a balance between the processes of mobilizing and allocating resources, they are typically faced with many problems in the future. According to official figures released by the Central Bank of Iran in recent years, the rate of bad loans increased, since the systemic strict validation to evaluate and measure the credit risk of customers do not exist. In this paper, we try to predict customer’s recovery rate index with data mining techniques. Markedly, in recent years in the world new method for measuring customer risk rather than default probability measure has been considered, but due to low precision of forecasting models widely different approaches in research and modeling is investigated. The method used in this paper is support vector regression model whose parameters selection is optimized with genetic algorithm.
کلیدواژهها [English]
مقدمه
در سالهای اخیر، توانایی تولید، ضبط و ذخیرۀ دادهها بسیار افزایش یافته است. اطلاعاتی که در این دادهها میتواند نهفته باشد، بسیار مهم است. در دسترسبودن حجم بالای داده و نیاز به تبدیل آنها به دانش، صنعت فناوری اطلاعات را برای استفاده از دادهکاوی تشویق کرده و به سمت آن سوق داده است. صنعت بانکداری در مسیر کسبوکار خود در سراسر جهان، دستخوش تغییر فوقالعادهای شده است. همچنین این صنعت شروع به شناخت تکنیکها و مهارتهای استفاده از دادهکاوی برای استفاده در رقابت در بازار بانکی کرده است. بانکها با استفاده از ابزار دادهکاوی به بخشبندی مشتریان، مطالعه سوددهی، رتبهبندی اعتباری و پیشبینی پرداخت تسهیلات و وصول مطالبات، بازاریابی، شناسایی و کشف تقلب در تراکنشها و غیره توجه کردهاند ]10[. مؤسسات اعتباری برای پیشبینی وضعیت افرادی که در آینده از عهدۀ انجام تعهدات خود بر نخواهند آمد، مایل به ارزیابی مشتریان هستند. در هر دو حالت (بررسی درخواستهای وام جدید و کنترل وامگیرندگان قبلی) احتمال بازپرداخت در دورۀ وامدهی تخمین زده میشود و درنتیجه، مشتریان براساس تخمین حاصل دربارۀ ناتوانی در بازپرداخت به سطوح متفاوتی از ریسک رتبهبندی خواهند شد. این روش بهعنوان تعیین ریسک و یا طبقهبندی اعتبار شناخته میشود ]14.[ در سالهای اخیر در مباحث مربوط به ریسک اعتباری، مفهوم تازهتری برای پیشبینی مدّنظر قرار گرفته است و آن شاخصی با نام نرخ وصول1 است؛ به زبان سادهتر، صرفاً مشتریان براساس میزان ریسک یا احتمال بازپرداختنکردن وام طبقهبندی و رتبهبندی نمیشوند؛ بلکه از این منظر بررسی میشوند که اگر فرضاً احتمال نکول یا بازپرداختنکردن به وجود بیاید، نرخ وصول مطالبات چه میزان خواهد بود؟ و یا به عبارتی، چند درصد از بدهی مشتری وصول میشود، در این پژوهش به پیشبینی این شاخص توجه شده است. براساس نتایج و الگوی بهدستآمده و اجرای آن بر تسهیلات جاری و مطالباتنشده، مشتریان را میتوان دستهبندی کرد و به مشتریان خوشحساب یا غیرمطالباتی تسهیلات با نرخ سود کمتر اعطا و مشتریان بدحساب را بهتدریج، ابتدا از اعطای تسهیلات مجدد جلوگیری و با تدوین برنامۀ مدونی براساس میزان وثایق دریافتی برای وصول مطالبات آنها اقدام کرد. از این نتایج برای راهاندازی سامانۀ اعطای تسهیلات بهصورت هوشمند و تسری آن بهتمامی واحدهای بانک هنگام اعطای تسهیلات و الگوسازی رفتار مشتری جدید براساس ویژگیهای اعتباری و مقایسه با مشتریان گذشته با ویژگی مشابه میتوان استفاده کرد.
پرسش اساسی این پژوهش، یافتن پارامترهای بهینۀ الگوهای پیشبینی مجموعۀ SVR برای
پیشبینی میزان مطالبات قراردادهای با ریسک زیاد قبل از اعطای تسهیلات است. هدف پژوهش، ارائۀ الگوی جامعی برای پیشبینی درصد میزان وصول مطالبات قراردادهای با ریسک زیاد است و نوآوری پژوهش در مقایسه با پژوهشهای داخلی در درجۀ اول پیشبینی نرخ وصول مشتریان اعتباری در صورت مطالبات شدن برای اولین بار با استفاده از دادهکاوی در ایران و همچنین پیشبینی مبلغ زیان ناشی از وصولنشدن قراردادهای با نرخ وصول کمتر از 1 بهجای صرفاً طبقهبندی مشتریان به بخشهای مختلف است که به مورد دوم در پژوهشهای قبلی در داخل کشور بهدفعات توجه شده است؛ زیرا در حال حاضر، بانکها در شرایطی مجبور به پرداخت تسهیلات به برخی مشتریان هستند و صرفاً قرارگرفتن مشتری در طبقۀ پرریسک، ملاک پرداخت نکردن تسهیلات نیست و باید با پیشبینی دقیق مشخص شود در صورتیکه تسهیلات به آنها اعطا شود، در آینده چه میزان از مبلغ بدهی مشتری با گذراندن مراحل قانونی قابل وصول خواهد بود.
مبانی نظری
در مطالعات لوترمن،[1] به الگوریتمهای مختلف رگرسیون در الگوسازی شاخص درصد مطالبات قابل وصول توجه شده است. 24 روش الگوسازی براساس الگوریتمهای رگرسیون خطی، لجستیک، کمترین مربعات و ... بررسی و همچنین با بررسی روشهای دیگر نظیر شبکۀ عصبی و ماشین بردار تصمیم مشخص شد که این دو روش نسبت به روشهای سنتی خطی، کارایی بیشتری دارند ]8[.با بررسی کاربردهای تحلیل تکنیکهای ابقا زمانی در الگوسازی شاخص مذکور و روشهایی نظیر رگرسیون کاکس، خطی و لجستیک برای پیشبینی این شاخص استفاده شده است ]15[. با مقایسۀ الگوهای رگرسیون برای تخمین شاخص نرخ وصول با مقایسۀ الگوهای مختلف با تأکید بر الگوهای رگرسیونی نظیر رگرسیون ساده، لجستیک، درخت تصمیم و... میتوان نتیجه گرفت با توجه به نوع دادهها هیچکدام از الگوها لزوماً بهصورت در خور توجهی بهتر از دیگر الگوها نیستند ]2[. اطلاعات حسابداری برای وامدهندگان در اقسام قراردادهای بدهی، آنها را در تخصیص مناسب شاخص مذکور به مشتریان میتواند مجهز کند. با داشتن اطلاعات حسابداری قراردادهای بدهی مشتریان 47 ماه قبل از نکول، درصد مطالبات غیر قابل وصول را بهصورت طبیعی قبل از وقوع میتوان به دست آورد. همچنین مشخص میشود افزایش نرخ بهرۀ وام، رابطۀ مستقیمی با این شاخص و میزان بدهی نیز ارتباط زیادی دارد ]1[. یااو[2] و همکاران (2015) با استفاده از روش رگرسیون بردار تصمیم به الگوسازی شاخص درصد مطالبات وصولناپذیر گرفتند. در این پژوهش، تکنیک مذکور و 13 الگوریتم دیگر بررسی و درانتها، مشخص شد این تکنیک بسیار اعتمادپذیرتر از سایر روشهای الگوسازی شاخص مذکور است ]16 .[در پژوهش گرتلر[3] و هیبلن[4] (2013) بهبود پیشبینی شاخص درصد مطالبات غیر قابل وصول بانک بررسی شد. در این مطالعه با استفاده از روشهایی نظیر نمونهگیری مغرضانه، مشخصههای متفاوت وامی با توجه به نوع پایان دورۀ مطالبات و تنظیمات اطلاعاتی متفاوت براساس وضعیت نکول بررسی شد ]5.[ باستوس[5] (2010) برای پیشبینی درصد مطالبات غیر قابل وصول وامها در بانک، شاخص مذکور را با استفاده از پیشبینی نرخ وصول بررسی و از روش رگرسیون در بخش پارامتریک و درخت تصمیم در بخش نا پارامتریک استفاده کرده است. در نتایج پژوهش نشان داده شده است درختهای تصمیم، جایگزین مناسبی برای روشهای پارامتریک در الگوسازی شاخص درصد مطالبات وصولناپذیر هستند ]3[. حاجی کرد و همکاران (1395) با استفاده از الگوی ماشین بردار تصمیم و الگوی هیبریدی الگوریتم ژنتیک برای پیشبینی ریسک اعتباری و تقسیمبندی مشتریان به دو دستۀ خوشحساب و بدحساب استفاده کردهاند که نتیجه نشان داد الگوی بهینهسازیشدۀ ماشین بردار تصمیم با الگوریتم ژنتیک، تأثیر بهتری در پیشبینی ریسک اعتباری و دستهبندی مشتریان به خوشحساب و بدحساب دارد ]9[.کرانی و آقاییپور (1393) نظریۀ تحلیل بقا در مدیریت ریسک اعتباری دریافتکنندگان تسهیلات (مطالعۀ موردی: بانک مسکن) را بررسی و احتمالهای نکول آن را براساس الگوی خطرهای متناسب کاکس و برآوردگر حد حاصلضربی تعمیمیافته برآورد کردهاند ]7[. نظرپور و رضایی (1392) عقود اسلامی و الگوی پرداخت تسهیلات را بررسی کردند و دریافتند عقود اسلامی غیرمشارکتی (مبادلهای) در مقایسه با عقود مشارکتی، ریسک کمتری در بردارد؛ اما این عقود نیز ریسک است و بانکهای اسلامی را در معرض ریسک اعتباری قرار میدهد و بانکها در صورت استقرارنداشتن یک نظام مدیریت ریسک اعتباری متناسب، میزان ریسک اعتبارات و تعیین زیانهای احتمالی بازپرداختنکردن وامها را نمیتوانند تشخیص بدهند و درنتیجه، سرمایۀ خود را نخواهند توانست تخصیص بهینه کنند ]11.[
روشپژوهش
برای پیشبینی و الگوسازی شاخص نرخ وصول، علاوه بر مشخصات اعتباری مشتریان، اطلاعات متغیرهای اقتصادی نیز در الگوسازی استفاده و برای محاسبۀ این شاخص، از مشتریانی در الگوسازی استفاده میشود که تسهیلات دریافتی آنها به طبقۀ مطالبات غیرجاری (سررسید گذشته/ معوق/ مشکوکالوصول) منتقل شده است.
(1) |
RR نرخ وصول تعهدات مطالباتشده، DNR ارزش تنزیل خالص وصول که به خالص تمام هزینههای وصول مطالبات گفته میشود. EAD میزان بدهی در زمان ایجاد مطالبات. FR ارزش اسمی میزان وصول در دوره (در این پژوهش ارزش وثیقههای دریافتی به جای میزان وصولی در دورۀ واقعی در نظر گرفته شده است.AC هزینههای اداری مرتبط با فرایند وصول تعهدات مطالباتشده. r نرخ تنزیل و T زمان فرایند وصول مطالبات ]12[. با توجه به اطلاعات اعتباری موجود و مشخصنبودن هزینههای اداری، نرخ تنزیل و زمان فرایند وصول برای تکتک مشتریان و همچنین فرایند وصول مطالبات که بعضاً بهدلیل بوروکراسی اداری، مکاتبات واحدهای حقوقی، تشکیل دادگاه در کشور ایران که کاملاً متغیر و بعضاً غیر قابل اندازهگیری است، فرمول مذکور با توجه به شرایط بانکهای کشور و اطلاعات موجود بومیسازی میشود. در این پژوهش، ارزش اسمی میزان وصول به دست آمده است که از اندازهگیری ارزش مبلغی وثیقههای دریافتی با ضرایب اعلامی از سوی بانک مرکزی ج.ا.ا براساس (دستورالعمل نحوۀ محاسبۀ ذخیرۀ مطالبات، 1390) اعلام شده است و بهعنوان DNR در نظر گرفته میشود. در حالت کلی برای محاسبۀ نرخ وصول واقعی باید میزان وصول واقعی اتفاقافتاده در دوره را جایگزین کرد؛ بنابراین فرمول محاسبۀ نرخ واقعی وصول تعهدات مطالبات شده بهصورت رابطۀ (2) و (3) است:
(2) |
|
(3) |
|
که در آن ضریب ارزش وثیقه i و ارزش اسمی مطلوب است. در پژوهش حاضر در بانک مدّنظر، دو نوع وثیقۀ i=1,2 با ارزش متفاوت با مشتری گرفته میشود در جدول (1) لیست وثیقهها به همراه ارزش وزنی آنها آمده است. ارزش وزنی سایر وثیقهها (سفته و برات، قرارداد، چک، ضامن معتبر و امضای مدیران) صفر است (توجه شود در حالت کلی، صورت کسر، میزان وصولی در دوره است که در این پژوهش، ارزش وثیقههای دریافتی در نظر گرفته شده است)
(4) |
سایر بدهیها+ (سود آینده- اصل مبلغ وام) = میزان بدهی حال مشتری |
(5) |
ارزش وثیقههای مندرج در بانک اطلاعات مشتریان اعتباری با توجه به ضرایب اعلامی بانک مرکزی ج.ا.ا براساس (دستورالعمل نحوۀ محاسبۀ ذخیرۀ مطالبات، 1390) غیرمنقول 70 درصد، سپرده (قرضالحسنه پسانداز، سرمایهگذاری مدتدار و ...) 100، ضمانت صادرات، سهام بورس، غیرمنقول از محل اجرای طرح/ خارج از محل، غیرمنقول ملکی، غیرمنقول کارخانه همگی 70 و غیرمنقول ماشینآلات و تجهیزات و کالا 50 درصد است. الگوریتم استفادهشده، روش ماشین بردار تصمیم است. روش ماشین بردار تصمیم به دو صورت مبتنی بر طبقهبندی و مبتنی بر پیشبینی است. در این پژوهش، پیشبینی با روشهای مبتنی بر رگرسیون انجام میگیرد. علت این موضوع، پیوستگی متغیر هدف (نرخ وصول) است و شامل زیرمجموعهای از الگوهای پیشبینی است که شامل الگوهای مختلف -SVRɛ،
υ-SVR است؛ با این تفاوت که کلیّۀ این الگوها با روش الگوریتم ژنتیک برای انتخاب متغیرهای الگو، بهینهسازی و درنهایت، میزان خطا و کارایی آنها مقایسه میشود. مبنای الگوسازی در این پژوهش ]4[ و ]13[ است.
روش رگرسیون بردار تصمیم (مبتنی بر پیشبینی یا تخمین عددی) برای اهداف پیوسته در دادهکاوی است.
شکل (1) الگوسازی به روش SVR
روش الگوسازی طبقهبندی بردار تصمیم (مبتنی بر طبقهبندی) برای پیشبینی اهداف گسسته و یا عدد صحیح به کار گرفته میشود. برای پیشبینی مشتریان بد و خوب با تفکیک هدف از این الگو برای پیشبینی میتوان استفاده کرد.
شکل (2) الگوسازی به روش SVC
در روش بردار تصمیم، پارامترهای الگو نظیر C,υ,ε و γ قابل تنظیم است که قبل از الگوسازی با انتخاب یک عدد خاص، الگو بر دادههای آموزشی فرا گرفته شود که با استفاده از روش الگوریتم ژنتیک، انتخاب این پارامترها را با رویکرد کمکردن خطای الگو در مقایسه با دادههای تستی بهطور بهینه میتوان انتخاب کرد؛ به عبارتی، طرح کروموزوم، تابع تناسب و نوع معماری سیستم برای انتخاب ویژگی مبتنی بر الگوریتم ژنتیک و بهینهسازی پارامترها است. الگوریتم کلی که در تمامی قسمتها تقریباً با اندکی تغییر برای الگوسازی استفادهشده است، بهصورت شکل (3) نشان داده شده است.
شکل (3) معماری سیستم پیشنهادی برای انتخاب ویژگی و پارامترهای بهینه با استفاده از الگوریتم ژنتیک
فرایند دادهکاوی و الگوسازی بر دادههای یکی از بانکهای دولتی در فاصلۀ مهر تا شهریورماه سالهای 1389-1394 بهصورت ماهانه به تعداد 60 مقطع انجام شده است. حجم جامعۀ آماری مدّنظر، تعداد 25,017,036 قرارداد است. نمونۀ آماری برای آموزش الگو، نمونهای به حجم 500 قرارداد از جامعۀ مدّنظر براساس روش نمونهگیری تصادفی ساده بدون جایگزینی بر کلیّۀ قراردادهای مذکور انجام شده است و برای آزمایش دقت دادهها در مرحلۀ بررسی دقت الگو از نمونهای با حجم2000 و با روش نمونهگیری تصادفی ساده بدون جایگزینی استفاده شده است. برای هر یک از الگوها نیز نمونهگیری جدید انجام شده است.
جدول (1) متغیرهای استفادهشده در الگوسازی نرخ وصول
ردیف |
شرح متغیر |
نام متغیر |
1 |
کد منطقه |
TR_ADMIN |
2 |
کد شعبه |
TR_BR |
3 |
کد نوع قرارداد |
C_noegharardad |
4 |
سال قرارداد |
Year_gharardad |
5 |
کد رشته فعالیت |
C_reshtefaaliat |
6 |
مبلغ پرداختنی |
Mablagh_pardakhtani |
7 |
مبلغ بازگشتی |
Mablagh_bazgashti |
8 |
سود سهم مشتری |
Soodsahmmoshtari |
9 |
سود سهم دولت |
Soodsahmdolat |
10 |
نرخ سود سهم مشتری |
Nerkhsoodsahmmoshtari |
11 |
نرخ سود سهم دولت |
Nerkhsood_sahmdolat |
12 |
درصد مشتری |
Darsadmoshtari |
13 |
تعداد اقساط |
Tedadaghsat |
14 |
کد نوع رکورد |
C_noerecord |
15 |
کد بودجه |
C_budget |
16 |
کد هدف |
C_hadaf |
17 |
مبلغ مصوب |
Mablagh_mosavab |
18 |
کد ادارۀ ابلاغ کننده |
C_edareeblaghconandeh |
19 |
کد مصوبه |
C_mosavabe |
20 |
کد تکلیف |
C_taklif |
21 |
کد مدّنظر |
C_moredmasraf |
22 |
روش تقسیط |
Ravesh_taghseet |
23 |
کد شهر مدّنظر |
C_shahrmoredmasraf |
24 |
جنسیت |
Gender |
25 |
نرخ تورم |
Inflation |
26 |
تولید ناخالص داخلی به قیمت پایه |
GDP |
27 |
ارزش اسمی وثیقهها |
Arzeshvasaiegh |
با توجه به اینکه برای الگوسازی در دادهکاوی، روشهای مختلفی وجود دارد؛ نظیر دادهکاوی نظارتشده و غیرنظارتشده، برای الگوسازی، سناریوهای مختلفی براساس الگوهای مذکور در بخش قبل در نظر گرفته میشود.
جدول (2) الگوهای زیرمجموعۀ ماشین بردار تصمیم به تفکیک سناریوهای استفاده شده
روش دادهکاوی |
یک مرحلهای |
دومرحلهای |
سه مرحلهای |
نظارتشده |
ü |
ü |
- |
غیرنظارتشده |
- |
ü |
- |
نظارتشده + غیرنظارتشده |
- |
- |
ü |
در روشهای الگوسازی، روش یک مرحلهای مستقیماً نرخ وصول مشتریان را پیشبینی میکند؛ اما روشهای دومرحلهای و سه مرحلهای، ابتدا طبقۀ ریسک را با توجه به طبقهبندی با استفاده از درخت تصمیم مشخص و سپس طبقه با ریسک بالا و کم از الگوسازی حذف و طبقه با ریسک متوسط پیشبینی استفاده میشود. در روش دادهکاوی نظارتشدۀ یک مرحلهای بهصورت مستقیم به الگوسازی نرخ وصول مشتریان با استفاده از روشهای بخش قبل توجه میشود. الگوهای استفادهشده در این سناریو GA-υ-SVR و GA-ε-SVR است. در روش دادهکاوی نظارتشدۀ دومرحلهای، حالت اول بخش الگوسازی بهصورت دومرحلهای انجام میگیرد؛ یعنی ابتدا، متغیر هدف (نرخ وصول) به سهطبقه تقسیم میشود. نرخ وصول با مقدار 1 (احتمال وصول 100 درصد)، نرخ وصول با مقدار بین 0 و 1، نرخ وصول با مقدار 0 (احتمال وصول صفر). طبقات بالا بهترتیب، با ستون وضعیت (State) در فایل مشتریان با کدهای 1،2 و 3 طبقهبندی میشوند.
جدول (3) طبقهبندی وضعیت نرخ وصول مشتریان
شرح |
طبقه |
برچسب شرح طبقه |
نرخ وصول 1 |
1 |
LOW |
نرخ وصول بین 0 و 1 |
2 |
MEDIUM |
نرخ وصول 0 |
3 |
HIGH |
الگوهای استفادهشده در این سناریوC5.0 +GA-ε-SVR وC5.0 +GA-υ-SVR است.
در روش دادهکاوی غیرنظارتشدۀ دومرحلهای حالت دوم، ابتدا دادهها خوشهبندی میشوند و سپس بر اساس خروجی هر خوشه، نمونهگیری بر هر خوشه و پیشبینی انجام میگیرد. روش یک مرحلهای در این سناریو بیمعنی است؛ زیرا خوشهبندی بهصورت خودکار، مرحلۀ اول را انجام میدهد (خوشهبندی+پیشبینی). الگوهای استفادهشده در این بخش عبارت است ازK-MEANS+GA-υ-SVR و K-MEANS+ GA-ε-SVR. در روش دادهکاوی نظارتشده و غیرنظارتشدۀ سه مرحلهای، ابتدا دادهها برچسبگذاری و سپس براساس سناریوی الگوسازی براساس روش دادهکاوی غیرنظارتشده خوشهبندی میشوند و سپس براساس خروجی هر خوشه، طبقهبندی انجام میشود و درنهایت، پیشبینی بر جامعۀ طبقهبندیشده انجام میشود. الگوسازی در این سناریو بهصورت سه مرحلهای است (خوشهبندی+طبقهبندی+پیشبینی). الگوهای استفادهشده در این سناریو بهشرحK-MEANS+C5.0 +GA-ε-SVR و K-MEANS+C5.0 +GA-υ-SVR است.
یافتهها
درادامه، بهصورت تفکیکشده، نتایج هر سناریو به تفکیک الگو آمده است.
جدول (4) نتایج الگوی GA-υ-SVR - دادهکاوی نظارتشدۀ یکمرحلهای
شرح پارامتر |
مقدار |
مقدار بهینه |
بازه تغییرات C |
10-0001/0 |
601715/6 |
بازه تغییرات γ |
2-001/0 |
02263702/0 |
بازه تغییرات υ |
1-0 |
3932778/0 |
تعداد تکرار الگوریتم |
10 |
- |
حجم جمعیت |
40 |
- |
احتمال جهش |
9/0 |
- |
احتمال عبور |
1/0 |
- |
مقدار تابع تناسب |
03592157/0- |
- |
جدول (5) نتایج الگوی GA-ε-SVR - دادهکاوی نظارتشدۀ یکمرحلهای
شرح پارامتر |
مقدار |
مقدار بهینه |
بازه تغییرات C |
10-0001/0 |
993239/5 |
بازه تغییرات γ |
2-001/0 |
02769817/0 |
بازه تغییرات ɛ |
2-01/0 |
1771288/0 |
تعداد تکرار الگوریتم |
10 |
- |
حجم جمعیت |
500 |
- |
احتمال جهش |
8/0 |
- |
احتمال عبور |
05/0 |
- |
مقدار تابع تناسب |
03563548/0- |
- |
جدول (6) نتایج الگوی GA-ε-SVR - دادهکاوی نظارتشدۀ دومرحلهای
شرح پارامتر |
مقدار |
مقدار بهینه |
بازه تغییرات C |
10-0001/0 |
155126/5 |
بازه تغییرات γ |
2-001/0 |
0158058/0 |
بازه تغییرات ɛ |
2-01/0 |
5618804/0 |
تعداد تکرار الگوریتم |
10 |
- |
حجم جمعیت |
500 |
- |
احتمال جهش |
8/0 |
- |
احتمال عبور |
05/0 |
- |
مقدار تابع تناسب |
02615468/0- |
- |
جدول (7) نتایج الگوی GA-υ-SVR - دادهکاوی نظارتشدۀ دومرحلهای
شرح پارامتر |
مقدار |
مقدار بهینه |
بازه تغییرات C |
10-0001/0 |
858976/8 |
بازه تغییرات γ |
2-001/0 |
00272873/0 |
بازه تغییرات υ |
1-0 |
3469399/0 |
تعداد تکرار الگوریتم |
10 |
- |
حجم جمعیت |
40 |
- |
احتمال جهش |
9/0 |
- |
احتمال عبور |
1/0 |
- |
مقدار تابع تناسب |
02550641/0- |
- |
جدول (8) ستونهای استفادهشده در فرایند خوشهبندی (نرمالسازیشده)
شرح |
نام متغیر |
وضعیت |
ارزش اسمی وثیقهها |
Arzeshvasaiegh_Transformed |
نرمالشده |
کد نوع قرارداد (عقد تسهیلاتی) |
C_noegharardad |
نرمالشده |
کد رشته فعالیت (بخش اقتصادی) |
C_reshtefaaliat |
نرمالشده |
مبلغ تسهیلات پرداختنی |
Mablagh_Pardakhtani_Transformed |
نرمالشده |
مبلغ تسهیلات بازگشتی |
Mablagh_Bazgashti_Transformed |
نرمالشده |
جدول (9) نتایج خوشهبندی براساس تقسیمبندی مجموعه دادۀ آموزشی و آزمایشی
بخش |
مجموعه دادۀ آموزشی |
مجموعه دادۀ آزمایشی |
جمع کل |
بخش اول |
864/121/14 |
684/606/7 |
548/728/21 |
بخش دوم |
675/136/2 |
807/151/1 |
482/288/3 |
جمع کل |
539/258/16 |
491/758/8 |
030/017/25 |
سهم درصد از کل |
65% |
35% |
|
جدول (10) نتایج خوشهبندی براساس تقسیمبندی مجموعه دادۀ آموزشی و آزمایشی
تکرار |
میزان خطا |
1 |
567/0 |
2 |
57/0 |
3 |
335/0 |
4 |
096/0 |
5 |
0/0 |
6 |
0/0 |
کل مجموعۀ هر بخش با توجه به اینکه به دو بخش تقسیم شده است، در بخش دادههای آموزشی آموزشدیده و پس از کنترل بر دادههای آزمایشی در صورت کمترین خطا انتخاب میشود.
جدول (11) نتایج خوشهبندی حجم خوشهها و نسبت بزرگترین خوشه به کوچکترین خوشه
شرح |
مقدار |
درصد |
حجم کمترین خوشه |
675/136/2 |
1/13% |
حجم بیشترین خوشه |
834/121/14 |
9/86% |
نسبت بیشترین خوشه به کمترین خوشه |
61/6 |
|
جدول (12) نتایج اجرای الگوی GA-ε-SVR بر مبنای انتخاب پارامترها با روش الگوریتم ژنتیک براساس روش دادهکاوی غیرنظارتشده و پیشبینی نظارتشده
شرح پارامتر |
مقدار (خوشۀ اول) |
مقدار بهینه (خوشۀ اول) |
مقدار (خوشۀ دوم) |
مقدار بهینه (خوشۀ دوم) |
بازه تغییرات C |
10-0001/0 |
840047/2 |
پاسخی از الگوی بهینهسازی در هیچ حالتی دریافت نمیشود و الگو، جواب بهینه ندارد. |
|
بازه تغییرات γ |
2-001/0 |
07516971/0 |
||
بازه تغییرات ε |
2-01/0 |
01637873/0 |
||
تعداد تکرار الگوریتم |
5 |
- |
||
حجم جمعیت |
50 |
- |
||
احتمال جهش |
8/0 |
- |
||
احتمال عبور |
1/0 |
- |
||
مقدار تابع تناسب |
03295078/0- |
- |
جدول (13) نتایج اجرای الگوی GA-υ-SVR بر مبنای انتخاب پارامترها با روش الگوریتم ژنتیک براساس روش دادهکاوی غیرنظارتشده و پیشبینی نظارتشده
شرح پارامتر |
مقدار (خوشۀ اول) |
مقدار بهینه (خوشۀ اول) |
مقدار (خوشۀ دوم) |
مقدار بهینه (خوشۀ دوم) |
بازه تغییرات C |
10-0001/0 |
315031/3 |
10-0001/0 |
029367/9 |
بازه تغییراتγ |
2-001/0 |
03951537/0 |
2-001/0 |
01792443/0 |
بازه تغییرات υ |
1-0 |
6805159/0 |
1-0 |
215487/0 |
تعداد تکرار الگوریتم |
10 |
- |
10 |
- |
حجم جمعیت |
50 |
- |
50 |
- |
احتمال جهش |
8/0 |
- |
8/0 |
- |
احتمال عبور |
1/0 |
- |
1/0 |
- |
مقدار تابع تناسب |
01780889/0- |
- |
06091871/0- |
- |
جدول (14) نتایج اجرای الگوی GA-ε-SVR براساس روش دادهکاوی نظارتشده و غیرنظارتشدۀ سه مرحلهای
شرح پارامتر |
مقدار (خوشۀ اول) |
مقدار بهینه (خوشۀ اول) |
مقدار (خوشۀ دوم) |
مقدار بهینه (خوشۀ دوم) |
بازه تغییرات C |
10-0001/0 |
602214/8 |
10-0001/0 |
449297/4 |
بازه تغییرات γ |
2-001/0 |
0.005950706 |
2-001/0 |
01056441/0 |
بازه تغییرات ε |
2-01/0 |
0.08359725 |
2-01/0 |
152718/0 |
تعداد تکرار الگوریتم |
10 |
- |
10 |
- |
حجم جمعیت |
500 |
- |
500 |
- |
احتمال جهش |
8/0 |
- |
0.8 |
- |
احتمال عبور |
05/0 |
- |
0.05 |
- |
مقدار تابع تناسب |
03049528/0- |
- |
03323243/0- |
- |
جدول (15) نتایج اجرای الگویGA-υ-SVR براساس روش دادهکاوی نظارتشده و غیرنظارتشدۀ سه مرحلهای
شرح پارامتر |
مقدار (خوشۀ اول) |
مقدار بهینه (خوشۀ اول) |
مقدار (خوشۀ دوم) |
مقدار بهینه (خوشۀ دوم) |
بازه تغییرات C |
10-0001/0 |
231828/2 |
10-0001/0 |
487671/3 |
بازه تغییرات γ |
2-001/0 |
1169861/0 |
2-001/0 |
02620457/0 |
بازه تغییرات υ |
1-0 |
2880869/0 |
1-0 |
8379712/0 |
تعداد تکرار الگوریتم |
10 |
- |
10 |
- |
حجم جمعیت |
40 |
- |
40 |
- |
احتمال جهش |
9/0 |
- |
9/0 |
- |
احتمال عبور |
1/0 |
- |
1/0 |
- |
مقدار تابع تناسب |
03089376/0- |
- |
0334725/0- |
- |
نتایج و پیشنهادها
برای راحتی فراخوانی الگوها بهصورت جدول (16)کدبندی میشود.
جدول (16) کدبندی الگوهای استفادهشده
کد الگو |
نام الگو |
M1 |
ε-SVR |
M2 |
υ-SVR |
M3 |
C5.0 +GA-ε-SVR |
M4 |
C5.0 +GA-υ-SVR |
M5 |
K-MEANS+GA-ε-SVR |
M6 |
K-MEANS+GA-υ-SVR |
M7 |
K-MEANS+C5.0+GA-ε-SVR |
M8 |
K-MEANS+C5.0+GA-υ-SVR |
در این بخش، ابتدا جامعۀ اصلی مشتریان دارای مطالبات غیرجاری (بدهکار به بانک) به دو بخش آموزشی و آزمایشی تقسیم میشود؛ سپس تمامی الگوهای بهدستآمده با تنظیمات بهینه بر نمونهای تصادفی با حجم 2000 مشاهده از جامعۀ اصلی (مجموعه داده آزمایشی مربوط به خود) اجرا و نتایج بررسی و خطاها مقایسه میشود. برای الگوهای M1 و M2 مجموعه دادۀ آزمایشی از کل جامعه انتخاب میشود و نیازی به تفکیک نیست. با توجه به نتایج بهدستآمده، رتبهبندی الگوهای منتخب نهایی براساس کمترین خطاها و همچنین بیشترین پوشش سطح زیر منحنی بهشرح جدول (17) است.
جدول (17) الگوهای منتخب براساس رتبهبندی کمترین میزان خطا
رتبه |
کد الگو |
MAE |
MSE |
RMSE |
1 |
M1 |
07244232/0 |
03201479/0 |
1789268/0 |
2 |
M6 |
0720717/0 |
0358163/0 |
1873501/0 |
3 |
M2 |
05620081/0 |
03977469/0 |
1994359/0 |
با توجه به نتایج بهدستآمده براساس اجرای الگوهای بهینهشده با استفاده از الگوریتم ژنتیک مشخص میشود الگوی ɛ-SVR بهترین الگو برای پیشبینی نرخ وصول مطالبات در روش یکمرحلهای بدون پیشبینی طبقۀ ریسک مشتریان است و در روش دومرحلهای، الگوی K-MEANS+GA-υ-SVR بهترین الگو برای پیشبینی نرخ وصول مطالبات است. پیشنهاد میشود در حوزۀ بانکداری، بانکها به راهاندازی سامانۀ جامع اعطای تسهیلات بر مبنای تحلیل اطلاعات مشتریان با استفاده از الگوریتمهای دادهکاوی بهویژه الگوهای پیشنهادی در پژوهش حاضر اقدام کنند و قبل از اعطای تسهیلات شعبه با واردکردن اطلاعات لازم مشتری و مقایسه و الگوسازی با دادههای گذشته و بانک اطلاعاتی بانک و یا حتی بهطور کاملتر با جامعۀ سیستم بانکی کشور با تأمل و بررسی بیشتری به اعطای تسهیلات اقدام کنند. بانکها و مؤسسات مالی با روش مذکور در پژوهش حاضر، علاوه بر پیشبینی احتمال مطالبات شدن هر مشتری و در صورت مطالبات شدن پیشبینی میزان وصول قرارداد مطالبات شده، میزان زیان بانک ناشی از وصولنشدن قراردادهای اعتباری را میتوانند بهپیشبینی و برآورد کنند. راهاندازی سامانۀ هوشمند اعطای تسهیلات برای الگوسازی با روشهای دادهکاوی قبل از اعطای تسهیلات میتواند اقدامی در راستای کنترل انضباط اعتباری براساس الزامات بانک مرکزی ج.ا.ا و کمیتۀ بال باشد.
در این پژوهش با توجه به محدودیتهای موجود، محاسبۀ نرخ وصول بهصورت کامل انجام نشد و برای الگوسازی بهدلیل مشخصنبودن میزان وصول واقعی از ارزش مبلغی وثیقهها برای الگوسازی استفاده و صرفاً بر روش الگوسازی تأکید شد. پیشنهاد میشود در پژوهشهای آینده با استفاده از اطلاعات کاملتر نظیر زمان فرایند وصول مطالبات، نرخ تنزیل، هزینههای وصول مطالبات هر قرارداد نرخ وصول محاسبه شود که طبیعتاً به عدد صفر نزدیکتر است. همچنین از روشهای دیگر الگوسازی نیز استفاده شود.