👈 فروشگاه فایل 👉

پایان نامه داده کاوی در بیمه

ارتباط با ما

... دانلود ...

پایان نامه داده کاوی در بیمه

پایان نامه داده کاوی در بیمه با عنوان ارائه مدلی برای شناسایی عوامل اثرگذار و ضریب تاثیر آنها در سود و زیان بیمه شخص ثالث خودرو شرکتهای بیمه بوسیله روشهای داده کاوی شرکت سهامی بیمه ایران می باشد.

مشخصات فایل

تعداد صفحات

124

حجم

2637/744 کیلوبایت

فرمت فایل اصلی

docx

توضیحات کامل

پایان نامه داده کاوی در بیمه با عنوان ارائه مدلی برای شناسایی عوامل اثرگذار و ضریب تاثیر آنها در سود و زیان بیمه شخص ثالث خودرو شرکتهای بیمه بوسیله روشهای داده کاوی شرکت سهامی بیمه ایران می باشد.در این تحقیق توانستیم اثبات کنیم که با روشهای داده کاوی می توان مدلی هایی ارائه داد که عوامل موثر در احتمال به بار آوردن خسارت یک مشتری را با توجه به میزان تاثیر آن عوامل مشخص کند. این موضوع از طریق الگوریتم های کاهش ویژگی و وزن دهی و شبکه عصبی مهیا شد. همچنین الگوریتم های خوشه بندی نیز نتایج مشابهی را ارائه داده اند. علاوه بر این، الگوریتم های دسته بندی با تشخیص عوامل اثر گذار توانسته اند مدلی را ارائه دهند که با دقت بسیار بالایی احتمال خسارتی بودن یک بیمه نامه را تشخیص می دهد.

 الگوریتم های درخت تصمیم نیز با دقت بالایی در تشخیص عوامل موثر در خسارتی بودن یک بیمه نامه و ارائه مدل و قوانین لازم موفق عمل کرده اند. الگوریتم های مبتنی بر قانون اگرچه قوانین بسیار محدودی ارائه داده اند اما درصد تشخیص عوامل اثر گذار و دقت قوانین استخراج شده قابل اطمینان بوده است. عوامل در الگوریتم های مختلف با ضریب تشخیصی متفاوت قید شده است. عوامل اثر گذار استخراج شده عمدتاً به تنهایی موثر نبوده بلکه دارای اثرات وابسته به دیگر عوامل بوده است که این موضوع در درختهای تصمیم و قواعد تلازمی(مبتنی بر قانون) به وضوح مشخص است و بیان شده است. 

در این پژوهش از8 الگوریتم دسته بندی شامل KNN; Naïve bayes; Neural Network;   SVM Linear; Meta Decision Tree; Wj48; Random Forest و رگرسیون لجستیک استفاده شده است که تعداد 3 الگوریتم آن درخت تصمیم بوده است. همچنین دو الگوریتم مبتنی بر قانون  Apriori; Fp Growthو 3 الگوریتم خوشه بندی K-Means، دوگامی و Kohonen نیز مورد استفاده قرار گرفته  اند. در این قسمت نتایج الگوریتمهای دسته بند غیر درخت با هم مقایسه می شوند و به ترتیب بهترین مدلها مشخص میگردند. همچنین سه الگوریتم دسته بند درختی با هم دیگر مقایسه شده و بهترین نتایجی که خسارتی بودن یک رکورد را مشخص میکند پس از مشاوره با یک متخصص و کارشناس در امور بیمه از هر درخت استخراج می گردد و به ترتیب دقت نهایی آن الگوریتم اعلام میگردد. در خصوص الگوریتم های مبتنی بر قانون نیز دو الگوریتم با هم دیگر مقایسه شده و بهترین قوانینی که خسارتی بودن یک رکورد را مشخص میکند پس از مشاوره با یک متخصص و کارشناس در امور بیمه از هر الگوریتم استخراج و اعلام میگردد. 

فهرست مطالب

فصل اول:  مقدمه

1-1    تعریف داده کاوی    4

1-2    تعریف بیمه    4

1-3    هدف پایان نامه    5

1-4    مراحل انجام تحقیق    5

1-5    ساختار پایان نامه    6

فصل دوم: ادبیات موضوع و تحقیقات پیشین

2-1    داده کاوی و یادگیری ماشین    8

2-2    ابزارها و تکنیک های داده کاوی    9

2-3    روشهای داده کاوی    11

2-3-1    روشهای توصیف داده ها    12

2-3-2    روشهای تجزیه و تحلیل وابستگی     12

2-3-3    روشهای دسته بندی و پیشگویی    12

2-3-4    درخت تصمیم    13

2-3-5    شبکه عصبی    14

2-3-6    استدلال مبتنی بر حافظه    14

2-3-7    ماشین های بردار پشتیبانی    15

2-3-8    روشهای خوشه بندی     16

2-3-9    روش K-Means    16

2-3-10    شبکه کوهنن    16

2-3-11    روش  دو گام    17

2-3-12    روشهای تجزیه و تحلیل نویز    17

2-4    دسته های نامتعادل]صنیعی آباده 1391[.    18

2-4-1    راهکار مبتنی بر معیار    18

2-4-2    راهکار مبتنی بر نمونه برداری    19

2-5    پیشینه تحقیق    20

2-6    خلاصه فصل    23

فصل سوم: شرح پژوهش

3-1    انتخاب نرم افزار    26

3-1-1    Rapidminer    26

3-1-2    مقایسه RapidMiner   با سایر نرم افزار های مشابه    27

3-2    داده ها    31

3-2-1    انتخاب داده    31

3-2-2    فیلدهای مجموعه داده صدور    31

3-2-3    کاهش ابعاد    31

3-2-4    فیلدهای مجموعه داده خسارت    37

3-2-5    پاکسازی داده ها    37

3-2-6    رسیدگی به داده های از دست رفته    37

3-2-7    کشف داده دور افتاده    39

3-2-8    انبوهش داده    41

3-2-9    ایجاد ویژگی دسته    41

3-2-10    تبدیل داده    41

3-2-11    انتقال داده به محیط داده کاوی    42

3-2-12    انواع داده تعیین شده    42

3-2-13    عملیات انتخاب ویژگیهای موثرتر    43

3-3    نتایج اعمال الگوریتم PCA و الگوریتم های وزن دهی    44

3-4    ویژگی های منتخب جهت استفاده در الگوریتمهای حساس به تعداد ویژگی    46

3-5    معیارهای ارزیابی الگوریتمهای دسته بندی    47

3-6    ماتریس درهم ریختگی    47

3-7    معیار AUC    48

3-8    روشهای ارزیابی الگوریتم های دسته بندی    49

3-8-1    روش Holdout    49

3-8-2    روش Random Subsampling    50

3-8-3    روش Cross-Validation    51

3-8-4    روش Bootstrap    51

3-9    الگوریتمهای دسته بندی    52

3-9-1    الگوریتم KNN    53

3-9-2    الگوریتم Naïve Bayes    54

3-9-3    الگوریتم Neural Network    54

3-9-4    الگوریتم   SVM   خطی    56

3-9-5    الگوریتم   رگرسیون لجستیک    58

3-9-6    الگوریتم  Meta Decision Tree    59

3-9-7    الگوریتم درخت Wj48    61

3-9-8    الگوریتم درخت Random forest    63

3-10    معیارهای ارزیابی الگوریتم های مبتنی بر قانون(کشف قوانین انجمنی)    65

3-10-1    الگوریتم FPgrowth    66

3-10-2    الگوریتم Weka Apriori    67

3-11    معیارهای ارزیابی الگوریتمهای خوشه بندی    67

3-12    الگوریتم های خوشه بندی    69

3-12-1    الگوریتم K-Means    69

3-12-2    الگوریتم Kohonen    73

3-12-3    الگوریتم دوگامی    77

فصل چهارم: ارزیابی و نتیجه گیری

4-1    مقایسه نتایج    83

4-2    الگوریتمهای دسته بندی    84

4-3    الگوریتم های دسته بندی درخت تصمیم    84

4-4    الگوریتم های خوشه بندی    96

4-5    الگوریتم های قواعد تلازمی(مبتنی بر قانون)    98

4-6    پیشنهادات به شرکت های بیمه    99

4-7    پیشنهادات جهت ادامه کار    101

منابع و مأخذ

    فهرست منابع فارسی    102

    فهرست منابع انگلیسی    103

فهرست جدول‌ها 

جدول شماره 3-1:  نتایج رای گیری استفاده از نرم افزارهای داده کاوی    24

جدول شماره 3-2: فیلدهای اولیه داده های صدور    26

جدول شماره 3-3: فیلدهای نهایی داده های صدور    27

 جدول شماره 3-4: فیلدهای  حذف شده داده های صدور و علت حذف آنها    28

جدول 3-5:  فیلدهای استخراج شده از داده های خسارت    28

جدول 3-6: نتایج  نمودار boxplot    31

جدول 3-7: انواع داده استفاده شده    33

جدول 3-8: نتایج حاصل از اجتماع فیلدهای با بالاترین وزن در الگوریتمهای مختلف    37

جدول 3-9: ماتریس در هم ریختگی رکوردهای تخمینی(Predicted  Records)    38

جدول 3-10: قوانین استخراج شده توسط الگوریتم Fpgrowth    55

جدول 3-11: قوانین استخراج شده توسط الگوریتم Weka Apriori    55

جدول 3-12: تنظیمات پارامترهای الگوریتم K-Means    57

اجرا برای 9 خوشه در الگوریتم K-Means    60

جدول 3-13: تنظیمات پارامترهای الگوریتم Kohonen    64

جدول 3-14: تنظیمات پارامترهای الگوریتم دوگامی    69

جدول 4-1: مقایسه الگوریتم های دسته بند    70

جدول 4-2: مقایسه الگوریتم های دسته بند درخت تصمیم    70

جدول 4-3: ماتریس آشفتگی قانون شماره 1    71

جدول 4-4: ماتریس آشفتگی قانون شماره 2    72

جدول 4-5: ماتریس آشفتگی قانون شماره 3 الف    72

جدول 4-6: ماتریس آشفتگی قانون شماره 3 ب    72

جدول 4-7: ماتریس آشفتگی قانون شماره 3 ج    73

جدول 4-8: ماتریس آشفتگی قانون شماره 3 د    73

جدول 4-9: ماتریس آشفتگی قانون شماره 3 ه    73

جدول 4-10: ماتریس آشفتگی قانون شماره 3 و    74

جدول 4-11: ماتریس آشفتگی قانون شماره 3 ز    76

جدول 4-12: ماتریس آشفتگی قانون شماره 4    76

جدول 4-13: ماتریس آشفتگی قانون شماره 5    77

جدول 4-14: ماتریس آشفتگی قانون شماره 6 الف    77

جدول 4-15: ماتریس آشفتگی قانون شماره 6 ب    78

جدول 4-16: ماتریس آشفتگی قانون شماره7    78

جدول 4-17: ماتریس آشفتگی قانون شماره8    79

جدول 4-18: مقایسه الگوریتم های خوشه بندی    79

جدول 4-19: فیلدهای حاصل از الگوریتم های خوشه بندی    80

جدول 4-20: نتایج الگوریتم های FpGrowth; Weka Apriori    81

    

فهرست شکل‌ها 

شکل شماره3-1: داده از دست رفته فیلد" نوع بیمه " پس از انتقال به محیط داده کاوی    33

شکل 3-2:  نتایج الگوریتمPCA     34

شکل 3-3:  نتایج الگوریتم SVM Weighting در ارزشدهی به ویژگی ها    35

شکل 3-4: نتایج الگوریتم Weighting Deviation  در ارزشدهی به ویژگی ها    35

شکل 3-5: نتایج الگوریتم Weighting Correlation در ارزشدهی به ویژگی ها    36

شکل 3-6:  نمای کلی استفاده از روشهای ارزیابی    41

شکل 3-7:  نمای کلی استفاده از یک مدل درون یک روش ارزیابی    42

شکل 3-8:  نمودار AUC الگوریتم KNN    42

شکل 3-9:  نمودار AUC الگوریتم Naïve Bayes    43

شکل 3-10:  تبدیل ویژگی های غیر عددی به عدد در الگوریتم شبکه عصبی    44

شکل 3-11:  نمودار AUC و ماتریس آشفتگی الگوریتم Neural Net    44

شکل 3-12:  تبدیل ویژگی های غیر عددی به عدد در الگوریتم  SVM  خطی    45

شکل 3-13 :  نمودار AUC الگوریتم  SVM Linear    46

شکل 3-14 :  نمودار AUC الگوریتم  رگرسیون لجستیک    47

شکل 3-15 : نمودار AUC الگوریتم  Meta Decision Tree    48

شکل 3-16 : قسمتی از نمودارtree الگوریتم  Meta Decision Tree    49

شکل 3-17 :  نمودار radial الگوریتم  Meta Decision Tree    49

شکل 3-18: نمودار AUC الگوریتم  Wj48    50

شکل 3-19 :  نمودار tree الگوریتم  Wj48    51

شکل 3-20 :  نمودار AUC الگوریتم  Random forest    52

شکل 3-21 :  نمودار تولید 20 درخت در الگوریتم  Random Forest    53

شکل 3-22 :  یک نمونه درخت تولید شده توسط الگوریتم  Random Forest    53

شکل 3-23 : رسیدن درصد خطا به صفر پس از 8مرتبه    57

شکل 3-24 : Predictor  Importance for K-Means    58

شکل 3-25 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم K-Means    59

شکل 3-26 : کیفیت خوشه ها در الگوریتمMeans K-    60

شکل 3-27 : Predictor  Importance for Kohonen    61

شکل 3-28 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم Kohonen    62

شکل 3-29 : کیفیت خوشه ها در الگوریتمMeans K-    63

شکل 3-30 : تعداد نرون های ورودی و خروجی در Kohonen    63

شکل 3-31 : Predictor  Importance for  دوگامی    64

شکل 3-32 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم دوگامی    65

شکل 3-33 : کیفیت خوشه ها در الگوریتم دوگامی    66

شکل4-1: نمودارنسبت تخفیف عدم خسارت به خسارت    75

👇محصولات تصادفی👇

پاورپوینت تقسیم بازار و تعیین بازار هدف ( فصل پنجم کتاب مدیریت بازاریابی احمد روستا و همکاران) بررسی عوامل موثر بر خشونت علیه زنان و راههای پیشگیری از آن شناسایی ابهامات نهاد عفو متهمان و محکومان و بررسی ماهیت فقهی و حقوقی آن  خلاصه مقالات مسائل جاری دکتر کمالی راد پرسشنامه بررسی تاثیر بازاریابی داخلی بر بازارگرایی