دانلود مقاله در مورد داده کاوی در پزشکی تحت word دارای 43 صفحه می باشد و دارای تنظیمات در microsoft word می باشد و آماده پرینت یا چاپ است
فایل ورد دانلود مقاله در مورد داده کاوی در پزشکی تحت word کاملا فرمت بندی و تنظیم شده در استاندارد دانشگاه و مراکز دولتی می باشد.
این پروژه توسط مرکز مرکز پروژه های دانشجویی آماده و تنظیم شده است
توجه : در صورت مشاهده بهم ریختگی احتمالی در متون زیر ،دلیل ان کپی کردن این مطالب از داخل فایل ورد می باشد و در فایل اصلی دانلود مقاله در مورد داده کاوی در پزشکی تحت word ،به هیچ وجه بهم ریختگی وجود ندارد
بخشی از متن دانلود مقاله در مورد داده کاوی در پزشکی تحت word :
چکیده
در دنیای پزشکی امروز،دادههای مربوط به علائم بیماران مبتلا به بیماریهای گوناگون و نتایج روشهای کمکی برای تشخیص این بیماریها، بسیار وسیع و گسترده هستند، به طوری که معمولاً تحلیل و در نظر گرفتن همه جنبهی کلیه عوامل دخیل توسط یک فرد، دشوار به نظر میآید. این جاست که نیاز به یک سیستم مکانیزه برای کمک به کشف الگوهای موجود و هم چنین پیش بینی رخدادهای آتی کاملاً احساس میشود. دانش داده کاوی به عنوان ارائه کنندهی این سیستم
مکانیزه کمکهای شایانی در پیشرفتهای پزشکی به ویژه در زمینهی تشخیص بیماریهای گوناگون کرده است. در بعضی از بیماریها در صورت تشخیص دیرهنگام، میتوانند به عنوان عوارض جدی و خطرناک و حتی به مرگ منجر شوند، لذا تشخیص به موقع آنها برای پیشرفت درمان ضروری است. در این مقاله به بررسی تأثیرات الگوریتمهای داده کاوی در بیماریها و علوم پزشکی پرداختهایم.
واژگان کلیدی: دادهکاوی، شبکه عصبی، درخت تصمیم
مقدمه:
داده کاوی فرآیند است خودکار برای استخراج الگوهایی که دانش را بازنمایی میکنند، که این دانش به صورت ضمنی در پایگاه دادههای عظیم، انباره داده و دیگر مخازن برزرگ اطلاعات، ذخیره شده است. داده کاوی، به طور همزمان از چندین رشته علمی، نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکههای عصبی،آمار، شناسایی الگو، سیستمهای مبتنی بر
دانش،حصول دانش، بازیابی اطلاعات، محاسبات سرعت بالا و بازنمایی بصری داده بهره میبرد. داده کاوی در اواخر دهه 1980 پدیدار گشته، در دهه 1990 گامهای بلندی در این شاخه از علم برداشته شده و انتظار میرود در این قرن به رشد و پیشرفت خود ادامه دهد؛ و افزایش روز افزون پیشرفت در زمینه تکنولوژی اطلاعات باعث شده که رشد چشمگیری در علوم مختلف به وجود آید. یکی از این رشتهها که تغییر در آن قابل ملاحظه است،رشته پزشکی میباشد. استفاده از تکنیکهای داده کاوی در این شاخه از علم باعث شده که در کلیه مباحث مخصوصاً تشخیص بیماریها کمک بسیاری به پزشکان شود.
1-1-تاریخچه داده کاوی:
بارشدفناوریاطلاعاتوروشهایتولیدوجمعآوریدادهها،پایگاهدادههایمربوطبهدادههایتبادلاتتجاری،کشاورزی،اینترنت،جزئیاتمکالماتتلفنی،دادههایپزشکیوغیرهسریعترازهرروزجمعآوریوانبارشمیشوند. لذاازاواخردهه 80 میلادیبشربهفکردستیابیبهاطلاعاتنهفتهدراینپایگاهدادههایحجیمافتادزیراسیستمهایسنتیقادربهاینکارنبودند.
دادهکاوی فرآیندیاستکهدرآغازدهه 90 مطرحشدوبانگرشینو،بهمسئلاستخراجاطلاعاتازپایگاهدادههامیپردازد. ازسال 1995 دادهکاویبهصورتجدیواردمباحثآمارشدودرسال1996 ،اولینشمارهمجلکشفدانشومعرفتازپایگاهدادهها منتشرشد. محققانینظیربراچمنوآناند (1996) کلیهمراحلواقعگرایانهوروبهجلوکشفدانشازپایگاهدادههاراتشخیصدادند. درحالحاضر،دادهکاویمهمترینفناوریجهتبهرهبرداریموثرازدادههایحجیماستواهمیتآنروبهفزونیاست. بهطوریکهتخمینزدهشدهاستکهمقداردادههادرجهانهر20 ماهبهحدوددوبرابرمیرسد.در یک تحقیق که بر روی گروههای تجاری بسیار بزرگ در جمعآوری دادهها صورت گرفته مشخص گردید که 19 درصد از این گروهها دارای پایگاه دادههایی با سطح بیشتر از 50 گیگا بایت میباشند و 59 درصد از آنها انتظار دارند که در آیندهای نزدیک در چنین سطحی قرار گیرند.
در صنایعی مانند کارتهای اعتباری و ارتباطات و فروشگاههای زنجیرهای و خریدهای الکترونیکی و اسکنرهای بارکد خوان هر روزه دادههای زیادی تولید و ذخیره میشوند. افزایش سرعت کامپیوترها باعث به وجود آمدن الگوریتمهایی شده است که قدرت تجزیه و تحلیل بسیار بالایی دارند بدون اینکه محدودیتی در زمینه ظرفیت و سرعت کامپیوترها داشته باشند.
در سال 1989 و 1991 کارگاههای کشف دانش و معرفت ازپایگاه دادهها توسط پیاتتسکی و همکارانش برگزار شد. در فواصل سالهای 1991 تا 1994 کارگاههای کشف دانش و معرفت از پایگاه دادهها توسط فییاد و پیاتتسکی و دیگران برگزار شد. به طور رسمی اصطلاح داده کاوی برای اولین بار توسط فییاد در اولین کنفرانس بین المللی «کشف دانش و داده کاوی» در سال 1995 مطرح شد. امروزه کنفرانسهای مختلفی در این زمینه در سراسر دنیا برگزار میشود.
افزایش دادههای بسیار باعث پیدایش فرصتهای تازه برای کار در علوم مهندسی و کسب و کار شده است. زمینه داده کاوی و کشف دانش از پایگاه دادهها به عنوان یک رشته علمی جدید در مهندسی و علوم کامپیوتر ظهور کرده است. مهندسی صنایع با حوزههای گوناگون و در برداشتن فرصتهای بینظیر اکنون برای کاربرد داده کاوی و کشف دانش از پایگاه دادهها و بری توسعه مفاهیم و روشهای تازه در این زمینه آماده است. فرآیندهای صنعتی زیادی اکنون برای مطمئن شدن از کیفیت سفارشات محصول و کاهش هزینههای محصول به طور خودکار و کامپیوتری شدهاند.
1-2- داده کاوی چیست؟
نگاهی به ترجمه تحت اللفظی داده کاوی، به ما در درک بهتر این واژه کمک میکند. Mine به معنای استخراج از منابع نهفته و با ارزش زمین اتلاق میشود. پیوند این کلمه با کلمه داده، جستجویی عمیق جهت پیدا کردن اطلاعات اضافی مفید که قبلاً نهفته بودند، از دادهای قابل دسترس حجیم، را پیشنهاد میکند.
داده کاوی یک رشته نسبتاً جدید علمی میباشد که از انجام تحقیقات در رشتههای آمار، یادگیری ماشین، علوم کامپیوتر خصوصاً مدیریت پایگاه دادهها شکل گرفته است.
تعاریف متنوعی از داده کاوی در مراجع مختلف و توسط افراد مختلف ارائه شده از جمله:
1- داده کاوی عبارت است از فرآیند استخراج اطلاعات معتبر، از پیش ناشناخته، قابل فهم و قابل اعتماد از پایگاه دادههای بزرگ و استفاده از آن در تصمیمگیری در فعالیتهای تجاری مههم.
2- اصطلاح داده کاوی به فرآیند نیمه خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق میشود.
3- داده کاوی یعنی جستجو در یک پایگاه داده ها برای یافتن الگوهایی میان دادهها.
4- داده کاوی یعنی تجزیه و تحلیل مجموعه دادههای قابل مشاهده برای یافتن روابط مطمئن بین دادهها.
5- عبارت داده کاوی مترادف با یکی از عبارتهای استخراج دانش، برداشت اطلاعات، وارسی دادهها و حتی لایروبی کردن دادههاست که در حقیقت کشف دانش در پایگاه دادههای (KDD) را توصیف میکند.
اما تعریفی که در اکثر مرجع به اشتراک ذکر شده عبارت است از «استخراج اطلاعات و دانش و کشف الگوهای پنهان از پایگاه دادههای بسیار بزرگ و پیچیده». داده کاوی یک متدولوژی بسیار قوی و با پتانسیل بالا می باشد که به سازمان ها کمک میکند که بر روی مهمترین اطلاعات از مخزن دادهها ی خود تمرکز نمایند.
داده کاوی فرآیندی است که از ابزارهای تحلیلی گوناگونی برای کشف الگوها و روابط بین دادهها استفاده میکند که ممکن است برای اعتبار بخشیدن به پیشبینی استفاده شود.
داده کاوی کمک میکند تا سازمانها با کاوش بر روی دادههای یک سیستم، الگوها و رفتارهای آینده را کشف و پیش بینی کرده و بهتر تصمیم بگیرند. داده کاوی با استفاده از تحلیل وقایع گذشته یک تحلیل اتوماتیک و پیش بینانه ارائه مینماید و به سوالاتی جواب میدهد که پاسخ آنها در گذشته ممکن نبوده و یا به زمان زیادی نیاز داشته است.
همانگونه که در تعاریف گوناگون داده کاوی مشاهده میشود، تقریباً در تمامی تعاریف به مفاهیمی چون استخراج دانش، تحلیل و یافتن الگوی بین داده ها اشاره شده است.
1-3-داده کاوی و کشف دانش از پایگاه داده:
اصلیترین دلیلی که باعث شده داده کاوی کانون توجهات در علوم پزشکی قرار بگی
رد، مسئله در دسترس بودن حجم وسیعی از دادهها و نیاز شدید به اینکه از این دادهها، اطلاعات و دانش سودمند استخراج میکنند. داده کاوی عبارت از اقتباس یا استخراج دانش از مجموعهای از دادهها است.
داده کاوی را میتوان حاصل سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاه داده، نظیر: عملیات جمع آوری دادهها و ایجاد پایگاه داده، مدیریت داده و تحلیل و فهم داده میباشد.
به منظور شناسایی و استخراج الگو و روابط جدید که بتواند دانش جدیدی را به ثمر برساند، کشف دانش در پایگاههای اطلاعاتی روشهایی متنوع و گستردهای را به کار میبرد مانند ترکیب قدرت رایانه و تخصیص قدرت و مهارت در انسان. کشف دانش دارای مراحل تکراری زیر است:
پاک سازی دادهها (از بین بردن نویز و ناسازگاری دادهها)، یکپارچه سازی دادهها (چندین منبع داده ترکیب میشوند)، انتخاب دادهها (دادههای مرتبط با آنالیز از پایگاه داده بازیابی میشوند)، تبدیل کردن دادهها (تبدیل دادهها به فرمی که مناسب برای داده کاوی باشد مثل خلاصه سازی و همسان سازی)، داده کاوی (فرآیند اصلی که روالهای هوشموند برای استخراج الگوها از داده ها به کار گرفته میشوند)، ارزیابی الگو (برای مشخص کردن الگوهای صحیح و مورد نظر به وسیله معیارهای اندازهگیری)، ارائه دانش (یعنی نمایش بصری، تکنیکهای بازنمایی دانش برای ارائه دانش کشف شده به کاربر استفاده میشود). داده کاوی فقط یک ابزار است و نه یک عصای جادویی. داده کاوی به این معنی نیست که شما راحت به کنار بنشینیم و ابزارهای داده کاوی همه کار را انجام دهد.
داده کاوی نیاز به شناخت دادهها و ابزارهای تحلیل و افراد خبره در این زمینهها را از بین نمیبرد. داده کاوی فقط به تحلیلگران برای پیدا کردن الگوها و روابط بین دادهها کمک میکند و در این مورد نیز روابطی که یافته میشود باید به وسیله دادههای واقعی دوباره بررسی و تست گردد.
1-4- مراحل داده کاوی :
داده کاوی در این چرخه خود نیز شامل مراحل مختلفی میباشد که عبارتند از:
1- تعیین اطلاعات گذشته
2- تمیز کردن داده ها و پردازش اولیه. در این مرحله خطاهای دادهها تصحیح میشوند و داده های اشتباه جایگزین میشوند. این مرحله ممکن است تا 60 درصد از زمان داده کاوی را دربرگیرد.
3- یکپارچه سازی دادهها. معمولاً دادهها از منابع متفاوتی جمع آوری میشوند باید به صورتی درآیند که یک مخزن از داده های مناسب ایجاد شود تا بتوان عملیات داده کاوی را بهتر انجام داد.
4- انتخاب مجموعه داده های هدف
5- یافتن ویژگیهای مورد استفاده و تعیین ویژگیهای جدید
6- نمایش دادهها به صورتی که بتوان برای داده کاوی استفاده نمود.
7- انتخاب عملیات داده کاوی (طبقه بندی، خوشه بندی، پیش بینی و غیره)
8- انتخاب روش داده کاوی (شبکههای عصبی، درخت تصمیم و نظایر آن)
9- داده کاوی و جستجو برای یافتن الگوی مناسب
10- ارزیابی و تحلیل اگلوی به دست آمده و حذف الگوهای نامناسب
11- تفسیر نتایج دادهها و استنتاج از اطلاعات با ارزش
باید توجه داشت که جمع آوری و محافظت از دادهها نکته بسیار مهمی میباشد. اصولاً چون قابل و نوع دادهها در طول زمان تغییر میکند ممکن است بسیاری از دادههای موجود در قالبهای متفاوت باشند و همچنین بسیاری از دادههای قدیمی از بین رفته و دور ریخته شوند. در حالی که ممکن است اهمیت این دادها از دادههای جدید به هیچ وجه کمتر نباشد. همچنین به علت این که دادهها میتوانند از منابع مختلف داخلی و خ ارجی مانند کارکنان شرکت، مدیران، مشتریان، کارفرمایان، پیمانکاران باشند باز هم ممکن است قالب دادهها با هم یکسان نباشد. به همین دلیل انتخاب دادههای درست و یکپارچه سازی قالب آنها به منظور استفاده در داده کاوی از اهمیت بسیار بالایی برخوردار میباشد. در شکل 1-1 میتوان مراحل داده کاوی را به اختصار نشان داد.
شکل 1-1 مراحل داده کاوی
1-5-اجزای اصلی سیستم داده کاوی:
سیستم داده کاوی دارای اجزای بسیار زیادی میباشد که در ادامه به بسیاری از آنها میپردازیم:
پایگاه داده، انباره داده یا دیگر مخازن اطلاعات: که از مجموعهای از پایگاه داده ها، انباره داده، صفحه گسترده، یا دیگر انواع مخازن اطلاعات، پاکسازی دادهها و تکنیکهای یکپارچه سازی روی این دادهها انجام میشود.
سرویس دهنده پایگاه داده یا انبار داده: که مسئول بازیابی دادههای
مرتبط براساس نوع درخواست داده کاوی کاربر میباشد.
پایگاه دانش: این پایگاه از دانش زمینه تشکیل شده تا به جستجو کمک کند یا برای ارزیابی الگوهای یافته شده از آن استفاده میشود.
موتور داده کاوی: این موتور جزء اصلی از سیستم داده کاوی است و به طور ایده آل شامل مجموعهای از پیمانههایی نظیر توصیف، تداعی، کلاس بندی، آنالیز خوشهها و آنالیز تکامل و انحراف است.
پیمانه ارزیابی الگو: این جزء معیارهای جذابیت را به کار میبندد و با پیمانه داده کاوی تعامل میکند، بدین صورت که تمرکز آن بر جستجو بین الگوهای جذاب میباشد، و از یک حد آستانه جذابیت استفاده میکند تا الگوهای کشف شده را ارزیابی کند.
واسط گرافیکی کاربر: این پیمانه بین کاربر و سیستم داده کاوی ارتباط برقرار میکند، به کاربر اجازه میدهد تا با سیستم داده کاوی از طریق پرس و جو ارتباط برقرار کند. این جزء به کاربر اجازه میدهد تا شمای پایگاه داده یا انباره داده را مرور کرده، الگوهای یافته شده را ارزیابی کرده و الگوها را در فرمهای بصری گوناگون، بازنمایی کند.
1-6- عملیات داده کاوی:
مجموعه عملیاتی را که روش داده کاوی قادر به انجام آن است در ذیل به صورت کامل تشریح شدهاند.
1-6-1- طبقه بندی و پیشگویی
طبقه بندی یکی از عملیات رایج و مورد استفاده در داده کاوی است. طبقهبندی عملیاتی است که سازمانها را قادر میسازد که در حل مسائل خاص در مجموعههای بزرگ و پیچیده به کشف الگوها دست یابند. طبقهبندی فرآیندی میباشد که مجموعه دادهها را به قسمتهای مشخص تقسیم میکند. برای مثال مشتریان یک شرکت بیمه را براساس خصوصیاتشان به دو گروه با ریسک بالا و ریسک پائین تقسیم میکند. با این کار در واقع مشتریان این شرکت طبقهبندی شدهاند.
سادهترین روشی که برای طبقهبندی به نظر می رسد گذاشتن حدی برای دستهها می باشد، مثلاً افراد با درآمد بالای مقداری مشخص را به یک دسته و افراد با درآمد پائینتر از آن را به یک دستهی دیگر تخصیص دهیم.
میشل (1997)، مولر و چرکاسکی (1998)، تعدادی از روشهایی که می توانند جهت داده کاوی مسائل طبقهبندی به کاربرده شوند، شامل: درخت تصمیم و شبکههای عصبی و نظیر اینها را ارایه کردند. این روشها در دامنه گستردهای از زمینههای مهندسی به کار برده میشوند. برای نمونه، شبکههای عصبی در کنترل بازخوردها برای کشف الگوها و آشکارسازی خروجی مناسب کنترل شده به کاربرده میشوند.
طبقه بندی دادهها یک فرآیند دو مرحلهای میباشد. در گام اول، یک مدل براساس مجموعه دادههای آموزشی موجود در پایگاه داده ها ساخته میگردد. مجموعه دادههای آموزشی از رکوردها، نمونهها،مثالها و یا اشیائی که شامل مجموعهای از صفات یا جنبه ها میباشد، تشکیل شدهاند. هر نمونه یک برچسب کلاس معلوم دارد، که در یکی از صفات به نام برچسب کلاس مشخص شده است. به هر یک از نمونه های مجموعه دادههای آموزشی، یک نمونه آموزشی گویند، که به طور تصادفی از مجموعه دادهها انتخاب میشود. زمانی که برچسب کلاس آموزشی مشخص باشد، این مرحله از یادگیری را یادگیری نظارت شده (یادگیری
با ناظر) مینامند. نوع دیگری از یادگیری بدون نظارت (یادگیری بدون ناظر) میباشد،که در آن برچسب کلاس هر نمونه آموزشی نامعلوم است (مانند خوشه بندی). به طور معمول،مدلهای ساخته شده به فرمهایی از قواعد طبقهبندی و درخت تصمیم نشان داده میشوند.
به عنوان مثال یک پایگاه داده ها شامل اطلاعات مشتریان کارتهای اعتبرای را در نظر بگیرید، قواعد طبقهبندی میتواند جهت طبقه بندی مشتریان به نرخ اعتبار عالی و خوب ساخته شوند. از این قواعد میتوان جهت طبقه بندی نمونه دادههای جدید استفاده کرد.
در گام دوم مدل برای طبقه بندی مناسب مشتریان جدید استفاده میشود. قواعد یادگیری
که از تحلیل دادههای مشتریان موجود حاصل شده است، میتواند برای پیشگیری کلاس اعتبار مشتریان جدید با آینده مورد استفاده قرار گیرد.
از نقطه نظر کلی، طبقه بندی و رگرسیون دو نوع اصلی از مسائل پیشگویی هستند، که طبقه بندی جهت پیشگوی مقادیر گسسته و اسمی مورد استفاده قرار میگیرد، در حالی که رگرسیون جهت پیشگویی مقادیر پیوسته مورد استفاده قرار میگیرد. در اینجا ما پیشگویی را برای پیشگویی برچسب کلاس به عنوان طبقه بندی و برای پیشگویی مقادیر پیوسته، به عنوان پیشگویی معرفی میکنیم.
طبقه بندی و پیشگویی کاربردهای زیادی در بازرگانی، بانکداری، پزشکی، ارتباطات، کشاوریز و غیره دارد.
طبقه بندی را میتوان به عنوان یک فرآیند دو مرحلهای در نظر گرفت. اول، یک مدل طبقه بندی با توجه به مجموعه دادههای آموزشی ساخته میشود. چنین مدلی میتواند به فراهم کردن یک درک بهتر از دادههای گمشده کمک کند. به طور معمول، این مدلها به فرمهایی از درخت تصمیم، یا فرمولهای ریاضی نمایش داده میشود. سپس مدل میتواند قوانین اگر- آنگاه را جهت پیشگویی برچسبهای کلاس دادههای جدید که دارای برچسب کلاس نامعلوم هستند، مورد استفاده قرار دهد.
1-6-1-1- روشهای طبقه بندی:
روشهای طبقه بندی در داده کاوی عبارتند از:
1- رگرسیون خطی چند گانه
2- رگرسیون لجستیک
3- تحلیل ممیزی
4- بیز ساده
5- شبکههای عصبی
6- درختهای تصمیم
7- K- نزدیکترین همسایگی
1-6-2- خوشه بندی:
خوشه بندی یکی از مهمترین ابزار کشف دادهها است که در کشفهای تصادفی به کار گرفته میشود. در حال حاضر، اخذ دانش یک گلوگاه عمده در فرآیند مهندسی دانش محس
وب میشود. الگوریتمهای یادگیری ماشین و داده کاوی با هدف استخراج دانش از دادهها، به عنوان روشی برای حل این مشکل مطرح میباشند. یک رهیافت متداول در این زمینه روش خوشه بندی است که برای تصمیمگیری یا طبقه بندی یا کلاس بندی میتواند تصمیمات نمادینی را به نمونههای جدید با استفاده از نمونههای موجود متسب کنند. روشهای خوشه بندی به واسطه قابلیت درکی که در خود نهفته دارند، از اقبال خوبی برخوردار شده اند. وجود قابلیت درک از جه
ات گوناگونی حائز اهمیت میباشد: فهم قلمرو، درک قابلیتهای کلاسبندی، توجیه تصمیم و بالاخره وجود قوانینی نمادینی که میتوانند از روی خوشههای استخراج شده و سپس در یک سیستم تصمیمگیری مبنی بر قوانین به کار گرفته شوند.
خوشهبندی در واقع یک عملیات غیرنظارتی میباشد. این عملیات هنگامی استفاده میشود که ما به دنبال یافتن گروههایی از دادههای مشابه میباشیم بدون اینکه از قبل پیش بینی در مورد شباهتای موجود داشته باشیم. خوشه بندی معمولاً هنگامی استفاده میشود که به دنبال یافتن گروههایی از مشتریان هستیم که قبلاً شناخته نشدهاند. برای مثال میتوان شباهتهای مشتریان در استفاده از تلفن همراه را به منظور گروهبندی مشتریان و تشخیص خدمت جدیدی جستجو نمود.
خوشه بندی عملی است که در طی آن گروههایی از دادهها و یا اقلام وجود دارند به طوری که هر مورد به یک خوشه نسبت داده میشوند واعضای داخل خوشه نیز باید دارای شباهت ذاتی با هم باشند و معیار اندازهگیری شباهت باید کاملاً مشخص باشد و برای هر جفت از موارد قابل محاسبه باشد. بنابراین در هر خوشه یک خود شباهتی بین اقلام آن خوشه وجود دارد.
پایگاههای داده بسیار بزرگ ممکن است شامل متغیرهای بسیار زیاد، ابعاد بسیار بزرگ و ساختار بسیار پیچیده باشند به طوریکه حتی بهترین روشهای داده کاوی مستقیم هم نمی توانند الگوهای معنی داری در آنها را استخراج نمایند. در خیلی از موارد مشکل این نیست که الگویی برای کشف شدن وجود ندارد بلکه در واقع تعداد زیادی الگو وجود دارد ولی روشهای داده کاوی برای جواب دادن به سوالی که مطرح شده است، الگویی کشف نمیکنند.
در بازاریابی ممکن است افراد، جامعه را به وسیله متغیرهایی که از قبل به عنوان معیارهای مناسبی میشناختیم طبقهبندی نماییم. در حالی که ممکن است به دلیل پیچیدگی پایگاه دادهها نظری در مورد متغیرهای طبقهبندی کننده و یا چگونگی تعیین و یا خوشه ها نداشته باشیم. در این گونه موارد است که به سراغ روشهای خوشه بندی میرویم.
خوشه بندی یک روش داه کاوی غیر مستقیم است. برای اکثر روشهای داده کاوی مثل درخت تصمیم گیری و شبکههای عصبی، با یک مجموعه آموزشی شروع کرده و به کمک این مجموع
ه سعی میشود یک مدل برای بخشبندی داده ها، ایجاد گردد. سپس از آن مدل برای پیش بینی دادههای جدید استفاده شود.
در روش خوشه بندی هیچ دستهای از قبل وجود ندارد و در واقع متغیرها به صورت مستقل و وابسته تقسیم نمیشوند. بلکه ما در اینجا به دنبال گروههایی از دادهها هستیم که به هم
شباهت دارند و با کشف این شباهتها میتوان رفتارها را بهتر شناسایی کرد و بر مبنای آنها طوری عمل کرد که نتیجه بهتری حاصل شود.
1-6-3- تحلیل روابط و وابستگیها :
پیشرفت تکنولوژی فروشگاههای خرده فروشی را قادر ساخته است حجم زیادی از دادههای مربوط به خرید هر یک از مشتریان که از آن به عنوان سبد بازار یاد میشود را جمع آوری و ذخیره نمایند. فراهم بودن جزئیات اطلاعات ثبت شده مشتریان منجر به بهبود روشهایی شده است که به طور اتوماتیک روابط بین آیتمهایی که در پایگاه دادهها انبارش شدهاند را جستجو میکنند.
همزمان با پیدایش علم داده کاوی در اوایل دهه 90 الگوریتمهای استخراج قوانین وابستگی از پایگاه دادهها نیز پابه عرصه گذاشت. نویسندگان زیادی در زمینه استخراج قوانین وابستگی در پایگاه دادهها بحث کردهاند. در به مقایسهی الگوریتمهای مهم استخراج قوانین وابستگی، مزیتها و معایب الگوریتمها پرداخت شده است.
اساساً ارتباط میان مجموعه اشیاء وابستگیهای جالب توجهی هستند که منجر به امکان آشکارسازی الگوهای مفید و قوانین وابستگی برای پشتیبانی تصمیم، پیش بینیهای مالی،سیاستهای بازاریابی، وقایع پزشکی و خیلی کاربردهای دیگر میشود. در حقیقت توجهات زیادی را در تحقیقات اخیر به خود جلب کرده است.
تحلیل وابستگیها یک حالت غیر نظارتی داده کاوی میباشد که به جستجو برای یافتن ارتباط در مجموعه دادهها میپردازد. یکی از کاربردیترین حالات تحلیل وابستگیها «تجزیه تحلیل سبد بازار» میباشد که در آن هدف یافتن کالاهایی است که معمولاً به طور همزمان خریدار میشوند. این کار کمک میکند که خرده فروشان بهتر بتوانند کالاهای خود را سازماندهی کرده و چیدمان بهتری از محصولات خود داشته باشند.
دادههای موجود در سبد بازار نشان دهنده خرید مشتری در یک زمان خاص هستند. هر مشتری خرید مجزایی را در کمیتههای مختلف و زمانهای متفاوت انجام میدهد. با تجزیه و تحلیل سبد بازار بینشی برای خرده فروشان از اینکه چه محصولاتی با هم خریداری میشوند فراهم میگردد و بنابراین میتوانند رفتار خرید مشتریان را پیش بینی کنند این کار به آنها کمک میکند که بهتر بتوانند کالاهای خود را سازماندهی کرده و چیدمان بهتری از محصولات خود داشته باشند و بنابراین سودآوری خود را افزایش دهند.
1-6-4- پیش بینی :
در طبقه بندی گروههایی مشخص می شوند که اقلام به آنها تعلق دارند. پیشگوییهایی که براساس مدلهای طبقه بندی ارایه میشوند دارای یک خروجی گسسته میباشد که مشخص میکند که مثلاً یک مشتری جزء گروه با پاسخ مثبت است یا منفی و یک مریض جزء گروه با ریسک بالا است یا پائین. ولی پیش بینی بر خلاف پیش گویی یک مقدار پیوسته را پیش بینی میکند مثلاً تقاضای آینده با قیمت نفت در سال آینده. پیش بینی معمولاً به وسیله رگرسیون (عملیاتی که با
تعیین ارتباط بین متغیرها به پیش بینی میپردازد) صورت میگیرد. بستههای نرم افزار مانند SAS و SPSS معمولاً توانایی حل مسالههای پیجیده را فراهم مینمایند. ولی استفاده از چنین عملیات آماری نیاز به دانش بالای آمار در خصوص شرایط و چگونگی استفاده از این ابزارها را دارد. ابزارهای داده کاوی نظیر شبکههای عصبی نیز به وفور برای پیش بینی استفاده میشود.
از مسایل ساده پیش بینی عبارتند از: پیش بینی مقادیر پیوسته براساس یکسری دادههای موجود. برای مثال پیش بینی درآمد یک فرد براساس مشخصات فرد. ابزارهایی نظیر درخت تصمیم گیری و شبکههای عصبی چنین کاری را انجام میدهند.
از مسایل پیچیده پیش بینی میتوان به پیش بینی یک یا چند مقدار براساس الگوهای تکراری و متوالی مانند سطح سهام بازار در 30 روز آینده براساس دادههای 6 ماه گذشته اشاره کرد. ابزارهای داده کاوی به سختی چنین پیش بینیهایی را انجام میدهند. در این گونه مواقع دادههای موجود باید به صورتی مناسب و در جهت مناسب استفاده شوند و فرمت دادههای خروجی به درستی مشخص باشد. همچنین در این گونه پیش بینی ها نیاز به یک تحلیلگر به منظور پردازش دادههای ورودی و تحلیل دادههای خروجی بیشتر احساس میشود.
1-7-زیربنای داده کاوی:
تکنیکهای داده کاوی نتیجهی تحقیقات گسترده و بلند مدتی است که در طول سالها برای افزایش بازدهی تجاری موسسات بکار برده میشدند. تحقیقات در این زمینه از زمانی آغاز شد که برای نخستین بار اطلاعات تجاری هر سازمان، بر روی سیسمتهای ذخیره سازی آن زمان که ا زنوع
مغناطیسی بودند، ذخیره شدند. این رشته تحقیقات با توسعه و پیشرفت سیسمتهای اطلاعات که قابلیت ذخیرهی حجم بیشتری از دادهها را فراهم میکردند و همچنین از سرعت بسیار بالاتری در ذخیره سازی و بازیابی اطلاعات برخوردار بودند،اهمیت بشتری یافت. روشهای دسترسی تصادفی یا رندم به اطلاعات و پیدایش روشهای حرکت در میان دادهها، خصوصاً بصورت بلادرنگ، فناوری داده کاوی را متحول ساخت.
روشهای داده کاوی بر پایههای زیر استوار هستند:
• گردآوری حجم عظیمی داده
• کامپیوترهای چند پردازندهی قدرتمند
• الگوریتمهای داده کاوی
در سالهای 1960 صنعت گردآوری اطلاعات و امکان ذخیرهی دادهها در تجهیزاتی نظیر نوار و دی
سک توسط شرکتهایی که IBM و CDC از پیشگامان آنها بودند، شکل تجاری به خود گرفت. با رواج چنین مکانیسمهایی تبادل استاتیک اطلاعات امکانپذیر شده، پرسشهای تجاری از قبیل آنکه سود خالص شرکت در پنج سال آخر فعالیت چقدر بود هاست؟ پاسخ داده میشود. 20 سال بعد از فناوری فوق، با پیشرفتهای نرم افزاری و استفاده از بانکهای اطلاعاتی رابطهای و زبان جستجوی ساخت یافته توسط شرکتهای موفقی همچون ORACLE، SYBASE، INFORMIX، BM، MICROSOFT و ; اطلاعات در همان لحظهی ثبت شدن قابل تبادل بودند. بعبارت دیگر تبادل اطلاعات بصورت دینامیک امکانپذیر شده بود. نمونهای از سوالات تجاری که این سیستم پاسخگوی آن است چنین بود: «مقدار فروش شعب (کشور یا شهر مورد نظر) در ماه مارس گذشته چه میزان بوده است؟». در سالهای دههی نود نوبت به تکنولوژیهایی همچون انبار دادهها و امکانات تصمیمگیری نرم افزاری رسید.
1-8- تکنولوژیهای مرتبط با داده کاوی:
1- پردازش تحلیل روی خط OLAP-5
2- بانکهای اطلاعاتی چند بعدی
3- انبار دادهها
پیشگامان ابزارهای نرم افزاری چنین تکنولوژیهایی شرکتهایی نظیر Pilot, Comshare, Arbor Cognos،Microstrategy بودند. البته بلافاصله در همان زمان شرکتهایی نظیر ORACLE, IBM
MICROSOFTکه امروزه نام آنها را در همه جا مشاهده میکنیم نیز کنترل جریان را بدست گرفته و نرم افزارهای آنها بازار را تسخیر کرد. هستهی فناوری داده کاوی شامل علوم آمار، هوش مصنوعی، آموزش ماشین و علوم نوین دیگری است که در طول سالهای گذشته پیشرفت قابل توجهی داشته است.
دانلود این فایل
لیست کل یادداشت های این وبلاگ
دانلود بررسی ارتباط آموزشهای فنی و حرفه ای رسمی با نیازهای بازار
دانلود مقاله مدیریت کشاورزى تحت word
دانلود پاورپوینت جمعیت شناسی :سازمان ملل متحد تحت word
دانلود آزمایش ثبات رنگ کالاهای نساجی تحت word
دانلود پاورپوینت داروهای روان گردان25 اسلاید تحت word
دانلود پاورپوینت بیوگرافی حسین امانت تحت word
[عناوین آرشیوشده]