دانلود با لینک مستقیم و پر سرعت .
نوع فایل: word
قابل ویرایش 54 صفحه
چکیده:
یکی از روشهای مهم در داده کاوی وب، کاوش استفاده از وب به منظور تعیین ساختار اسناد وب و میزان ارتباط آنها با یکدیگر است. زمانیکه کاربران با توالی های مشخصی به صفحات وب مراجعه می کنند، نشان دهنده یک نوع ارتباط بین آنها است. این توالی ها را الگوهای حرکتی کاربران می گویند و عمل کاوشی که روی این الگوهای حرکتی انجام می گیرد را، کاوش الگوهای حرکتی کاربران وب می گویند. این الگوهای حرکتی درلاگ فایلها ذخیره میشوند و کاوش این الگوهای حرکتی برای کشف ساختار اسناد وب، توسط اتوماتاهای یادگیر، هدف این پایان نامه است. این کاوش منجر به کشف ساختار ارتباطی اسناد وب و میزان ارتباط آنها با یکدیگر می شود که می توان بوسیله آن به خوشه بندی و رتبه بندی اسناد وب پرداخت. درالگوریتمهای پیشنهادی، به هر سند وب یک اتوماتای یادگیر اختصاص داده میشود که وظیفه آن، یادگیری ارتباطات آن سند با دیگر اسناد میباشد. الگوریتمهای پیشنهادی، از مفاهیمی مثل آنتروپی و گرامرهای احتمالی ابرمتن استفاده خواهندکرد. کارایی الگوریتمهای پیشنهادی، از طریق مقایسه با روشهایی مثل آتاماتای یادگیر مورد ارزیابی قرار خواهد گرفت ونشان داده خواهد شد که کارایی الگوریتمهای پیشنهادی در حد این روشها می باشد.
مقدمه:
برای پیدا کردن اطلاعات در وب، دو مسئله اساسی حرکت وجستجو مطرح میباشد[22]. بیشتر کاربران وب معمولا از مرورگروب برای حرکت در بین سایتهای وب استفاده میکنند و معمولا از صفحه اصلی سایت شروع کرده و روی لینکهای ارتباطی، متناسب با علایقی که درذهن خود دارند، کلیک کرده و به جستجوی نیازهای اطلاعاتی خود میپردازند. از طرف دیگرتعداد اطلاعات قابل دسترسی که در وب وجود دارد، بسیار زیاد و هر سال بر حجم این اطلاعات افزوده میشود. بنابر این یکی ازمسائل مهم درچنین مجموعههای بزرگ از اسناد (سایتها یا صفحات وب)، سازماندهی اسناد بنحوی است که بتوان آنها را بصورت کارا بازیابیکرد. یکی از سادهترین این روشها، اندیسگذاری این اسناد میباشد ولی این اندیسگذاری نمیتواند موضوع یک سند را بطورکامل پوشش دهد. در روشی دیگر میتوان از کلیدواژهها استفاده کرد ولی در استفاده از کلیدواژهها مشکل ابهام کلمات مطرح است[18]. مسئله مهم دیگر این است که باید بتوان از اطلاعات کاربران قبلی که در وب به حرکت و جستجو میپردازند، استفاده کرد تا بتوان کاربران جدید را در امر حرکت و جستجو یاری کرد. به عبارت دیگر نیاز به نوعی یادگیری ماشین وجود دارد. زمانیکه کاربران چندین بار با توالیهای مشخصی به صفحات وب مراجعه میکنند، نشان دهنده یک نوع ارتباط بین آن صفحات است. این نوع توالیها را الگوهای حرکتی کاربران میگویند و عمل آنالیز یا کاوشی که روی این الگوهای حرکتی انجام میگیرد را آنالیز یا کاوش الگوهای حرکتی کاربران میگویند. این کاوش، منجر به کشف ساختار ارتباطی اسناد وب میشود. کشف ساختار ارتباطی اسناد وب، باعث پیدا کردن اسناد مشابه به هم شده و میتوان بوسیله آن به خوشهبندی و رتبهبندی اسناد وب پرداخت که در نتیجه سرعت جستجو و حرکت برای کاربران بعدی برای ادامه حرکت، بصورت آسانتری انجام میشود. هدف از کاوش وب، استخراج اطلاعات از اسناد وب، بوسیله تکنیکهای داده کاوی است.
فهرست مطالب:
فصل اول مقدمه
1-1-مقدمه
1-2- تعیین ساختار اسناد وب توسط کاوش استفاده از وب
1-3- مروری کلی برروشهای پیشنهادی
-1-3-1 مفهوم آنتروپی
1-3-2- مفهوم مارکوف
1-4-اهداف پایان نامه
1-5-ساختار پایان نامه
فصل دوم فرآیند مارکوف
2-1- استفاده از فرآیند مارکف
2-2- مفاهیم مربوط به مدل مارکف
2-3- استفاده از زنجیر مارکف برای کشف ساختار ارتباطی اسناد وب
2-4- استفاده از زنجیر مارکف برای پیش بینی صفحات بعدی برای حرکت
فصل سوم آتاماتای یادگیرنده
3-۱- مقدمه
3-۲- تاریخچه اتوماتای یادگیر
3-۳- اتوماتای یادگیر تصادفی
3-۳-۱- اتوماتای تصادفی
3-۳-۲- محیط
3-۴- الگوریتمهای یادگیری
-1-4-3 الگوریتمهای یادگیری استاندارد
-2-4-3 الگوریتمهای یادگیر با ساختار ثابت
-1-2-4-3 اتوماتای دو حالته
-2-2-4-3 توسعه های اتوماتای
-3-2-4-3 اتوماتای حافظه دار با دو اقدام
-4-2-4-3 اتوماتایKrinsky
-5-2-4-3 اتوماتای Krylov
-6-2-4-3 اتوماتای
-7-2-4-3 اتوماتای مهاجرت اشیاء
3-۵- بازیهای اتوماتا
3-۶- برآورد کارایی اتوماتای یادگیر
3-۷- الگوریتمهای تخمین زن
3-۸- الگوریتمهای دنبال کننده
3-۸--۱ الگوریتم
3-۸--۲ الگوریتم
3-۸--۳ الگوریتم
3-۸--۴ الگوریتم
3-۹- اتوماتای یادگیر با تعداد اعمال متغییر
3-۱۰- اتوماتای یادگیر توزیع شده
3-۱۱- نحوه استفاده از اتوماتاهای یادگیر توزیع شده در این پروژه
فصل چهارم بررسی الگوریتم های موجود
-4-1- استفاده از مفهوم آنتروپی
فصل پنجم شبیه ساز (مقایسه)
فصل ششم نتیجه گیری