دانلود پایان نامه با موضوع معیار اندازه گیری و مدل فضای برداری

دانلود پایان نامه

تعریف 4:
Z درصد است. مجموعه از %Z اصطلاحات فیل‌تر شده‌ی کلمات عمومی و ریشه‌ای بسیار متناوب در شرح مسأله است. بردار متنی در مدل فضای برداری در رابطه با است. r= | تعداد اصطلاحات شناخته شده است که به طور متناوب در شرح مسأله رخ می دهند. m2 را به عنوان معیار اندازه گیری برای رخ دادن متفاوت اصطلاحات شناخته شده در شرح مسأله تعریف می‌کنیم.
اصطلاحات ناشناخته در الگوی متن از متن جدید رویکرد جدید ارائه می‌دهند، که بخش اصلی از ایده جدید است. این اصطلاحات به صورت نرمال بسیار متناوب‌تر از بقیه اصطلاحات در متن جدید رخ می‌دهند زیرا این متن با ایده جدید سروکار دارد. برای همین، ما اغلب این اصطلاحات متناوب را به وسیله استفاده از درصد Z به عنوان پارامتر تعریف می‌کنیم و. را به عنوان تعداد اصطلاحات متناوب ناشناخته در طول تعداد کل اصطلاحات ناشناخته محاسبه می‌کنیم.
تعریف 5: 𝛗 مجموعه‌ای از %Z از اصطلاحات فیل‌تر شده کلمات عمومی و ریشه‌ای بسیار متناوب در متن جدید است. τ بردار متنی در مدل فضای بردار در رابطه با 𝛗 است.
S=|
تعداد اصطلاحات ناشناخته است که به طور متناوب در متن جدید رخ می‌دهد، ما m3 را به عنوان معیار اندازه گیری برای رخداد متناوب اصطلاحات ناشناخته در متن جدید تعریف می‌کنیم.
بعضی کلمه‌ها (مانند بیشترین، مهم‌ترین، ماکزیمم، مینیمم و …)در یک عبارت اغلب بیانگر رخ دادن ایده جدید در آن عبارت هستند. آن‌ها به هدف متغیر یا معنی متغیر اشاره می‌کند و می‌توانند شاخصی برای ایده جدید باشد.
تعریف :6 مجموعهای از این اصطلاحات خاص است. [0,1 𝝷 بردار اصطلاح در مدل فضای اصطلاح در رابطه با است.= F=| تعداد این اصطلاحات خاص در الگوی متنی با شماره i است. ما m4 را به عنوان معیار اندازه گیری برای هدف و معنا متغییر در نظر می گیریم.
m4=
معیار اندازه گیری کاوش داده بستگی به تمام چهار زیر معیار اندازه گیری اکتشافی است.
تعریف 7: h={1, … , 4} و فاکتور وزنی با معیار اندازه گیری کاوش ایده مجموع تمام این چهار زیر معیار ضرب شده در فاکتور های وزنی gh در حالتی است که pq:
M=
نتایج در زیر معیارهای سوم و دوم بستگی به پارامترها دارد. این پارامترها تفاوت تناوب اصطلاحات در مسأله است مجموعه %Z از بیشترین تناوب اصطلاحات فیل‌تر شده استفاده می‌شوند.
در روش کاوش ایده به صورت ابتکاری تعیین شد که این پارامتر باید بین %10 با %30 باشد تا زیر معیارهای خوبی بدست آورد. این به این دلیل است که اگر Z بیشتر از 30% باشد پس ما شاید چندین اصلاح را دسته بندی کنیم که تنها یک‌بار به عنوان اصطلاح متناوب رخ داده‌اند؛ و اگر Z کمتر از %10 باشد ما تنها اصطلاحات بسیار متناوب را برای مجموعه شناسایی می‌کنیم. بنابراین، Z را مقدار میانگین قرار دادند (%20).
به علاوه، مشاهده کردیم که زیر معیارهای 3 و 2 به یک اندازه موفق هستند و زیر معیار چهارم کمتر موفق است بنابراین به صورت ابتکاری پارامتر. را %50 و %20= و %20= و %10= قرار دادند.
سپس، تعیین شد که مقدار برش آلفا α معیار اندازه گیری کاوش ایده m باشد. اگر درصد α کوچک باشد پس اصطلاحات نتیجه‌ی بسیاری بدست می‌آید. این منجر می‌شود که مقدار دقت کوچک باشد زیرا بسیاری از الگوهای متنی استخراج شده شامل ایده جدید و مفید نیستند اگر α بزرگ باشد پس تنها تعداد کمی از نتایج را خواهیم داشت و احتمالاً مقدار برگشتی ما کوچک خواهد بود زیرا ما بسیار از ایده‌های مفید و جدید را در متن جدید پیدا نکردیم. اشخاص خبره نتایج چندین متن را برای مقدار بهینه چک کردند. آن‌ها به این تجربه دست یافتند که 60% یک سازش خوب است بنابراین، α را 60% قرار دادند[7].
4-3 استفاده از روش کاوش ایده در فرایند مهندسی دانش
همان طور که در بخش شرح دادیم یکی از مشکل‌ترین مراحل فرایند مهندسی دانش، کشف دانش است. در این مرحله که به گرداوری دانش پرداخته می‌شود چون منابع گرداوری زیاد هستند به عنوان مرحله‌ای زمان‌بر و پرهزینه قلمداد می‌شود لذا سعی بر آن بوده که بتوانند این مرحله هر چه بیشتر مکانیزه کنند. همان‌طور که در آن بخش شرح دادیم از جمله این منابع سندها، گزارشات، فرم‌ها و… هستند که مهندس دانش باید از لابه‌لای آن‌ها دانش مورد نظر را پیدا کرده و مستندسازی کند. از طرفی باید از خبره‌ها نیز کمک بگیرد. استفاده از روش کاوش ایده در پیدا کردن دانش از لابه‌لای متون می‌تواند مفید باشد خصوصاً برای سیستم‌های خبره‌ای که به صورت پرسش و پاسخ بوده و سعی در حل کردن مسائل مربوطه را دارند. مثلاً سیستم رفع عیب ماشین را در نظر بگیرید که قرار است توسط مهندس دانش طراحی شود. علاوه بر خبره‌ها در این زمینه مستندات زیادی در قالب متن نیز وجود دارند. خبره می‌تواند یک شرح اولیه از مشکلات ماشین تهیه کند و به عنوان شرح مسأله به برنامه کاوش ایده بدهید و از طرف دیگر مستندات موجود را به عنوان متن جدید ارائه دهد همان‌طور که می‌دانیم روش کاوش ایده با سرعت زیاد به کاوش متون پرداخته و ایده‌های جدید را از لابه لای آن پیدا می‌کند و حتی می‌توان برای غنی سازی پایگاه دانش از سایت‌های مرتبط با مسأله استفاده کرد و این به این دلیل است که دیگر مهندس دانش دستی این کار را انجام نمی‌دهد بلکه از روشی مکانیزه استفاده می‌کند بنابراین می‌توان منابع را تا هر میزان که لازم است زیاد کرد. همان‌طور که در بخش شرح داده شد این روش نتایج بهتری از ضریب جکارد می‌دهد بنابراین روش مفیدتری نبست به آن خواهد بود. بنابراین می‌توان فرایند مهندسی دانش را به صورت شکل تغییر داد.
در شکل 1-4 از روش کاوش ایده برای کاوش در مستندات استفاده می‌کنیم و مهندس دانش از خبره‌ها برای جمع آوری دانش کمک می‌گیرد . ایده‌ها ابتدا ارزیابی می‌شوند و بعد به صورت دانش ارائه می‌شوند تا در پایگاه دانش ذخیره شوند. ارزیابی ایده‌ها باید توسط مهندس دانش صورت گیرد.
Knowledge
Validation
(test cases)
Sources of Knowledge
(experts)
Sources of Knowledge
(Documents, forms, …)
Idea mining