منابع پایان نامه ارشد درمورد معیار اندازه گیری و مدل فضای برداری

Digital binary code concept.

تعریف 2: L ثابت برای الگوی متنی است Li left تعداد اصطلاح‌ها از متن چپ الگوی متنی است که در اطراف اصطلاح Wi ساخته شده است. Li right تعداد اصطلاحات از متن راست الگوی متنی است که در اطراف اصطلاح Wi ساخته شده است. پس ما
Li left N و Li right N را به صورت زیر تعریف می‌کنیم. [do_widget id=kl-erq-2]
بعد از محاسبه Li left و Liright از متن جدید، بردار اصطلاح را در مدل فضای برداری ایجاد می‌کنیم. اندازه‌ی بردار به وسیله تعداد اصطلاحات متفاوت فیلتر شده کلمات عمومی در ریشه‌ها در متن جدید بدست می‌آید. برای رمز گذاری الگوی متنی، از بردارهای متنی باینری استفاده می‌کنیم که به این معنی است که عضوهای بردار برابر 1 هستند اگر اصطلاح غیر ریشه‌ای مشابه در الگوی متن استفاده شود و 0 اگر اصطلاح نباشد. که اغلب الگوی متنی را از شرح مسأله می‌سازیم و بردار را از طریقی که در بالا بیان شد ایجاد می‌کنیم.
با روش کاوش ایده، ما برداری که الگوی متن را ارائه می‌دهد از متن جدید با مشابه‌ترین بردارهایش از شرح مسأله را به منظور تشخیص اینکه جدید و مفید است مقایسه می‌کنیم. ابتدا باید الگوی متنی را از متن جدید پیدا کنیم که تمام اصطلاحات معنی (هدف) را ارائه دهند و هیچ اصطلاحی در هدف (معنی) که در الگوی متن از شرح مسأله ارائه می‌شود نداشته باشد. اگر تمام الگوهای متن از متن جدید شناخته شده باشند. به این معنی که تمام اصطلاحات در الگوی متنی از شرح مسأله رخ داده باشد. پس ایده برای کاربر جدید نیست بنابراین ایده مفید نیست اگر تمام اصطلاحات در الگوی متن از متن جدید ناشناخته باشند زیرا هیچ ارتباطی به مسأله ندارد؛ و این در m2 نشان داده شده است که برای یافتن ایده جدید و مفید، تعداد اصطلاحات شناخته شده و تعداد اصطلاحات ناشناخته باید متوازن باشند.
تعریف 3: مجموعه از اصطلاحات فیلتر شده‌ی کلمات عمومی و ریشهای ارائه شده در الگوی متنی با شماره i از متن جدید است. مجموعه از اصطلاحات فیلتر شده کلمات عمومی و ریشه ای ارائه شده در الگوی متنی با شماره j از شرح مسأله است. مجموعه ای اصطلاحات فیلتر شده کلمات عمومی و ریشه ای از متن جدید است. X= || درجه است.
{1 , 1 بردار اصطلاح از مدل فضای برداری در رابطه با است.
{0,1 بردار اصطلاح از مدل فضای برداری در رابطه با است.
P=|| = تعداد تمام اصطلاحات در الگوی متنی با شماره i است.
q=| تعداد اصطلاحات شناخته شده در الگوی متن با شماره i در رابطه با الگوی متن با شمارۀ متن با شمارۀ j در شرح مسأله است.
پس 1m را به عنوان اندازه گیری توزیع متوازن اصطلاحات شناخته شده و ناشناخته به صورت زیر تعریف می‌کنیم.
اصطلاحات شناخته شده در الگوی متن از متن جدید باید در شرح مسأله بسیار متناوب‌تر از بقیه اصطلاحات رخ داده باشند. این به این دلیل است که آن‌ها معنی شناخته شده یا هدف شناخته شده را ارائه می‌دهند که بخش اصلی از مسأله است. در شرح مسأله اصطلاحاتی که مسأله را ارائه می‌دهند بسیار متناوب‌تر از بقیه تکرار می‌شوند. برای همین، ما این اصطلاحات متناوب را به وسیله استفاده از درصد Z به عنوان پارامتر تعریف می‌کنیم و m2 را به عنوان تعداد اصطلاحات شناخته شده و متناوب در کنار تعداد کل اصطلاحات بدست می‌آوریم.
تعریف 4:
Z درصد است. مجموعه از %Z اصطلاحات فیل‌تر شده‌ی کلمات عمومی و ریشه‌ای بسیار متناوب در شرح مسأله است. بردار متنی در مدل فضای برداری در رابطه با است. r= | تعداد اصطلاحات شناخته شده است که به طور متناوب در شرح مسأله رخ می دهند. m2 را به عنوان معیار اندازه گیری برای رخ دادن متفاوت اصطلاحات شناخته شده در شرح مسأله تعریف می‌کنیم.
اصطلاحات ناشناخته در الگوی متن از متن جدید رویکرد جدید ارائه می‌دهند، که بخش اصلی از ایده جدید است. این اصطلاحات به صورت نرمال بسیار متناوب‌تر از بقیه اصطلاحات در متن جدید رخ می‌دهند زیرا این متن با ایده جدید سروکار دارد. برای همین، ما اغلب این اصطلاحات متناوب را به وسیله استفاده از درصد Z به عنوان پارامتر تعریف می‌کنیم و. را به عنوان تعداد اصطلاحات متناوب ناشناخته در طول تعداد کل اصطلاحات ناشناخته محاسبه می‌کنیم.
تعریف 5: 𝛗 مجموعه‌ای از %Z از اصطلاحات فیل‌تر شده کلمات عمومی و ریشه‌ای بسیار متناوب در متن جدید است. τ بردار متنی در مدل فضای بردار در رابطه با 𝛗 است.
S=|
تعداد اصطلاحات ناشناخته است که به طور متناوب در متن جدید رخ می‌دهد، ما m3 را به عنوان معیار اندازه گیری برای رخداد متناوب اصطلاحات ناشناخته در متن جدید تعریف می‌کنیم.
بعضی کلمه‌ها (مانند بیشترین، مهم‌ترین، ماکزیمم، مینیمم و …)در یک عبارت اغلب بیانگر رخ دادن ایده جدید در آن عبارت هستند. آن‌ها به هدف متغیر یا معنی متغیر اشاره می‌کند و می‌توانند شاخصی برای ایده جدید باشد.
تعریف :6 مجموعهای از این اصطلاحات خاص است. [0,1 𝝷 بردار اصطلاح در مدل فضای اصطلاح در رابطه با است.= F=| تعداد این اصطلاحات خاص در الگوی متنی با شماره i است. ما m4 را به عنوان معیار اندازه گیری برای هدف و معنا متغییر در نظر می گیریم.
m4=
معیار اندازه گیری کاوش داده بستگی به تمام چهار زیر معیار اندازه گیری اکتشافی است.
تعریف 7: h={1, … , 4} و فاکتور وزنی با معیار اندازه گیری کاوش ایده مجموع تمام این چهار زیر معیار ضرب شده در فاکتور های وزنی gh در حالتی است که pq:
M=
نتایج در زیر معیارهای سوم و دوم بستگی به پارامترها دارد. این پارامترها تفاوت تناوب اصطلا
حات در مسأله است مجموعه %Z از بیشترین تناوب اصطلاحات فیل‌تر شده استفاده می‌شوند.
در روش کاوش ایده به صورت ابتکاری تعیین شد که این پارامتر باید بین %10 با %30 باشد تا زیر معیارهای خوبی بدست آورد. این به این دلیل است که اگر Z بیشتر از 30% باشد پس ما شاید چندین اصلاح را دسته بندی کنیم که تنها یک‌بار به عنوان اصطلاح متناوب رخ داده‌اند؛ و اگر Z کمتر از %10 باشد ما تنها اصطلاحات بسیار متناوب را برای مجموعه شناسایی می‌کنیم. بنابراین، Z را مقدار میانگین قرار دادند (%20).
به علاوه، مشاهده کردیم که زیر معیارهای 3 و 2 به یک اندازه موفق هستند و زیر معیار چهارم کمتر موفق است بنابراین به صورت ابتکاری پارامتر. را %50 و %20= و %20= و %10= قرار دادند.