دانلود پایان نامه ارشد درمورد معیار اندازه گیری و مدل فضای برداری

دانلود پایان نامه

در روش کاوش ایده، از طول ثابت، برای الگو استفاده نمی‌شود بلکه از طول متغیر الگوهای متنی بر اساس وفق دهی پویا با متنش استفاده می‌شود.
در این روش از شمای توزین اصطلاحات بر اساس تفاوت بین کلمه‌های عمومی و کلمه‌های غیر عمومی و با توجه به اینکه اهمیت کلمات عمومی به اندازه اهمیت کلمه‌های غیر عمومی بالا نیست استفاده می‌شود. اگر نویسنده ایده را بسیار خلاصه به وسیله پیوستن کلمه‌های اصلی به هم فرموله کند پس به صورت نرمال از بسیاری از کلمه‌های عمومی استفاده نمی‌کند و طول الگوی متن می‌تواند کوچک باشد. اگر نویسنده متن را با سبک گل و بلبل فرموله کند به این معنی که نوشته‌اش را با روش واضح و ساده بیان نکند پس او به صورت نرمال از کلمه‌های عمومی زیادی استفاده می‌کند و الگوی متنی باید بزرگ‌تر باشد. در روش کاوش ایده مقدار طول الگوی متن L و u درصد اهمیت کلمه‌ی عمومی و v درصد اهمیت کلمه‌های غیر عمومی می‌تواند به وسیله کاربر اعمال شود.
برای محاسبه تغییر طول الگوی متن باید اول شمای توزین اصطلاح را تعریف کنیم.
تعریف 1: I=[wI …, wn] یک لیست از اصطلاحات (کلمات) wi در ترتیب ذکر شده و nتعداد اصطلاحات در T است و I ، E= [] یک مجموعه ازاصطلاحات در است. درصد U ضریب وزن اصطلاح برای کلمه عمومی است. درصد V ضریب وزن اصطلاح برای کلمه غیرعمومی است. پس ما Fg(w i) را به عنوان شمای وزن اصطلاحات تعریف می‌کنیم.
F g(w i)=
ما یک مثال برای این ارائه می‌دهیم. الگوی متن:
موبایل برای انتقال داده از مادون قرمز
در اطراف کلمه داده ساخته شده است. که این شامل خود کلمه‌ی داده و چهار کلمه از متن قبل از آن، و چهار کلمه از متن بعد از آن است.
اینجا، ما از طول ثابت 4=L استفاده کرده‌ایم و شمای وزنی اصطلاح با %100 = =. این به این معنی است که اهمیت کلمه عمومی و غیرعمومی با هم برابر است. الگوی متن بعدی مثال طول متغیر است.
“که در اولین فاز موجود در آن که از مواد و تکنولوژی‌هایی مانند سیستم‌های لایه‌ای و کریستال‌ها”
این الگوی متن در اطراف کلمه “تکنولوژی‌هایی” ساخته شده است. اینجا ما از طول ثابت L=3 استفاده کردیم و شمای وزنی اصطلاح با U=10X و V=100Y استفاده کردیم. به عنوان نتیجه این الگوی متن شامل 6 اصطلاح برای متن راست و 11 اصطلاح برای متن چپ اصطلاح “تکنولوژی‌هایی” است. در این مثال، کلمه‌های غیر عمومی، فاز، مواد، تکنولوژی، سیستم، لایه و کریستال هستند که تعداد اصطلاحات را از متن چپ و راست به صورت زیر محاسبه کردیم.
تعریف 2: L ثابت برای الگوی متنی است Li left تعداد اصطلاح‌ها از متن چپ الگوی متنی است که در اطراف اصطلاح Wi ساخته شده است. Li right تعداد اصطلاحات از متن راست الگوی متنی است که در اطراف اصطلاح Wi ساخته شده است. پس ما
Li left N و Li right N را به صورت زیر تعریف می‌کنیم.
بعد از محاسبه Li left و Liright از متن جدید، بردار اصطلاح را در مدل فضای برداری ایجاد می‌کنیم. اندازه‌ی بردار به وسیله تعداد اصطلاحات متفاوت فیلتر شده کلمات عمومی در ریشه‌ها در متن جدید بدست می‌آید. برای رمز گذاری الگوی متنی، از بردارهای متنی باینری استفاده می‌کنیم که به این معنی است که عضوهای بردار برابر 1 هستند اگر اصطلاح غیر ریشه‌ای مشابه در الگوی متن استفاده شود و 0 اگر اصطلاح نباشد. که اغلب الگوی متنی را از شرح مسأله می‌سازیم و بردار را از طریقی که در بالا بیان شد ایجاد می‌کنیم.
با روش کاوش ایده، ما برداری که الگوی متن را ارائه می‌دهد از متن جدید با مشابه‌ترین بردارهایش از شرح مسأله را به منظور تشخیص اینکه جدید و مفید است مقایسه می‌کنیم. ابتدا باید الگوی متنی را از متن جدید پیدا کنیم که تمام اصطلاحات معنی (هدف) را ارائه دهند و هیچ اصطلاحی در هدف (معنی) که در الگوی متن از شرح مسأله ارائه می‌شود نداشته باشد. اگر تمام الگوهای متن از متن جدید شناخته شده باشند. به این معنی که تمام اصطلاحات در الگوی متنی از شرح مسأله رخ داده باشد. پس ایده برای کاربر جدید نیست بنابراین ایده مفید نیست اگر تمام اصطلاحات در الگوی متن از متن جدید ناشناخته باشند زیرا هیچ ارتباطی به مسأله ندارد؛ و این در m2 نشان داده شده است که برای یافتن ایده جدید و مفید، تعداد اصطلاحات شناخته شده و تعداد اصطلاحات ناشناخته باید متوازن باشند.
تعریف 3: مجموعه از اصطلاحات فیلتر شده‌ی کلمات عمومی و ریشهای ارائه شده در الگوی متنی با شماره i از متن جدید است. مجموعه از اصطلاحات فیلتر شده کلمات عمومی و ریشه ای ارائه شده در الگوی متنی با شماره j از شرح مسأله است. مجموعه ای اصطلاحات فیلتر شده کلمات عمومی و ریشه ای از متن جدید است. X= || درجه است.
{1 , 1 بردار اصطلاح از مدل فضای برداری در رابطه با است.
{0,1 بردار اصطلاح از مدل فضای برداری در رابطه با است.
P=|| = تعداد تمام اصطلاحات در الگوی متنی با شماره i است.
q=| تعداد اصطلاحات شناخته شده در الگوی متن با شماره i در رابطه با الگوی متن با شمارۀ متن با شمارۀ j در شرح مسأله است.
پس 1m را به عنوان اندازه گیری توزیع متوازن اصطلاحات شناخته شده و ناشناخته به صورت زیر تعریف می‌کنیم.
اصطلاحات شناخته شده در الگوی متن از متن جدید باید در شرح مسأله بسیار متناوب‌تر از بقیه اصطلاحات رخ داده باشند. این به این دلیل است که آن‌ها معنی شناخته شده یا هدف شناخته شده را ارائه می‌دهند که بخش اصلی از مسأله است. در شرح مسأله اصطلاحاتی که مسأله را ارائه می‌دهند بسیار متناوب‌تر از بقیه تکرار می‌شوند. برای همین، ما این اصطلاحات متناوب را به وسیله استفاده از درصد Z به عنوان پارامتر تعریف می‌کنیم و m2 را به عنوان تعداد اصطلاحات شناخته شده و متناوب در کنار تعداد کل اصطلاحات بدست می‌آوریم.
تعریف 4:
Z درصد است. مجموعه از %Z اصطلاحات فیل‌تر شده‌ی کلمات عمومی و ریشه‌ای بسیار متناوب در شرح مسأله است. بردار متنی در مدل فضای برداری در رابطه با است. r= | تعداد اصطلاحات شناخته شده است که به طور متناوب در شرح مسأله رخ می دهند. m2 را به عنوان معیار اندازه گیری برای رخ دادن متفاوت اصطلاحات شناخته شده در شرح مسأله تعریف می‌کنیم.
اصطلاحات ناشناخته در الگوی متن از متن جدید رویکرد جدید ارائه می‌دهند، که بخش اصلی از ایده جدید است. این اصطلاحات به صورت نرمال بسیار متناوب‌تر از بقیه اصطلاحات در متن جدید رخ می‌دهند زیرا این متن با ایده جدید سروکار دارد. برای همین، ما اغلب این اصطلاحات متناوب را به وسیله استفاده از درصد Z به عنوان پارامتر تعریف می‌کنیم و. را به عنوان تعداد اصطلاحات متناوب ناشناخته در طول تعداد کل اصطلاحات ناشناخته محاسبه می‌کنیم.