تحقیق درباره اندازه گیری و خوشه بندی

دانلود پایان نامه

مرحله اول در طوفان فکری، تعریف مسأله به وسیله ایجاد توضیحات مسأله است. سپس، اشخاص ایده‌های جدید را با استفاده از روش‌های خلاقانه مانند ارتباط ایده و غیره تولید می‌کنند.
مرحله‌ی آخر در فرایند طوفان فکری خوشه بندی ایده‌های تولید شده و ارزیابی آن برای تازگی و سودمندی است.
علاوه بر این، چندین رویکرد دیگر در ارتباط با خلق ایده جدید وجود دارد. ما می‌توانیم از تمام این رویکردها یاد بگیریم که برای خلق ایده‌ها سه مرحله ضروری است.
مرحله اول تمرکز روی مسأله است، مرحله دوم تولید بعضی ایده‌های جدید به خصوص برای مسأله با استفاده از متدهای خلاقانه است و مرحله سوم ارزیابی ایده‌های تولید شده برای تازگی و سودمندی در رابطه با مسأله است. در ارجاع به این رویکردها یک پایه مناسب برای فرایند کاوش ایده ساخته شد.
بنابراین، کاوش ایده اغلب شامل سه مرحله است. در مرحله اول، روی مسأله تمرکز می‌کنیم. اینجا کاربر رویکرد کاوش ایده باید اطلاعات متنی را مهیا کند جایی که او مسأله خاصی را توضیح می‌دهد. مرحله 2، کاربر باید اطلاعات متنی بیشتری که شامل ایده‌های جدید و مفیدی است که احتمالاً می‌تواند راه‌حلی برای مسأله او باشد را مهیا کند. ایده‌ها در عبارات متنی داخل این متن جدید قرار دارند.
بنابراین با یک فرایند اتوماتیک ما تعداد بسیار زیادی از عبارات متنی روی هم رفته را از متن جدید استخراج می‌کنیم که این عبارات متنی، الگوهای متنی نامیده می‌شوند. 38 درصد تمام الگوهای متنی استخراج شده برای مفید بودن و تازگی ارزیابی خواهند شد.
این به این معنی است که آن‌ها با توضیحات مسأله با استفاده از روش کاوش ایده به خصوص مقایسه می‌شوند. با این روش، الگوهای متنی به صورت ایده مفید و جدید دسته بندی خواهند شد. بنابراین کاوش ایده، ایده‌های جدید و مفید را در سه مرحله تعریف می‌کند.
1- تهیه شرح مسأله.
2- استخراج الگوهای متنی از متن جدید.
3- ارزیابی الگوهای متنی برای سودمندی و تازگی در رابطه با شرح مسأله[7].
2-5 فرایند کاوش ایده
شکل 12- فرایند رویکرد کاوش ایده در مراحل مختلف بر اساس پایه‌ای برای فرایند کاوش ایده را نشان می‌دهد.
شکل 2-1: فرایند رویکرد کاوش ایده
بعد از فرایند جداسازی شناسه‌ها و فیلتر اصطلاح، الگوهای متنی ایجاد می‌شوند و بردارهای اصطلاح بر اساس این الگوهای متنی ساخته می‌شوند. بردارهایی اصطلاح از متن جدید با بردارهای اصطلاح از شرح مسأله با استفاده از اندازه گیری فاصله اقلیدسی با هم مقایسه می‌شوند. سپس، بردارهای اصطلاحی از متن جدید با بردارهای اصطلاحی از شرح مسأله با استفاده از اندازه گیری کاوش ایده مقایسه می‌شوند. به عنوان نتیجه، ما بردارهای اصطلاح را از متن جدید که ایده‌های جدید و مفید ارائه می‌دهند را دریافت می‌کنیم.
با جداسازی شناسه‌ها، متن‌ها به اصطلاحات تفکیک می‌شوند و واحد اصطلاحات کلمه است. مجموعه متفاوتی از اصطلاحات در متن به وسیله استفاده از متدهای فیلتر کلمه‌های عمومی و ریشه یابی کاهش پیدا می‌کند. به این منظور، یک لیست کامل از کلمات عمومی به خوبی الگوریتم ریشه یابی پورتر استفاده می‌شوند.
یک مشکل در ارتباط با استفاده از ریشه یابی شناسایی مترادف‌ها است. مترادف‌ها کلمات متفاوتی با معانی یکسان یا مشابه هستند. مترادف‌ها گروهی از کلمات با تلفظ یکسان اما با معنی متفاوت هستند.
با ریشه یابی مترادف‌ها شناسایی نمی‌شوند زیرا ریشه یابی از دانش مفهوم اصطلاح استفاده نمی‌کند. در این رویکرد کاوش داده، ما مترادف‌ها و مفهوم‌ها را شناسایی نمی‌کنیم این به این دلیل است که رویکرد همیشه به مفهوم اصطلاح به وسیله کار روی الگوهای متن که شامل چندین اصطلاح مشترک هستند رسیدگی می‌کند، همان‌طور که در زیر شرح داده می‌شود.
در اینجا ما نشان می‌دهیم که چگونه این الگوهای متنی به صورت اتوماتیک ایجاد می‌شوند. در اطراف ظاهر هر کدام از اصطلاحات در متن جدید، ما الگوی متن شامل اصطلاح انتخاب شده و تمام اصلاحات که در راست و چپ متن اصطلاح انتخاب شده رخ می‌دهد را ایجاد می‌کنیم. برای کاهش الگوهای متن ما فقط الگوهای متنی را در اطراف کلمه‌های غیر عمومی و در اطراف اصطلاحات که در هر دوی متن جدید و شرح مسأله رخ می‌دهند را ایجاد می‌کنیم.
یک تصمیم مهم که باید گرفته شود این است که طول الگوی متن را باید تعیین کنیم. الگوهای متنی نباید بسیار کوتاه باشند به طوری که آن‌ها شامل تمام اصطلاحات ارائه شده در ایده جدید باشند؛ و همچنین الگوهای متنی نباید بسیار بزرگ باشند بطوریکه تنها اصطلاحاتی در الگوی متنی رخ دهند که در ارتباط با ایده جدید باشد.
برای مثال اگر طول الگوی متن را L قرار دهید پس الگوی متن شامل اصطلاح انتخاب شده و شامل L اصطلاح از متن سمت چپش و L اصطلاح از متن سمت راستش است. درجه مجموعه فیلتر کلمه عمومی و اصطلاحات ریشه از این الگو به صورت نرمال کوچک‌تر از 2است زیرا بعضی از کلمه‌های عمومی و بسیاری اصطلاحات 2 بار می‌آیند و بعضی از اصطلاحات ریشه یکسان دارند.
در این مقاله، ما از طول ثابت، برای الگو استفاده نمی‌کنیم اما طول متغیر الگوهای متنی بر اساس وفق دهی پویا با متنش را استفاده می‌کنیم. در آن به وسیله استفاده از شمای توزین اصطلاحات بر اساس تفاوت بین کلمه‌های عمومی و کلمات غیر عمومی بیان کرد که اهمیت کلمات عمومی به اندازه کلمه‌های غیر عمومی بالا نیست. اگر نویسنده ایده را بسیار خلاصه به وسیله پیوستن کلمه‌های اصلی به هم فرموله کند پس به صورت نرمال از بسیاری از کلمه‌های عمومی استفاده نمی‌کند و طول الگوی متن می‌تواند کوچک باشد. اگر نویسنده متن را با سبک گل و بلبل فرموله کند به این معنی که نوشته‌اش را با روش واضح و ساده بیان نکند پس به صورت نرمال از کلمه‌های عمومی زیادی استفاده می‌کند و الگوی متنی باید بزرگ‌تر باشد. در کاوش داده مقدار طول الگوی متن L و u درصد اهمیت کلمهها‌ی عمومی و v درصد اهمیت کلمه‌های غیر عمومی است. در زیر نحوه ارزیابی این روش بیان می‌شود.
برای تشخیص ایده‌های جدید و مفید، اندازه گیری خاص کاوش ایده را به کار می‌بریم. به وسیله مقایسه بردار از متن جدید با کلماتی که از شرح مسأله بدست آمده است، ما می‌توانیم مقدار نتیجه را همیشه بین %5 تا %100 با استفاده از این اندازه گیری محاسبه کنیم. بزرگ‌ترین مقدار نتیجه احتمال این است که بردار از متن جدید ایده مفید و جدید در رابطه با بردار از شرح مسأله را ارائه می‌دهد.
ما از این اندازه گیری برای مقایسه بردارها از متن جدید با بردارهای مشابهشان در شرح مسأله استفاده می‌کنیم اما نه با همه‌ی بردارها، این به این دلیل است که مقایسه بردار با بردار بسیار مشابه‌اش مقادیر نتیجه با قطعیت بهتری را از مقایسه بردار با بردارهای بیشتری را می‌دهد. برای مثال، اگر بردار از متن جدید با بردار از شرح مسأله مشابه باشد، پس ایده جدید نیست بدون در نظر گرفتن اینکه آیا مقادیر نتیجه از مقایسه این بردار با بردارهای بیشتری از شرح مسأله بزرگ‌تر از صفر هستند یا نه؟
بنابراین، ما می‌توانیم مطمئن باشیم که برداری ایده جدید و مفید را ارائه می‌دهد که مقدار نتیجه بزرگ را از کاوش ایده در رابطه با مشابه‌ترین بردارش را بدهد. با توجه به اینکه، محاسبه اندازه گیری کاوش ایده زمان بر است. بنابراین، این ضروری است که تعداد مقایسه‌ها با روش کاوش ایده برای پیاده سازی برنامه کاربردی کاوش ایده را محدود کنیم.
در اینجا روش دسته بندی 2 مرحله‌ای را انتخاب می‌کنیم. در مرحله اول هر بردار از متن جدید با تمام بردارها از شرح مسأله را به وسیله استفاده از اندازه گیری فاصله اقلیدسی مقایسه می‌کنیم. خوشبختانه محاسبه اندازه گیری فاصله اقلیدسی زمان بر نیست بنابراین برای پیاده سازی برنامه کاربردی کاوش ایده مناسب است. با معیار فاصله اقلیدسی برای هر بردار از متن جدید، تمام بردارهای مشابه آن از شرح متن را شناسایی کرده که مقدار نتیجه فاصله اقلیدسی آن کم‌ترین است، بدین معنی که مشابه‌ترین بردارها را شناسایی می‌کنیم. در مرحله دوم، هر بردار را از متن جدید با مشابه‌ترین بردارهایش با استفاده از روش کاوش ایده مقایسه می‌کنیم.
هر بردار از متن جدید- که با چندین بردار مشابه‌اش مقایسه شده- بالاترین مقدار نتیجه را از روش کاوش ایده به عنوان مقدار نتیجه می‌گیرد. برای شناسایی ایده جدید و مفید از متد برش آلفا استفاده می‌کنیم. برش آلفا مقدار نتیجه روش کاوش ایده مجموعه‌ای از تمام بردارها از متن جدید است که مقدار نتیجه مربوطه‌اش بزرگ‌تر یا مساوی آلفا (ᾱ) است[7].
2-5-1 نتایج استفاده از روش کاوش ایده