یافتن متون مشابه با داده‌کاوی

نویسندگان: مهندس علی کرام‌الدینی و دکتر حسین ازگومی

یکی از مسائل بنیادی در داده‌کاوی بررسی داده ها به منظور یافتن عناصر مشابه است؛ یافتن اسناد و متون مشابه در زمینه های مختلفی کاربرد دارد که از مهم‌ترین‌های آن‌ها یافتن سرقت‌های علمی و ادبی نوشتاری است.

در این کتاب روشی نوین برای یافتن سندهای مشابه بر پایه امتیازدهی بر اساس طول و درهم سازی ارائه شده است. در این روش اسناد ابتدا بر اساس طول، امتیازدهی و دسته بندی شده و سپس به‌کمک درهم سازی، سندهای مشابه پیدا می‌شود. این روش نسبت به دیگر روش‌ها از نظر زمانی عملکرد بهتری دارد.