یافتن متون مشابه با دادهکاوی
نویسندگان: مهندس علی کرامالدینی و دکتر حسین ازگومی
یکی از مسائل بنیادی در دادهکاوی بررسی داده ها به منظور یافتن عناصر مشابه است؛ یافتن اسناد و متون مشابه در زمینه های مختلفی کاربرد دارد که از مهمترینهای آنها یافتن سرقتهای علمی و ادبی نوشتاری است.
در این کتاب روشی نوین برای یافتن سندهای مشابه بر پایه امتیازدهی بر اساس طول و درهم سازی ارائه شده است. در این روش اسناد ابتدا بر اساس طول، امتیازدهی و دسته بندی شده و سپس بهکمک درهم سازی، سندهای مشابه پیدا میشود. این روش نسبت به دیگر روشها از نظر زمانی عملکرد بهتری دارد.