Анотація
У роботі дається порівняльне експериментальне дослідження найбільш популярних сучасних методів виявлення нечітких дублікатів для текстових документів. Наводиться кількісна оцінка показників повноти, точності і F-міри. Набір текстів, використаний в експериментах — це веб-колекція РОМІП. Запропоновано два нових алгоритму, що мають високі показники якості.
(
Читати далі
)