Имеется ввиду по большей части анализ подобия текстовых данных. Приведу пример. Допустим, есть сайт, который занимается страхованием мотоциклов. Этот сайт автоматически собирает тарифы на страховку от разных страховых агентов. Но тут возникает проблема, что у одного страхового агента модели и марки мотоциклов называются по-одному, а у другого страхового агента эти же марки и модели называются по-другому.
Пример: Yamaha Epsylon 300 и Yamaha EPSILON пишутся по-разному, но имеется ввиду один и тот же мотоцикл.
Для того, чтобы сравнивать названия можно использовать например длину Левенштейна. Но поскольку с одной длиной Левенштейна сильно не разгуляешься, то было решено с преподавателем рассмотреть также более общую тему: "Использование нечеткого поиска в тексте". Но, тема все равно остается "Использование расстояния Левенштейна для анализа подобия данных". Её уже утвердили на кафедре :)
Я сдаю работу 21 января, но преподователь хочет уже до 28 декабря иметь текстовый вариант, а после Нового года небольшой программный продукт.
ЧТО ЕСТЬ НА ДАННЫЙ МОМЕНТ
Пример оформления дипломной работы (прикреплен в письме)
Статьи по теме
http://elbuz.com/spravochnie-materiali/algoritmi-primernogo-sopostavleniya-slov-veroyatnosti-raspoznavaniya-naimenovaniy-tovarov-pri-obrabotke-i-analize-prays-listov-postavschikov-konkurentov.-chasti-%E2%84%961.html
http://elbuz.com/spravochnie-materiali/algoritmi-primernogo-sopostavleniya-slov-veroyatnosti-raspoznavaniya-naimenovaniy-tovarov-pri-obrabotke-i-analize-prays-listov-postavschikov-konkurentov.-chasti-%E2%84%962.html
http://habrahabr.ru/post/114997/
http://habrahabr.ru/post/117063/
http://muzhig.ru/levenstein-distance-python/
http://levenshtein.blogspot.fr/
http://www.kodyaz.com/articles/fuzzy-string-matching-using-levenshtein-distance-sql-server.aspx
Есть база данных в MSSQL с марками и моделями из 2-х разных источников. Эти марки и модели в каждом источнике записаны по-своему. Эти таблицы могу вам сбросить в любом формате и виде.
ОРИЕНТИРОВОЧНОЕ СОДЕРЖАНИЕ (Его можно поменять)
Постановка задачи
Определение метрики сходства данных
Примеры задач, которые требуют анализа сходства данных
Утилиты операционных систем
Сравнение в Базах Данных
Виды метрик
Длина Хемминг
Длина Левенштейна
Длина Дамерау-Левенштейна
Основная часть
Методы расчета длины Левенштейна
Алгоритм Вагнера - Фишера
Встречный расчет (алгоритм Хиршберг)
Возможности оптимизации и улучшения
Программный продукт
ЧТО НЕОБХОДИМО СДЕЛАТЬ
Текстовую часть до 28 декабря
При этом нужно показывать преподавателю работу частями (хотя бы тремя частями). Желательно первую часть показать в это воскресенье, а также список литературы, который будем использовать.
Небольшой программный продукт (желательно на C#). Например, можно применить метод Левенштейна к той простой базе данных, что я Вам вышлю.
Тип: Дипломная
Предмет: Дискретная математика
Предикаты математической логики дизъюнктов Хорна
Стоимость: 9040 руб.
Пятый курс - самое время приступить к выполнению самой объемной и самой важной работы в течение всей учебы: .Диплом покажет и выпускнику и аттестационной комиссии, насколько учащийся готов к ведению проектно-конструкторской, научно-исследовательской деятельности. Работа станет свидетельством следую…
Читать дальшеПояснительная записка к дипломному проекту чаще всего необходима студентам технических специальностей. Неправильно написать пояснительную записку проще простого. Поэтому лучше запаситесь терпением и постарайтесь правильно все оформить.Пояснительная записка – обязательное приложение к дипломной рабо…
Читать дальше