Для всех заданий надо взять класс MapReduce и для него написать функции reader, map и reduce.
TF-IDF: надо скачать любые 10 книг на одном языке в txt формате и для каждого слова в каждой книге посчитать TF-IDF. Тут вот удобно показано, что надо подавать на вход функциям и что возвращать из них: https://marcellodesales.wordpress.com/2009/12/31/tf-idf-in-hadoop-part-1-word-frequency-in-doc/
Для регрессии и град. спуска надо взять два любых временных ряда (например, стоимости акций каких-нибудь) и построить зависимость одной акции от другой (акция2 = b_0 + b_1 * акция1).
Для графов есть файл для которого надо считать. Сначала надо перевести данные из формата, в котором они на почте в формат связанных списков, т.е. "список рёбер" -> "список смежности" (http://vtcloud5.ulstu.ru/ru/figureimageru?pid=c3a4). А потом принять расстояние до первого узла за 0 и посчитать расстояния до всех остальных узлов алгоритмом BFS (https://courses.cs.washington.edu/courses/cse490h/08au/lectures/algorithms.pdf)
Сочинение — одна из самых сложных частей единого государственного экзамена по русскому языку. Оно требует не только знания определенных правил, но и наличия широкого кругозора и аналитического мышления: только в этом случае вы сможете правильно определить проблему и раскрыть ее в работе. Мы подскаж…
Читать дальшеВо время учёбы студентам приходится выполнять расчётные курсовые, или проекты с расчётной частью. Данный вид заданий вызывает наибольший страх. Но не волнуйтесь! В этой статье мы расскажем, как написать расчётную или расчётно-технологическую часть курсовой работы и какие программы помогут сделать…
Читать дальше