Помощь с обработкой данных

Цена договорная

27 мая 2019, 14:58 • 5 откликов • 44 просмотра

Желательно реализовать на python.

Есть несколько файлов csv. Там данные по музыке, группы, информация о пользователе(день рождения). Мне нужно проанализировать эти данные и выявить частовстречающиеся слова и жанры. После обработки данных на компьютер сохраняется файл с результатами обработки и в этот файл сохраняется id пользователя.

Обработка данных по каждому пользователю:

- Сначала анализируем информацию о себе и тут выявляем месяц рождения (на сохранение файлы: январь, февраль и т.п. в зависимости что )

- Информацию о музыке (на выход получится например martin garrix, david guetta и тп). Есть правило для обработки данных по музыке:

1) собираем авторов и названия

2) сбрасываем все, до мелких букв

3) в названиях песни оставляем то что в скобках. Можно полностью забирать со скобками, а потом удалять их. Так например, в названии i found bromance (dj socol). Мы забираем отсюда (dj socol)

4) провести разделение авторов, с помощью разделителей: feat., ft., &, and, "x" если нет слева и справа букв, «,», "и" если нет слева и справа букв, «vs.», «vs», «prod. by», «(». После разделения автора записывало на новую строчук

5) Тут настроить поэтапное убирание слов:
- radio mix

- radio edit

- original mix

- vocal audio edit

- dubstep remix

- rock version

- extended remix

- electro mix

- electro remix

- dnb remix

- dnb mix

- video edit

- dubstep mix

- extended mix

- ost и значение до “)” или до «]»

- deluxe version

- deluxe edition

- deluxe explicit version

- luxe edition

- special edition

- piano version

- chillout remix

- radio edition

- vocal edit

- vocal edition

- video edition

- album version

- remix

- mix

- rmx

- mixed

- cover

- dubstep

- acoustic

- edit

6) самом конце убрать все оставшиеся скобки «)», тире и тп. Оставить только буквы и цифры.

7) Найти частотность каждого исполнителя и выявить топ 3 исполнителей

- Информация о группах:
1. собрать частовстречающиеся жанры сообщества(вкапи это дает собрать) и выделить топ 4 сообществ пользователя;
2. Выделить в название частовстречающиеся слова. Английские названия групп перевести через переводчик(api гугла вроде позволяет) на русский язык и потом разделить на отдельные слова и каждое слово морфологическим способом обработать и выявить топ 3 частовстречающихся слов.

После обработки информации происходит группировка всех топов между собой и в каждый файл записываются id пользователей.

Обязательные требования:

- Предоставить код и можно на видео объяснить что и как работает.

- Предоставить работающую программу, запускающаяся на MacOS.

Войдите или зарегистрируйтесь, чтобы откликаться на заказы