Помощь с обработкой данных
Цена договорная
Желательно реализовать на python.
Есть несколько файлов csv. Там данные по музыке, группы, информация о пользователе(день рождения). Мне нужно проанализировать эти данные и выявить частовстречающиеся слова и жанры. После обработки данных на компьютер сохраняется файл с результатами обработки и в этот файл сохраняется id пользователя.
Обработка данных по каждому пользователю:
- Сначала анализируем информацию о себе и тут выявляем месяц рождения (на сохранение файлы: январь, февраль и т.п. в зависимости что )
- Информацию о музыке (на выход получится например martin garrix, david guetta и тп). Есть правило для обработки данных по музыке:
1) собираем авторов и названия
2) сбрасываем все, до мелких букв
3) в названиях песни оставляем то что в скобках. Можно полностью забирать со скобками, а потом удалять их. Так например, в названии i found bromance (dj socol). Мы забираем отсюда (dj socol)
4) провести разделение авторов, с помощью разделителей: feat., ft., &, and, "x" если нет слева и справа букв, «,», "и" если нет слева и справа букв, «vs.», «vs», «prod. by», «(». После разделения автора записывало на новую строчук
5) Тут настроить поэтапное убирание слов:
- radio mix
- radio edit
- original mix
- vocal audio edit
- dubstep remix
- rock version
- extended remix
- electro mix
- electro remix
- dnb remix
- dnb mix
- video edit
- dubstep mix
- extended mix
- ost и значение до “)” или до «]»
- deluxe version
- deluxe edition
- deluxe explicit version
- luxe edition
- special edition
- piano version
- chillout remix
- radio edition
- vocal edit
- vocal edition
- video edition
- album version
- remix
- mix
- rmx
- mixed
- cover
- dubstep
- acoustic
- edit
6) самом конце убрать все оставшиеся скобки «)», тире и тп. Оставить только буквы и цифры.
7) Найти частотность каждого исполнителя и выявить топ 3 исполнителей
- Информация о группах:
1. собрать частовстречающиеся жанры сообщества(вкапи это дает собрать) и выделить топ 4 сообществ пользователя;
2. Выделить в название частовстречающиеся слова. Английские названия групп перевести через переводчик(api гугла вроде позволяет) на русский язык и потом разделить на отдельные слова и каждое слово морфологическим способом обработать и выявить топ 3 частовстречающихся слов.
После обработки информации происходит группировка всех топов между собой и в каждый файл записываются id пользователей.
Обязательные требования:
- Предоставить код и можно на видео объяснить что и как работает.
- Предоставить работающую программу, запускающаяся на MacOS.
Есть несколько файлов csv. Там данные по музыке, группы, информация о пользователе(день рождения). Мне нужно проанализировать эти данные и выявить частовстречающиеся слова и жанры. После обработки данных на компьютер сохраняется файл с результатами обработки и в этот файл сохраняется id пользователя.
Обработка данных по каждому пользователю:
- Сначала анализируем информацию о себе и тут выявляем месяц рождения (на сохранение файлы: январь, февраль и т.п. в зависимости что )
- Информацию о музыке (на выход получится например martin garrix, david guetta и тп). Есть правило для обработки данных по музыке:
1) собираем авторов и названия
2) сбрасываем все, до мелких букв
3) в названиях песни оставляем то что в скобках. Можно полностью забирать со скобками, а потом удалять их. Так например, в названии i found bromance (dj socol). Мы забираем отсюда (dj socol)
4) провести разделение авторов, с помощью разделителей: feat., ft., &, and, "x" если нет слева и справа букв, «,», "и" если нет слева и справа букв, «vs.», «vs», «prod. by», «(». После разделения автора записывало на новую строчук
5) Тут настроить поэтапное убирание слов:
- radio mix
- radio edit
- original mix
- vocal audio edit
- dubstep remix
- rock version
- extended remix
- electro mix
- electro remix
- dnb remix
- dnb mix
- video edit
- dubstep mix
- extended mix
- ost и значение до “)” или до «]»
- deluxe version
- deluxe edition
- deluxe explicit version
- luxe edition
- special edition
- piano version
- chillout remix
- radio edition
- vocal edit
- vocal edition
- video edition
- album version
- remix
- mix
- rmx
- mixed
- cover
- dubstep
- acoustic
- edit
6) самом конце убрать все оставшиеся скобки «)», тире и тп. Оставить только буквы и цифры.
7) Найти частотность каждого исполнителя и выявить топ 3 исполнителей
- Информация о группах:
1. собрать частовстречающиеся жанры сообщества(вкапи это дает собрать) и выделить топ 4 сообществ пользователя;
2. Выделить в название частовстречающиеся слова. Английские названия групп перевести через переводчик(api гугла вроде позволяет) на русский язык и потом разделить на отдельные слова и каждое слово морфологическим способом обработать и выявить топ 3 частовстречающихся слов.
После обработки информации происходит группировка всех топов между собой и в каждый файл записываются id пользователей.
Обязательные требования:
- Предоставить код и можно на видео объяснить что и как работает.
- Предоставить работающую программу, запускающаяся на MacOS.
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.