Спарсить интересы в категории

40 000 руб. за проект • безналичный расчёт
12 февраля 2019, 17:06 • 2 отклика • 75 просмотров
В моем приложении, человеку предлагаются 22 категории с различными интересами. При введении интереса в поиск он должен получить более релевантные запросы к его интересу с указом категории. Таким образом, если вы введете в поиск интерес "кошка", то вам система предложит на выбор подсказки: кошка (животные), женщина-кошка (музыка) и т.д.

Итак, 22 категории:

1) Спорт
2) Кино
3) Сериалы
4) Книги
5) Наука и технологии
6) Гик-культура
7) Искусство и культура
8) Игры
9) Политика
10) Музыка
11) Образование
12) Красота и здоровье
13) Мода и бренды
14) Еда
15) Путешествия (города, чудеса света и т.д.)
16) Блогеры (на англ и на английском языке одинаково)
17) Животные
18) Бизнес и стартапы (названия компаний и т.д.)
19) Анимация (аниме, дисней и т.д.)
20) Общество
21) Транспорт (машины, самолеты, танки и т.д.)
22) Развлечения и хобби

В каждую категорию нужно спарсить интересы на двух языках - английский и русский.
Пример: В категории "Спорт" для русского языка находятся интересы "керлинг, футбол, гонки и т.д.", для английского "curling, football, rasec и т.д.". В категории спорт не должно быть ошибок, т.е. в ней не должны быть "крокодилы, мороженное, чернобыль".

Задача не так проста, как может казаться с первого взгляда, дело в том, что вам нужно найти сервисы/сервис где взять эти интересы. Количество интересов в каждой категории может колебаться как от 1000 так и до 1 000 000+.

Ответы на возможно возникнувшие вопросы:

Что именно должно быть в категориях?
Более подробно, что в должно быть в каждой категории могу отписать в личку/рассказать подробнее при работе. На некоторые непонятные написал пояснения в скобках. Но, например, интерес "фитнес" должен быть в категории "спорт", т.е. не только виды спорта.

Откуда брать интересы, к примеру - блоггеры и что если в будущем будут приходить новые блоггеры?
Интересы брать откуда угодно. Блоггеров, например, в ютубе. Возможно, он предоставляет API. Да, ютуб может банить и поэтому, возможно, имеются другие ресурсы, которые предоставляют эту информацию.
Самый лучший способ найти сервис, который уже это сделал и выкачать все оттуда. К примеру интересы есть в badoo или tumblr.
Про будущее - такая задача пока не стоит передо мной .

Что если у меня не получится спарсить хотя бы одну-две категории, а все остальные смог?
Решим на месте, но именно в этом случае вы получите свои деньги. Если работа сделана в меньшем объеме - то буду считать, что человек не совсем старался.

Как будет происходит оценка качества работы?
Буду заходить в данные и все их просматривать. Вбивать в поиск "Star Wars" и, если в категории соответственно "кино" данного очень популярного фильма не найдено, то ее нужно доработать.

Результаты приоритетнее всего выслать в файле с названием категории и списком интересов через запятую/enter. Но можно и любой выбранный вариант вами, не сильно принципиально. Форматы на каждую категорию могут быть разными. Одна категория в файле с интересами через запятую, другая в файле в json, третья база данных с IMDb - это не принципиально важно.

Интересуют упорные люди, которые готовы справиться с такой задачей и примерные сроки выполнения (она не горит). По моей оценке задачу можно выполнить за 1 неделю - 1 месяц.






Отзывы
R50 5af9b823d4c75b7722e913f58512fb2d
Заказчик
Работали вместе месяца 2. Мне очень понравилось, что для человека нет таких слов как "не охота, сложно сделать, быстрее бы сдать проект да и забыть заказчика".
Ну и с точки зрения профессиональной компетенции (в сфере парсинга) у него точно все под контролем.
5 лет назад