Стандартизация адресов в формат ФИАС - написать скрипт

25 000 руб. за проект • наличный расчёт, безналичный расчёт
24 апреля 2019, 14:52 • 11 откликов • 75 просмотров
Необходимо разработать скрипт, принимающий на вход адрес в произвольном формате и отдающий на выходе json-массив, содержащий поля адреса в формате ФИАС.

Требуется 2 варианта вывода:
1) Набор полей, полностью соответствующий ФИАС,
2) Набор полей из примера ниже:

Пример входной строки:
Инициативная ул., 5, корп. 1, стр. 2, Москва, 121357

Результат:
33aca0fe-a470-48ee-b4ab-f4ba15ac395c, 45268597000, Россия, 121357, г Москва, , г Москва, ,ул Инициативная, дом 5, стр 2, к 1, ,

Данный набор полей содержит:
Код ФИАС (hex), Код ОКАТО, Страна, Почтовый индекс, Регион, Район, Город/ н.п., Улица, Дом, Строение, Корпус, Квартира

Про сервис Dadata и его возможности знаем, к сожалению, в этой задаче его применить не получится, так как решение должно быть полностью автономное (без обращений к сторонним серверам). Это подразумевает, что помимо скрипта для стандартизации необходимо будет также сделать скрипт для выгрузки базы ФИАС и её обновления.
Базу ФИАС можно посмотреть и скачать здесь: https://fias.nalog.ru/

Очень приветствуется, если у Вас уже был опыт работы с ФИАС и стандартизацией адресов и вы уже знакомы с возможными сложностями и подводными камнями.

Само по себе решение может быть сделано как на базе регулярных выражений, elastic search, так и с использованием машинного обучения и библиотек вроде natasha, deep pavlov, deepmipt ner.
Каждый адрес должен обрабатываться не дольше 1-2 секунд.

Желательный язык реализации - Python.

Для связи указывайте Telegram