Скрипт Google Apps по поиску и обработке данных

Цена договорная • безналичный расчёт
21 февраля 2018, 14:34 • 1 отклик • 40 просмотров
Скрипт, обрабатывающий данные на Гугл диске (конкретно, таблицы с результатами опросов).
Уточнение. Строки в таблицах соответствуют людям, столбцы — задаваемым вопросам. Т.е. если в таблице 200 строк, то из них первая строка — заголовок с формулировками вопросов, и 199 строк — ответы людей на заданные вопросы.

Объём данных для обработки: как минимум, 25 000 таблиц. Размер каждой таблицы - от 0 до 2000 строк, в среднем 130 строк в таблице.

. Возможен следующий вариант реализации: скрипт будет производить поиск по таблицам после их копирования на сервер. Другими словами, для ускорения работы скрипт будет подготавливать данные путём копирования таблиц с Google диска на отдельный сервер, где выборка данных возможна значительно быстрее, по сравнению с выборкой непосредственно на Google диске. Это означает, что перед использованием скрипта (перед созданием выборок) скрипту надо будет выполнить копирование таблиц с Google диска, что может занять много времени, от 1 до 8 часов. После выполнения такого копирования выборка будет осуществляться быстро, в пределах нескольких минут.

2. Можно также предусмотреть опцию обновления данных. Например, скрипт уже скопировал все таблицы на сервер. А затем появилось 3 новые таблицы, и ещё в двух старых таблицах произошли изменения. Можно предусмотреть кнопку в скрипте, при нажатии на которую он будет проверять, какие новые таблицы появились, и в каких произошли изменения, и скачивать эти изменённые данные. Чтобы не приходилось опять запускать длительную процедуру копирования данных (1-8 часов).

3. Чтобы достичь скорости 25000 таблиц за 3 минуты, необходимо запускать приложение на довольно мощном сервере, чтобы было доступно как минимум 4 ядра для вычислений. Подобные тарифы на FirstVDS называются: VDS Улёт, VDS Форсаж и стоят от 1000 руб/месяц. Готов их подключить.

Возможность удаления повторов (людей с одинаковыми ФИО, номерами телефона, email) из результатов выборки.
Гарантировать работу скрипта через четыре года - : важно иметь возможность обработки увеличенного количества данных.
Скрипт будет обрабатывать до 25000 таблиц за указанное время (до 3 минут), при этом для работы скрипта требуются определенные ресурсы: место на HDD жёстком диске X гигабайтов, оперативная память RAM на сервере Y гигабайтов. Для обработки большего числа таблиц (например, вдвое больше таблиц) скрипту понадобятся увеличенные ресурсы, скажем в два раза больше места на HDD (2*X гигабайтов) и в два раза больше RAM (2*Y гигабайтов), а также увеличится время до выдачи результата в два раза - 6 минут вместо 3 минут. Это всё и будет означать, что скрипт имеет возможность обработки увеличенного объёма данных при повышении доступных ресурсов (место на HDD, размер памяти RAM, время).

Важно учесть, чтобы не приходилось выбирать все значения, которые ранее запрашивали в разных формах вручную, а скрипт учитывал все возможные варианты. Другими словами, предусмотреть в интерфейсе возможность подбирать и “склеивать” поля друг с другом - чтобы колонки с немного разными формулировками вопроса считались одной и той же единицей данных.
Замечание: такое склеивание полей необходимо будет проделывать вручную до запуска скрипта.
Важно: сохранять такие настроенные “склейки” для будущих запусков скрипта.

Примеры входных данных:
мужчины 20-40 лет бухгалтера, из сферы строительства
женщины 18-45 лет, владельцы авто марки форд Мондео, кузов седан, 2010 года выпуска
Женщины 18-35 лет индивидуальные предприниматели имеющие открытый счёт в Промсвязьбанке.

Скрипт уже есть, его нужно только доработать учитывая комментарии.


РедактироватьЗакрыть

Файлы