Работа со строками

1 000 руб. за проект • электронные деньги
03 июня 2015, 20:38 • 13 откликов • 123 просмотра
Есть группа файлов (примерно 100)
в каждом файле разное количество строк. В одном может быть 100 000, в другом 50 000, в третьем 10 000 И так далее . В каждом файле повторяются строки. Т.е может быть такое, что в во всех 100 файлах есть одинаковая строка, а может быть что 20 файлах есть одинаковая строка.

Задача:

Нужно удалить повторяющиеся строки в этих файлах, но при этом мы не должны потерять какую-то строку.

Скажем например мы какой-то программой можем соединить все эти файлы и убрать в них повторы и получится например 300 000 строк, вот в итоговых 100 файлах суммарно у нас тоже должно быть 300 000 строк .
И в файлах должны оставаться именно их строки (т.е туда нельзя подмешивать) так же нужно так сказать сбалансировать строки. Если скажем в одном файле у нас 100 000 строк , а в другом 10 000 и все эти 10 000 есть в 100 000 строк, то мы должны вычесть (убрать эти строки из файла. Т.е файлы с маленьким количеством строк всегда в приоритете чем большие.


Лучше всего, чтобы количество строк во всех файлах было приблизительно равное