Автоматизация обработки IP.

	августа 31

Как рассмотрено в статье «Статистика посещений сайта», всю IP

адресацию можно разложить на несколько куч. Более понятны три:

обычные пользователи, роботы-поисковики и спам (бесполезное

хозяйство). Есть и другие, у каждого свое, например, сайты

статистики, …

И, конечно, можно разложить на нужные группы без применения

собственных программ автоматизации обработки данных.

Одним из вариантов является, например, копирование IP адресов

с расшифровкой DNS в офисный пакет Microsoft Word, поиск в новой

порции только уникальных значений (которых нeт в предыдущих

обработках данных), и при нахождении таковых, добавление новой

порции.

Для надежного хранения данных с Вашего сайта, предпочтительней

дублировать данные на локальный компьютер. Однако, IP сети здорово

отличаются от локальных. Но, дублировать все же можно с разложением

на выбранные Вами группировки (пользователи, роботы, спам, …) А,

при достижении новых порций IP сотен и тысяч экземпляров,

предложенная выше ручная обработка, довольно затратная, и, для

сведения времени получения уникальных IP новых данных, лучше все же

кое-что «накорябать», например, на том же PHP, и использовать эту

функциональность только на локальном компьютере.

Алгоритм достаточно понятен: по количеству куч пишем одинаковые модули, с разницей только в обращении к

соответствующим таблицам mySQL (пользователи, роботы, спам, …). Новые данные по IP копируем из статистической

таблицы в приложение «Блокнот», в текстовый файл *.txt – это входной файл. Программа начинается с подключения к

базе и к соответствующей таблице, затем идет открытие входного текстового файла и выходного (куда будут записаны

уникальные значения новой порции IP адресов). Задается строка sql для поиска в таблице, и, здесь, необходимо

учесть разницу формата *.txt, от данных таблицы sql (критерий поиска в таблице равен ltrim(rtrim(записи входной

таблицы)). Далее все понятно: читаем записи входной таблицы до конца файла, формируем sql строку поиска, если не

нашли IP в таблице, записываем в выходной файл. Дойдя до конца входного файла, закрываем входной и выходной

текстовые файлы, затем, вновь открываем, и переписываем из выходного во входной. Текстовые данные готовы для

просмотра в следующей группировке (пользователи, роботы, спам, …) даннвх. Запустив соответственную программу по

каждой из анализируемых группировок, за секунды получаем список новых IP, с которым можно продолжить анализ и

раскладку по группировкам, с последующей корректировкой данных уже на сетевом ресурсе.

Опубликовано 26 12 2017 в рубрике Информационные технологии