Блог мнений
мая
17
Автоматизация обработки IP.
 
                 Как рассмотрено в статье «Статистика посещений сайта», всю IP
       адресацию можно разложить на несколько куч. Более понятны три:
       обычные пользователи, роботы-поисковики и спам (бесполезное
       хозяйство). Есть и другие, у каждого свое, например, сайты
       статистики, …
                 И, конечно, можно разложить на нужные группы без применения
       собственных программ автоматизации обработки данных.
                 Одним из вариантов является, например, копирование IP адресов
       с расшифровкой DNS в офисный пакет Microsoft Word, поиск в новой
       порции только уникальных значений (которых нeт в предыдущих
       обработках данных), и при нахождении таковых, добавление новой
       порции.
                 Для надежного хранения данных с Вашего сайта, предпочтительней
       дублировать данные на локальный компьютер. Однако, IP сети здорово
       отличаются от локальных. Но, дублировать все же можно с разложением
       на выбранные Вами группировки (пользователи, роботы, спам, …) А,
       при достижении новых порций IP сотен и тысяч экземпляров,
       предложенная выше ручная обработка, довольно затратная, и, для
       сведения времени получения уникальных IP новых данных, лучше все же
       кое-что «накорябать», например, на том же PHP, и использовать эту
       функциональность только на локальном компьютере.
                 Алгоритм достаточно понятен: по количеству куч пишем одинаковые модули, с разницей только в обращении к
       соответствующим таблицам mySQL (пользователи, роботы, спам, …). Новые данные по IP копируем из статистической
       таблицы в приложение «Блокнот», в текстовый файл *.txt – это входной файл. Программа начинается с подключения к
       базе и к соответствующей таблице, затем идет открытие входного текстового файла и выходного (куда будут записаны
       уникальные значения новой порции IP адресов). Задается строка sql для поиска в таблице, и, здесь, необходимо
       учесть разницу формата *.txt, от данных таблицы sql (критерий поиска в таблице равен ltrim(rtrim(записи входной
       таблицы)). Далее все понятно: читаем записи входной таблицы до конца файла, формируем sql строку поиска, если не
       нашли IP в таблице, записываем в выходной файл. Дойдя до конца входного файла, закрываем входной и выходной
       текстовые файлы, затем, вновь открываем, и переписываем из выходного во входной. Текстовые данные готовы для
       просмотра в следующей группировке (пользователи, роботы, спам, …) даннвх. Запустив соответственную программу по
       каждой из анализируемых группировок, за секунды получаем список новых IP, с которым можно продолжить анализ и
       раскладку по группировкам, с последующей корректировкой данных уже на сетевом ресурсе.
 

Опубликовано 26 12 2017 в рубрике Информационные технологии

Комментарии

Добавить комментарий

Последние статьи

Вверх Вниз