Зачем собирать сырые данные?

28 августа 2019
Чаще всего мы сталкиваемся с агрегированными данными. Что это такое? Преобразованная информация, собранная из множества данных. Как правило, они используются для построения графиков, отчетов или дашбордов. На базе агрегированных данных руководители быстро принимают решения и делают выводы о работе бизнеса. Мы видим агрегированные данные в таких сервисах аналитики, как Google Analytics, где информация складывается в готовые отчеты, чтобы предоставить пользователю общую картину трендов.
А что делать с сырыми данными, то есть, необработанным содержанием хитов? Оказывается, они не менее полезны, чем наглядные диаграммы. Чем? Сейчас расскажем.
Убрать неточность, вызванную семплированием
Семплирование — метод, где для подготовки отчета используется маленькая выборка данных, а результаты показываются так, будто дашборд был построен на всех имеющихся данным. Этот способ использует самый популярный инструмент аналитики в мире, Google Analytics, в случае, когда ваш бизнес генерирует большие объемы данных. Семплирование удобно в случае с многими задачами, но иногда оно встает на пути к правильным выводам: здесь важно помнить, GA показывает тренды и закономерности, выведенные путем выбора лишь части собранных данных.

Избегать семплирования позволяет платная версией Google Analytics, но её стоимость — 100 000$ в год и выше. Этот вариант подходит для очень крупных компаний, но получать те же сырые данные вы можете и через доступные ETL-сервисы.
Для настройки таргетированных кампаний
Составление узконаправленных пользовательских списков и формирование когорт происходит только на основе сырых данных. Например: вы хотите выделить тех, кто участвовал в акциях вашего бренда в течение года. Что мы имеем? Разная активность, разное время, одни и те же клиенты. Такие люди — сложноотделяемый сегмент, поэтому именно ретроспективная информация по активности пользователей понадобится для образования нужного сегмента для показа рекламы.

А что, если вы настраиваете ретаргетинг? Здесь сырые данные тоже придутся как нельзя кстати: они связываются с рекламными сетями и каналами, чтобы клиент вернулся за новой покупкой или оставил отзыв о вашем сервисе.
Понять, почему расходятся данные
Как мы уже говорили, Google Analytics — инструмент для оценки трендов, поэтому ждать от него стопроцентной точности не стоит. Иногда информация о расходах и кликах может расходиться: скажем, вы одновременно настроили трансфер данных из одного рекламного кабинета через два разных инструмента. При ручном метчинге данных нередко обнаруживаются расхождения до 30%, что, конечно, сказывается на конечной оценке эффективности. Предельная же точность гарантирована только при использовании сырых данных. Они покажут, что именно пошло не так, а вы сможете быстро решить проблему с дублирующимися или отсутствующими данными.
Для кастомной аналитики
Используя сырые данные, аналитик или аналитическое агентство могут разобраться в событиях на глубоком уровне, а значит — оптимизация внутренних механизмов компании автоматически имеет внушительные шансы на успех. Плюс, исходные данные можно связать с данными из других источников и сделать выводы на их основе. А если потребуется провести анализ бизнес-процессов или оценить влияние рекламы на оффлайн продажи, сырые данные помогут использовать любой разрез данных и адаптировать из под вашу систему.
Безопасность
Только в сырых данных видно, где и когда на ваших сервисах происходила подозрительная активность, к примеру, избыточное количество регистраций в день, или странные временные промежутки между схожими действиями. Более того, информация о хитах поспособствуют ловле ботов и фильтрации приходящего спама.
Смена поставщиков и инструментов
Пока вы храните исключительно агрегированные данные, информация находится в определенных системах аналитики и привязана к подрядчикам. Имея в кармане сырые данные, вы вольны переходить от одной системы к другой, использовать новые инструменты и не ограничивать себя работой с конкретными людьми.

Что делать, если вы получаете данные от трекинг-провайдера в режиме реального времени, а связь внезапно прервалась? Сырые данные! Они всегда доступны к выгрузке без привязки к стабильному соединению.
Безлимитное количество информации
Сырые данные могут поступать в любом объеме без ограничения количества строк. Соответственно, когда вам нужно "копнуть" поглубже и увидеть отдельные хиты, сырые данные придут на помощь.
Особые случаи
Прежде чем объединять данные и делать выводы на их основе, часто нужно отредактировать исходники и отсечь лишнее. Для этого придется получить доступ к сырым данным, ведь в случае с агрегированными данными, фильтрация урезается. Как правило, такая "чистка" требуется для оценки результатов социологических исследований или опросов.
Простота
Сбор сырых данных — не такой сложный процесс, как может показаться. Вам понадобится инструмент для автоматического стриминга, который будет делать всё за вас. Сырые данные могут пригодиться на любом из этапов работы компании, поэтому лучше настроить передачу как можно раньше и обратиться к этой информации в любой удобный момент.
Надеемся, количество повторов словосочетания "сырые данные" в этой статье убедило вас начать их собирать, и теперь оптимизация бизнеса действительно принесет желаемый результат.
Будьте в курсе последних новостей!
Раз в месяц мы будем высылать вам подборку наших лучших материалов. И никакого спама.