В наше время много говорится о Big data, и на это есть причины. Большой объем анализируемых данных дает компаниям беспрецедентную возможность использовать информацию о клиентах для увеличения своей конкурентоспособности во время, когда способность конкурировать в мировом масштабе никогда не была так важна.

Бытует мнение, что, выбирая между анализом всей доступной информации и лишь ее выборки, всегда нужно использовать всю информацию. Проблема заключается в том, что такое убеждение делит все компании на две группы: те, кто обладает данными, и те, кто нет. Если у вас нет доступа к данным о миллиардах информационных точек, вполне понятно, почему вы недовольны тем, что конкуренты вас опередили.

В настоящей статье будут раскрыты два вопроса:

  • когда удовлетворительным или даже лучшим вариантом будет использование достаточно больших данных, то есть достаточной для анализа выборки данных;
  • в качестве оговорки к предыдущему пункту, насколько обширной должна быть выборка, чтобы данные можно было считать достаточно большими.

Насколько велики достаточно большие данные?
Пару месяцев назад в TechCrunch было опубликовано прекрасное интервью с доктором Майклом Ву, старшим научным сотрудником в компании Lithium. Может показаться забавным, что для выяснения вопроса достаточности выборки используется интервью, в котором говорится, что нужно использовать еще большие наборы данных. Но, возможно, эти два мнения смогут мирно сосуществовать.

Доктор Ву говорил:

Пока данные дают информацию, ошибочным будет полагать, что больший объем данных даст пропорционально больше информации. На самом деле, чем больше у вас данных, тем меньше информации вы получите от дополнительных.

Другими словами:

  • Подтвердит ли массивный набор данных, что ваши выводы статистически значимы? Определенно, да.
  • Способны ли массивные наборы данных дать пропорционально большое число удивительных открытий? Вероятно, нет.

Существует один сценарий, когда можно использовать достаточно большие данные: чтобы сгенерировать гипотезу, которая в дальнейшем будет проверена большим количеством данных.

Эрик Голдсмит замечательно объяснил, как и зачем использовать большие данные. Он говорил: «Сначала установи взаимосвязь, затем определяй ее причины». Так как Эрик не указал размер наборов данных, которые он использует для установления взаимосвязей и причин, используем его слова в качестве советов о том, как ускорить процесс извлечения данных:

  1. Начинайте с небольшого (но статистически значимого) набора данных.
  2. Установите тенденцию.
  3. Разработайте гипотезу.
  4. Обратитесь к более обширному набору данных для тестирования вашей гипотезы.

Эти четыре пункта выглядят простыми, но статистическая значимость все еще важна. Например, колебания показателей могут влиять на размер выборки, как и количество анализируемых переменных. «Насколько велики достаточно большие данные?» — принципиальный вопрос, который ведет нас ко второй части статьи…

Итак, каков объем достаточно больших данных? Эксперимент по нахождению оптимального значения.
Хотя этот опыт не в полной мере согласуется с четырьмя пунктами, изложенными выше, он все же демонстрирует, как удалось определить размер достаточной выборки для конкретного сценария.

Цель
Нужно сравнить и проанализировать эффект изменения числа прогонов WebPagetest на реальном сайте клиента (имя которого, по очевидным причинам, не разглашается), чтобы показать результат ускорения в виде «до и после». Целью эксперимента было проверить допущение, что достаточно информации о дисперсии результатов от проведения 10 прогонов, чтобы получить данные для достоверных заключений. Следует отметить, что рассматривалась только одна переменная — время загрузки.

Методология

  1. С помощью локальной инстанса WebPagetest были собраны данные по 100 прогонам домашней страницы сайта. Это тестирование позволило определить базис для последующего тестирования.
  2. На основе этих данных была сделана повторная статистическая выборка, содержащая 10 000 тестов с 3, 10 и 30 прогонами.
  3. Чтобы максимально сократить отклонения, были использованы исключительно первые просмотры, один браузер (IE9), одна локация (Сан-Хосе) и одна скорость подключения.

Результаты
В целом, ускорение для сотни прогонов составило 31%. Как уже отмечалось, целью эксперимента было узнать, при каком наименьшем наборе прогонов, если такой существует, можно получить тот же результат. Результаты приведены ниже в виде ряда гистограмм.

3 прогона
Первая гистограмма, представленная ниже, показывает результаты тестов с тремя прогонами. Высота каждого столбца означает количество тестов с определенным значением ускорения. Например, пик гистограммы демонстрирует, что около 900 тестов показали ускорение на 50%. Это немного выше, чем 31%, полученный от сотни тестовых прогонов, поэтому результаты с 3 прогонами выглядят сомнительно.

Больше всего в этой диаграмме поражает количество столбцов с нулевым или даже меньшим ускорением. В некоторых тестах с 3 прогонами значится отрицательное ускорение, хотя мы можем быть уверены, что ускорение на этих страницах близко в 31%. В редких случаях тесты с 3 прогонами показывают даже ускорение в -100%.

10 прогонов
Следующая гистограмма демонстрирует результаты от 10 000 тестов с 10 прогонами. Пик близок к 30%, а в целом кривая выглядит более крутой.

Как бы то ни было, все еще встречаются случаи, когда ускорение от тестов с 10 прогонами принимает отрицательное значение и достигает -50%. Ширина кривой все еще довольно велика, поэтому можно ожидать разбежку в результатах ускорения с 10 прогонами от 20 до 40%.

30 прогонов
Гистограмма, отражающая результаты 10 000 тестов с 30 прогонами, имеет четкий пик на 30% ускорении, и в целом кривая еще более крутая.

Выводы
Результаты показали, что часто необходимо до 30 прогонов для достоверной демонстрации ускорения, даже для сайта с 30% ускорения и довольно низкой изменчивостью. Для сайтов с более сильной изменчивостью и/или меньшим ускорением потребуется еще больше прогонов.

Почему? Чем больше отклонение показателей от среднего значения, тем больше данных необходимо для анализа. Во многих проектах с большими данными несколько сотен переменных и их сравнений. Но если колебания небольшие — небольшое количество переменных и связей между ними — вам может хватить и малой выборки.

Что стоит запомнить
Невозможно охватить все мельчайшие нюансы науки сбора и анализа данных в одной статье. Представленные выводы относятся к конкретному описанному сценарию и не могут быть экстраполированы на другие.

Эта статья писалась для того, чтобы показать пример из реальной жизни, заставивший задаться вопросом, каков объем достаточно больших данных, и найти ответ. Ответом оказалось «Больше, чем предполагалось» из-за больших отклонений. Так как пришлось увеличить количество данных для того, чтобы сделать статистически значимые выводы.

Возвращаясь к началу статьи, термин «большие данные» не означает бесконечного тестирования и сбора намного большего, чем нужно для статистической значимости, количества одних и тех же данных. В зависимости от сложности объекта тестирования и степени вариативности ваших результатов, вы можете найти такую точку, в которой будет достаточно переменных и данных для прекращения тестирования.

Перевод.
Автор оригинальной статьи Джошуа Биксби.

Метки: