Luck-lady.ru

Настольная книга финансиста
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Требования к анализу данных

Анализ данных и подготовка заключительного отчета

Анализ данных начинается с перевода «сырых» данных в осмысленную информацию и включает их введение в компьютер, проверку на предмет ошибок, кодирование, представление в матричной форме (табулирование). Обычно закодированные исходные данные представляются в виде матрицы, столбцы которой содержат ответы на различные вопросы анкеты, а ряды – респондентов или изучаемые ситуации. Все это называется преобразованием исходных данных.

Далее проводится статистический анализ, т.е. определяются средние величины, частоты, корреляционные и регрессионные соотношения, осуществляется анализ трендов.

Выделяют пять основных видов статистического анализа, используемых при проведении маркетинговых исследований: дескриптивный анализ, выводной анализ, анализ различий, анализ связей и предсказательный анализ. Иногда эти вицы анализа используются по отдельности, иногда – совместно.

В основедескриптивного анализа лежит использование двух групп статистических мер. Первая – включает меры «центральной тенденции», или меры, которые описывают типичного респондента или типичный ответ (средняя величина, мода, медиана). Вторая – включает меры вариации, или меры, описывающие степень схожести или несхожести респондентов или ответов с «типичными» респондентами или ответами (распределение частот, размах вариации и среднее квадратическое отклонение).

Существуют и другие описательные меры, например, меры асимметрии (насколько найденные кривые распределения отличаются от нормальных кривых распределения). Однако они используются не столь часто, как вышеупомянутые, и не представляют особого интереса для заказчика.

Более подробную информацию по данному разделу можно получить из книг по математической статистике, например [6], [8].

Анализ, в основе которого лежит использование статистических процедур (например, проверка гипотез) с целью обобщения полученных результатов на всю совокупность, называетсявыводным анализом.

Вывод является видом логического анализа, направленного на получение общих заключений о всей совокупности на основе наблюдений за малой группой единиц данной совокупности.

Выводы делаются на основе анализа малого числа фактов. Например, если два ваших товарища, имеющие одну и ту же марку автомобиля, жалуются на его качество, то вы можете сделать вывод о низком качестве данной марки автомобиля в целом.

Статистический же вывод основан на статистическом анализе результатов выборочных исследований и направлен на оценку параметров совокупности в целом. В данном случае результаты выборочных исследований являются только отправной точкой для получения общих выводов.

Например, автомобилестроительная компания провела два независимых исследования с целью определения степени удовлетворенности потребителей своими автомобилями. Первая выборка включала 100 потребителей, купивших данную модель в течение последних шести месяцев. Вторая выборка включала 1000 потребителей. В ходе телефонного интервьюирования респонденты отвечали на вопрос; «Удовлетворены вы или не удовлетворены купленной вами моделью автомобиля?» Первый опрос выявил 30% неудовлетворенных, второй – 35%.

Поскольку существуют ошибки выборки и в первом и во втором случаях, то можно сделать следующий вывод. Для первого случая: около 30% опрошенных выразили неудовлетворенность купленной моделью автомобиля. Для второго случая: около 35% опрошенных выразили неудовлетворенность купленной моделью автомобиля. Какой же общий вывод можно сделать в данном случае? Как избавиться от термина «около»? Для этого введем показатель ошибки: 30% + х% и 35% ± у% и сравним х и у. Используя логический анализ, можно сделать вывод, что большая выборка содержит меньшую ошибку и что на ее основе можно сделать более правильные выводы о мнении всей совокупности потребителей. Видно, что решающим фактором для получения правильных выводов является размер выборки. Данный показатель присутствует во всех формулах, определяющих содержание различных методов статистического вывода.

Анализ различий используется для сравнения результатов исследования двух групп (двух рыночных сегментов) с целью определения степени реального различия в их поведении, в реакции на одну и ту же рекламу и т.п.

Проверка существенности различий заключается в сопоставлении ответов на один и тот же вопрос, полученных для двух или более независимых групп респондентов. Кроме того, в ряде случаев представляет интерес сравнение ответов на два или более независимых вопросов для одной и той же выборки.

Примером первого случая может служить изучение вопроса: что предпочитают пить по утрам жители определенного региона – кофе или чай? Первоначально было опрошено на основе формирования случайной выборки 100 респондентов, 60% которых отдают предпочтение кофе; через год исследование было повторено, и только 40% из 300 опрошенных человек высказались за кофе. Как можно сопоставить результаты этих двух исследований? Прямым арифметическим путем сравнивать 40 и 60% нельзя из-за разных ошибок выборок. Хотя в случае больших различий в цифрах, скажем, 20 и 80%, легче сделать вывод об изменении вкусов в пользу кофе. Однако если есть уверенность, что эта большая разница обусловлена прежде всего тем, что в первом случае использовалась очень малая выборка, то такой вывод может оказаться сомнительным. Таким образом, при проведении подобного сравнения в расчет необходимо принять два критических фактора: степень существенности различий между величинами параметра для двух выборок и средние квадратические ошибки двух выборок, определяемые их объемами.

Анализ связей направлен на определение систематических связей (их направленности и силы) переменных. Например, определение, как увеличение затрат на рекламу влияет на увеличение сбыта.

Очень часто маркетолог ищет ответы на вопросы типа: «Увеличится ли показатель рыночной доли при увеличении числа дилеров?», «Есть ли связь между объемом сбыта и рекламой?» Такие связи не всегда имеют причинно-следственный характер, а могут иметь просто статистическую природу. В поставленных вопросах можно определенно говорить о влиянии одного фактора на другой. Однако степень влияния изучаемых факторов может быть различной; скорее всего, влияние могут оказывать также какие-то другие факторы.

Предсказательный анализ используется в целях прогнозирования развития событий в будущем, например, путем анализа временных рядов.

Маркетолог хорошо знает о важности хорошей упаковки для продаваемого товара. Результаты маркетинговых исследований также являются товаром и поэтому должны быть хорошо «упакованы».

Прежде всего, структура заключительного отчета должна соответствовать особым требованиям заказчика. Если их нет, то можно рекомендовать при подготовке заключительного отчета разделить его на три части: вводную, основную и заключительную.

Вводная часть включает начальный лист, титульный лист, договор на проведение исследования, меморандум, оглавление, перечень иллюстраций и аннотацию.

Основная цель меморандума заключается в ориентации читателя на изученную проблему и в создании у отчета положительного имиджа. Меморандум имеет персональный и слегка неформальный стиль. В нем кратко говорится о характере исследования и об исполнителях, комментируются результаты исследования, делаются предложения о дальнейших исследованиях. Объем меморандума – одна страница.

Аннотация ориентирована прежде всего на руководителей, которых не интересуют детальные результаты проведенного исследования. Иногда ее называют «генеральским отчетом». Кроме того, аннотация должна настроить читателя на восприятие основного содержания отчета. В ней должны быть охарактеризованы: предмет исследования, круг рассмотренных вопросов, методология исследования, основные выводы и рекомендации. Объем аннотации – не более одной страницы.

Основная часть отчета состоит из введения, характеристики методологии исследования, обсуждения полученных результатов, констатации ограничений, а также выводов и рекомендаций.

Введение ориентирует читателя на ознакомление с результатами отчета. Оно содержит общую цель отчета и цели исследования, актуальность его проведения.

В методологическом разделе с необходимой степенью детальности описываются: кто или что явилось объектом исследования, используемые методы. Дополнительная информация помещается в приложение. Приводятся ссылки на авторов и источники использованных методов. Читатель должен понять, как были собраны и обработаны данные, почему был использован выбранный метод, а не другие методы.

Главным разделом отчета является раздел, в котором излагаются полученные результаты. Рекомендуется строить его содержание вокруг целей исследования. Зачастую логика данного раздела определяется структурой вопросника, поскольку вопросы в нем излагаются в определенной логической последовательности.

Поскольку не следует маскировать проблемы, которые возникли при проведении исследований, то в заключительный отчет обычно включается раздел «Ограничения исследования». В данном разделе определяется степень влияния ограничений (недостаток времени, денежных и технических средств, недостаточная квалификация персонала и т.д.) на полученные результаты. Например, эти ограничения могли оказать влияние на формирование выборки только для ограниченного числа регионов. Следовательно, проносить полученные результаты на всю страну следует с большой осторожностью или вообще этого делать нельзя.

Читать еще:  Анализ структуры выручки предприятия

Выводы и рекомендации могут быть изложены как в одном, так и в отдельных разделах.

Выводы основываются на результатах проведенного исследования. Рекомендации представляют из себя предположения относительно того, какие следует предпринять действия, исходя из изложенных выводов. Осуществление рекомендаций может предполагать использование знаний, выходящих за рамки полученных результатов.

В заключительной части приводятся приложения, содержащие добавочную информацию, необходимую для более глубокого осмысления полученных результатов.

Помимо написания отчета исследователи часто также делают для клиентов устную презентацию о методах исследования и полученных результатах. В данном случае имеется возможность ответить на возникшие вопросы и обсудить полученные результаты.

Вопросы для повторения и обсуждения

1. Изложите главные преимущества и недостатки методов опроса по сравнению с качественными методами.

2. Какие особенности метода опроса, осуществляемого с помощью компьютера, являются наиболее привлекательными?

3. Что является общим и в чем заключается различие между интервьюированием, осуществленным на дому, в магазине и в офисе?

4. Почему являются такими популярными опросы по телефону?

5. Какие три фактора ресурсного характера влияют на выбор метода опроса?

6. Фирма–производитель охранной сигнализации выбирает метод опроса владельцев квартир относительно предлагаемой системы сигнализации. В случае проникновения вора в квартиру включается звуковой сигнал и имитируется лай сторожевой собаки. Фирма хотела бы знать, какое число потенциальных клиентов имеют информацию о существовании данной системы, что они о ней думают и собираются ли они ее приобрести в следующем году. Какой из рассмотренных методов опроса наиболее пригоден в данном случае и почему?

7. Что понимается под итеративным характером процесса разработки вопросника?

8. В какой последовательности разрабатывается вопросник?

9. Какие типы вопросов используются при составлении анкет?

10. Каковы основные требования к формулированию вопросов?

11. Предположим, вам поручили провести опрос отдохнувших на Кавказе, которые ожидают своего вылета в аэропорту Адлера. Используя туннельный и секционный подходы, сформулируйте вопросы для поиска ответов в следующих направлениях:

· Определите, почему отдохнувшие выбрали именно этот регион для отдыха.

· В каком конкретном месте они отдыхали, как долго и почему выбрали именно его.

· Узнайте, какие сувениры они купили, где, когда и почему были сделаны покупки и по какой цене.

· Постройте демографический профиль опрошенных.

12. Сформулируйте три главные проблемы формирования выборки.

13. Определите отличия между вероятностным и невероятностным методами формирования выборки.

14. По каким аспектам систематическая выборка является более эффективной по сравнению со случайной выборкой?

15. Кратко опишите каждый из четырех невероятностных выборочных методов.

16. Ниже приводятся четыре генеральные совокупности и контуры выборки для них. Для каждой пары определите:

· членов генеральной совокупности, не вошедших в контур выборки;

· единицы контура выборки, которые не являются частью генеральной совокупности.

Можете ли вы определить для каждой генеральной совокупности, является ли ошибка контура выборки допустимой или недопустимой?

Чем занимаются аналитики данных и как начать работать в этой области?

«Человек, который напрямую влияет на решения бизнеса»

Данные собирают все — от магазинов и ресторанов до компаний-монополистов и приложений с миллионной аудиторией. Аналитик данных помогает сделать так, чтобы собранная информация приносила пользу бизнесу. Мы выяснили, какие задачи вместе с экспертами решает такой специалист и почему ему нужно разбираться в бизнес-процессах не хуже владельца компании.

Кто такой аналитик данных

Аналитик данных (или дата-аналитик) — это специалист, который собирает, обрабатывает, изучает и интерпретирует данные. Его работа помогает принимать решения в бизнесе, управлении и науке. Обычно такие специалисты работают в компаниях, которые практикуют data-driven подход — ориентируются на данные и их анализ при принятии решений. Курс «Аналитик данных» Яндекс.Практикума рассчитан именно на это направление.

«Любой продукт, у которого есть аудитория, собирает данные. Аналитика есть в телекоме, банках, играх, консалтинге. Если сильно обобщить, то можно сказать так: там, где есть возможность сохранять данные о продукте и поведении пользователя, рано или поздно должен появиться аналитик», — говорит Анна Чувилина, автор и менеджер программы «Аналитик данных».

Аналитик данных — важный участник бизнеса, потому что обеспечивает уверенность в принятии решений. Создавать новый продукт очень дорого, а ошибка при внедрении новой функции может стоить компании репутации и прибыли. Дата-аналитики проводят А/B-тесты и строят модели, чтобы проверить, как пользователи или клиенты реагируют на нововведения, и оценить перспективы того или иного проекта. Это дешевле и снижает риски бизнеса. Чтобы делать свою работу хорошо, аналитик должен видеть бизнес-процессы. Поэтому важно, чтобы он мог влиять на процесс принятия решения, основываясь на результатах своих исследований. Иначе работа такого специалиста теряет ценность.

Задачи аналитика данных

Хороший аналитик данных — не просто математик с навыками программиста. Он понимает бизнес-процессы и хорошо знает продукт. Такой специалист разбирается, на чем зарабатывает конкретный бизнес. В результате его работы компания может получать больше прибыли и делать своих пользователей счастливее. Сильный аналитик данных прежде чем взяться за работу всегда спрашивает руководителя о том, какую задачу хочет решить бизнес.

Кроме программных инструментов аналитику данных важно развивать — метапрофессиональные умения, которые помогают делать работу лучше. Это способность налаживать общение с коллегами и партнерами, умение решать проблемы и выходить из конфликтных ситуаций с наименьшими потерями, сильный эмоциональный интеллект. Такие навыки больше связаны с личностью человека, чем с его профессиональным уровнем. Но их тоже можно формировать и развивать.

«Важно не путать дата-саентиста и дата-аналитика. Первый — это программист, знающий определенный набор языков и алгоритмов. Он решает поставленную техническую задачу. А дата-аналитик ставит эту задачу и переводит результат на язык бизнеса. Для этого нужно развивать гибкие навыки: работа с требованиями, визуализация данных, переговоры. То есть понимать самому и уметь объяснить, что дает бизнесу ваша аналитика. Изучить программы недостаточно — нужно критически подходить к задаче», — говорит Алексей Колоколов, эксперт по BI и визуализации данных.

Для каждого бизнеса задачи будут свои, а порядок действий общий. Аналитик данных работает так:

  • собирает данные (формирует запрос сам или получает задачу от менеджеров);
  • знакомится с параметрами набора (какие типы данных собраны, как их можно отсортировать);
  • проводит предварительную обработку (очищает от ошибок и повторов, упорядочивает);
  • интерпретирует (анализирует, собственно решает задачу);
  • делает вывод;
  • визуализирует (так, чтобы на основе вывода можно было принять решение, подтвердить или опровергнуть гипотезу).

Типичные задачи, с которыми приходят к дата-аналитику:

  • Получить выгрузку данных для определенных целей
    Бухгалтерии нужен список сотрудников, у которых в семье пятеро детей, — специалист делает выгрузку из базы данных.
  • Ответить на вопрос бизнеса
    Сделать расчет определенной метрики: сколько сотрудников уволилось до конца испытательного срока в этом году и сколько в предыдущем. Если компания вводит новую систему адаптации, то изменения такой метрики покажут результат.
  • Провести А/B-тестирование
    Нужно выяснить, как пользователи реагируют на то, какого цвета кнопка, зеленого или красного. Аналитик тестирует два прототипа. Часть пользователей видят прототип с зеленой кнопкой, другие — с красной. Он смотрит, как реагировали пользователи, проверяет, было ли различие статистически значимо. В итоге — рекомендует решение, которое проверил в ходе теста: внедрить зеленую или красную кнопку.
  • Провести исследования
    Конкретного вопроса от бизнеса нет, но нужен ресерч: взять внешние или внутренние данные, исследовать, найти аномалии или инсайты, провести пиар-исследование.
  • Просчитать, какой вариант выгоднее
    Юнит-экономика: расчет РОИ, инвестиционного потенциала. Оценить окупаемость рекламной кампании или скорректировать бизнес-модель.
  • Выяснить, какой товар и в какое время больше покупают
    Взять группу товаров и посмотреть, есть ли сезонные всплески интереса, сравнить с другими группами.
Читать еще:  Анализ внешней среды прямого воздействия

Статистика позволяет сделать общие выводы по конкретному вопросу. А аналитика данных — исследовать тему со всех сторон, сравнить решения, найти аномалии или инсайты, сопоставить события по множеству параметров. Это открывает новые возможности для бизнеса.

Дата-аналитик может исследовать внутренние данные компании или обратиться к внешним источникам. Анализ открытых данных позволяет отслеживать важные социальные и культурные тренды.

«Дата-аналитик может глубже исследовать проблему. Например, в наших данных по ДТП в России есть доля водителей, которые нарушили правила ОСАГО. Зная эту долю и то, как она менялась в разные годы, мы можем делать выводы о социально-экономической ситуации в регионе — видим тенденцию, когда водители перестают покупать полисы, потому что у них нет денег.

Из того же датасета мы вытаскивали информацию про скрывшихся водителей. Оказалось, что в Омской области 20% водителей покидают место ДТП. Получив эту информацию, мы можем задавать дополнительные вопросы: почему так происходит, что это за социальные и культурные процессы», — рассказывает Сергей Устинов, аналитик данных и проджект-менеджер.

Как начать строить карьеру

Стереотипы в сфере аналитики данных не работают — неважно, гуманитарное или техническое образование получил дата-аналитик.

«У меня нет технического образования, я учился на факультете госуправления. А Python изучал на курсе биоинформатики для биологов. На мой взгляд, этот язык больше всего подходит для старта, база навыков работы с ним приобретается за два-три месяца. Затем стоит изучать профильные библиотеки для сбора и анализа данных. Чем больше ты знаешь библиотек, тем более качественная аналитика тебе доступна», — говорит Сергей Устинов.

Компании не рассчитывают, что начинающий аналитик данных будет уметь сразу всё. Они готовы обучать и направлять молодого специалиста. Главное — интерес к решению бизнес-задач. Правильно сформулированный перед исследованием вопрос важнее, чем большой опыт работы с программными инструментами.

«Программирование и математику можно выучить. А софтскиллы — нарабатываются опытом и практикой. Поэтому дата-аналитику полезны хакатоны и чемпионаты с решением практических задач. Он увереннее чувствует себя, прокачивая стиль мышления, ориентированный на решение конкретных бизнес-задач», — говорит Анна Чувилина.

Начинающих специалистов в сфере ИТ охотнее всего берут на позиции, связанные с анализом данных: доля вакансий для кандидатов с опытом работы меньше года здесь на четверть выше, чем в целом по рынку.

Работодатели ждут, что начинающий специалист:

  • знает хотя бы один язык программирования: Python или R;
  • умеет писать запросы к базам данных SQL;
  • может показать выводы и метрики в виде понятного дашборда (Tableau, Power BI, Amplitude);
  • хочет разбираться в бизнес-процессах, мыслит в терминах бизнес-задач.

Аналитику данных нужно понимать, что такое статистика и гипотеза. Серьезная математика не пригодится, главное ориентироваться в понятиях. В зависимости от запроса компании могут понадобиться навыки работы с Яндекс.Метрикой или Google Analytics. Опытные программисты с сильной математикой, которые не готовы думать в терминах задач бизнеса, закрывают себе путь в профессию аналитика данных.

«Джуниор вырастает в крутого специалиста, решая реальные кейсы. Потому что насмотренность определяет твой уровень: важно, сколько раз жизнь ставила тебя в ситуацию, когда нужно принимать решение. Развиваться в том, как владеешь инструментами, тоже важно. Но и решение реальных задач помогает аналитику данных расти», — говорит Анна Чувилина.

Процесс Data Mining. Начальные этапы

Этап 3. Подготовка данных

Цель этапа: разработка базы данных для Data Mining .

Понятие данных было рассмотрено в лекции № 2 этого курса лекций.

Подготовка данных является важнейшим этапом, от качества выполнения которого зависит возможность получения качественных результатов всего процесса Data Mining . Кроме того, следует помнить, что на этап подготовки данных, по некоторым оценкам, может быть потрачено до 80% всего времени, отведенного на проект.

Рассмотрим подробно, что же представляет собой этот этап.

1. Определение и анализ требований к данным

На этом этапе осуществляется так называемое моделирование данных, т.е. определение и анализ требований к данным, которые необходимы для осуществления Data Mining. При этом изучаются вопросы распределения пользователей (географическое, организационное, функциональное); вопросы доступа к данным, которые необходимы для анализа, необходимость во внешних и/или внутренних источниках данных; а также аналитические характеристики системы (измерения данных, основные виды выходных документов, последовательность преобразования информации и др.).

2. Сбор данных

Наличие в организации хранилища данных делает анализ проще и эффективней, его использование, с точки зрения вложений, обходится дешевле, чем использование отдельных баз данных или витрин данных. Однако далеко не все предприятия оснащены хранилищами данных. В этом случае источником для исходных данных являются оперативные, справочные и архивные БД, т.е. данные из существующих информационных систем.

Также для Data Mining может потребоваться информация из информационных систем руководителей, внешних источников, бумажных носителей, а также знания экспертов или результаты опросов.

Следует помнить, что в процессе подготовки данных аналитики и разработчики не должны привязываться к показателям, которые есть в наличии, и описать максимальное количество факторов и признаков, влияющих на анализируемый процесс.

На этом этапе осуществляется кодирование некоторых данных. Допустим, одним из атрибутов клиента является уровень дохода, который должен быть представлен в системе одним из значений: очень низким, низким, средним, высоким, очень высоким. Необходимо определить градации уровня дохода, в этом процессе потребуется сотрудничество аналитика с экспертом в предметной области . Возможно, для таких преобразований данных потребуется написание специальных процедур.

Определение необходимого количества данных

При определении необходимого количества данных следует учитывать, являются ли данные упорядоченными или нет.

Если данные упорядочены и мы имеем дело с временными рядами, желательно знать, включает ли такой набор данных сезонную/цикличную компоненту. В случае присутствия в наборе данных сезонной/цикличной компоненты, необходимо иметь данные как минимум за один сезон/цикл.

Если данные не упорядочены, то есть события из набора данных не связаны по времени, в ходе сбора данных следует соблюдать следующие правила.

Количество записей в наборе. Недостаточное количество записей в наборе данных может стать причиной построения некорректной модели. С точки зрения статистики, точность модели увеличивается с увеличением количества исследуемых данных. Возможно, некоторые данные являются устаревшими или описывают какую-то нетипичную ситуацию, и их нужно исключить из базы данных. Алгоритмы, используемые для построения моделей на сверхбольших базах данных, должны быть масштабируемыми.

Соотношение количества записей в наборе и количества входных переменных. При использовании многих алгоритмов необходимо определенное (желательное) соотношение входных переменных и количества наблюдений. Количество записей (примеров) в наборе данных должно быть значительно больше количества факторов (переменных).

Набор данных должен быть репрезентативным и представлять как можно больше возможных ситуаций. Пропорции представления различных примеров в наборе данных должны соответствовать реальной ситуации.

Подготовка исходных данных для анализа

Методика анализа с использованием механизмов Data Mining базируется на различных алгоритмах извлечения закономерностей из исходных данных, результатом работы которых являются модели. Таких алгоритмов довольно много, но несмотря на их обилие они не способны гарантировать качественное решение. Никакой самый изощренный метод сам по себе не даст хороший результат, т.к. критически важным становится вопрос качества исходных данных. Чаще всего именно качество данных является причиной неудачи.

Ниже описана методика, следуя которой, можно подготовить качественные данные в нужном объеме для анализа. В этой последовательности действий все достаточно просто и логично, но, несмотря на это, пользователи почти всегда допускают одни и те же тривиальные ошибки. Надеюсь, что статья позволит допускать меньше ошибок такого рода. Здесь перечислен не жесткий набор правил, а, скорее, список рекомендаций, которых желательно придерживаться.

Читать еще:  Индексный анализ себестоимости

Общая схема использования методов Data Mining состоит из следующих шагов (подробнее см. Методика анализа данных).

Эта последовательность действий не зависит от предметной области, поэтому ее можно использовать для любой сферы деятельности.

Выдвижение гипотез

Гипотезой в данном случае будем считать предположение о влиянии определенных факторов на исследуемую нами задачу. Форма этой зависимости в данном случае значения не имеет, т.е. мы может сказать, что на продажи влияет отклонение нашей цены на товар от среднерыночной, но при этом не указывать, как, собственно, этот фактор влияет на продажи. Для решения этой задачи и используется Data Mining. Автоматизировать процесс выдвижения гипотез не представляется возможным, по крайней мере, на сегодняшнем уровне развития технологий. Эту задачу должны решать эксперты – специалисты в предметной области. Полагаться можно и нужно на их опыт и здравый смысл, постараться максимально использовать их знание о предмете и собрать как можно больше гипотез/предположений. Обычно для этих целей хорошо работает тактика мозгового штурма. На первом шаге нужно собрать и систематизировать все идеи, их оценку будем производить позже. Результатом данного шага должен быть список с описанием всех факторов.

Например, для задачи прогнозирования спроса это может быть список следующего вида: сезон, день недели, объемы продаж за предыдущие недели, объем продаж за аналогичный период прошлого года, рекламная компания, маркетинговые мероприятия, качество продукции, бренд, отклонение цены от среднерыночной, наличие данного товара у конкурентов…

В процессе подбора влияющих факторов необходимо максимально абстрагироваться от информационных систем и имеющихся в наличии данных. Очень часто встречается ситуация, когда пользователи говорят : «Вот есть такие данные. Что можно на них получить?». Это порочная практика, т. к. мы должны решать задачу и подбирать данные для ее решения, а не брать имеющуюся информацию и придумывать, что из них можно «выжать». Целью является решение актуальной задачи, а не оправдание затрат на сбор большого объема данных.

После подготовки таблицы с описанием факторов нужно экспертно оценить значимость каждого из факторов. Эта оценка не является окончательной, она будет отправной точкой. В процессе анализа вполне может оказаться, что фактор, который эксперты посчитали очень важным, таковым по сути не является и, наоборот, незначимый с их точки зрения фактор может оказывать значительное влияние. Но в любом случае, все варианты проанализировать сразу невозможно, нужно от чего-то отталкиваться, этой точкой и является оценка экспертов. К тому же, довольно часто реальные данные подтверждают их оценку.

Результатом этого шага может быть таблица следующего вида:

Формализация и сбор данных

Далее необходимо опередить способ представления данных, выбрав один из 4-х видов – число, строка, дата, логическая переменная (да/нет). Достаточно просто определить способ представления, т.е. формализовать некоторые данные, например, объем продаж в рублях – это определенное число. Но довольно часто возникают ситуации, когда непонятно, как представить фактор. Чаще всего такие проблемы возникают с качественными характеристиками. Например, на объемы продаж влияет качество товара. Качество – это довольно сложное понятие, но если этот показатель действительно важен, то нужно придумать способ его формализации. Например, определять качество по количеству брака на тысячу единиц продукции, либо экспертно оценивать, разбив на несколько категорий – отлично/хорошо/удовлетворительно/плохо.

Необходимо оценить стоимость сбора нужных для анализа данных. Дело в том, что некоторые данные легко доступны, например, их можно извлечь из существующих информационных систем. Но есть информация, которую не просто собрать, например, сведения о конкурентах. Поэтому необходимо оценить, во что обойдется сбор данных.

Чем больше будет данных для анализа, тем лучше; их проще отбросить на следующих этапах, чем собрать новые сведения. К тому же необходимо учитывать, что не всегда экспертная оценка значимости факторов будет совпадать с реальной, т. е. в начале не известно, что на самом деле является значимым, а что нет. Мы отталкиваемся от мнения экспертов относительно значимости факторов, но в действительности все может быть иначе. Поэтому желательно иметь побольше данных, чтобы иметь возможность оценить влияние максимального количества показателей.

Но сбор данных не является самоцелью. Если информацию получить легко, то, естественно, нужно ее собрать. Если данные получить сложно, то необходимо соизмерить затраты на ее сбор и систематизацию с ожидаемыми результатами.

Есть несколько методов сбора, необходимых для анализа данных:

  1. Получение из учетных систем. Обычно в учетных системах есть различные механизмы построения отчетов и экспорта данных, поэтому извлечение нужной информации из них чаще всего относительно несложная операция.
  2. Получение сведений из косвенных данных. О многих показателях можно судить по косвенным признакам, и этим нужно воспользоваться. Например, можно оценить реальное финансовое положение жителей определенного региона следующим образом. В большинстве случаев имеется несколько товаров, предназначенных для выполнения одной и той же функции, но отличающихся по цене: товары для бедных, среднеобеспеченных и богатых. Если получить отчет о продажах товара в интересующий регион и проанализировать пропорции, в которых продаются товары для бедных, среднеобеспеченных и богатых, то можно предположить, что чем больше доля дорогих изделий из одной товарной группы, тем более состоятельны в среднем жители данного региона.
  3. Использование открытых источников. Большое количество данных присутствует в открытых источниках, таких как статистические сборники, отчеты корпораций, опубликованные результаты маркетинговых исследований и прочее.
  4. Проведение собственных маркетинговых исследований и аналогичных мероприятий по сбору данных. Это может быть достаточно дорогостоящим мероприятием, но, в любом случае, такой вариант сбора данных возможен.
  5. Ввод данных «вручную», когда данные вводится по различного рода экспертным оценкам сотрудниками организации. Этот метод наиболее трудоемкий.

Стоимость сбора информации различными методами существенно отличается по цене и времени, которое необходимо для этого, поэтому нужно соизмерять затраты с результатами. Возможно, от сбора некоторых данных придется отказаться, но факторы, которые эксперты оценили как наиболее значимые, нужно собрать обязательно не смотря на стоимость этих работ, либо вообще отказаться от анализа. Очевидно, что если эксперт указал некоторый фактор как важный, то не учитывать его просто нельзя, т.к. мы рискуем провести анализ, ориентируясь на второстепенные малозначащие факторы, и, следовательно, получить модель, которая будет давать плохие и нестабильные результаты. А такая модель не представляет практической ценности.

Собранные данные нужно преобразовать к единому формату, например, Excel, текстовой файл с разделителями либо любая СУБД. Данные обязательно должны быть унифицированы, т.е. одна и та же информация везде должна описываться одинаково. Обычно проблемы с унификацией возникают при сборе информации из разнородных источников. В этом случае унификация является серьезной задачей, но ее обсуждение выходит за рамки данной статьи.

Представление и минимальные объемы необходимых данных

Для анализируемых процессов различной природы данные должны быть подготовлены специальным образом.

Упорядоченные данные

Такие данные нужны для решения задач прогнозирования, когда следует определить, каким образом поведет себя тот или иной процесс в будущем на основе имеющихся исторических данных. Чаще всего в качестве одного из фактов выступает дата или время, хотя это и не обязательно, речь может идти и о неких отсчетах, например, данные, с определенной периодичностью собираемые с датчиков.

Для упорядоченных данных (обычно это временные ряды) каждому столбцу соответствует один фактор, а в каждую строку заносятся упорядоченные по времени события с единым интервалом между строками. Не допускается наличие группировок, итогов и прочее, т. е. нужна обычная таблица.

Ссылка на основную публикацию
Adblock
detector