Виды анализа данных
Как правило, анализ данных делится на четыре основных типа: описательный, диагностический, прогнозирующий и предписывающий. Это также можно рассматривать как шаги, которые необходимо предпринять в рамках полного процесса анализа, поскольку каждый из этих типов основывается на результатах предыдущего.
Цель описательной аналитики — ответить на вопросы о том, что происходило в прошлом. Методы в этой области используются для обобщения больших наборов данных и описания результатов для заинтересованных сторон с помощью ключевых показателей эффективности или аналогичных показателей. Обратите внимание, что это чисто описательный процесс: результаты приводятся как есть, но еще не прокомментированы. Диагностическая аналитика делает еще один шаг вперед.
После вопроса “что произошло” естественным следующим вопросом, на который здесь дан ответ, является “почему это произошло”. Обычно это достигается путем глубокого изучения результатов процесса описательной аналитики с уделением особого внимания аномалиям в данных. Цель состоит в том, чтобы найти такие аномалии (например, неожиданное изменение показателя производительности), собрать данные, относящиеся конкретно к этим аномалиям, а затем использовать статистические методы для поиска объяснения аномалий.
До этого момента цели были ориентированы в обратном направлении: мы описали и объяснили текущее состояние. Следующий шаг, прогнозный анализ, выходит за рамки текущего состояния и направлен на то, чтобы дать представление о вопросе “что, вероятно, произойдет дальше”. Прогнозная аналитика использует исторические данные с течением времени, чтобы выявить тенденции и определить, будут ли они повторяться. Это может дать ценную информацию о потенциальных будущих путях, а часто и степень уверенности, измеряющую вероятность конкретного результата.
Используемые здесь методы содержат множество классических статистических моделей и более современные методы машинного обучения, такие как нейронные сети, деревья решений или регрессия. Последний тип, предписывающий анализ, является логическим завершением этого процесса. Цель здесь состоит в том, чтобы извлечь данные из процесса прогнозной аналитики и получить рекомендации по будущему поведению.
Это опять же можно сделать с помощью методов машинного обучения: оценивая вероятное влияние различных решений на ключевые показатели эффективности, предписывающая аналитика может помочь компаниям принимать обоснованные решения о своем будущем направлении на рынке.
Иногда первые два типа (описательный и диагностический) считаются “анализом данных”, а не “анализом данных”. В настоящее время аналитика данных часто подразумевает работу с большими данными, то есть анализ больших объемов и/ или высокоскоростных данных. Однако, хотя этот тип данных создает уникальные проблемы с обработкой и управлением данными, общие принципы, описанные выше, применимы к любому виду необработанных данных.
Конвейер анализа данных
Каждый из вышеперечисленных типов обычно включает в себя конвейер анализа данных интеллектуального анализа данных, управления данными, статистического анализа и представления данных. Насколько сложным является каждый из этих этапов, зависит от конкретной цели, о которой идет речь. Например, прогнозная аналитика, основанная на уже существующих описательных результатах, будет легче в части интеллектуального анализа данных и управления данными, но очень тесно связана со статистическим анализом.
Интеллектуальный анализ данных является важным первым процессом для многих задач анализа данных. Он включает в себя извлечение данных из неструктурированных источников, которые могут включать письменный текст, большие базы данных, необработанные данные датчиков или другие типы данных. Ключевым шагом в этом процессе является так называемый “ETL-процесс”: извлеките данные из различных источников, преобразуйте их в удобный и согласованный формат и поместите в базу данных или хранилище данных, чтобы затем продолжить работу с ними. Часто это самый трудоемкий этап в конвейере анализа данных.
Управление данными или хранилище данных — это разработка и внедрение баз данных, которые обеспечивают простой и структурированный доступ к результатам интеллектуального анализа данных. В настоящее время это часто достигается с помощью комбинации реляционных (SQL) баз данных и нереляционных или NoSQL баз данных, в зависимости от конкретных рассматриваемых данных.
Статистический анализ — это то, где на основе данных создаются аналитические данные. Легко сказать, что это самый важный шаг в конвейере, но это не обязательно так: статистический анализ полезен только в том случае, если входные данные были хорошо подготовлены и собраны, в противном случае результаты, вероятно, в лучшем случае будут бесполезными, а в худшем — вводящими в заблуждение.
Наконец, представление данных — это легко упускаемый из виду, но очень важный шаг. Визуализация данных позволяет аналитику данных взять набор цифр и превратить их в убедительный рассказ, который помогает руководителям и менеджерам понять выводы, полученные в результате анализа, и их важность для принятия бизнес-решений на их основе.
Инструменты для анализа данных
Как правило, анализ данных сочетает в себе различные инструменты. Неполный список примеров включает инструменты управления данными и интеллектуального анализа данных, такие как AWS Glue, SQL-серверы, такие как PostgreSQL, MySQL / MariaDB, MS SQL Server, Oracle SQL, или полноценные решения для хранения данных, такие как Oracle Warehouse Builder, SAP-Business Objects, IBM Information Server и Apache Hadoop.
Примерами нереляционных баз данных являются MongoDB или Redis. Статистический анализ обычно выполняется с использованием статистического языка программирования, такого как R или Python (с библиотекой Pandas). Другие библиотеки и инструменты включают scikit-learn, Apache Spark или SQL. Представление данных — это область инструментов визуализации, таких как Tableau, Microsoft PowerBI или библиотеки python matplotlib и plotly.