Существуют следующие 2 вида проблем с данными, от которых избавляет процедура их очистки:
Проблемы с признаками — значениями переменных, столбцами в табличном представлении датасета;
На уровне признаков выделяют 6 основных проблем:
Недопустимые значения, которые лежат вне нужного диапазона, например, цифра 7 в поле для школьных оценок по пятибалльной шкале;
отсутствующие значения, которые не введены, бессмысленны или не определены, к примеру, число 000–0000–0000 в качестве телефонного номера;
орфографические ошибки — неверное написание слов: «водитл» вместо «водитель» или «Омск» вместо «Томск», что искажает первичный смысл переменной, подставляя вместо одного города другой;
многозначность: использование разных слов для описания одного и того же по смыслу значения, например, «водитель» и «шофёр» или применение одной аббревиатуры для разных по смыслу значений, к примеру, «БД» может быть сокращением для словосочетания «большие данные» или «база данных»;
перестановка слов, обычно встречается в текстовых полях свободного формата;
вложенные значения — несколько значений в одном признаке, например, в поле свободного формата
Проблемы с записями — объектами, которые являются строками датасета и описываются значениями признаков.
нарушение уникальности, например, паспортного номера или другого идентификатора;
дублирование записей, когда один и тот же объект описан дважды;
противоречивость записей, когда один и тот же объект описан различными значениями признаков;
неверные ссылки — нарушение логических связей между признаками.
1. быть способным выявлять и удалять все основные ошибки и несоответствия, как в отдельных источниках данных, так и при интеграции нескольких источников;
2. поддерживаться определенными инструментами, чтобы сократить объемы ручной проверки и программирования;
3. быть гибким в плане работы с дополнительными источниками.
Поскольку данные являются топливом для машинного обучения и технологий искусственного интеллекта, предприятиям необходимо позаботиться о качестве данных. Хотя рынки данных и другие поставщики данных могут помочь организациям получить чистые и структурированные данные, эти платформы не позволяют предприятиям обеспечить качество данных для собственных данных организации. Поэтому предприятиям необходимо понимать необходимые шаги стратегии бизнес-аналитики и использовать инструменты бизнес-аналитики для устранения проблем в наборах данных.
Более качественные данные влияют на каждое мероприятие, которое включает в себя данные. Почти все современные бизнес-процессы включают в себя данные. Впоследствии, когда бизнес-аналитика рассматривается как важное усилие организации, она может привести к широкому спектру преимуществ для всех.
Некоторые из самых больших преимуществ включают в себя:
Оптимизация бизнес-практик: Представьте себе, что ни в одной из ваших записей нет дубликатов, ошибок или несоответствий. Насколько более эффективными станут все ваши ключевые повседневные действия?
Повышение производительности: Способность сосредоточиться на ключевых рабочих задачах вместо того, чтобы находить нужные данные или делать исправления из-за неверных данных, является существенным преимуществом. Наличие доступа к чистым высококачественным данным с помощью эффективного управления знаниями может изменить ситуацию.
Более быстрый цикл продаж: Маркетинговые решения зависят от данных. Предоставление вашему отделу маркетинга максимально качественных данных означает, что ваша команда специалистов по продажам сможет конвертировать данные в более качественные. Та же самая концепция применима и к B2C-отношениям!Лучшие решения: Мы уже затрагивали это раньше, но достаточно важно, чтобы это повторилось. Лучшие данные = лучшие решения.
Эти различные преимущества в сочетании, как правило, приводят к тому, что бизнес становится более прибыльным. Это происходит не только благодаря лучшим внешним продажам, но и благодаря более эффективным внутренним усилиям и операциям.
Различные типы проблем с данными возникают, когда предприятия объединяют наборы данных из нескольких мест, извлекают данные из Интернета или получают данные от клиентов/других отделов. Примером могут служить проблемы с данными:
Дублирование данных:
Существует 2 или более идентичных записей. Это может привести к искажению инвентаризационных данных/дублированию маркетинговых материалов или ненужным выставлением счетов.
Противоречивые данные:
Когда имеются одни и те же записи с разными атрибутами, это означает, что данные противоречат друг другу. Например, компания с разными версиями адресов может вызвать проблемы с доставкой.
Неполные данные:
Данные, которые имеют недостающие атрибуты. Платежные ведомости сотрудников могут не обрабатываться из-за отсутствия в базе данных их номеров социального страхования.
Недействительные данные: Атрибуты данных не соответствуют стандартизации. Например, 9-значный номер телефона, а не 10-значный.
Проблемы с данными возникают из-за технических проблем:
Проблемы синхронизации: Когда данные неправильно распределены между двумя системами, это также может вызвать проблему. Например, банковская система продаж захватывает новую ипотеку, но не обновляет систему маркетинга банка, тогда клиент может запутаться, если получит сообщение от отдела маркетинга.
В программном обеспечении возникают ошибки в приложениях по обработке данных: приложения могут записывать данные с ошибками или перезаписывать корректные данные из-за различных ошибок
.
Обмущение информации пользователями: Это сокрытие данных по назначению. Люди могут давать неполные или неправильные данные для защиты своей конфиденциальности.
Существует несколько критериев, которые помогают квалифицировать данные как высококачественные. Они таковы:
действительность: Насколько данные соответствуют определенным бизнес-правилам или ограничениям. Некоторые общие ограничения включают в себя:
обязательные ограничения: Некоторые колонки не могут быть пустыми
ограничения по типу данных: Значения в столбце должны быть определенного типа данных.
ограничения диапазона: Минимальные и максимальные значения для чисел или дат
ограничения по иностранным ключам: Набор значений в столбце определяется в столбце другой таблицы, содержащей уникальные значения
уникальные ограничения: Поле или поля должны быть уникальными в наборе данных.
регулярная экспрессия: Текстовые поля должны быть подтверждены таким образом.
межполевая валидация: Определенные условия, которые используют несколько полей, должны содержать
ограничение членства: Это подкатегория ограничений по иностранным ключам. Значения для столбца берутся из набора дискретных значений или кодов.
точность: насколько близко данные соответствуют стандартному или истинному значению.
полнота: Насколько полными или исчерпывающими являются данные и связанные с ними меры.
последовательность: Эквивалентность мер между системами и субъектами
единообразие: обеспечение того, чтобы во всех системах использовались одни и те же единицы измерения.
прослеживаемость: Возможность найти (и получить доступ) источник данных.
Эти различные характеристики в совокупности могут помочь организации получить данные высокого качества, которые могут быть использованы для широкого круга целей с минимальной потребностью в просвещенном гипотезировании.
Хотите данные по чистоте? Иногда полезно подумать о привлечении внешнего консультанта, который поможет вам начать работу. Однако, прежде чем вы это сделаете, есть несколько общих шагов, которым может следовать любая организация, чтобы начать входить в более четкое мышление в области бизнес-аналитики:
#1 Разработать план качества данных
Очень важно сначала понять, где происходит большинство ошибок, чтобы можно было определить их первопричину и составить план для управления ими. Помните, что эффективная практика бизнес-аналитики будет иметь огромное значение для всей организации, поэтому важно оставаться как можно более открытой и коммуникабельной. План должен включать
Ответственные: руководитель уровня С, директор по информационным технологиям (CDO), если компания уже назначила такого руководителя. Кроме того, необходимо назначить ответственного за различные данные.
Метрики: в идеале качество данных должно быть обобщено как единое число по шкале 1-100. В то время как разные данные могут иметь разное качество данных, наличие общего числа может помочь организации измерить их постоянное улучшение. Это общее число может придать больший вес данным, которые имеют решающее значение для успеха компаний, помогая определить приоритетность инициатив по обеспечению качества данных, которые влияют на важные данные.
Действия: необходимо определить четкий набор действий для начала реализации плана по обеспечению качества данных. Со временем эти действия необходимо будет обновлять по мере изменения качества данных и изменения приоритетов компаний.
#2 Корректные данные у источника
Если данные могут быть исправлены до того, как они станут ошибочными (или дублированными) в системе, это экономит часы времени и снижает нагрузку на линию. Например, если ваши формы переполнены и требуют заполнения слишком большого количества полей, вы получите проблемы с качеством данных из этих форм. Учитывая, что предприятия постоянно производят больше данных, очень важно исправлять данные у источника.
#3 Измерьте точность данных
Инвестируйте время, инструменты и исследования, необходимые для измерения точности ваших данных в режиме реального времени. Если вам необходимо приобрести инструмент для измерения точности данных, вы можете ознакомиться с нашей статьей "Инструменты для измерения качества данных", в которой мы объясняем критерии отбора подходящего инструмента для измерения качества данных.
#4 Управление данными и дубликатами
Если некоторые дубликаты все же прокрадываются мимо вашей новой практики входа, убедитесь, что они активно обнаруживаются и удаляются. После удаления любых дубликатов записей, важно также учитывать следующее:
Стандартизацию: Подтверждение того, что в каждом столбце существует один и тот же тип данных.
Нормализация: Обеспечение того, чтобы все данные записывались последовательно.
Слияние: Когда данные разбросаны по нескольким наборам данных, объединение представляет собой акт объединения соответствующих частей этих наборов данных для создания нового файла.
Агрегирование: объединение: Сортировка данных и выражение их в краткой форме.
Фильтрация: Сужение набора данных, чтобы включить в него только ту информацию, которая нам нужна.
Масштабирование: Преобразование данных таким образом, чтобы они вписывались в определенную шкалу, например, 0-100 или 0-1.
Удаление: Удаление дубликатов и выходных точек данных для предотвращения плохой посадки в линейную регрессию.
#5 Добавить данные
Приложение - это процесс, который помогает организациям определить и заполнить недостающую информацию. Надежные сторонние источники часто являются одним из лучших вариантов управления этой практикой.
После выполнения этих 5 шагов ваши данные будут готовы к экспорту в каталог данных и будут использованы в случае необходимости анализа. Помните, что при работе с большими наборами данных 100%-ная чистота практически невозможна.
Как и в случае со многими другими действиями, обеспечение чистоты больших данных представляет собой свой уникальный набор соображений. Впоследствии, существует ряд методик, которые были разработаны, чтобы помочь в бизнес-аналитике:
Таблицы преобразования: когда определенные проблемы с данными уже известны (например, что названия, включенные в набор данных, записываются несколькими способами), их можно отсортировать по соответствующему ключу, а затем воспользоваться поиском, чтобы выполнить преобразование.
Гистограммы: они позволяют идентифицировать значения, которые встречаются реже и могут быть недействительными.
Инструменты: каждый день основные поставщики выходят с новыми и лучшими инструментами для управления большими данными и сложностями, которые могут сопровождать их.
Алгоритмы: Такие алгоритмы, как проверка орфографии или фонетические алгоритмы, могут быть полезны - но они также могут сделать неправильное предложение.
Сегодня почти никогда не бывает экономично вручную редактировать данные для улучшения. Однако, в случае чрезвычайно ценных данных или когда требуются миллионы помеченных точек данных, как в случае с системами распознавания образов, обновление данных вручную может иметь смысл. Если данные будут обновляться вручную, то следует учитывать некоторые лучшие практики:
Обязательно сортируйте данные по различным атрибутам
В случае больших наборов данных попробуйте разбить их на более мелкие наборы для увеличения скорости итерации.
Рассмотрим возможность создания набора функций утилиты, таких как переопределение значений на основе CSV-файла или повторный поиск и замена регексов
Вести учет каждой операции по бизнес-аналитике
Отбор проб может быть отличным способом оценки качества. Как только вы узнаете пределы допусков к качеству данных, это может помочь вам принять решение о размере выборки для оценки качества. Например, если у вас 1000 строк и вам необходимо удостовериться, что проблема качества данных встречается не чаще 5%, проверьте 10% случаев.
Проанализировать сводную статистику, такую как стандартное отклонение или количество пропущенных значений, чтобы быстро найти наиболее распространенные проблемы.
Помня об этом во время любой инициативы по ручной бизнес-аналитике, можно гарантировать постоянный успех проекта.
Существует несколько лучших практик, которые следует учитывать в ходе любой деятельности по бизнес-аналитике. Это так:
Рассматривайте свои данные наиболее целостным образом - думайте не только о том, кто будет проводить анализ, но и о том, кто будет использовать результаты, полученные на его основе.
Усиление контроля над входами в базу данных может гарантировать, что более чистые данные в конечном итоге будут использоваться в системе.
Выбирайте программные решения, способные выделить и потенциально даже устранить неисправные данные до того, как они станут проблематичными.
В случае больших наборов данных не забудьте ограничить размер образца, чтобы свести к минимуму время подготовки и ускорить работу.
Использование бесплатных онлайн-курсов, как платформа соревнований по информатике Kaggle's курсы BI-аналитике, если вы хотите обрабатывать данные внутри и ваша команда данных не имеет достаточного опыта в этой области.