Існують наступні 2 види проблем з даними, яких позбавляє процедура їх очищення:
Проблеми з ознаками - значення змінних, стовпцями в табличному поданні датасета;
На рівні ознак виділяють 6 основних проблем:
Неприпустимі значення, що лежать поза потрібним діапазоном, наприклад, цифра 7 у полі для шкільних оцінок за п'ятибальною шкалою;
відсутні значення, які не введені, безглузді або не визначені, наприклад, число 000-0000-0000 як телефонний номер;
орфографічні помилки — неправильне написання слів: «воділ» замість «водій» або «Омськ» замість «Томськ», що спотворює первинний зміст змінної, підставляючи замість одного міста інше;
багатозначність: використання різних слів для опису того самого за змістом значення, наприклад, «водій» і «шофер» або застосування однієї абревіатури для різних за змістом значень, наприклад, «БД» може бути скороченням для словосполучення «великі дані» або "база даних";
перестановка слів зазвичай зустрічається в текстових полях вільного формату;
вкладені значення – кілька значень в одній ознакі, наприклад, у полі вільного формату
Проблеми із записами — об'єктами, які є рядками датасету та описуються значеннями ознак.
порушення унікальності, наприклад, паспортного номера чи іншого ідентифікатора;
дублювання записів, коли той самий об'єкт описаний двічі;
суперечливість записів, коли той самий об'єкт описаний різними значеннями ознак;
неправильні посилання - порушення логічних зв'язків між ознаками.
1. бути здатним виявляти та видаляти всі основні помилки та невідповідності, як в окремих джерелах даних, так і при інтеграції кількох джерел;
2. підтримуватися певними інструментами, щоб скоротити обсяги ручної перевірки та програмування;
3. бути гнучким щодо роботи з додатковими джерелами.
Оскільки дані є паливом для машинного навчання та технологій штучного інтелекту, підприємствам необхідно подбати про якість даних. Хоча ринки даних та інші постачальники даних можуть допомогти організаціям отримати чисті та структуровані дані, ці платформи не дозволяють підприємствам забезпечити якість даних для власних даних організації. Тому підприємствам необхідно розуміти необхідні кроки стратегії бізнес-аналітики та використовувати інструменти бізнес-аналітики для усунення проблем у наборах даних.
Які переваги бізнес-аналітики?
Більш якісні дані впливають на кожен захід, який включає дані. Майже всі сучасні бізнес-процеси включають дані. Згодом, коли бізнес-аналітика сприймається як важливе зусилля організації, вона може призвести до широкого спектру переваг для всіх.
Деякі з найбільших переваг включають:
Оптимізація бізнес-практик: Уявіть собі, що в жодному з ваших записів немає дублікатів, помилок чи невідповідностей. Наскільки ефективнішими стануть усі ваші ключові повсякденні дії?
Підвищення продуктивності: Здатність зосередитись на ключових робочих завданнях замість того, щоб знаходити потрібні дані або робити виправлення через невірні дані, є істотною перевагою. Наявність доступу до чистих високоякісних даних за допомогою ефективного керування знаннями може змінити ситуацію.
Швидший цикл продажів: Маркетингові рішення залежить від даних. Надання вашому відділу маркетингу максимально якісних даних означає, що ваша команда фахівців з продажу зможе конвертувати дані у якісніші. Та ж концепція застосовна і до B2C-отношениям! Кращі рішення: Ми вже зачіпали це раніше, але досить важливо, щоб це повторилося. Найкращі дані = найкращі рішення.
Ці різні переваги у поєднанні, як правило, призводять до того, що бізнес стає більш прибутковим. Це відбувається не тільки завдяки кращим зовнішнім продажам, а й завдяки ефективнішим внутрішнім зусиллям та операціям.
Які різні типи проблем із даними?
Різні типи проблем із даними виникають, коли підприємства об'єднують набори даних із кількох місць, витягують дані з Інтернету чи отримують дані від клієнтів/інших відділів. Прикладом можуть бути проблеми з даними:
Дублювання даних:
Існує 2 чи більше ідентичних записів. Це може призвести до спотворення інвентаризаційних даних/дублювання маркетингових матеріалів або непотрібним виставленням рахунків.
Суперечливі дані:
Коли є ті самі записи з різними атрибутами, це означає, що дані суперечать один одному. Наприклад, компанія з різними версіями адрес може викликати проблеми з доставкою.
Неповні дані:
Дані, які мають відсутні атрибути. Платіжні відомості співробітників можуть опрацьовуватися через відсутність у базі даних їх номерів соціального страхування.
Недійсні дані: Атрибути даних не відповідають стандартизації. Наприклад, 9-значний номер телефону, а не 10-значний.
Які корінні причини проблем із даними?
Проблеми з даними виникають через технічні проблеми:
Проблеми синхронізації: Якщо дані неправильно розподілені між двома системами, це може викликати проблему. Наприклад, банківська система продажів захоплює нову іпотеку, але з оновлює систему маркетингу банку, тоді клієнт може заплутатися, якщо отримає повідомлення від відділу маркетингу.
У програмному забезпеченні виникають помилки в програмах обробки даних: програми можуть записувати дані з помилками або перезаписувати коректні дані через різні помилки
Обмущення інформації користувачами: Це приховування даних призначення. Люди можуть давати неповні або неправильні дані для захисту конфіденційності.
Що таке якісні дані?
Існує кілька критеріїв, які допомагають кваліфікувати дані як високоякісні. Вони такі:
дійсність: Наскільки дані відповідають певним бізнес-правилам чи обмеженням. Деякі загальні обмеження включають:
обов'язкові обмеження: Деякі колонки не можуть бути порожніми
обмеження типу даних: Значення в стовпці повинні бути певного типу даних.
обмеження діапазону: Мінімальні та максимальні значення для чисел або дат
обмеження за іноземними ключами: Набір значень у стовпці визначається в стовпці іншої таблиці, що містить унікальні значення
Унікальні обмеження: Поле або поля мають бути унікальними в наборі даних.
регулярна експресія: Текстові поля мають бути підтверджені таким чином.
міжпольова валідація: Певні умови, які використовують кілька полів, повинні містити
обмеження членства: Це підкатегорія обмежень щодо іноземних ключів. Значення для стовпця беруться із набору дискретних значень чи кодів.