Наскільки структуровані ваші дані? Вивчення структурованих, неструктурованих та напівструктурованих даних

Відеоролик: Усна історія в навчальному процесі: як створювати та працювати з усноісторичними свідченнями

Зміст

Що таке структуровані дані?
Що таке неструктуровані дані?
Ні помилок, ні стресу - покроковий посібник зі створення програмного забезпечення, що змінює життя, не руйнуючи ваше життя
Попадання між: напівструктурованими даними
Чи можна неструктуровані дані перетворити на структуровані дані?

Джерело: monsitj / iStockphoto

Винос:

Дізнайтеся про структуровані, неструктуровані та напівструктуровані дані.

Історично аналітики даних були здатні розшифровувати та витягувати інформацію лише з одного типу даних: структурованих даних. Цей тип даних був легко в пошуку через чіткі зразки, але являв собою незначний відсоток від загальної кількості доступних даних.

Неструктуровані дані включали також відео, аудіо, s та дані, що надходять із соціальних медіа та мобільних пристроїв. Це був найбільший запас сировинної інформації, але ніхто не зміг надійно використати цей ресурс.

Однак все змінилося, оскільки зростаюча доступність сховища та чудові можливості обробки породили неструктуровану аналітику даних - нову і, таким чином, незрілу форму технології. Краща бізнес-розвідка в повній мірі використовує цю можливість, і значні інвестиції робляться для узагальнення структурованої та неструктурованої аналітики даних для доступу до цього, очевидно, нескінченного золотого шахту інформації.

Давайте ознайомимося з цими двома форматами даних, щоб зрозуміти їх відмінності та те, що має бути майбутнє для всіх аналітиків даних.

Що таке структуровані дані?

Структуровані дані - це сформована людиною або машиною та високоорганізована інформація, яка може легко зберігатися у структурах баз даних рядків, відомих як реляційні бази даних (RDB). Це все, що існує у форматі, який може бути легко захоплений, збережений та організований у структурі RDB, який згодом буде проаналізований. (Щоб дізнатися більше про бази даних, перегляньте наш Вступ до баз даних.)

Приклади включають поштові індекси, телефонні номери та демографічні дані користувачів, такі як вік чи стать. Дані, знайдені в цих базах даних, можна запитувати за допомогою структуризованої мови запитів (SQL) або VLOOKUP у межах електронних таблиць Excel. Алгоритми можна також зробити для швидкого пошуку даних, знайдених у різних полях, за допомогою їх індексів або їх числових та алфавітних даних. Однак усі дані строго визначені з точки зору типу та назви поля, і таким чином можливість зберігання, запиту та аналізу обмежена певною мірою.

Типові програми, які використовують структуровані дані, включають програмне забезпечення для управління лікарнями, програми управління відносинами з клієнтами (CRM) та системи бронювання авіакомпаній. Через свою чітку організацію та легку доступність структуровані дані корисні та ефективні при роботі з великими обсягами інформації. Однак при бурінні чорної олії приховується нескінченна кількість даних, що надходять щодня людством, але шукати структуровані дані - це не що інше, як подряпини поверхні.

Що таке неструктуровані дані?

Переважна більшість даних, знайдених в організації, є неструктурованими, і деякі оцінюють її як до 80 відсотків від загальної кількості наявних даних. За визначенням, неструктуровані дані - це все, що не має ідентифікованої внутрішньої структури. Однак деякі типи даних, що належать до цієї категорії насправді є певна форма невиразної внутрішньої структури, але вона не відповідає базі даних чи електронній таблиці.

Ні помилок, ні стресу - покроковий посібник зі створення програмного забезпечення, що змінює життя, не руйнуючи ваше життя

Ви не можете покращити свої навички програмування, коли ніхто не піклується про якість програмного забезпечення.

Більшість бізнес-даних неструктуровані, починаючи з взаємодії з обслуговування клієнтів, файлів, веб-журналів, відео та іншого мультимедійного контенту, автоматизації продажів, публікацій із соціальних мереж. Не потрібно пояснювати, наскільки цінні можуть бути ці дані, якби їх можна було видобувати, організувати та проаналізувати.

Більшість неструктурованих даних генерується людьми, і тому їх розуміють інші люди. Це означає, що акуратний комп'ютерний інтелект не розуміє цього типу інформації, оскільки вона надто віддалена від лінійності машинної мови та структурованих баз даних.

Попадання між: напівструктурованими даними

Напівструктуровані дані - це третій тип даних, який представляє набагато менший шматок цілого пирога (5-10 відсотків). Напівструктуровані дані, що буквально потрапляють між обома світами, містять внутрішні семантичні теги та позначки, які ідентифікують окремі елементи, але не мають структури, необхідної для вміщення у реляційну базу даних.

Наприклад, s може здатися структурованими даними, оскільки їх можна класифікувати за датою, розміром файлу або часом. Однак їх немає, оскільки найцінніша інформація - це знаходження всередині них, а не відносно прості етикетки. s не може бути по-справжньому влаштованим за змістом і тематикою, оскільки люди не говорять за такими суворими схемами, щоб машина зрозуміла їх однозначно. Інші приклади напівструктурованих даних включають бази даних NoSQL, відкритий стандарт JSON та мову розмітки XML.

Напівструктуровані дані зазвичай запитуються та каталогізуються для аналізу за допомогою аналізу метаданих. Наприклад, рентгенівське сканування складається з величезної кількості пікселів, що утворюють зображення - які є по суті неструктурованими даними, до яких не можна отримати доступ. Однак файл сканування все ще буде містити частину метаданих, яка надає інформацію про нього, наприклад примітки та ідентифікатор користувача.

Чи можна неструктуровані дані перетворити на структуровані дані?

Основний виклик, з яким повинен зіткнутися кожен аналітик даних, - це організувати впорядковану інформацію чітко, впорядковано, щоб мати доступ до неї та зрозуміти. Засоби обміну даними, як правило, не оснащені для аналізу інформації, яка, за визначенням, занадто схожа на людську мову, тобто означає, що лише інша людина може збирати та класифікувати її.

Однак, великий обсяг неструктурованих даних робить будь-яку спробу зберігання чи організації їх надзвичайно трудомісткою та дорогою. Обсяг інформації, що надходить, скажімо, з веб-пошукової системи, настільки масивний, що для вилучення найосновнішої більшості елементів потрібні величезні інвестиції з точки зору роботи та ресурсів. Навіть найефективніші методи видобутку даних все ще пропускають значну кількість інформації, знайденої в Інтернеті і, що ще гірше, всередині глибокої мережі.

Але методи існують. І вони розвиваються з дивовижною швидкістю. Наприклад, метадані можуть використовуватися для з'єднання структурованих та неструктурованих даних разом. Зібрану інформацію можна фільтрувати та індексувати як користувачами, так і алгоритмами, а також просто аналізувати відповідні дані. Інші рішення включають "керування даними", це процес, за допомогою якого складні дані поступово організовуються некротехнічними користувачами. (Докладніше про звичайних користувачів, які обробляють дані, див. Як великі дані можуть допомогти в аналітиці самообслуговування.)

В якийсь момент ми зможемо ефективно трансформувати ці масово неорганізовані обсяги інформації у більш організований та реструктуризований формат. Можливо, не сьогодні, може, і не завтра, але незабаром ми зможемо здійснити рейд на найбільший сейф, який людство коли-небудь бачило: великі дані.