Datová věda se točí kolem zpracování a analýzy dat pomocí řady nástrojů a technik. V dnešním světě založeném na datech se setkáváme s typy dat, z nichž každý vyžaduje zpracování a interpretaci. Pro správnou analýzu dat a statistickou interpretaci je důležité porozumět různým typům dat. Typ dat určuje správné statistické metody a operace, které by měly být použity. Různé typy dat vyžadují různé metody analýzy a interpretace, aby bylo možné vyvodit významné závěry. V tomto článku prozkoumáme pojem data a jeho význam, poskytneme příklady z reálného světa a provedeme vás způsoby, jak s nimi pracovat.
Úrovně měření
Před analýzou datové sady je důležité určit typ dat, která obsahuje. Naštěstí lze všechna data seskupit do jedné ze čtyř kategorií: nominální, ordinální, intervalová nebo poměrová data. Ačkoli se často označují jako datové typy, ve skutečnosti se jedná o různé úrovně měření. Úroveň měření odráží přesnost, s jakou byla proměnná kvantifikována, a určuje metody, které lze použít k extrahování poznatků z dat.
Tyto čtyři kategorie dat není vždy snadné rozlišit a místo toho patří do hierarchie, přičemž každá úroveň navazuje na předchozí.

Existují čtyři typy dat: kategoriální, které lze dále dělit na nominální a ordinální, a numerické, které lze dále dělit na intervalové a poměrové. Nominální a ordinální stupnice jsou relativně nepřesné, což usnadňuje jejich analýzu, ale nabízejí méně přesné informace. Na druhou stranu intervalové a poměrové škály jsou složitější a obtížněji se analyzují, ale mají potenciál poskytnout mnohem bohatší náhled.
- Nominální údaje – Nominální data jsou základní datový typ, který kategorizuje data podle označení nebo pojmenování hodnot, jako je pohlaví, barva vlasů nebo typy zvířat. Nemá žádnou hierarchii.
- Pořadové údaje – Běžná data zahrnují klasifikaci dat na základě hodnosti, jako je sociální status, do kategorií jako „bohatý“, „střední příjem“ nebo „chudý“. Mezi těmito kategoriemi však nejsou žádné stanovené intervaly.
- Intervalová data – Intervalová data představují způsob organizace a porovnávání dat, která zahrnují naměřené intervaly. Teplotní stupnice, jako jsou stupně Celsia nebo Fahrenheita, jsou dobrými příklady intervalových údajů. Intervalová data však nemají skutečnou nulu, což znamená, že měření nuly může stále představovat kvantifikovatelnou míru (například nula stupňů Celsia, což je jen další bod na stupnici a ve skutečnosti neznamená, že není přítomna žádná teplota) .
- Poměrová data – Nejsložitější úrovní měření jsou poměrová data. Podobně jako intervalová data kategorizuje a uspořádává data s využitím naměřených intervalů. Na rozdíl od intervalových dat však poměrová data obsahují skutečnou nulu. Když je proměnná nula, tato proměnná neexistuje. Hlavním příkladem poměrových dat je měření výšky, které nemůže být záporné.
Co jsou nominální údaje?
Kategorická data, známá také jako nominální data, jsou zásadním typem informací využívaných v různých oblastech, jako je výzkum, statistika a analýza dat. Skládá se z kategorií nebo štítků, které pomáhají při klasifikaci a uspořádání dat. Základním rysem kategoriálních dat je, že nemají žádné vlastní pořadí nebo pořadí mezi svými kategoriemi. Místo toho jsou tyto kategorie samostatné, odlišné a vzájemně se vylučující.

Nominální data se například používají ke klasifikaci informací do odlišných štítků nebo kategorií bez jakéhokoli přirozeného pořadí nebo pořadí. Tyto štítky nebo kategorie jsou reprezentovány pomocí názvů nebo termínů a neexistuje mezi nimi přirozené pořadí nebo pořadí. Nominální data jsou užitečná pro kvalitativní klasifikaci a organizaci informací, což umožňuje výzkumníkům a analytikům seskupovat datové body na základě specifických atributů nebo charakteristik, aniž by naznačovaly jakékoli číselné vztahy.
- Kategorie barvy očí jako modrá nebo zelená představují nominální údaje. Každá kategorie je odlišná, bez pořadí nebo pořadí.
- Značky smartphonů jako iPhone nebo Samsung jsou nominální údaje. Mezi značkami neexistuje žádná hierarchie.
- Způsoby dopravy jako auto nebo kolo jsou nominální údaje. Jsou to diskrétní kategorie bez vlastního řádu.
Charakteristika nominálních dat
- Data, která jsou klasifikována jako nominální, se skládají z kategorií, které jsou zcela oddělené a navzájem odlišné.
- Data, která spadají do nominální kategorie, jsou odlišena spíše popisnými štítky než číselnými nebo kvantitativními hodnotami
- Nominální údaje nelze hierarchicky seřadit ani seřadit, protože žádná kategorie není nadřazená nebo podřazená jiné.
Příklad
Zde je několik příkladů toho, jak se nominální data používají ke klasifikaci a kategorizaci informací do odlišných a neuspořádaných kategorií:
1. Barvy vozu: Barvy automobilů jsou nominální údaje s jasnými kategoriemi, ale bez vlastního pořadí nebo pořadí. Každý vůz spadá do jedné barevné kategorie, bez jakékoli logické nebo číselné souvislosti mezi barvami.
2. Druhy ovoce: Kategorie ovoce v košíku jsou jmenovité. Každé ovoce patří do určité kategorie bez hierarchie nebo pořadí. Všechny kategorie jsou odlišné a diskrétní.
3. Filmové žánry: Filmové žánry jsou nominální údaje, protože neexistuje žádné hodnocení mezi kategoriemi, jako je akce nebo komedie. Každý žánr je jedinečný, ale jen na základě těchto údajů nemůžeme říci, zda je jeden lepší než druhý.
Co jsou řadová data?
Ordinální data jsou formou kvalitativních dat, která klasifikuje proměnné do popisných kategorií. Vyznačuje se tím, že kategorie, které používá, jsou seřazeny na nějaké hierarchické stupnici, například od vysoké po nízkou. Pořadová data jsou po nominálních datech druhým nejsložitějším typem měření. I když je to složitější než nominální data, která postrádají jakýkoli inherentní řád, stále jsou poměrně zjednodušené.

Například řadová data jsou typ dat, která se používají ke kategorizaci položek podle smysluplné hierarchie nebo pořadí. Tyto kategorie nám pomáhají porovnávat a řadit různé úspěchy, pozice nebo výkony studentů, i když intervaly mezi nimi nejsou stejné. Ordinální data jsou užitečná pro pochopení uspořádaných voleb nebo preferencí a pro posouzení relativních rozdílů.
- Známky ve škole: Známky jako A, B, C jsou řadové údaje, seřazené podle prospěchu, ale intervaly mezi nimi se liší.
- Úroveň vzdělání: Úrovně jako střední, bakalářská, magisterská jsou pořadová data seřazená podle vzdělání, ale rozdíly mezi úrovněmi se liší.
- Úroveň seniority: Úrovně zaměstnání jako nástup, střední, vyšší jsou řadové údaje, které udávají hierarchii, ale rozdíl se liší podle zaměstnání a odvětví.
Charakteristika řadových dat
- Pořadová data spadají do kategorie nenumerických a kategorických dat, ale stále mohou používat číselné hodnoty jako štítky.
- Pořadové údaje jsou vždy seřazeny v hierarchii (odtud název „ordinální“).
- Pořadové údaje mohou být seřazeny, ale jejich hodnoty nejsou rovnoměrně rozloženy.
- Pomocí ordinálních dat můžete vypočítat rozdělení frekvence, režim, medián a rozsah proměnných.
Příklad
Zde je několik příkladů toho, jak se ordinální data používají v polích a doménách:
1. Vzdělávací úrovně: Pořadové údaje se běžně používají k reprezentaci úrovní vzdělání, jako je škola, bakalářský titul, magisterský titul a Ph.D. Tyto úrovně mají svůj řád.
2. Hodnocení spokojenosti zákazníků: Další aplikace dat je v průzkumech spokojenosti zákazníků. Tyto průzkumy často žádají respondenty, aby ohodnotili své zkušenosti na škále od špatných po vynikající.
3. Ekonomické třídy: třídy včetně střední třídy a vyšší třídy lze klasifikovat jako pořadová data na základě jejich pořadí.
Tyto příklady demonstrují způsoby, jakými jsou ordinální data využívána napříč poli a doménami.
Nominální versus běžná data
| Charakteristika | Nominální údaje | Pořadové údaje |
|---|---|---|
| Povaha kategorií | Odlišné a diskrétní | Diskrétní a Odlišné |
| Pořadí/Pořadí | Žádný vlastní řád | Má jasné pořadí nebo pořadí |
| Číselné hodnoty | Žádné smysluplné číselné hodnoty | Žádné smysluplné číselné hodnoty |
| Analytické techniky | Počty četností, procenta, sloupcové grafy | Pořadí, medián, neparametrické testy, uspořádané sloupcové grafy, ordinální regrese |
| Příklad | Barvy, pohlaví, druhy zvířat iterovat přes mapu java | Známky školy, úroveň vzdělání, úroveň seniority |
| Výklad | Používá se pro klasifikaci a seskupování na základě kategorie | Používá se pro posouzení uspořádaných preferencí, hierarchie nebo hodnocení |