Záverečný projekt k predmetu Vizualizace komplexních dat
Vizualizácie mobilít Erazmus
Datový projekt, ktorý čerpá dáta z európskych webových stránok data.europa.eu o mobilitách Erazmus a následne poskytuje sériu statických vizualizácii vytvorených v jazyku R, ktoré sú odpoveďou na definované otázky.
Otázky, na ktoré hľadám odpoveď?
- Z akej do akej krajiny účastníci mobilít najčastejšie cestujú?
- Aká je štruktúra účastníkov mobilít z hľadiska veku a pohlavia?
- Existuje závislosť medzi stupňom vzdelania účastníka a dĺžkou jeho pobytu v zahraničí?
- Ktoré obory sú najviac zastúpené účastníkmi mobilít?
- Ako sa líši mesiac odjazdu na pobyt mobility v závislosti od typu účastníka (študent, zamestnanec) a jeho pohlavia?
S akými dátami pracujem?
Dáta pre tento projekt sú stiahnuté z webu data.europa.eu. Na tejto stránke sú k dispozícii všetky dáta o mobilitách Erazmus od roku 2014. Návštevník si môže dáta stiahnuť vo formáte csv súhrnne za celé obdobie od roku 2014-2020, alebo samostatne pre každý školský rok zvlášť.
Nasledujúce grafy zobrazujú údaje pre jeden školský rok 2019-2020, ktorý je v čase tvorenia projektu najaktuálnejším datasetom. Pod každým grafom je k dispozícii R script k stiahnutiu, ktorý bude fungovať pre akýkoľvek dataset mobilít Erazmus z vyššie uvedenej stránky.
1. Z akej do akej krajiny účastníci mobilít najčastejšie cestujú?
Na prvú otázku odpovedá nasledujúci - anglicky označovaný- Chord Diagram. Graf zobrazuje prvých 30 krajín medzi ktorými účastníci mobilít najčastejšie realizujú svoje pobyty. Už z prvého pohľadu je jasné, že v školskom roku 2019-2020 medzi najfrekventovanejšie krajiny mobilít patrili Francúzsko, Nemecko, Taliansko a Španielsko, pričom najčastejšie sa cestovalo:
- zo Španielska do Talianska
- z Talianska do Španielska
- z Anglicka do Španielska
- z Francúzska do Anglicka
- z Nemecka do Anglicka
- z Anglicka do Španielska
Pre vznik diagramu som si vytvorila data frame, do ktorého som uložila zo súboru csv atribúty 'Sending Country Code' a 'Receiving Country Code', vymazala som nulové hodnoty a následne som dáta zgrupila podľa vysielajúcej a prijímajúcej krajiny. Pre prehľadnosť som nechala vyfiltrovať len tie prepojenia krajín, ktoré zaznamenali viac ako 500 účastníkov mobilít.

R script Chord diagramu ku stiahnutiu:
2. Aká je štruktúra účastníkov mobilít z hľadiska veku a pohlavia?
Pre vykreslenie potrebných dát som zvolila formu populačnej pyramídy. Tento typ grafu veľmi efektívne zobrazuje pomer mužov a žien a tiež ich vekové rozloženie.
Z grafu sa dá vyčítať, že v školskom roku 2019-2020 na Erazmus cestovalo o niečo viac žien ako mužov, zároveň vidíme, že najpočetnejšie zastúpená veková kategória je medzi 20 až 25 rokov, čo potvrdzuje fakt, že na Erazmus sa hlásia primárne vysokoškolskí študenti. Vyššie vekové kategórie sú zastúpené len menším počtom účastníkov, ktorých pravdepodobne tvoria vyučujúci a zamestnanci vzdelávacích inštitúcií.
Odkaz na interaktívny graf - v tejto časti sa mi podarilo vytvoriť pomocou balíčka Shiny v R interaktívnu vizualizáciu, ktorá sa spúšťa nad súhrnnými dátami (2014-2020) a užívateľovi podľa zadaného školského roku vykreslí populačnú pyramídu pre dané obdobie.

R script (+ R script Shiny App) populačnej pyramídy ku stiahnutiu:
3. Existuje závislosť medzi stupňom vzdelania účastníka a dĺžkou jeho pobytu v zahraničí?
Pre vizualizáciu som zvolila diagram s názvom Boxplot. X-ová os predstavuje jednotlivé stupne vzdelania (podľa medzinárodnej klasifikácie vzdelania - viď vysvetlivky pod grafom) usporiadané vzostupne. Os y predstavuje dĺžku Erazmus pobytu v dňoch a veľkosť obdĺžnikov odpovedá veľkosti populácie pre daný level vzdelania.
Z grafu je zrejmé, že najviac účastníkov mobilít má dosiahnuté vzdelanie ISCED-6 a ISCED-7, teda sú to bakalári a magistri, pričom tieto dve skupiny majú veľmi široké rozpätie dĺžky pobytu. Priemerne však trávia na Erazmus pobyte cca 200 dní, čo je zhruba 6 a pol mesiaca. Naopak najmenej početná skupina účastníkov mobilít sú stredoškolskí študenti (ISCED-2), ktorí trávia na pobytoch Erazmu priemerne len cca 50 dní, čo je približne mesiac a pol.

ISCED-2 - Lower secondary education
ISCED-3 - Upper secondary education
ISCED-4 - Post-secondary non-tertiary education
ISCED-5 - Short-cycle within the first cycle / Short-cycle tertiary education (EQF-5)
ISCED-6 - First cycle / Bachelor's or equivalent level (EQF-6)
ISCED-7 - Second cycle / Master's or equivalent level (EQF-7)
ISCED-8 - Third cycle / Doctoral or equivalent level (EQF-8)
ISCED-9 - Not elsewhere classified
R script diagramu Boxplot ku stiahnutiu:
4. Ktoré obory sú najviac zastúpené účastníkmi mobilít?
Odpoveď na túto otázku najlepšie ilustruje vizualizácia, ktorá sa anglicky označuje ako Treemap. Podľa veľkosti jednotlivých štvorcov vieme veľmi rýchlo zistiť, ktorý obor bol najviac zastúpený účastníkmi mobilít.
Pre školský rok 2019-2020 to boli to obory patriace do celkov:
- Obchod a administratíva
- Vzdelávanie
- Jazyky
- Strojárske odbory
- Právo

R script diagramu Treemap ku stiahnutiu:
5. Ako sa líši mesiac odjazdu na pobyt mobility v závislosti od typu účastníka (študent, zamestnanec) a jeho pohlavia?
Zaujímavou formou vizualizácie je tzv. Alluvial Diagram, ktorý dokáže zobraziť viacrozmerné dáta veľmi prehľadným spôsobom. Nasledujúci graf rozdeľuje účastníkov mobilít nielen podľa pohlavia, ale tiež podľa toho, či je daný účastník vyučujúci, alebo študent a zároveň sleduje, v ktorom mesiaci účastníci najčastejšie nastupujú na Erazmus pobyt.
Z dát vyplýva, že na Erazmus pobyt chodia častejšie ženy ako muži, ale pomer vyučujúcich mužov a vyučujúcich žien je približne rovnaký. Keď sa zameriame na prvý mesiac nástupu na mobilitu, bezkonkurenčne najviac účastníkov z rady študentov začína pobyt v septembri, ale zamestnanci a vyučujúci častejšie nastupujú na mobilitu práve v mesiacoch apríl a máj.
