Máte raději tužku a papír, nebo e-papír? Stáhněte si pracovní list s úkoly ve formátu PDF! Můžete si ho vytisknout a poznámky si dělejte rovnou do něj :-).
Datové soubory k analýze (Datasety pro Gephi Lite):
• Les_Miserables-raw.gexf (pro Úlohu 1)
• open_flights-raw.gexf (pro Úlohu 2 – Krok 1)
• open_flights-geo.gexf (pro Úlohu 2 – Krok 4)
Úloha 1: Kdo je skutečným Bídníkem? (Datová literární analýza)
Román Bídníci (Les Misérables) od Victora Huga má stovky stran a desítky postav. My si celou knihu zanalyzujeme za pár minut ze surových dat.
- Otevři lite.gephi.org. Zvol Open local file a nahraj soubor Les Miserables-raw.gexf. Uvidíš jen černý čtverec plný teček/puntíků.
- V levém panelu (Layout) vyber ForceAtlas 2 a dole klikni na Start (▶). Sleduj, jak „fyzika pružin“ síť rozbalí, a po chvíli algoritmus zastav. Pokud je shluk bodů moc těsný, zvětš parametr Scaling ratio (otestuj např. hodnoty 10-30). Aby se ti body někde nepřekrývaly, spusť následně Noverlap.
- V pravém panelu (Metrics) spusť postupně výpočet Degree, Betweenness centrality a Louvain community detection.
- Změň barvu uzlů: V levém panelu Appearance → Nodes → Color vyber barvu podle modularityClass.
- Na stejném místě nastav Appearance → Nodes → Size na velikost podle Degree.
Tvůj úkol:
- Kdo má nejvíce kontaktů? Vypiš tři „největší“ postavy (hledej Huby).
- Kdo je nejdůležitějším mostem? Změň velikost uzlů podle Betweenness. Která postava nyní dominuje a funguje jako most, bez kterého by se příběh rozpadl?
- Kolik světů kniha má? Kolik hlavních barevných komunit algoritmus Louvain našel?
Úloha 2: Od chaosu k mapě světa (Topologie vs. geografie)
Máš k dispozici dva soubory s reálnými lety mezi světovými letišti (s IATA kódy). V prvním souboru nebudeme používat data, kde letiště geograficky na planetě leží.
Krok 1: Analýza „shluku bodů“
- Otevři soubor open_flights-raw.gexf (bez GPS souřadnic).
- Spusť ForceAtlas2. Nech fyziku pružin pracovat, dokud se síť neustálí do velkých shluků (klastrů), pak ji zastav a po ustálení ještě spusť Noverlap.
- Spusť Louvain community detection a obarvi podle něj letiště.
Krok 2: Kdo vládne nebi?
Nyní zjistíme, kdo řídí dopravu.
- Spusť Degree a nastav podle něj velikost uzlů. Která letiště jsou největšími „Huby“?
- Spusť Betweenness centrality a zvětši uzly podle ní. Která menší letiště fungují jako klíčové mosty mezi vzdálenými shluky?
Krok 3: Anomálie (např. Londýn (LHR))?
- Najdi ve shluku Evropy velký uzel letiště jako Londýn, Paříž, Istanbul… Proč je zde uzel letiště „vytahován“ z centra evropského shluku směrem ven k jinému shluku?
- Algoritmus Louvain někdy dokonce takovým uzlům vezme barvu Evropy a přiřadí mu barvu letišť jiného kontinentu. Jak je to matematicky možné?
Krok 4: Velké odhalení (Geografie)
Zavři aktuální projekt a nahraj druhý soubor open_flights-geo.gexf. Tento soubor obsahuje stejné vazby, ale má reálné GPS souřadnice. Co se z těch barevných shluků na mapě vytvořilo a proč?
Přehledová tabulka analytických metrik v Gephi (Tahák)
| Algoritmus (Metrika) | Co přesně matematicky měří? (Teorie) | Co nám ukáže u Bídníků? (Sociální síť) | Co nám ukáže u Letišť? (Dopravní síť) |
|---|---|---|---|
| Degree (Stupeň uzlu) |
Počet hran připojených k uzlu (absolutní konektivita). Značí přímé sousedy. | Postavy s nejvíce kontakty. Odhalí hlavní postavy (např. Valjean), které se setkávají s nejvíce lidmi. | Letiště s největším počtem přímých linek do jiných měst (identifikuje velké dopravní "huby"). |
| Betweenness Centrality (Mezilehlost) |
Měří, jak často uzel leží na nejkratších cestách mezi všemi ostatními dvojicemi uzlů. | Odhalí postavy tvořící mosty mezi nesouvisejícími skupinami (např. propojení galejníků a šlechty). | Odhalí klíčová tranzitní letiště (např. Anchorage), která propojují vzdálené trhy (Asii a USA). |
| PageRank (Algoritmus Googlu) |
Důležitost uzlu neroste jen počtem kontaktů, ale důležitostí (PageRankem) jeho sousedů. | I vedlejší postava získá vysoké skóre, pokud zná samotného Valjeana (vliv se přelévá). | Menší letiště s přímou linkou na obří globální hub má vyšší skóre než letiště spojené jen s lokálními městy. |
| Louvain community detection (Detekce komunit) |
Rozděluje síť na skupiny (moduly), které jsou uvnitř hustěji propojené než s vnějškem sítě. | Rozdělí postavy do barevných ucelených příběhových linek (studenti, podsvětí, klášter). | Rozdělí svět na regionální trhy (kontinenty), protože většina letů se odehrává uvnitř nich. |
| HITS (Hubs and Authorities) |
Měří kvalitu uzlu ve dvou rolích: Autority (ukazuje na ně mnoho Hubů) a Huby (ukazují na mnoho Autorit). | V neorientované síti knihy splývá s běžnou centralitou. Nehraje zde klíčovou roli. | U neorientovaných letů jen jinak zvýrazní ta největší letiště. Metrika byla vyvinuta spíše pro webové odkazy. |
| Disparity (Filtrování páteře) |
Statisticky identifikuje a extrahuje silné (páteřní) hrany na úkor těch slabých (šumu). | Ukáže jen ta nejzásadnější, nejpevnější přátelství a vymaže náhodná, okrajová setkání. | Vyčistí mapu. Skryje drobné, řídce létané regionální linky a zanechá viditelné hlavní letecké koridory. |
| Simmelian strength (Síla vazby) |
Měří sílu vztahu mezi dvěma uzly na základě počtu jejich společných sousedů (tzv. sdílené triády). | Ukáže, zda je vztah dvou postav součástí ucelené „party“ (např. studenti na barikádě, kteří se znají všichni navzájem). | Zvýrazní linky mezi letišti, která společně obsluhují naprosto stejný okruh dalších destinací. |
| Louvain edges ambiguity (Nejednoznačnost hran) |
Měří nejistotu algoritmu Louvain. Zjišťuje, jak často daná hrana balancuje na hranici dvou různých komunit. | Odhalí vztahy na pomezí světů (např. vztah dcery zloděje se studentem), které bourají hranice komunit. | Obarví mezikontinentální lety, u kterých si algoritmus není jistý, ke kterému kontinentu dané spojení logicky patří. |
Pozor! Vypočítané hodnoty je vždy potřeba nějakým způsobem promítnout do grafu. Buďto typicky použijete spočtené charakteristiky v rámci nastavení vzhledu nodů/hran, nebo využijete filtraci dat v grafu.
