Introduction to Network Analysis

SPEED Workshop, Tampere 2015

Jukka Huhtamäki

Based on a presentation given in network analysis workshop at Media Studies conference 2014

Principle

Anatomy of a social network (Gray, 2012)

Kuvalähde: Anatomy of a social network (Gray 2012)

Historiaa: six handshakes

Milgramin (1967) koe esitteli merkittäviä todisteita siitä miten pieni maailma (small-world problem) on: "maailman laidasta laitaan" on matkaa kuusi kädenpuristusta.

Excerpt from Milgram (1967)

Kulmakivi: mittakaavattomat verkostot

Barabási and Bonabeau (2003) esittelyvät mittakaavattomien verkostojen periaatteen ja syyn mittakaavattomuudelle: suosivan yhdistämisen (preferential attachment) prosessi.

Random vs. scale-free network (Barabási and Bonabeau, 2003)

Kuvalähde: Anatomy of a social network (Gray 2012)

Esimerkki: suomalainen innovaatioekosysteemi

Finnish Innovation Ecosystem (Still et al., 2013)

Finnish Innovation Ecosystem (Still et al., 2013)

Osa 1: Datan kerääminen

Tavoitteena sosiomatriisi

Esimerkki sosiomatriisista

Kuvalähde: Hoffman (2001): Introduction to Sociometry

Sosiomatriisi on sosiogrammin matriisimuotoinen esitys. (Moreno (1934) tosin saattoi käyttää sosiomatriisin käsitettä eri merkityksessä.)

Sosiomatriisissa siis luetellaan toimijoiden väliset yhteydet. Matriisimuoto mahdollistaa laskennallisen analyysin, ks. Miilumäki (2011).

Käytännössä ratkaisuna usein yhteyksien luetteleminen

Source Target Type Id Label Weight
2611Directed5531
5526Directed13121
5511Directed13219
2711Directed5817
6258Directed16117
5958Directed14715
2524Directed5113
6259Directed16213
2511Directed5312
5549Directed12812
6462Directed17712

. . .

Sama verkostona: Kurjat

Ensimmäinen verkostoesimerkki: hahmojen yhteisesiintymiset Kurjissa

https://gephi.org/datasets/lesmiserables.gml.zip

Esimerkki: hallitusverkostot

Olli Parviaisen ohjeet tee-se-itse -hallitusverkostoanalyysiin (4300 katselukertaa!).

Datan lähteille: Twitter

Käytännössä

Hyvä keino tutustua verkoston tulkintaan on analysoida oma Facebook-kaveriverkostosi.

Kari A. Hintikka ohjeistaa, Jukka antaa tarvittaessa esimerkkisuorituksen osana Open Spaces -työpajaa.

Osa 2: Datasta verkostoksi

Valintoja: verkoston rakenne

  1. Mitä solmut edustavat?
  2. Minkä perusteella solmut yhdistetään?
  3. Yksi-, kaksi- vai monimoodinen?
  4. Suunnattu vai suuntaamaton?
  5. Kaksiarvoinen (dikotominen) vai painotettu?
  6. Staattinen vai dynaaminen (huomioidaanko aika)?

Tätä on hyvä miettiä ajan kanssa, esim. taululle piirtämällä. Huhtamäki ja Parviainen (2013) pohtivat asiaa myös.

Twiiteistä verkostoksi

Puretaanpa esimerkkitwiitti verkosdataksi:

  1. Solmut? Yhteydet?
  2. Yksi-, kaksi- vai monimoodinen?
  3. Suunnattu vai suuntaamaton?
  4. Kaksiarvoinen vai painotettu?
  5. Mitkä tekijät otettava huomioon valinnoissa?

Haaste: solmujen yksilöinti

Kun data kerätään Twitteristä, solmujen yksilöinti on suoraviivaista - silloin kun twiiteissä on käytetty Twitter-tunnuksia.

Mikäli käytössä ovat ihmisten nimet, on data puhdistettava. Ongelma on vastaava kuin bibliometrisessä analyysissä.

Eräs ratkaisu nimien harmonisointiin (yhdenmukaistamiseen): OpenRefine

Osa 3: Verkoston ladonta

Voimaohjattu ladonta

Ladonta viittaa verkoston solmujen sijoitteluun

Voimaohjattu ladonta on suosituin vaihtoehto:

  1. Solmut hylkivät toisiaan.
  2. Yhteydet toimivat jousina, vetävät solmuja takaisin kohti toisiaan.
  3. Piirtopinnan keskikohdassa on vetovoimakentän keskipiste, joka pitää solmut yhtenäisenä kokonaisuutena
  4. Prosessia, siis algoritmia, ajetaan kunnes visualisoija on tyytyväinen

Solmujen tunnusluvut

  • Asteluku (degree): yhteyksien lukumäärä
  • Vientiluku (outdegree): lähtevien yhteyksien lukumäärä
  • Tuontiluku (indegree): solmua kohti osoittavien yhteyksien lukumäärä
  • Välillisyys (betweenness): solmun kautta kulkevien lyhimpien polkujen lukumäärä
  • Auktoriteetti (authority)
  • Clustering coefficient, closure, ...

Coming up: Ostinato Model

Diagram: Ostinato Model

Huhtamäki, J., Russell, M. G., Rubens, N., & Still, K. (2015). Ostinato: The exploration-automation cycle of user-centric, process-automated data-driven visual network analytics. In E. Bertino, S. Matei, & M. G. Russell (Eds.), Roles, Trust, and Reputation in Social Media Knowledge Markets. Springer. See: Kredible.net Call for Chapter Proposals.

Esimerkki: verkoston solmujen arvovalta (prestige)

Toteutus Gephillä:

  1. Statistics > Avg. (Weighted) Indegree > Close
  2. Ranking > Size/Weight (Timantti-symboli) > Authority
  3. Min size: 3, Max size: 40
  4. Valitse Apply

Eroja? Tulkinta?

Esimerkki: verkoston solmujen auktoriteetti

Toteutus Gephillä:

  1. Statistics > HITS > OK > Close
  2. Ranking > (Timantti-symboli) Size/Weight > Weighted Indegree
  3. Min size: 3, Max size: 40
  4. Valitse Apply

Mitä solmun koko nyt ilmaisee?

Esimerkki: Verkoston rakenteen analyysi

Verkoston rakenteen analyysiä Gephillä:

  1. Statistics > Modularity > Run > OK
  2. Partition > (Päivitä-symboli) > alasvetovalikosta: Modularity Class
  3. Miten tulkitset?

Lisätietoa: Näin teen vuorovaikutteisen verkostokartan

  1. Gephi > Export... > GEXF-muodossa
  2. Sijoita Web-hakemistoon (siis Web-palvelimma sijaitsevaan hakemistoon)
  3. Lataa ja pura gexf-js samaan hakemistoon
  4. Muokkaa config.js: korvaa miserables.gexf luomallasi tiedostolla
  5. Avaa sivu selaimessa - osa selaimista ei salli avaamista paikalliselta koneelta (avaathan tämän, Jukka!)

Lisätietoa: raapijat ja ryömijät

Raapijat (scraper) ja ryömijät (crawler) ovat tiedon keräämistä automatisoivia tietokoneohjelmia:

Nämä tässä vaiheessa tiedoksi - ATK tekee edelleen tuloaan:

Lisätietoa: Ruudunraavinnan alkeet

Google Drive > Laskentataulukko

=ImportHtml("http://fi.wikipedia.org/wiki/Ektro_Records", "list", 0)

=ImportHtml("http://fi.wikipedia.org/wiki/Circle","table",2)

Suositeltavaa lukemista: Scraping for Journalists (Bradshaw, 2013)

Esimerkki: Edistyneempi ruudunraavinta

Suomi24 ja keskusteludatan ohjelmallinen kerääminen (koodi- ja periaate-esimerkki) - ajan salliessa ja mikäli kiinnostusta on.

Lisätietoa: Twiittien kerääminen Google Drivellä

Martin Hawksey on toteuttanut GDrive-laskentataulukoihin perustuvan Twitter-keräimen.

Keräin automatisoi datankeräyksen ja prosessi pysyy käynnissä pitkäänkin.

Verkostoanalyysin toteuttaminen kerätyn datan pohjalta voi tosin olla haastavaa ilman ohjelmointia.

Keräimen käynnistäminen vaatii pientä teknistä tuunausta, mutta onnistuu kyllä Hawkseyn ohjeiden tuella.