Archive for July, 2012

Ki, kivel, hányszor?

Nem, ez nem a pletykarovat, hanem a tudományos. (Tudom, Ányos…) Az utóbbi években egyre jobban belebonyolódtam a partnerkapcsolati hálózatok szerkezeti jellemzőinek kutatásába. Szűkebb szakterületemen, a tudományelemzésben ez mindenekelőtt a társszerzői kapcsolatok elemzését jelentette. Ez az érdeklődésem nem volt újkeletű. A 80-as évek közepén kezdtünk két matematikus kollégámmal, Glänzel Wolfganggal és Telcs Andrással az úgynevezett “halmozódó előnyök” jelenségének elméletével foglalkozni, ami olyan közkeletű bölcsességeket próbált exakt formába önteni, mint hogy “akinek van, annak adatik” vagy “a pénz oda megy, ahol már úgyis van”. Ilyen modellek a közgazdaságtanban már régen ismertek voltak (Pareto, Gibrat, Herbert Simon is foglalkoztak pl. vele), de úgy éreztük, hogy tudunk új gondolatokat, matematikai eredményeket hozzátenni a már meglévőkhöz. És úgy is lett. Példáinkat nem annyira a közgazdaságtan, mint inkább a szociológia, a nyelvtudomány és természetesen a tudományelemzés területéről vettük. Minél több cikket publikált valaki, annál könnyebben írja meg a következőt. Minél több idézetet kapott valaki, annál könnyebben kap újabbakat. Saját példánkon is tapasztalhattuk ezt: egyre könnyebben írtuk az újabb cikkeket, és kaptuk rájuk az idézeteket.

Kínálkozott a módszer kiterjesztése a társszerzői kapcsolatokra is. Minél többször írt már korábban két kutató közös cikket, annál könnyebben írnak újra együtt. Itt azonban közbeszólt a két matematikus kollégám. Hohó, ez nem ugyanaz! A korábban vizsgált jelenségek, úgymond, egydimenziósak voltak: a “halmozódás” mindig egyetlen mennyiségre – pénz, cikkszám, idézetszám – korlátozódott. A társszerzőség esetében viszont egy két-, sőt, többdimenziós hálózatot kell vizsgálni, és ez matematikailag teljesen más feladat. Meggyőztek – és szakmailag teljesen igazuk volt –, hogy a jelenség vizsgálatához szükséges matematikai, gráfelméleti apparátus valójában nem is létezik; néhány éppen akkoriban megjelent matematikai cikk tartalmazott az érdemi vizsgálatokra még távolról sem alkalmas kezdeti eredményeket. Vegyészként én persze engedtem volna a szigorúságból, és ha matematikailag modellezni nem tudtunk is, empirikus mérésekkel, közelítésekkel próbálkoztam volna, de ezzel legkedvesebb kollégáim súlyos rosszallását hoztam volna a fejemre. Minthogy számos más izgalmas kutatási feladatunk is volt, ezt a témát lezártuk.

Barabási László, az Erdélyből az Egyesült Államokba származott fizikus a 90-es végén kezdett foglalkozni az általa “kedvezményezett kapcsolódásnak” (preferential attachment) nevezett mechanizmus révén létrejött hálózatok tulajdonságaival. Ez lényegében azonos volt azzal, amit mi annak idején “halmozódó előnyök” néven vizsgáltunk. Barabási “halmozottan előnyös” helyzetben volt ahhoz, hogy sikert érjen el ott, ahol mi elakadtunk. Fizikusként felületi struktúrák kialakulásák kialakulásával foglalkozott, ezért járatos volt olyan modellek használatában, amelyek a még akkor is hiányzó szigorú gráfelméleti alapokat saját maga és mások számára is meggyőzően tudták helyettesíteni. Ezeknek a modelleknek a jellemzője a “reciprok hatványfüggvény” szerinti viselkedés, akármit jelentsen is ez. Modelljének bemutatására pedig olyan példákat talált, amelyek sokkal nagyobb érdeklődést keltettek, mint a társszerzőség körömlerágató izgalmai: a World Wide Web szerkezetét vagy a hollywoodi színészek közös filmszereplésének hálózatát. Mindemellett egy jóhírű amerikai egyetem (University of Notre Dame, Indiana) munkatársa volt. Az 1999-től a Nature-ben, a Science-ben és hasonló színvonalú folyóiratokban megjelent hálózatelméletei cikkei több tízezres idézettséget és világhírnevet szereztek neki. Népszerű könyvével, amely “Behálózva” címmel jelent meg magyarul, a szélesebb magyarországi ismertséget is megszerezte.

Személyesen 2000-ben ismerkedtem meg vele, amikor a Collegium Budapest vendégkutatója volt, akkor meséltem el neki a 80-as évekbeli próbálkozásainkat. Ennek eredménye lett két 2002-ben megjelent közös publikációnk a Physica A című folyóiratban, melynek egyikében (“Tudományos együttműködések társadalmi hálózatainak fejlődése”) egyik 1984-es “egydimenziós” cikkünk is is bekerült a hivatkozásjegyzékbe. A kék norvég nem halt meg, csak mélyen aludt…

A következő inspiráció is egy amerikai fizikustól jött. Őt Jorge E. Hirsch-nek hívják, és az UCSD (University of California, San Diego) professzora. Argentín születésű, magyar vonatkozásáról nem tudok azon kívül, hogy 1977-ben a Csikágói Egyetemen elnyerte a legjobb jelölti vizsgáért (Best Candidacy Examination) járó Telegdi díjat. Kiemelkedő kvantumfizikai munkásságán kívül a nukleáris háborús veszély elleni aktív kiállásáról ismerhették egészen 2005-ig, amikoris megjelent “Az egyének tudományos kutatási teljesítményének mérésére szolgáló index” című írása. Először a arXiv nevű és a fizikusok között alapvető kommunikációs csatornának számító preprintgyűjteményben, majd miután a Nature egyik belső munkatársa felhívta rá a figyelmet egy kis írásban, a Proceedings of the National Academy of the Sciences of the USA című igen tekintélyes folyóiratban. Ez a cikk azóta több, mint ezer idézetet kapott, és a benne javasolt h-index (és alkotója) számára a szentté avatástól a kerékbe törésig már mindent ajánlottak.

Az index rendeltetésszerű használata kevéssé keltette fel az érdeklődésemet, bár szerkesztőként, bírálóként, alkalmazási tanácsadóként többet kellett vele foglalkoznom, mintha csak érdekelt volna. Igazán izgalmasnak azt a matematikai-statisztikai ötletet találtam, ahogyan az indexet ki kell számítani. Hirsch javaslata szerint a publikációkat csökkenő idézettségük szerint sorba kell rendezni, és meg kell keresni azt a legnagyobb sorszámú cikket, amelynek sorszáma nem nagyobb az idézettségénél. Ez a sorszám a h-index. Ha tehát valakinek a tizedik legidézettebb cikke éppen tíz idézetet kapott, akkor a h-index értéke 10. Két kérdés izgatott. Vajon hol van a helye a h-indexnek, milyen kapcsolatban áll az átlaggal, a mediánnak, a szóródás mérőszámaival, stb. a statisztikai mutatószámok kiterjedt családjában? És vajon mi mindenre lehet még egy ilyen módon definiált indexet használni a tudományelemzésben, a sportstatisztikákban, a közgazdaságtanban vagy bárhol másutt?

A második kérdéshez egy érdekes adalékkal szolgált a Nature egy olvasói levele, amelyből kiderült, hogy a levélíró baráti társasága az 1960-as években egy ilyen elven kiszámított mutatószámot használt (az ötletet a neves asztrofizikusnak, Arthur Eddingtonnak tulajdonítva) kerékpározási teljesítményük nyilvántartására. A lehetőségek tehát valóban korlátlanok.

Az első kérdés megválaszolása komolyabb szakértelmet kívánt. A máig is legalapvetőbb eredményt ebben a témában 2006-ban Glänzel Wolfgang (akkor már a Leuveni Katolikus Egyetem professzora) publikálta. A h-index rokonait az úgynevezett extrémérték statisztikákban találta meg, vagyis a “szélsőséges” jelenségek (árvizek, sportrekordok, tőzsdei kilengések) leírására használt formulákban. Ennek alapján egy egyszerű (azért annyira nem, hogy itt részletezzem) és hasznos összefüggést talált a h-index, az átlagérték és a mintanagyság (alapesetben a cikkek száma) között. Ez azért is jelentős, mert rámutat arra, hogy a h-index nem egy minden mástól független varázsszer, hanem a jól ismert statisztikai mutatószámok családjának egy kissé különc tagja. Az összefüggés érvényességének természetesen vannak matematikai feltételei, amelyek közül az egyik pontosan a “reciprok hatványfüggvény” szerinti viselkedés! Ezt szinte felhívásnak éreztem, hogy megpróbáljuk a Barabási-féle hálózatokat Hirsch-tipusú mutatószámokkal jellemezni. A próbálkozás sikeres volt, Telcs Andrással (akkor már a BMGE professzora) és Korn Andrással írt cikkeinkben többek között társszerzőségi hálózatokat és az internet részhálózatait jellemeztük ilyen módon.

A h-indexet sokféleképpen alkalmazhatjuk hálózatokra, az egyik lehetőség a következő. Tekintsünk egy közösséget, amelynek tagjai egymással egy vagy több alkalommal partnerkapcsolatra léphetnek. Ez lehet kutatók közötti társszerzőség, művészek közötti együttes játék vagy alkotás vagy éppenséggel szexuális partnerek közötti együttlét. Egy személy partnereit sorbarendezhetjük a kapcsolati alkalmak csökkenő száma szerint, és megtalálhatjuk azt a h-indexet, ahol a sorszám éppen “keresztezi” a kapcsolatok számát. Ezt nevezhetjük az illető személy partnerkapcsolati indexének. Ez az index érdekes jellemzést ad a személyeknek a hálózatban elfoglalt helyzetéről, és a hálózati helyzetnek más tulajdonságokkal (pl. produktivitás, népszerűség) való kapcsolatáról. Saját közölt eredményeim a tudományos társszerzőségről és a jazz zenészek közös lemezfelvételeiről szóltak, de érdekes visszajelzéseket kaptam a világ különböző részein a legkülönfélébb hálózatokon végzett vizsgálatokról.

A szexuális partnerkapcsolati indexét ki-ki magának próbálhatja kiszámítani, aligha található erről megbízható publikus adatbázis. Pedig érdekes lehetne. Nemrégiben olvastam egy olyan autentikus forrásban, mint az Index Velvet rovata, hogy az egyéjszakás kalandok kevéssé járulnak hozzá a valódi szexuális tapasztalatok megszerzéséhez. Aki valódi tapasztaltságra vágyik (aminek szükségességéről vagy elégségességéről most nem foglalnék állást), azt több tartós kapcsolatban szerezheti meg. A Hirsch tipusú partnerkapcsolati index érdekes tulajdonsága, hogy az értéke 1, ha a személynek 1 partnerrel volt kapcsolata tetszőleges alkalommal és/vagy tetszőleges számú személlyel 1-1 alkalommal. Az index értéke annál nagyobb, minél nagyobb a tartós kapcsolatok száma. Lehet, hogy ez mérné az igazi tapasztaltságot?

Nem mondtam igazat. Ez mégis csak a pletykarovat. Aki hallja, adja át…