3. Construir un índex

Els continguts d’aquesta obra formen part d’un encàrrec d’autoria de la Universitat Oberta de Catalunya (Mas 2020) i estan subjectes a la llicència de Creative Commons CC BY-SA 3.0.

En les seccions anteriors hem descobert que l’IDH es construeix a partir de tres dimensions. Ja podem intuir que uns valors alts en ingressos, educació i salut porten a un IDH alt i que uns valors baixos en ingressos, educació i salut porten a un IDH baix. Encara, però, desconeixem la manera com aquestes xifres es transformen en els valors finals de l’índex. Per poder fer la corresponent transformació i convertir els quatre indicadors en una única mesura, ens caldrà seguir els tres procediments principals de construcció d’un índex compost:

En aquest apartat els paquets que utilitzarem són els mateixos que en l’apartat anterior:

library(dplyr)
library(tidyr)
library(ggplot2)
library(countrycode)
library(readxl)
library(janitor)

Normalització

Sempre ens diuen que no podem barrejar peres i pomes. Aquesta és una expressió que s’utilitza per il·lustrar que no es poden comparar coses diferents. Les peres es poden comparar només amb peres i les pomes només amb pomes.

El mateix passa amb els indicadors. Barrejar variables que representen unitats diferents ens porta a problemes de comparabilitat. Vegem-ne un exemple a la Taula 1, on hem sumat els diferents indicadors que conformen l’IDH en una variable que hem anomenat IDH_sum. La Suma és una de les maneres de combinar variables que hem vist en un apartat anterior. IDH_sum és la suma dels valors GNI + E1 + E2 + LE per a cada país. Segons aquest procediment, el país amb millor IDH (sota els paràmetres de la variable IDH_sum) seria Qatar malgrat tenir xifres més aviat discretes en educació. Brunei i Kuwait tampoc tenen ni una educació ni una esperança de vida alta, però ocuparien els primers llocs de la taula. Això es deu a que els valors del GNI són molt elevats en comparació a l’educació o l’esperança de vida. El GNI està mesurat en dòlars i la majoria de països es mouen entre varis milers. En canvi, l’educació es mou en xifres inferiors als 20 anys d’escolarització i l’esperança de vida es mou entre intervals de vàries desenes. Acabem de barrejar peres i pomes. Això fa que el pes del GNI sigui desproporcionat en relació als altres indicadors pel simple fet d’estar mesurat amb unitats més grans.

Table 1: IDH segons la suma dels seus components
PcountryIDHGNIE1E2LEIDH_sum
1Qatar0.85611681813.49.878.3116919.5
2Liechtenstein0.9169733614.712.580.497443.6
3Singapur0.9328250316.211.583.282613.9
4Brunei0.8537642714.59.177.476528.0
5Kuwait0.8037052413.67.374.870619.7

És evident que l’IDH no està construït amb una simple suma dels seus components. Tampoc les altres maneres de combinar indicadors que hem après fins ara ens donarien resultats satisfactoris. L’exemple de la Taula 2 és encara més clar. Aràbia Saudita i Islàndia són dos països amb un nivell d’ingressos per càpita molt semblant. Els habitants de les dues poblacions guanyen més o menys el mateix de mitjana. En canvi, en educació i salut Islàndia té unes xifres bastant més elevades en termes relatius que Aràbia Saudita. Els islandesos han tingut més anys de formació i han viscut vuit anys més que els saudites. Això es reflecteix en què Islàndia ocupa el sisè lloc en el rànquing de 2017 si ordenem els resultats per l’IDH (columna IDH), mentre que Aràbia Saudí ocupa el lloc 40. Si utilitzéssim una simple suma, com veiem a IDH_sum, Aràbia Saudita estaria classificada millor que Islàndia.

Table 2: Comparació entre Islàndia i Aràbia Saudita
PcountryIDHGNIE1E2LEIDH_sum
6Islàndia0.9354581019.312.482.945924.6
40Aràbia Saudita0.8534968016.99.574.749781.1

Les xifres mesurades en unitats grans tenen molta més força en el total de l’índex que no pas les xifres mesurades en unitats més petites. Per evitar que això passi, haurem de normalitzar els indicadors i fer que les variables es moguin en paràmetres semblants. La normalització converteix variables de paràmetres diferents en mesures d’escala semblant per fer-les comparables entre elles i poder-les agregar en un índex final. Principalment existeixen tres mètodes de normalització:

MinMax

L’IDH utilitza el mètode MinMax, que consisteix a convertir els paràmetres de la distribució en una escala de 0 a 1 assignant un valor mínim i un valor màxim. Aquesta és la fórmula mitjançant la qual s’obtenen els valors a través del mètode MinMax:

\[MinMax = \frac{valor - valor.minim}{valor.maxim - valor.minim}\] Intentem ara aplicar el mètode MinMax a l’esperança de vida (columna LE) de la manera com ha fet el PNUD en les seves notes tècniques. A la pàgina 2 es justifica una normalització teòrica dels valors, pels quals s’estableix 85 com a valor màxim de la distribució i 20 com a valor mínim. Apliquem el mètode MinMax segons aquesta informació:

\[MinMax(LE) = \frac{valor(LE) - 20}{85 - 20}\]

Exercici 8. Normalitzar l’esperança de vida: Examina les notes tècniques de l’IDH i respon:

  1. Com es justifica el màxim d’esperança de vida de 85? I el mínim de 20?
  2. Què passaria si un país superés la mitjana de 85 anys d’esperança de vida?

Ara podem aplicar aquesta fórmula a tots els països de la base de dades, de manera que si un país s’acosta al màxim de 85 tindrà un valor proper a 1 mentre que si un país s’acosta al mínim de 20 tindrà un valor proper a 0. En la següent Taula 3 hem aplicat la fórmula a uns quants països de la mostra. El Japó té un valor proper a 1 perquè té una esperança de vida de 83.9, molt a prop del màxim que és 85. Per contra, Sierra Leone té una esperança de vida de 52.2 i rep un índex de 0.495.

Table 3: Esperança de vida en alguns països
countryLEMinMax_LE
Japó83.90.983
Estats Units79.50.915
Argentina76.70.872
Congo - Kinshasa60.00.615
Sierra Leone52.20.495

Exercici 9. Normalitzar els indicadors: Busca quin és el valor màxim i el valor mínim dels altres indicadors a les notes tècniques de l’IDH. Respon a les següents preguntes:

  1. Com es justifica el mínim i el màxim en el cas del GNI?
  2. Per què s’utilitza el logaritme neperià en el GNI? Mira de relacionar la resposta amb la forma que pren la distribució i amb la teoria utilitarista. (trobaràs més informació a UNDP 1990: 12; Haq 1999: 49).
  3. Com es justifica el mínim i el màxim en el cas de la mitjana d’anys a l’escola per adults de 25 anys o més?
  4. I com es justifica en el cas dels anys esperats d’educació per a nens en edat d’entrar a l’escola?

Amb el mínim i el màxim que el PNUD estableix per a cada indicador, ja podem normalitzar-los aplicant a cadascun d’ells la fórmula que els correspon. En el cas del GNI, el valor màxim són 75.000 dòlars i el valor mínim 100 dòlars. Per tant, si un país és molt pobre i de mitjana els seus habitants guanyen 100 dòlars l’any li assignarem un valor 0 i si un país és molt ric i de mitjana els seus habitants guanyen 75.000 dòlars l’any li assignarem un valor 1. La resta de països oscil·laran entre 0 a 1 en funció d’aquests valors mínim i màxim. El càlcul del GNI es fa mitjançant el logaritme neperià, de manera que els increments de renda en valors baixos són més sensibles a l’índex que no pas els increments de renda en valors alts. En la dimensió d’educació hem de tenir present que hi ha dues variables: la mitjana d’anys d’escolarització i l’escolarització esperada.

La Taula 4 representa el resultat d’aplicar el codi que trobem a continuació a l’objecte hdi_t. Hem replicat els països seleccionats a la taula anterior i hem aplicat el mètode MinMax a tots quatre indicadors. Podeu observar també que hem mantingut una columna amb l’IDH original (columna IDH) i hem creat el nostre propi IDH (li diem IDH2) a partir de la mitjana dels indicadors normalitzats.1 Hauríem d’esperar que els valors de la columna IDH coincideixin amb la columna IDH2 que hem creat nosaltres (avís: veureu que no coincideixen). Per ser fidels al sistema IDH, també hem arrodonit les xifres resultants a tres decimals amb la funció round().

hdi_t <- hdi %>%
  mutate(GNI_MM = if_else(GNI > 75000, 1, round((log(GNI) - log(100)) / (log(75000) - log(100)), 3)),
         E1_MM = if_else(E1 > 18, 1, round(((E1 - 0) / (18 - 0)), 3)),
         E2_MM = if_else(E2 > 15, 1, round((E2 - 0) / (15 - 0), 3)),
         LE_MM = round((LE - 20) / (85 - 20), 3),
         IDH2 = round((GNI_MM + E1_MM + E2_MM + LE_MM) / 4, 3))
hdi_t %>%
  select(country, GNI_MM, E1_MM, E2_MM, LE_MM, IDH2, IDH) %>%
  filter(country %in% c("Estats Units", "Argentina", "Congo - Kinshasa", "Japó", "Sierra Leone")) %>%
  arrange(desc(IDH2))
Table 4: Esperança de vida i esperança de vida normalitzada amb MinMax
countryGNI_MME1_MME2_MMLE_MMIDH2IDH
Estats Units0.9530.9170.8930.9150.9200.924
Japó0.9010.8440.8530.9830.8950.909
Argentina0.7880.9670.6600.8720.8220.825
Congo - Kinshasa0.3130.5440.4530.6150.4810.457
Sierra Leone0.3800.5440.2330.4950.4130.419

Les columnes GNI_MM, E1_MM, E2_MM i LE_MM ens mostren els indicadors normalitzats de cada un dels països de la nostra selecció. La normalització permet convertir magnituds diferents en paràmetres que es mouen en la mateixa escala. Amb el mètode MinMax els indicadors es mouen en escala de 0 a 1, de manera que ens resulta més fàcil comparar-los entre ells i barrejar peres i pomes. A la columna IDH2 es mostra la mitjana dels quatre indicadors2. Si la comparem amb l’IDH real (columna IDH), veiem que els valors són semblants entre columnes però no coincideixen exactament. Això vol dir que encara ens falta algun procediment més per fer. En concret, encara hem de veure com es ponderen i s’agreguen les variables de l’índex.

Exercici 10. Canviar mínims i màxims: Observa atentament el codi que hem generat per crear l’objecte hdi_t. Veuràs que dins de la funció mutate() hem establert les normalitzacions per a cada indicador:

  1. Canvia el GNI_MM a un mínim de 250 i un màxim de 100000.
  2. Canvia LE_MM a un mínim de 35 i un màxim de 90.
  3. Observa els resultats per als mateixos països. Explica com han canviat els valors.

Abans de continuar els passos de construcció d’un índex amb els mètodes de ponderació i agregació, veurem altres maneres d’establir els valors mínim i màxim amb el mètode MinMax i també veurem altres mètodes de normalització diferents al MinMax. Fins ara us hem explicat que el PNUD ha utilitzat una normalització teòrica. Quan normalitzem teòricament, estem utilitzant alguna raó concreta basada en supòsits teòrics per justificar els valors mínims i màxims dels indicadors. Establim que un número concret serà el mínim i un altre número serà el valor màxim i els hi assignem els valors 0 i 1.

L’altra opció que tenim és la normalització empírica. Quan normalitzem empíricament, agafem el mínim i el màxim dels valors que tenim a la nostra distribució per normalitzar. No establim cap valor a priori, sinó que simplement prenem com a referència el valor màxim i el mínim de les nostres dades i els hi assignem els valors 0 i 1. La resta de valors es mouran entre aquests intervals.

En la següent Taula 5 hem normalitzat empíricament els quatre indicadors de l’IDH i hem seleccionat els països que tenen el valor màxim i el valor mínim de cada indicador, així com també els que tenen el valor màxim i el valor mínim en l’IDH2t que anteriorment hem normalitzat teòricament i l’IDHe que acabem de normalitzar empíricament.

Table 5: Normalització empírica de l’IDH
countryGNI_MMeE1_MMeE2_MMeLE_MMeIDH2tIDH2e
Austràlia0.8091.0000.9050.9690.9370.921
Noruega0.8950.7220.8810.9440.9440.860
Alemanya0.8200.6721.0000.9090.9380.850
Hong Kong (RAE Xina)0.8660.6330.8331.0000.9140.833
Qatar1.0000.4720.6590.8180.8240.737
Burkina Faso0.1760.2000.0000.2700.4060.162
Sierra Leone0.1210.2720.1590.0000.4130.138
Sudan del Sud0.0720.0000.2620.1600.3770.124
Níger0.0600.0280.0400.2570.3470.096
República Centreafricana0.0000.1280.2220.0220.3700.093

Exercici 11. Diferències entre normalització teòrica i empírica: Fixa’t amb la Taula 5 i compara els resultats amb les taules que hem vist anteriorment. Respon a les següents preguntes:

  1. Per què Qatar té assignat el valor 1 a la columna GNI_MMe? Per què la República Centre Africana té assignat el valor 0?
  2. Busca els valors màxim i mínim dels indicadors E1_MMe, E2_MMe i LE_MMe i intenta trobar el seu valor abans de normalitzar. Quina és la diferència entre el màxim i mínim teòric i empíric en cada cas?
  3. A les dues darreres columnes (IDH2t i IDH2e) podem observar la diferència entre el resultat de normalitzar teòricament i normalitzar empíricament. Veuràs que hi ha països on la diferència entre l’IDH2t i l’IDH2e és molt petita. En canvi, en altres països la diferència és molt gran. Per què creus que hi ha aquestes diferències entre IDH2t i IDH2e?

En codi d’R, per establir un mètode MinMax empíric seria el següent: (x - min(x)) / (max(x) - min(x)). Aquesta funció localitza el valor mínim i el valor màxim de la distribució, de manera que tots els valors oscil·laran entre aquests dos extrems. Per exemple, si el valor màxim fos 50 i el mínim 10, el valor 25 es normalitzaria de la següent manera: (25 - 10) / (50 - 10) = 15 / 40 = 0.375. Per a un MinMax teòric, s’han de substituir els màxims i els mínims pels valors que vulguem.

Exercici 12. MinMax empíric: Proveu de fer un MinMax empíric d’una variable inclosa al marc de dades hddata_tidy que no haguem utilitzar per construir l’IDH.

  1. Consulteu la llista de variables amb names(hddata_tidy).
  2. En el codi següent, substituiu tots els llocs on apareix la x pel nom de la variable i creeu el marc de dades minmax:
minmax <- hddata_tidy %>%
  filter(!is.na(x)) %>% #eliminem dades perdudes
  mutate(index = round((x - min(x)) / (max(x) - min(x)), 3)) %>%
  select(country_name, year, index) %>%
  arrange(desc(index))
head(minmax)
tail(minmax)
  1. Feu una descripció dels valors més alts i els valors més baixos amb head() i tail().

ZScores

El mètode ZScores té una lògica diferent al MinMax, ja que els punts de referència clau per construir l’indicador no són el valor màxim i el valor mínim, sinó la mitjana i la desviació típica de la distribució3. Aquest mètode de normalització estableix com a valor 0 la mitjana de la nostra mostra, mente que tots els casos varien en funció de la seva posició respecte la mitjana, tenint en compte la desviació típica.

\[ZScores = \frac{valor - mitjana}{desviacio.tipica}\]

Fixem-nos amb la fórmula de ZScores. A la part del numerador estem restant la mitjana al valor d’un país determinat. Això farà que en la normalització final els valors que estiguin per sobre de la mitjana de la distribució tinguin signe positiu mentre que els valors que estiguin per sota de la mitjana tinguin signe negatiu. Si algún nombre coincideix amb la mitjana, aquest tindrà valor 0.

Exercici 13. Prova amb Z-Scores: Per veure com funciona el numerador de ZScores crearem el vector ex1 amb el codi: ex1 <- sample(10, replace = TRUE). Aquest codi genera una distribució aleatòria de valors compresos entre 1 i 10.

  1. Un cop hagueu creat el vector, en primer lloc visualitzeu-lo teclejant ex1 i observeu quina és la mitjana amb mean(ex1).
  2. A continuació, apliqueu-li la fórmula ex1 - mean(ex1), que restarà cada valor d’ex1 per la mitjana de la distribució. Compara els valors d’ex1 amb els de la fórmula i digues quins tenen signe negatiu i quins el tenen positiu. Treu-ne les conclusions pertinents.

El següent pas per normalitzar amb ZScores serà dividir cada valor per la desviació típica de la distribució. La desviació típica ens diu com de dispersos estan els valors respecte la mitjana segons les unitats amb què estan mesurats els valors de la distribució. És a dir, ZScores divideix el numerador per un denominador petit (la desviació típica) si els valors de la distribució estan molt a prop de la mitjana o tenen valors petits, mentre que dividirà el numerador per un denominador més gran si els valors de la distribució estan més allunyats de la mitjana o tenen valors més grans.

Exercici 14. La desviació típica: En aquest exercici hem creat dues distribucions, displ i closel, que tenen el mateix rang: el valor més petit és 1 i el més gran és 20.

  1. Apliqueu la funció mean() i observareu com les dues distribucions tenen la mateixa mitjana. Sabríeu dir quina és?
displ <- c(1,2,3,10,15,19,20)
closel <- c(1,7,9,10,11,12,20)
  1. Fixeu-vos, però, que una distribució té valors més propers a la mitjana que l’altra. Això ho veureu més clarament si apliqueu la funció plot() com es mostra en el codi següent (haureu de seleccionar a la vegada la línia de codi de plot i la de points per visualitzar-ho correctament).
plot(displ, closel)
points(mean(displ), mean(closel), col = "red")
  1. Aquesta diferència de distàncies amb la mitjana es tradueix amb una desviació típica diferent: la distribució amb els nombres més allunyats tindrà una desviació típica més alta i la distribució amb els nombres més propers tindrà una desviació típica més baixa.
  2. Proveu de completar la normalització de displ i closel amb ZScores, com indiquem a continuació. Sabríeu interpretar per què els valors extrems (1 i 20) queden més reduïts a displ que a closel?
(displ - mean(displ))/sd(displ) 
(closel - mean(closel))/sd(closel) 
  1. Creeu ara els objectes displb i closeb on multipliqueu per 10 cada valor de l’objecte anterior i repetiu tot el procediment de l’exercici. Sabríeu interpretar els resultats?
displb <- displ * 10
closelb <- closel * 10

En el codi següent hem aplicat la normalització dels indicadors de l’IDH amb ZScores (x - mean(x)) /sd(x)) per crear el marc de dades hdi_ZS. A la següent Taula 6 observem els països que tenen els valors més extrems de cada indicador, així com el país que té l’IDH més proper a la mitjana.

hdi_ZS <- hdi_t %>%
  mutate(GNI_ZS = round((log(GNI) - mean(log(GNI))) /sd(log(GNI)), 3),
         E1_ZS = round((E1 - mean(E1)) / (sd(E1)), 3),
         E2_ZS = round((E2 - mean(E2)) / (sd(E2)), 3),
         LE_ZS = round((LE - mean(LE)) / (sd(LE)), 3),
         IDHZS = round((GNI_ZS + E1_ZS + E2_ZS + LE_ZS) / 4, 3)) %>%
  select(country, GNI_ZS, E1_ZS, E2_ZS, LE_ZS, IDHZS)
Table 6: Països amb indicadors més extrems amb ZScores
countryGNI_ZSE1_ZSE2_ZSLE_ZSIDHZS
Austràlia1.2383.2831.4031.4331.839
Alemanya1.2861.2751.7901.1841.384
Hong Kong (RAE Xina)1.4831.0361.1131.5641.299
Qatar2.0590.0490.4030.8040.829
Belize-0.263-0.1550.629-0.2040.002
Burkina Faso-1.485-1.619-2.276-1.487-1.717
Sierra Leone-1.723-1.177-1.630-2.614-1.786
Sudan del Sud-1.934-2.845-1.211-1.946-1.984
República Centreafricana-2.244-2.062-1.372-2.522-2.050
Níger-1.984-2.674-2.115-1.540-2.078

Exercici 15. Màxims i mínims amb ZScores: Identifica quina és la mitjana de cada columna amb summary(hdi_ZS) (el resultat hauria de ser obvi). Fixa’t amb la Taula 6 i identifica:

  1. El país que es troba més proper a la mitjana en cada indicador.
  2. Els països que es troben per sobre de la mitjana en cada indicador.
  3. Els països que es troben per sota de la mitjana en cada indicador.
  4. Els països que tenen un valor màxim i un valor mínim a cada indicador.
  5. El país que es troba més allunyat de la mitjana.

Fixeu-vos que la normalització amb Z-Scores només pot ser empírica ja que els dos punts de la distribució que necessitem per normalitzar (la mitjana i la desviació típica) venen marcats per les dades, no per la teoria. Això vol dir que no triem com normalitzar a partir de cap raonament conceptual o teòric, sinó que ho fem a partir de la substància empírica que tenim disponible.

Escala

El mètode Escala consisteix a ordenar els valors de la distribució en un rànquing. El valor més alt se li assignarà el valor 1 mentre que el valor més baix se li assignarà el valor 0. La resta de valors variaran entre 1 i 0 i es normalitzaran en funció de la posició que ocupen en el rànquing. A diferència del MinMax, el mètode Escala no té en compte la distància d’un determinat valor respecte el valor màxim i el valor mínim, sinó que només té en compte quina és la posició que ocupa cada valor en la distribució ordenada. Així, en una distribució amb 5 casos, el valor més alt rebria el valor 1, el segon més alt valor 0.75, el tercer 0.50, el quart 0.25 i el valor més baix 0. Tots els valors normalitzats tenen la mateixa distància entre sí independentment de com de prop o de lluny estiguessin els valors en la distribució original. El mètode Escala divideix l’interval entre 0 i 1 amb tantes parts com observacions tinguem a la nostra distribució i assigna a cada observació un lloc en funció de la seva posició en el rànquing. Això vol dir que una observació tindrà la mateixa distància amb la observació de davant i l’observació de darrere.

\[Escala = \frac{lloc.ranking}{num.paisos}\]

Traslladat a codi R, la manera per normalitzar segons el mètode d’Escala és percent_rank(). També existeixen funcions que apliquen algunes variants. Podeu consultar-les amb ?ranking.

Exercici 16. Normalització amb Escala: Normalitza les següents distribucions aplicant el mètode Escala amb percent_rank():

  1. Com es normalitza quan tenim 11 valors? I quan en tenim dos?
  2. Quin és el problema lògic que sorgeix quan tenim varis valors iguals en una mateixa variable? Com ho resol R per defecte?
  3. Observa la normalització en els objectes four i five. El canvi de magnitud d’un dels valors altera la normalització en Escala? Ho faria en la normalització en MinMax? Fes la prova amb els dos mètodes.
one <- c(0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100)
two <- c(0, 1, 2, 3, 5, 5, 5, 7, 8, 9, 10)
three <- c(1, 2)
four <- c(1, 2, 3, 4, 5, 6)
five <- c(1, 2, 3, 4, 5, 60000)

En el següent codi hem normalitzat els valors originals de l’IDH amb el mètode Escala i hem creat l’objecte hdi_ES. A continuació, hem generat la Taula 7 amb les primeres 10 observacions del marc de dades. Fixeu-vos com el país amb els valors més alts de cada columna té assignat el valor 1, el segon el valor 0.995, el tercer el valor 0.989, el quart el valor 0.984, i així successivament. Això significa que, en aquest cas, l’interval que separa cada una de les posicions del rànquing és d’entre 0.005 i 0.006.

hdi_ES <- hdi_t %>%
  mutate(GNI_ES = round((percent_rank(log(GNI))), 3),
         E1_ES = round((percent_rank(E1)), 3),
         E2_ES = round((percent_rank(E2)), 3),
         LE_ES = round((percent_rank(LE)), 3),
         IDHES = round((GNI_ES + E1_ES + E2_ES + LE_ES) / 4, 3)) %>%
  select(P, country, GNI_ES, E1_ES, E2_ES, LE_ES, IDHES) %>%
  arrange(desc(IDHES)) %>%
  mutate(P = 1:n(),
         IDHES = round((percent_rank(IDHES)), 3))
Table 7: Primeres observacions de l’IDH segons normalització amb Escala
PcountryGNI_ESE1_ESE2_ESLE_ESIDHES
1Austràlia0.8941.0000.9630.9681.000
2Noruega0.9730.9570.9260.9310.995
3Suïssa0.9520.8460.9890.9890.989
4Islàndia0.9040.9840.8880.9630.984
5Irlanda0.9410.9890.9040.8940.979
6Suècia0.9200.9470.8880.9470.973
7Alemanya0.9100.9201.0000.8670.968
8Dinamarca0.9310.9790.9260.8510.963
9Canadà0.8880.8720.9840.9410.957
10Països Baixos0.9260.9680.8620.9150.952

Exercici 17. El Top 10 del rànking amb Escala: Observa atentament la Taula 7 i respon a les següents preguntes:

  1. Quin valor normalitzat rep el país més ben classificat? I el segon? Fes una llista dels quinze primers valors que reben els països més ben classificats. És possible que alguns valors no figurin a la taula i els hagis de deduir.
  2. Quin és exactament l’interval que separa cada observació en el rànquing d’Escala? Ho pots calcular amb una divisió.

Per últim, comprovarem com canvia d’índex segons els diferents mètodes de normalització que hem après. En la Taula 8 podem observar la posició que ocupen els països amb un IDH més elevat segons els diferents mètodes de normalització que hem vist (MinMax teòric, MinMax empíric, ZScores i Escala). Veiem que Noruega ocuparia el primer lloc si normalitzéssim segons els procediments de PNUD (que utilitza MinMax i decideix els mínims i els màxims de forma teòrica), mentre que ocuparia entre el segon i el quart lloc segons els altres mètodes de normalització. Austràlia, en canvi, tercera en la columna IDH2t, ocuparia el primer lloc en les altres.

Table 8: Lloc del rànquing de l’IDH segons els tres tipus de normalització
countryIDH2tIDH2eIDHZSIDHES
Noruega1442
Alemanya2777
Austràlia3111
Irlanda4225
Suïssa5583
Islàndia6334
Dinamarca7658
Països Baixos8111110
Suècia99106
Regne Unit10151211

Aquesta darrera taula ens ajuda a reflexionar sobre la conclusió més important d’aquest apartat: el mètode de normalització que escollim serà sensible a la posició que ocuparan cada una de les observacions quan les ordenem en un rànquing. Normalitzar és un pas necessari en la construcció d’un índex però que també distorsiona el valor que rebrà cada observació. És important, doncs, que justifiquem molt bé els motius pels quals triem un mètode de normalització i no un altre.4

Ponderació

Un cop hem vist totes les tècniques diferents de normalització, hem de passar al proper pas que és la ponderació. Anteriorment ja hem comprovat que amb la normalització no en tenim suficient per saber com el PNUD ha calculat l’IDH. Això pot ser degut a que no totes les variables tenen el mateix pes en la confecció de l’índex. Quan ponderem, assignem pesos diferents als indicadors que conformen l’índex. Fins ara hem considerat que les quatre variables tenien la mateixa importància, de manera que cada indicador valia un 25% en el càlcul de l’índex final. Alternativament, podem considerar que alguns indicadors són més importants que d’altres i per això han de tenir més pes. A l’hora de decidir quina ponderació apliquem als indicadors acostumem a utilitzar dos criteris:

  • Ponderació teòrica: Lligat a la conceptualització, ja que segons com haguem definit l’objecte en qüestió podem pensar que hi ha parts que valen més que altres.

  • Ponderació empírica: Lligat al significat empíric de les dades de què disposem.

Ponderació teòrica

La ponderació teòrica dels indicadors es fonamenta a partir de la conceptualització que hem fet d’allò que estem mesurant. En la conceptualització de l’IDH, per exemple, s’argumenta que el desenvolupament humà està format per tres dimensions principals: l’educació, els ingressos i la salut. A més, també diu que no hi ha cap part que sigui més important que l’altra. Això significa que a l’hora d’establir pesos, cada dimensió valdrà el mateix.

L’IDH està ponderat sota fonaments teòrics. Si repassem algunes de les teoritzacions principals sobre el desenvolupament humà, hi trobarem pàgines i pàgines a justificar, en primer lloc, què entenen per desenvolupament humà, i en segon lloc, quines poden ser unes bones mesures del desenvolupament humà (Sen 1981; UNDP 1990; Haq 1999). En la seva teoria de les capacitats, Sen explicava que les persones no només han de tenir capacitat econòmica, sinó també han de tenir la capacitat de transformar recursos en activitats valuoses (això ens ho pot facilitar l’educació) i així com la capacitat de fer coses amb el seu temps lliure (per tant hauran de gaudir de bona salut).

Així doncs, l’IDH hauria de constar de tres dimensions que a priori haurien de tenir el mateix pes entre elles: ingressos, educació i salut. Per tant, haurem de ponderar els quatre indicadors que tenim per tal que tinguem tres dimensions amb el mateix pes cada una. Fins ara hem fet una simple suma i com que teníem quatre indicadors, que cada indicador representava un 25% del valor total de l’IDH. Com que resulta que cada dimensió representa un terç de l’índex, la ponderació teòrica hauria de ser de la següent manera:

  • Ingressos: La dimensió valdrà un terç de l’índex i estarà formada per l’indicador GNI per càpita.
  • Educació: La dimensió valdrà un terç de l’índex i estarà formada pels indicadors educació esperada i educació mitjana. Per tant, cada un d’aquests indicadors valdrà una sisena part de l’índex final.
  • Sanitat: La dimensió valdrà un terç de l’índex i estarà formada per la variable esperança de vida.
IngressosEducacióSalut
GNIEd. esperada — Ed. mitjanaEsperança vida
Sense ponderació25%25 % —— 25 %25 %
Amb ponderació33.3%16.6 % —— 16.6 %33.3 %

Amb aquesta informació, ja podem ponderar les variables de l’IDH per tal que totes les dimensions comptin un terç sobre l’índex final. Si ens ho mirem des de la perspectiva de les variables, la variable que conforma la dimensió d’ingressos comptarà un terç sobre l’índex final, les dues variables d’educació comptaran una sisena part de l’índex final i la variable que conforma la dimensió de sanitat comptarà un terç sobre l’índex final. A la següent Taula 9 en veiem el resultat, on observem els cinc països millor puntuats i els cinc pitjor puntuats. Hem creat la columna E_MM, que és la mitjana de les dues variables d’educació ((E1_MM+E2_MM)/2). La columna IDHp ens mostra la ponderació que hem aplicat mentre que la columna IDH ens mostra l’IDH tal com està calculat pel PNUD (avís: veureu que no coincideixen).

Table 9: IDH amb MinMax i ponderació teòrica
PcountryGNI_MME_MMLE_MMIDHpIDH
1Noruega0.9850.9170.9580.9530.953
2Suïssa0.9600.8970.9770.9450.944
3Austràlia0.9180.9300.9710.9400.939
4Irlanda0.9500.9160.9480.9380.938
5Alemanya0.9270.9420.9420.9370.936
184Sierra Leone0.3800.3880.4950.4210.419
185Burundi0.2940.4250.5830.4340.417
186Txad0.4320.2980.5110.4140.404
187Sudan del Sud0.3420.2960.5740.4040.388
188República Centreafricana0.2860.3440.5060.3790.367
189Níger0.3330.2160.6220.3900.354

Exercici 18. Ponderació teòrica: Observeu les columnes IDH i IDHp de la Taula 9. Veureu que el nostre càlcul de l’IDH no és exactament igual que el càlcul del PNUD.

  1. Fixeu-vos que aquestes diferències obeeixen a certs patrons en les variables. Un patró seria, per exemple, que “quan la variable X és molt baixa la columna IDH sempre és inferior a la columna IDHp.”
  2. Sabríeu trobar patrons comuns que us ajudin a identificar el per què d’aquestes diferències? Pista: hi ha fins a tres patrons.

Com veieu, després de normalitzar els indicadors de l’IDH i ponderar-los amb els mètodes apropiats, encara no hem aconseguit replicar els valors finals de l’índex. Això es deu a que l’IDH té algun altre mecanisme pel qual penalitza els valors baixos. Aquest efecte es nota menys en els països millor classificats a la taula, ja que tenen valors molt semblants en les tres dimensions. En canvi, és més freqüent trobar valors dispars entre els països classificats a la part mitja i baixa del rànquing de l’IDH. Aquests són els més penalitzats en l’índex final. Quan estudiem l’últim pas, l’agregació, veurem quin és aquest mecanisme de penalització i per què s’aplica així.

Ponderació empírica

La ponderació teòrica que hem vist fins ara va de la teoria a les dades: fem un raonament teòric i pensem què té sentit des d’un punt de vista conceptual, establim les dimensions del concepte i ho traslladem a les dades com ho hem fet en l’apartat anterior. La ponderació empírica, en canvi, obvia l’exercici teòric i es mou només en el terreny de les dades. En altres paraules, deixa que les dades parlin i ens diguin què té sentit des del punt de vista empíric.

La ponderació empírica requereix normalment utilitzar alguns procediments estadístics més sofisticats, que s’escapen de l’objectiu d’aquesta obra. Per tant, no els entrarem a analitzar amb molt de detall. La idea clau d’aquest tipus de ponderació està associada amb el significat empíric dels seus indicadors: dues variables tenen el mateix significat empíric quan els valors d’una variable varien exactament igual que els valors de l’altra. Sota aquest punt de vista, sembla raonable que, si ens estan dient exactament el mateix, no tingui massa sentit que formin part de dimensions diferents.

Exemple: L’índex FIIEI

Imaginem-nos que estem creant un “índex d’aprofitament de l’assignatura de Fonts d’Informació i Indicadors per a Estudis Internacionals” i seleccionem tres indicadors: nota obtinguda a l’assignatura, hores dedicades i consultes fetes al fòrum. Podem pensar que com més elevada sigui la nota obtinguda, més hores s’hi hagin dedicat i més consultes fetes al fòrum, més s’haurà aprofitat l’assignatura per part de l’estudiant i més alt serà l’índex. Quan mirem les dades de cada estudiant, resulta que trobem una relació perfecta entre nota obtinguda i hores dedicades: aquells estudiants que han dedicat 10 hores han tret un 10, els que han dedicat 9 hores han tret un 9, etc. Això deu voler dir que empíricament els dos indicadors ens estan dient el mateix: ens indiquen amb la mateixa exactitud una dimensió del concepte. Aquesta dimensió subjacent podria ser, per exemple, l’esforç.

En canvi, és possible que les consultes fetes al fòrum tinguin una correlació més dèbil amb la primera dimensió. Suposem que l’estudiant que millor nota ha tret ha fet 5 consultes al fòrum, mentre altres estudiants han fet les mateixes consultes i han tret menys nota. És evident que la participació en l’assignatura és un aspecte important de l’“aprofitament” de la mateixa. Però també és evident que les dades ens diuen que no estem mesurant el mateix fenomen. Podem considerar, doncs, que tenim dimensions empíriques diferents i que no han de tenir el mateix pes en l’índex final.

La manera com atribuïm els pesos pot variar segons el criteri que utilitzem. Per exemple, podem considerar que els dos primers indicadors formaran part d’una mateixa dimensió, que comptarà la meitat de l’índex. L’altre indicador formarà part d’una dimensió diferent i serà l’altra meitat del valor de l’índex.

L’IDH no utilitza la ponderació empírica i els procediments per ponderar empíricament s’escapen dels objectius d’aquesta obra. Si en voleu saber més, podeu consultar tècniques com l’Anàlisi Factorial (en anglès Factor Analysis) i l’Anàlisi dels Components Principals (en anglès Principal Components Analysis (PCA))5. Aquestes tècniques utilitzen la variança de les combinacions linears dels diferents indicadors per determinar els pesos a partir de l’extracció dels factors/components subjacents6. En el manual de construcció d’indicadors de l’OCDE podem trobar un bon exemple de com es construeix un índex mitjançant PCA (OECD 2008: 63-72).

Agregació

L’agregació és el mètode que emprem per combinar les variables en l’índex final. Les dues maneres més comunes són amb una simple suma o, com hem fet fins ara, amb la mitjana aritmètica dels seus valors. Vegem-ho al següent codi, on hem creat el marc de dades df_agr de quatre observacions i tres variables: els indicadors indicador1, indicador2 i indicador3. A partir d’aquest marc de dades hem creat la Taula 10.

df_agr <- data.frame(obs = c("A", "B", "C", "D"),
           indicador1 = c(0.95, 0.2, 0.5, 1),
           indicador2 = c(0, 0.7, 0.5, 0.85),
           indicador3 = c(0.8, 0.75, 0.5, 0.70))
Table 10: Tres indicadors
obsindicador1indicador2indicador3
A0.950.000.80
B0.200.700.75
C0.500.500.50
D1.000.850.70

Com agreguem els tres indicadors? Estudiarem tres tipus d’agregació: la suma, la mitjana aritmètica i la mitjana geomètrica.

  • La suma és la simple suma dels seus valors. Rarament utilitzarem aquest mètode, perquè perdrem l’escala dels valors (ja no estem entre 0 i 1).

\[Suma = V1 + V2 + V3 + ... Vn\]

  • La mitjana aritmètica és la mitjana que coneixem, que suma els valors de cada indicador i divideix el resultat pel nombre d’indicadors.

\[Mitjana.aritmètica = \frac{V1 + V2 + V3 + ... Vn}{N}\]

  • La mitjana geomètrica multiplica els valors de cada indicador i aplica l’arrel del número de casos al resultat final.

\[Mitjana.geomètrica = \sqrt[n]{V1 * V2 * V3 *... Vn}\]

En el següent codi hem aplicat les tres diferents agregacions als indicadors del marc de dades df_agr. El resultat és la Taula 11.

df_agr %>%
  mutate(Sum = round(indicador1 + indicador2 + indicador3, 2),
         ArMean = round((indicador1 + indicador2 + indicador3)/3, 2),
         GeoMean = round((indicador1 * indicador2 * indicador3)^(1/3), 2))
Table 11: Diferents agregacions amb tres indicadors normalitzats
obsindicador1indicador2indicador3SumArMeanGeoMean
A0.950.000.801.750.580.00
B0.200.700.751.650.550.47
C0.500.500.501.500.500.50
D1.000.850.702.550.850.84

Com podeu comprovar, l’observació D és la que té un valor més alt en l’índex final, sigui quin sigui el tipus d’agregació. Ara bé, en les altres observacions hi ha més discrepàncies. Ja us avancem que la suma és una operació que farem en rares ocasions. Per tant, ens centrarem en observar les diferències entre la mitjana aritmètica i geomètrica:

  • El que més crida l’atenció és que, segons la mitjana aritmètica, el segon valor més alt seria A, seguit de B i C. En canvi, segons la mitjana geomètrica, el segon valor més alt seria C, seguit de B i A.
  • Això es deu a que la mitjana geomètrica penalitza els valors baixos. A l’observació B, el valor 0.20 penalitza de manera important en la mitjana geomètrica en relació a l’aritmètica. El cas extrem és quan hi ha presència del valor zero, que farà que l’índex final també sigui zero.
  • La mitjana geomètrica és problemàtica quan tenim valors zero o números negatius. Per tant, si volem aplicar la mitjana geomètrica, la normalització haurà de ser molt probablement teòrica a través del mètode Min-Max, semblant a la de l’IDH, per així podrem evitar valors 0 i valors negatius.

Exercici 19. Mitjana geomètrica: Per veure les diferències entre la mitjana geomètrica i la mitjana aritmètica, realitzeu els exercicis següents:

  1. Executeu aquest codi per tenir el resultat d’aplicar la mitjana aritmètica i la mitjana geomètrica als valors 100, 100 i 100. Proveu de realitzar les mateixes operacions amb els valors 50, 100 i 150.
(100 + 100 + 100) / 3
(100 * 100 * 100)^(1/3)
  1. Executeu aquest codi per tenir el resultat d’aplicar la mitjana aritmètica i la mitjana geomètrica als valors 40, 100 i -20.
(40 + 100 + -20) / 3
(40 * 100 * -20)^(1/3)

L’IDH agrega els seus indicadors a través de la mitjana geomètrica. Els constructors de l’índex van creure oportú penalitzar intencionadament es penalitzen els valors baixos, de manera que si un país té alguna dimensió molt baixa quedarà fortament perjudicat en el seu IDH final. Per observar quin efecte té aquesta circumstància en varis països del rànquing, a la Taula 12 hem seleccionat els països que tenen menys variació entre els indicadors que conformen l’IDH i els que tenen més variació, calculats a partir de la desviació típica. També hem inclòs la posició que ocupen en el rànquing de 2018. Els primers 10 països de la taula són els que tenen menys diferència numèrica entre les dimensions i això es tradueix en una penalització pràcticament inperceptible en el seu IDH. En canvi, els darrers 10 països tenen, com a mínim, un valor baix, que penalitza considerablement en el seu índex.

Table 12: Pèrdua d’IDH amb mitjana geomètrica
PcountryGNILEEDIDH
5Alemanya0.9270.9420.9420.936
11Dinamarca0.9320.9370.9200.929
159Lesotho0.5260.5320.5040.520
30Estònia0.8560.8880.8710.871
41Letònia0.8340.8420.8660.847
4Irlanda0.9500.9480.9170.938
36Lituània0.8530.8430.8810.858
27Txèquia0.8650.9060.8930.888
38Eslovàquia0.8590.8770.8330.855
10Països Baixos0.9320.9540.9070.931
167Sudan0.5620.6880.3290.502
164Senegal0.4790.7310.3690.505
56Kuwait0.9910.8430.6210.803
181Libèria0.2870.6620.4340.435
152Illes Salomó0.4430.7850.4670.546
178Iemen0.3800.6950.3500.452
173Etiòpia0.4300.7060.3260.463
155Síria0.4760.7850.4140.536
189Níger0.3330.6220.2170.354
179Eritrea0.4320.7000.2830.440

A la Taula 13 hem volgut fer una operació semblant a l’anterior, però comparant els valors obtinguts segons la mitjana aritmètica (IDH_aritm) i segons la mitjana geomètrica (IDH_geom). La darrera columna mostra la diferència entre el valor final de l’IDH calculat per una mitjana o l’altra.

Table 13: Diferència entre mitjana geomètrica i aritmètica
PcountryGNILEEDIDH_aritmIDH_geomdiff
1Noruega0.9850.9580.9170.9530.9530.000
4Irlanda0.9500.9480.9170.9380.9380.000
5Alemanya0.9270.9420.9420.9370.9370.000
8Suècia0.9320.9630.9020.9320.9320.000
10Països Baixos0.9320.9540.9070.9310.9310.000
11Dinamarca0.9320.9370.9200.9300.9300.000
12Canadà0.9170.9620.8990.9260.9260.000
13Estats Units0.9530.9150.9050.9240.9240.000
14Regne Unit0.9020.9490.9130.9210.9210.000
15Finlàndia0.9090.9460.9020.9190.9190.000
164Senegal0.4790.7310.3690.5260.506-0.020
155Síria0.4760.7850.4140.5580.537-0.021
183Burkina Faso0.4230.6280.2860.4460.424-0.022
178Iemen0.3800.6950.3500.4750.452-0.023
167Sudan0.5620.6880.3290.5260.503-0.023
172Djibouti0.5320.6550.3090.4990.476-0.023
173Etiòpia0.4300.7060.3260.4870.463-0.024
181Libèria0.2870.6620.4340.4610.435-0.026
179Eritrea0.4320.7000.2830.4720.441-0.031
189Níger0.3330.6220.2170.3910.356-0.035

Els tres procediments junts

El resum de tot aquest apartat el trobem en el següent codi, que serveix per generar la Taula 14. El codi mostra com calculem l’IDH a partir de les variables originals del marc de dades hdi. Observeu com amb poques línies de codi podem normalitzar, ponderar i agregar les dades inicials per generar el nou marc de dades de l’IDH, que hem anomenat hdi17:

  1. Normalitzem les variables GNI, E1, E2 i LE.
  2. A la normalització de l’educació aprofitem per agregar les variables E1 i E2 a la dimensió ED, de manera que ens quedem amb les tres dimensions: GNI, ED i LE.
  3. Agreguem els indicadors GNI, ED i LE amb mitjana geomètrica per crear la variable IDH2.
  4. Guardem els resultats com l’objecte hdi17, ja que els resultats corresponen a l’any 2017, i en demanem les primeres 10 files.
hdi17 <- hdi %>%
  mutate(GNI = if_else(GNI > 75000, 1, round((log(GNI) - log(100)) / (log(75000) - log(100)), 3)), #normalitzem el GNI
         ED = round((if_else(E1 > 18, 1, E1 / 18) + #normalitzem i agreguem/ponderem ED (suma E1 i E2)
              if_else(E2 > 15, 1, E2 / 15)) / 2, 3),   
         LE = round((LE - 20) / (85 - 20), 3), #normalitzem LE
         IDH2 = round((GNI * ED * LE)^(1/3), 3)) %>% #agregació
  select(P, country, IDH, GNI, LE, ED, IDH) #seleccionem les columnes que volem mostrar

head(hdi17, 10) #demanem les primeres 10 files
Table 14: Índex de Desenvolupament Humà 2018
PcountryIDHGNILEED
1Noruega0.9530.9850.9580.917
2Suïssa0.9440.9600.9770.897
3Austràlia0.9390.9180.9710.930
4Irlanda0.9380.9500.9480.917
5Alemanya0.9360.9270.9420.942
6Islàndia0.9350.9260.9680.913
7Hong Kong (RAE Xina)0.9330.9620.9860.853
8Suècia0.9330.9320.9630.902
9Singapur0.9321.0000.9720.833
10Països Baixos0.9310.9320.9540.907

Es pot ponderar variables i demanar a l’hora la mitjana geomètrica, encara que requereix una fórmula més sofisticada. La mitjana geomètrica ponderada (MGP) és la suma del logaritme neperià de cada variable (\(V\)) multiplicat per la seva ponderació (\(P\)). Al resultat, es calcula l’exponencial (\(\exp\)) i es divideix per la suma de les ponderacions (\(\sum(Pn)\)):

\[MGP = \frac{\exp(\sum(log(V_1) * P_1 + log(V_2) * P_2 + ... log(V_n) * P_n))}{\sum(Pn)}\] La fórmula pot semblar complicada, però aplicar-la a R no és difícil, en especial si ja tenim les variables normalitzades com és el cas del marc de dades hdi17. Imaginem-nos que volem calcular la mitjana geomètrica ponderada de la següent manera:

  • Donarem un 20% d’importància als ingressos (GNI).
  • Donarem un 50% d’importància a l’educació (ED).
  • Donarem un 30% d’importància a l’esperança de vida (LE).
  • També hi hem d’afegir la funció round() per afegir tres decimals al resultat.
hdi17 %>%
  mutate(IDH_MGP = round(exp(log(GNI)*0.2 + log(ED)*0.5 + log(LE)*0.3) / 1, 3))

Tingueu en compte que en el divisor (\(\sum(Pn)\)) hi haurà de figurar la suma de les ponderacions. En el nostre exemple és 1, ja que 0.2 + 0.5 + 0.3 = 1.

Referències

Haq, Muhbub ul. 1999. Reflections on Human Development. Dehli: Oxford University Press.
Mas, Jordi. 2020. Les mesures compostes.” Barcelona: FUOC.
OECD. 2008. Handbook on Constructing Composite Indicators - Methodology and User Guide.”
Sen, Amartya. 1981. Public Action and the Quality of Life in Developing Countries.” Oxford Bulletin of Economics and Statistics 43 (4): 287–319.
Stanton, Elizabeth A. 2007. The Human Development Index: A History.” PERI Working Papers. Political Economy Research Institute.
UNDP. 1990. Human Development Report.” New York: United Nations Development Programme.

  1. Obtenim la mitjana sumant el valor de cada indicador i dividint el resultat per quatre, que equival al nombre de casos↩︎

  2. També tindria sentit ser una suma, com veníem mostrant en els darrers exemples, ja que tant la mitjana com la suma tenen el mateix efecte aritmètic sobre l’agrupació de les variables↩︎

  3. Aquest mètode de normalització és probablement el més complet de tots els existents però té dos problemes principals. El primer és que els resultats són menys intuitius i poden costar més d’interpretar per a un públic menys especialitzat. A simple vista pot ser molt més fàcil observar uns resultats que oscil·len entre 1 i 0 que no pas amb positius i negatius com fa Z-Scores. El segon problema és que ZScores utilitza nombres negatius, cosa que complica realitzar algunes operacions com les agregacions geomètriques↩︎

  4. Alguns dels motius podrien ser que MinMax o ZScores faciliten la comparabilitat entre anys, que ZScores suporta millor la presència de valors extrems o que MinMax i Escala no treballen amb nombres negatius, pel qual seran preferibles si tenim la necessitat de logar alguna de les variables o que volem utilitzar l’agregació geomètrica (algunes d’aquestes discussions estan breument recollides a (OECD 2008: 83-88)).↩︎

  5. Per saber com s’utilitza PCA, llegir aquest tutorial de Luke Hayden.↩︎

  6. De fet, el PNUD ja va estudiar durant els primers anys la possibilitat de ponderar empíricament les variables però després de la publicació de diversos estudis en el report de 1993 es va descartar la idea (Stanton 2007)↩︎

Previous
Next