Voici un petit projet qui me tenait vraiment à cœur depuis quelques temps déjà : mettre les mains sur les données des élections de 2011 et faire quelques visualisations avec. Vous pouvez donc imaginer ma joie quand notre chère Jihène Saadi m’a contacté pour m’indiquer que les données en question trainaient quelque part sur Internet (et qu’il fallait juste savoir où regarder) !
Les données (récupérables ici pour les intéressés) ont l’air très complètes. Elles indiquent différents chiffres à l’échelle des circonscriptions (voire même des délégations) : nombre de personnes éligibles au vote, nombre de votes obtenus par chaque parti politique, etc. Tout y est ou presque ! Cerise sur le gâteau, sont également incluses certaines données socio-économiques (taux de chômage, taux d’équipement des ménages, analphabétisme et niveau d’instruction, etc.) fournies par l’Institut National de la Statistique (qui datent néanmoins de 2009 et qui sont, quant à elles, à l’échelle des gouvernorats).
Le but de ce blog post est, comme je l’ai déjà indiqué, de visualiser ces données sous une forme conviviale et facilement interprétable (parce que comme disait l’autre “a visualization is worth a thousand tables”). A la fin du post je mettrai quelques petites idées sur ce qui peut être fait pour aller plus loin que ce qui sera exposé ici. Si vous avez d’autres idées, n’hésitez pas à m’en faire part dans les commentaires…
Par intégrité scientifique (étant à la base un chercheur qui se doit de mentionner les travaux similaires aux siens), je tiens à signaler que d’autres visualisations similaires à celle que nous vous proposons sont disponibles ici et ici. Ceci dit, à mon humble connaissance la nôtre est la plus complète vis-à-vis des données qu’on peut explorer.
Quelques détails pour mieux comprendre et interpréter la visualisation
Donc, pour cette visualisation j’ai choisi de me limiter aux circonscriptions qui se trouvent sur le territoire Tunisien et donc de ne pas prendre les circonscriptions France 1, France 2, Italie, Allemagne, Amérique et Monde Arabe en considération. Je dois avouer que c’est un choix qui a été fait plus par fainéantise de ma part qu’autre chose (ça m’aurait vachement compliqué la vie sinon).
Ensuite, il fallait que je me décide sur la façon avec laquelle j’allais représenter les données. Bien qu’une représentation avec un diagramme en bâtons est totalement possible et bien justifiée, j’ai opté plutôt pour une représentation sous la forme d’une carte interactive de la Tunisie parce que c’est plus et agréable à regarder et ça fait plus « sexy » (après tout, les circonscriptions ont bel et bien une étendue géographique).
Venons maintenant au détail le plus crucial pour bien interpréter la visualisation: l’échelle de couleurs (c.à.d. comment les circonscriptions sont colorées) ! En effet, mon objectif principal était de montrer les disparités qui existaient entre les circonscriptions et rendre facilement distinguable la distribution de celles entre celles qui ont les plus faibles et les plus fortes valeurs pour une variable donnée. Pour y arriver, j’ai choisit une solution qui est des plus classiques : une régression quantile en 9 classes. Autrement dit, j’utilise une palette constituée de 9 couleurs (9 variantes de plus en plus foncées du bleu). Chacune de ces neuf couleurs représente un neuvième (0.11%) des données. Si on prend l’exemple du pourcentage de vote, la couleur la plus claire représente le 1/9e de circonscriptions où l’on a observé le pourcentage de vote le plus faible, la couleur suivante représente le 1/9e de données suivant, jusqu’à arriver à la couleur la plus foncée qui, elle, représente le 1/9e de circonscriptions où l’on a enregistré les pourcentages de vote les plus élevés ! À noter que dans certains cas, les données ne présentaient pas suffisamment de quantiles pour utiliser l’intégralité des 9 classes. Dans ces situations là, j’ai simplement réduit le nombre de classes. C’est le cas, par exemple, du pourcentage de votes pour Afek Tounes où je n’utilise que trois classes (chacune représentant donc un tier des données) ou encore du pourcentage de votes pour Al Moubadara où je n’utilise que deux classes (chacune représentant la moitié des données).
J’avoue que ce dernier point n’est pas forcément l’un des plus évidents à comprendre (et à expliquer). Juste gardez en tête le point suivant : l’échelle ne varie pas de façon linéaire. Une couleur peut représenter dans le cas des pourcentages de vote des valeurs entre 0% et 10% alors que la suivante peut représenter les valeurs de 10% jusqu’à 50%. Ça dépend entièrement de la distribution des valeurs !
Description des données disponibles
Les données qui peuvent être visualisées sont divisées en quatre sous-catégories: (i) Les informations sur les circonscriptions ; (ii) Les informations sur les électeurs ; (iii) Les résultats obtenus par les partis politiques ; et (iv) Les indicateurs socio-économiques.
Informations sur les circonscriptions
Il y a deux informations disponibles et qui se passent d’explication :
- Nombre de listes électorales.
- Nombre de membres dans les bureaux de vote et de dépouillement.
Informations sur les électeurs
Les informations sur les électeurs sont les suivantes (celles qui sont déduites par calcul sont mentionnées en italique) :
- Nombre total d’inscrits : nombre de personnes qui sont inscrites (soit de façon volontaire ou automatiquement) dans les bureaux de vote. Selon les données publiées par l’Instance Nationale Indépendante pour les Élections (ISIE), la Tunisie comptait un total de 7993924 votants potentiels en novembre 2011.
- Nombre d’inscrits volontaires : nombre de personnes qui se sont inscrites volontairement pour voter.
- Nombre d’inscrits automatiquement : nombre de personnes qui ont été inscrites de façon automatique (en se basant sur la base de données CIN, je pense).
- Pourcentage d’inscrits volontaires (resp. automatiquement) : ratio entre le nombre d’inscrits volontaires (resp. automatiquement) et le nombre total d’inscrits.
- Nombre total de votes : nombre d’électeurs ayant effectivement voté.
- Taux de participation : ratio entre le nombre total de votes et le nombre total d’inscrits.
- Nombre de votes pour les votants inscrits volontairement (resp. automatiquement).
- Taux de participation parmi les votants inscrits volontairement (resp. automatiquement) : ratio entre le nombre de votes pour les votants inscrits volontairement (resp. automatiquement) et le nombre d’inscrits volontairement (resp. automatiquement).
- Nombre total de votes blancs.
- Nombre total de votes nuls.
- Pourcentage de votes blancs (resp. nuls) : ratio entre le nombre total de votes blancs (resp. nuls) et le nombre total de votes.
- Pourcentage de votes gaspillés : pourcentage de votes « perdus » (c.à.d. qui n’ont pas abouti à une représentation dans l’assemblée). Ces votes incluent les votes blancs, nuls et pour des partis qui n’ont pas eu de mandat. Ça peut être utile pour observer où d’éventuelles coalitions peuvent avoir un impact.
Résultats des partis politiques
Pour les partis politiques, j’ai décidé de me limiter aux 10 premiers seulement. Pour chacun de ces partis (classés par ordre décroissant), deux informations peuvent être visualisées :
- Nombre de voix : nombre de votes pour le parti en question dans la circonscription.
- Pourcentage de votes : ratio entre le nombre de voix pour le parti en question et le nombre total de votes dans la circonscription.
Indicateurs socio-économiques
Les indicateurs socio-économiques sont ceux fournis par l’INS et qui datent de 2009. Ils sont disponibles à l’échelle des gouvernorats et non pas à l’échelle des circonscriptions. Par conséquent, j’utilise la même valeur pour les gouvernorats qui sont divisés en deux circonscriptions (ex. la même valeur qui est celle du gouvernorat de Tunis est affichée pour les circonscriptions Tunis 1 et Tunis 2 et ainsi de suite). Aussi, je vous conseille de prendre ces indicateurs aux pincettes puisqu’elles datent de la fameuse ère Ben Ali et du coup j’ai de sérieuses réserves sur leur véracité !
Les données pouvant être visualisées sont les suivantes (et j’ai presque aucune idée sur leur signification >_< ):
- Taux de jeunesse.
- Taux d’équipement mobile.
- Taux de couverture informatique.
- Taux de couverture Internet.
- Taux de chômage.
- Taux d’analphabétisme.
- Taux d’enseignement supérieur.
- Taux d’enseignement secondaire.
- Taux de chômage des diplômés d’études supérieures.
Maintenant que tout est dit, place à la visualisation de données. Une fois que vous ayez sélectionné une donnée à afficher, vous pouvez survoler les circonscriptions pour afficher les valeurs exactes de celle-ci. Sachez que par souci de neutralité, je me retiens d’émettre des interprétations ou des avis sur les données. À vous de vous faire vos propres avis et à venir en débattre en commentaire si vous le voulez…
Où aller par la suite ?
Tout ce que j’ai fait ici consistait à prendre les données et les projeter sur une carte de la Tunisie (il y a absolument rien de magique mais c’est plus agréable que de regarder des tableaux). D’autres tâches plus compliquées peuvent être entreprises dont, notamment, une classification non supervisée (« clustering » pour les intimes) qui va consister à essayer de trouver par exemple des groupes de circonscriptions où les électeurs se sont comportés de façon similaire (voter pour les mêmes partis, etc.) ou encore des groupes de partis politiques perçus par les électeurs de la même façon. Je pense qu’il y a des travaux existants pour effectuer ces tâches d’analyse de données dans le cas précis de données de vote mais je n’ai malheureusement pas le temps ni pour me documenter dessus ni pour les appliquer. À vous de jouer !