Analyse de données pour le lancement international de La Poule qui Chante.
La Poule qui Chante, une entreprise française spécialisée dans l'agroalimentaire, souhaite étendre ses activités à l'international. Dans le cadre de cette expansion, l'équipe de gestion a décidé de recourir à l'analyse de données pour identifier les marchés potentiels et éclairer les décisions stratégiques.
L'objectif principal de ce projet est d'identifier les groupes de pays cibles pour l'exportation des produits de La Poule qui Chante. Pour ce faire, une analyse approfondie des données provenant de la FAO (Food and Agriculture Organization) sera menée.

Sommaire
Préparation des données
ACP avec sélection du nombre de composantes
Interprétation des composantes
Cercles de corrélation et projection
Classification Ascendante Hiérarchique
Clustering K-means
Les pays cibles
1. Préparation des données
Nous avons trois fichier à disposition : Population, Bilans Alimentaires et Séries Temporelles Annuelles. Nous commençons par du feature engreneering sur ces dataframes avant de les joindre pour obtenir un seul fichier avec les variables qui nous intéressent.
Population
Objectif : Déterminer les pays les plus propices pour l'expansion internationale en se basant sur la taille de la population.
Exploration des données :
Sélection des pays et de leur population pour l'année 2021.
Traitement des données :
Suppression de la variable "Chine" pour éviter les redondances.
Filtrage des pays ayant une population inférieure à 5 millions d'habitants pour cibler des marchés suffisamment vastes.
Conclusions :
La Chine et l'Inde sont deux points de données "atypiques" (de part la taille de la population) que nous gardons en tête pour la suite de l’analyse.
Bilans Alimentaires (2021)
Objectif : Notre objectif était d'explorer et de nettoyer les données des bilans alimentaires de différents pays pour 2021 en se concentrant sur la production de viande et la disponibilité alimentaire.
Exploration des données :
Traitement des données :
Création d'une pivot table pour afficher les productions de viande par pays.
Résultats :
Sélection et ajout de la colonne production de viande de volailles en millier de tonnes.
Conclusions :
Les données des bilans alimentaires sont maintenant prêtes pour des analyses plus approfondies.
Les valeurs extrêmes dans la production totale de viande, notamment les États-Unis et le Brésil, pourraient nécessiter une attention particulière.
Séries temporelles annuelles
Objectif : L'objectif est d'explorer les données de sécurité alimentaire pour 2021, en se concentrant sur des indicateurs tels que le nombre de personnes sous-alimentées, le PIB par habitant et l'indice de stabilité politique.
Données de la sécurité alimentaire :
Conclusions :
L'Inde se distingue comme un outlier principal en termes de nombre de personnes sous-alimentées avec 23,3900,000 personnes.
Des pays comme le Luxembourg, Singapour et l’Irlande se démarquent avec un PIB par habitant élevé.
Aucune valeur aberrante n’est constatée sur la variable de la stabilité politique.
Nous avons joint nos dataframes et en dessous vous pouvez visualiser les variables retenues (avec la variable non-numérique Zone en plus). Les quartes pays outliers (Chine, Inde, États-Unis, Brésil) sont retenus dans un autre dataframe.
2. ACP avec sélection du nombre de composantes
1. Mise à l'échelle des données
Utilisation de la méthode StandardScaler pour normaliser les données.
Transformation des données pour avoir une moyenne de 0 et un écart type de 1.
2. Objectif de la mise à l'échelle
Assurer que toutes les variables ont la même échelle.
Permettre une comparaison juste entre les variables.
3. Instanciation de l'ACP
L'ACP est une méthode de réduction de dimensionnalité qui aide à explorer et visualiser les données. La dimensionnalité de nos données est réduite à un nombre de composantes spécifié ici 10 pour nos 10 variables.
4. Entraînement de l'ACP
Entraînement de l'ACP sur les données mises à l'échelle.
5. Objectif de l'ACP
Identifier les directions (composantes principales) qui maximisent la variance des données.
Réduire le nombre de dimensions tout en préservant le maximum d'informations.
Pour déterminer le nombre optimal de composantes principales a choisir, on doit examiner la variance expliquée par chaque composante et choisir un nombre qui capture suffisamment de variance pour répondre à nos besoins tout en réduisant la dimensionnalité de nos données. Ici, nous visualisons les variances avec l'analyse de la courbe de Scree pour nous aider à choisir le nombre approprié de composantes principales.
On a en bleu la variance de chaque nouvelle composante, et en rouge la variance cumulée.
On voit ici que près de 80% de la variance est comprise dans les 3 premières composantes, et près de 90% dans les 4 premières.
3. Interprétation des composantes
Composante F1 :
Indicateurs de Bien-être et de Développement
Cette dimension peut être interprétée comme une mesure globale du bien-être et du développement des pays. Des scores élevés indiquent une disponibilité alimentaire et en protéines élevée par personne, ainsi qu'une stabilité politique et un PIB par habitant élevé.
Composante F2 :
Population et Autosuffisance Alimentaire
Composante F2 : Population et Autosuffisance Alimentaire Cette dimension reflète la capacité des pays à être autosuffisants sur le plan alimentaire et à produire localement leurs denrées alimentaires. Des scores élevés indiquent une forte disponibilité intérieure. Cette composante est fortement corrélée à la taille de la population.
Composante F3 :
Dynamisme Économique et Ouverture au Commerce
Cette composante se caractérise par des corrélations positives avec des indicateurs tels que les exportations, les importations et la stabilité politique. Ces corrélations suggèrent que F3 représente l'influence politique et économique d'un pays sur les échanges internationaux. Les pays avec des niveaux élevés d'exportations, une stabilité politique solide et un PIB par habitant plus élevé sont susceptibles d'avoir des valeurs plus élevées de F3, soulignant leur importance dans l'économie mondiale.
4. Cercle de corrélation et Projection
Composante F1 : Indicateurs de Bien-être et de Développement
Les points situés en haut à droite sur F1 représentent les pays avec les indicateurs de bien-être et de développement les plus élevés. Ces pays se caractérisent par un PIB par habitant élevé, une stabilité politique solide et une abondance alimentaire. En revanche, les points en bas à gauche sur F1 représentent les pays avec les indicateurs de bien-être et de développement les plus bas, indiquant probablement des économies moins développées, une instabilité politique et une insuffisance alimentaire.
Composante F2 : Population et Autosuffisance Alimentaire
Les points en haut à gauche sur F2 indiquent des pays avec une grande population mais une faible autosuffisance alimentaire. Ces pays pourraient dépendre fortement des importations alimentaires malgré leur grande population. À l'inverse, les points en bas à droite sur F2 représentent des pays avec une faible population et une forte autosuffisance alimentaire. Ces pays peuvent produire suffisamment d'aliments pour leur propre consommation malgré leur population relativement réduite.
3.5
5. Classification Ascendante Hiérarchique
Nous pouvons maintenant démarrer notre classification ascendante hiérarchique ! Nous avons demandé à visualiser un dendrogramme avec 10 clusters et sélectionné 6 clusters qui comportent un nombre suffisant de pays.
Diagramme de coordonnées parallèles
Examinons le deuxième cluster en orange (#1) :
Population (score de 4) : Ce cluster présente le nombre moyen de population le plus élevé parmi tous les clusters, suggérant qu'il comprend des pays très peuplés.
Dispo_Kcal mean, Dispo_Prot mean, PIB, Stabilité politique, Import, Export (scores de 0 à -0.5) : Ces variables montrent des valeurs moyennes relativement basses dans ce cluster par rapport aux autres clusters. Cela peut indiquer une disponibilité alimentaire et en protéines, ainsi qu'un PIB et une stabilité politique inférieurs. De plus, ces pays semblent avoir des niveaux d'importation et d'exportation moyens à faibles.
Dispo alimentaire, Prod_viande, Prod_volaille (scores de 3) : Ces variables montrent des valeurs moyennes relativement élevées dans ce cluster par rapport aux autres clusters. Cela suggère que ces pays ont une disponibilité alimentaire ainsi que des niveaux de production de viande et de volaille moyens à élevés. Cela pourrait indiquer une industrie agricole développée ou un accès relativement facile à des ressources alimentaires.
Nous avons aussi utilisé une heatmap pour visualiser ces informations ainsi que des boxplots pour chaque variable à travers les 6 clusters.
6. Clustering K-Means
Le score nous renseigne sur la densité de regroupement des données dans chaque cluster. Plus le score est élevé, plus les données sont étroitement regroupées dans le cluster.
On observe que la courbe monte rapidement de 1 jusqu'à environ 6 clusters, puis décroît. Au-delà de 5 ou 6 clusters, chaque cluster supplémentaire n'améliore pas significativement le score. Ainsi, le nombre idéal de clusters se situe entre 3 et 6.
Analyse des résultats
On affiche les points de données et les centroides.
Composante F1 : Indicateurs de Bien-être et de Développement
Les points qui se trouvent en haut à droite sur F1 représentent les pays ayant les indicateurs de bien-être et de développement les plus élevés. Ces pays peuvent être ceux avec un PIB par habitant élevé, une stabilité politique solide et une disponibilité alimentaire abondante.
Les points en bas à gauche sur F1 représentent les pays avec des indicateurs de bien-être et de développement les plus bas, indiquant probablement des économies moins développées, une instabilité politique et une insuffisance alimentaire.
Composante F2 : Population et Autosuffisance Alimentaire
Les points en haut à gauche sur F2 indiquent des pays avec une grande population mais une faible autosuffisance alimentaire. Ces pays pourraient dépendre fortement des importations alimentaires malgré une population élevée.
Les points en bas à droite sur F2 représentent des pays avec une faible population et une forte autosuffisance alimentaire. Ces pays pourraient avoir une population relativement faible par rapport à leur capacité à produire suffisamment d'aliments pour répondre à leurs besoins.
Zoom sur les centroïdes
Tableau récapitulatif avec les pays par cluster
Cluster | Description | Pays dans le cluster | Informations supplémentaires |
0 – bleu | • Bien-être et de développement moyen à élevés • Disponibilité alimentaire relativement élevée • Demande potentielle pour des produits alimentaires comme la viande de volaille • La stabilité politique bonne | ‘Fédération de Russie’, ‘Indonésie’, ‘Japon’, ‘Mexique’ | Nous supprimons la Russie de la liste car les données importées de la FAO sur l’indice de stabilité politique datent de 2021. En analysant les outliers en quantité de production de viande de volaille on retrouve la Russie, le Mexique, l’Indonésie et le Japon. On peut donc supposer une forte concurrence. |
1 – orange | • Pour une plus petite population, ces pays ont généralement des indicateurs de bien-être et de développement élevé avec des disponibilités alimentaires et en protéines élevées, un PIB par habitant en moyenne plus élevé que pour les autres clusters (sauf le 3) •La stabilité politique est généralement élevée | ‘Arabie saoudite', 'Autriche', 'Bélarus', 'Belgique', 'Bolivie (État plurinational de)', 'Bulgarie', 'Chili', 'Chine - RAS de Hong-Kong', 'Chine, Taiwan Province de', 'Costa Rica', 'Danemark', 'Émirats arabes unis', 'Finlande', 'Grèce', 'Hongrie', 'Israël', 'Kazakhstan', 'Malaisie', 'Norvège', 'Nouvelle-Zélande', 'Portugal', 'République de Corée', 'Roumanie', 'Serbie', 'Slovaquie', 'Suède', 'Suisse', 'Tchéquie | La disponibilité alimentaire et la demande de produits alimentaires de qualité peuvent être importantes. |
2 – vert | •Diversité en développement économique et de stabilité politique •Concurrence sur le marché variable selon les pays | 'Afrique du Sud', 'Colombie', 'Égypte', "Iran (République islamique d')", 'Pakistan', 'Pérou', 'Philippines', 'Thaïlande', 'Turquie', 'Ukraine', 'Viet Nam' | Il peut y avoir une demande croissante de viande de volaille dans certains de ces pays en raison de l'évolution des habitudes alimentaires et de la croissance économique. |
3 – rouge | •Marchés matures avec des niveaux de vie élevés et une forte demande de produits alimentaires de qualité •Concurrence intense, mais ils offrent des opportunités de croissance •Une bonne stabilité politique et un fort PIB par habitant suggèrent que ce sont de pays propices à l’exportation de nos poulets | 'Allemagne', 'Argentine', 'Australie', 'Canada', 'Espagne', 'France', 'Italie', 'Pays-Bas (Royaume des)', 'Pologne', "Royaume-Uni de Grande-Bretagne et d'Irlande du Nord" | Le fort PIB par habitant suggère que le marché est bon pour le déploiement de nos stratégies de ventes dans ces pays. |
4 – violet | •Indicateurs de développement plus faibles et une stabilité politique variable •Demande de viande de volaille présente, mais limitée par des facteurs économiques et politiques •L'expansion dans ces pays nécessiterait une évaluation approfondie des risques et des opportunités | 'Algérie', 'Angola', 'Azerbaïdjan', 'Bénin', 'Cambodge', 'Congo', "Côte d'Ivoire", 'El Salvador', 'Équateur', 'Ghana', 'Guatemala', 'Guinée', 'Haïti', 'Honduras', 'Jordanie', 'Kirghizistan', 'Liban', 'Libéria', 'Madagascar', 'Malawi', 'Maroc', 'Népal', 'Nicaragua', 'Ouzbékistan', 'Papouasie-Nouvelle-Guinée', 'Paraguay', 'République démocratique populaire lao', 'République dominicaine', 'République populaire démocratique de Corée', 'République-Unie de Tanzanie', 'Rwanda', 'Sénégal', 'Sierra Leone', 'Sri Lanka', 'Tadjikistan', 'Tchad', 'Togo', 'Tunisie', 'Zambie', 'Zimbabwe' | |
5 – marron | •Niveaux de vie plus bas et des défis économiques et politiques importants •La demande de viande de volaille peut être limitée en raison de contraintes économiques et de sécurité alimentaire •L'expansion dans ces marchés peut être risquée et nécessiterait une stratégie spécifique axée sur le développement local et l'accessibilité des produits. | 'Afghanistan', 'Bangladesh', 'Burkina Faso', 'Burundi', 'Cameroun', 'Éthiopie', 'Iraq', 'Kenya', 'Libye', 'Mali', 'Mozambique', 'Myanmar', 'Niger', 'Nigéria', 'Ouganda', 'République centrafricaine', 'République démocratique du Congo', 'Soudan' |
7. Les pays cibles
Cluster rouge
Ces pays présentent un potentiel intéressant pour une expansion future de nos produits de volaille, mais l'accès à ces marchés est difficile en raison de la forte concurrence
Cluster orange
Cluster vert
Ces pays sont sélectionnés en raison de leurs moyennes élevées à moyennes et semblent être propices à une bonne pénétration sur le marché
Comments