Rapport technique sur les peuples autochtones, Recensement de la population, 2021
3. Traitement des données

L’étape de traitement des données du Recensement de 2021 a commencé par la conversion des réponses en données significatives. Cette partie du cycle d’enquête comportait six activités principales :

  1. Réception et enregistrement;
  2. Imagerie et saisie des données;
  3. Contrôles;
  4. Codage;
  5. Contrôle et imputation;
  6. Pondération.

Pour obtenir des renseignements généraux sur le traitement des données, veuillez vous reporter au Guide du Recensement de la population, 2021, no 98-304-X au catalogue de Statistique Canada.

3.1 Codage des réponses écrites aux questions liées aux Autochtones

À la question portant sur l’appartenance à une Première Nation ou à une bande indienne, les réponses écrites ont été codées en fonction d’une liste de plus de 600 Premières Nations et bandes indiennes. La proportion de réponses obtenues au moyen d’un codage automatisé était de 82,8 %. Les autres réponses ont été codées à l’aide d’un modèle d’apprentissage automatique et révisées par des spécialistes du domaine au moyen d’une application interactive. Cette application comprenait plusieurs fichiers de référence, notamment un fichier prévoyant différentes orthographes pour les noms de Premières Nations et les codes correspondants, ainsi qu’un fichier contenant des codes géographiques pour les réserves, le nom de ces réserves et le nom des Premières Nations affiliées à ces réserves.

En 2021, de nouvelles questions sur l’appartenance à une organisation métisse ou à un établissement métis, ainsi que sur l’inscription en vertu d’un accord sur les revendications territoriales des Inuit, ont été ajoutées au questionnaire du recensement. Chacune de ces questions avait une case pour réponse écrite à titre de réponse possible. Un processus semblable a été utilisé au moyen du codage automatisé, d’un modèle d’apprentissage automatique et d’un examen par un spécialiste du domaine. Bien qu’aucune catégorie de diffusion supplémentaire n’ait été créée en fonction des réponses écrites à la question sur l’inscription en vertu d’un accord sur les revendications territoriales des Inuit, les réponses ont été codées avant de passer à l’environnement de production et comprenaient les réponses écrites ayant été associées aux options à sélectionner dans la question.

3.1.1 Contrôle et imputation des variables relatives aux Autochtones

Après la saisie des données, le contrôle initial et les opérations de codage, les données ont été traitées jusqu’à l’étape du contrôle final et de l’imputation. Le contrôle final a permis de détecter les réponses non valides et les incohérences, ainsi que les questions sans réponse. L’imputation a remplacé les réponses manquantes, non valides ou incohérentes par des valeurs plausibles. Lorsqu’elle est effectuée judicieusement, l’imputation peut améliorer la qualité des données en remplaçant les non-réponses par des réponses plausibles et comparables à celles que l’on aurait obtenues si les répondants avaient répondu aux questions. Elle offre également l’avantage de produire un ensemble complet de données.

L’imputation des données du recensement a été réalisée selon la méthode du plus proche voisin. Cette méthode est très répandue pour le traitement des non-réponses aux questions. Elle permet de remplacer l’information manquante, non valide ou incohérente relativement à un répondant par les valeurs fournies par un autre répondant qui lui est similaire. Les règles d’identification du répondant correspondant le mieux au non-répondant peuvent varier en fonction des variables à imputer. Les méthodes d’imputation par donneur ont des propriétés intéressantes et, de façon générale, ne nuisent pas à la répartition des données comme le font de nombreuses autres techniques d’imputation. L’imputation par la méthode du plus proche voisin permet d’assurer la cohérence des données (voir le chapitre 8 du Guide du Recensement de la population, 2021, no 98-304-X au catalogue de Statistique Canada).

En 2021, les variables suivantes ont été traitées ensemble, et les liens entre elles ont été clairement définis à l’avance : origine ethnique ou ascendance autochtone, groupe de population ou minorité visible, groupe autochtone, statut d’Indien inscrit ou des traités, appartenance à une Première Nation ou à une bande indienne, appartenance à une organisation métisse ou à un établissement métis, et inscription en vertu d’un accord sur les revendications territoriales des Inuit. L’imputation par donneur pour les renseignements manquants concernant ces variables a été faite à l’aide d’un même donneur pour toutes les variables, dans la mesure du possible. Cela réduit les risques de renseignements incohérents étant imputés par de multiples donneurs dans l’ensemble de ces variables.

Les taux de non-réponse et les taux d’imputation pour les questions posées se trouvent dans le Guide de référence sur les peuples autochtones, Recensement de la population, 2021, no 98-500-X au catalogue de Statistique Canada. Des indicateurs de la qualité pour les questions posées sont aussi accessibles en ligne pour divers niveaux géographiques, y compris les subdivisions de recensement : Tableaux sur la qualité des données, Recensement de la population de 2021.

3.2  Pondération

La pondération a été effectuée de façon que les résultats représentent l’ensemble de la population. De ce fait, on a attribué à chaque ménage un poids de sondage égal à l’inverse de sa probabilité de sélection dans l’échantillon. Dans les unités de collecte (UC) au sein des communautés des Premières Nations, des établissements métis, des régions inuites et d’autres régions éloignées où 100 % des ménages ont dû remplir un questionnaire détaillé, ce poids était égal à 1. Dans les autres types d’UC, ce poids était égal à 4.

Dans les UC au sein des communautés des Premières Nations, des établissements métis, des régions inuites et d’autres régions éloignées, on a tenu compte de la non-réponse totale au questionnaire détaillé en effectuant l’imputation. Les données des ménages qui n’ont répondu à aucune question sont imputées à l’aide des données d’un ménage répondant. Tous les ménages privés de ces UC qui ne faisaient pas partie de réserves et d’établissements partiellement dénombrés ont conservé leur poids de sondage de 1 aux fins d’estimation.

Dans d’autres types d’UC, divers ajustements ont été apportés aux poids pour traiter la non-réponse totale au questionnaire détaillé, et une méthode d’imputation différente a été utilisée.

Vous trouverez plus de renseignements sur la pondération au chapitre 12 du Guide du Recensement de la population, 2021, no 98-304-X au catalogue de Statistique Canada.

Date de modification :