Rapport technique sur l'échantillonnage et la pondération, Recensement de la population, 2021
3. Traitement des données du recensement

3.1 Introduction

Le présent chapitre est consacré au traitement de tous les questionnaires remplis, quel que soit leur type, depuis la réception des questionnaires jusqu’à la création d’une base de données du recensement exacte et complète. On trouvera ci-après la description des étapes de l’enregistrement des questionnaires, de l’imagerie et de la saisie des données des questionnaires, du contrôle, de la correction des erreurs, du suivi des questionnaires rejetés au contrôle, du codage, de la classification des logements et des ajustements pour la non-réponse, du couplage des données administratives, de l’imputation, de la pondération et des taux de réponse finaux.

Les processus automatisés, mis en œuvre pour le Recensement de 2021, ont dû être surveillés de manière à ce que toutes les résidences canadiennes soient dénombrées une seule fois. Le Système de contrôle principal (SCP) a été mis au point afin de contrôler et de surveiller l’enchaînement des opérations, de la collecte au traitement des données. Le SCP contenait une liste principale de tous les logements existants au Canada, sur laquelle figurait pour chacun d’eux un identificateur unique. Ce système était mis à jour régulièrement, en fonction des renseignements sur la situation de chaque logement dans le processus d’enchaînement des opérations du recensement (p. ex. livraison, réception ou traitement). Des rapports étaient produits quotidiennement et mis en ligne à la disposition des gestionnaires, afin que les opérations du recensement se déroulent de façon efficace et efficiente.

3.2 Réception et enregistrement

Les réponses reçues par Internet ou recueillies par interview téléphonique au moyen de l’Assistance téléphonique du recensement arrivaient directement au Centre des opérations des données (COD) et leur réception était enregistrée automatiquement.

Les répondants qui avaient rempli un questionnaire papier devaient le retourner au COD par la poste. Postes Canada enregistrait automatiquement leur réception dans plusieurs emplacements au Canada (dans le cadre du processus ordinaire de traitement du courrier) en utilisant la fenêtre transparente des enveloppes-réponses pour numériser le code à barres qui figurait à la première page du questionnaire. Les enveloppes étaient ensuite livrées au COD chaque jour ouvrable. En outre, Postes Canada envoyait quotidiennement un fichier qui énumérait tous les questionnaires du recensement reçus à chaque établissement régional de traitement du courrier, selon la date de réception.

L’enregistrement de chaque questionnaire retourné était signalé dans le SCP à Statistique Canada. Le SCP produisait quotidiennement une liste de tous les logements pour lesquels un questionnaire n’avait pas été reçu, et la transmettait aux opérations sur le terrain pour éviter d’effectuer un suivi des cas de non-réponse auprès des ménages qui avaient déjà rempli leur questionnaire.

3.3 Imagerie et saisie à partir d’images

En 2021, tous les questionnaires papier du recensement (2A, 2C, 2A-L, 2A-R, 3A) ont été convertis en images. Le processus d’imagerie comprenait les étapes suivantes :

3.4 Contrôles de couverture, contrôles d’intégralité et suivi des questionnaires rejetés au contrôle

À cette étape, un certain nombre de contrôles automatisés ont été exécutés sur les données des répondants. Ces contrôles ont été conçus pour déceler les cas où le nombre de personnes dénombrées dans le ménage était incorrect en raison d’une erreur de collecte, d’une erreur du répondant ou d’une erreur de saisie des données. La plupart de ces erreurs se sont produites dans les questionnaires papier et comprennent :

Des erreurs qui peuvent se produire tant dans les questionnaires en ligne que dans les questionnaires papier comprennent :

Environ 54 % des rejets au contrôle ont été résolus automatiquement par le système, lorsque la nature de l’erreur était telle que la solution était évidente. Les solutions comprenaient la suppression des données erronées sur les personnes provenant d’une erreur du répondant ou d’une erreur de saisie, et la suppression des réponses en double. Le reste des rejets au contrôle ont été transmis aux commis au dépouillement. Un système interactif permettait aux commis de comparer les données saisies d’un questionnaire à l’autre et d’examiner l’image des questionnaires papier pour détecter les erreurs de saisie et les erreurs des répondants. Les rejets au contrôle ont été résolus en supprimant les personnes non valides ou en double ou en ajoutant les personnes manquantes (c.-à-d. en créant des enregistrements de personne vides) lorsque nécessaire.

Les contrôles de couverture ont été suivis d’une autre série de contrôles automatisés, afin de déceler les questionnaires où les réponses manquantes étaient trop nombreuses, ou lorsque les données n’avaient pas été fournies pour tous les membres habituels du ménage, y compris les cas où des personnes manquantes avaient été ajoutées par les commis aux contrôles de couverture. Les ménages rejetés au contrôle ont fait l’objet d’un suivi. Un intervieweur téléphonait aux répondants pour régler les problèmes de couverture et obtenir les renseignements manquants, au moyen d’une application d’interview téléphonique assistée par ordinateur. Dans le cas des ménages qui avaient répondu au questionnaire détaillé, seules les données manquantes aux questions qui figuraient également dans le questionnaire abrégé ont fait l’objet d’un suivi. Les données obtenues lors du suivi étaient intégrées au système en vue d’un traitement subséquent. Dans les cas où le suivi n’a pas permis d’obtenir les données manquantes, les données ont été imputées à l’étape de la vérification et de l’imputation (voir la section 3.8).

3.5 Codage

Les questionnaires du recensement contenaient des questions dont les réponses pouvaient être sélectionnées dans une liste, ainsi que des questions dont les réponses devaient être inscrites par le répondant. Dans la mesure du possible, les réponses écrites se sont vu attribuer automatiquement un code numérique au moyen des fichiers de référence, des ensembles de codes et des classifications normalisées de Statistique Canada. Les fichiers de référence utilisés pour le processus d’appariement automatisé ont été créés au moyen de réponses réelles recueillies lors de recensements antérieurs ou d’autres enquêtes mesurant les mêmes concepts, et à l’aide de fichiers administratifs. Dans les cas où l’attribution automatique d’un code n’était pas possible, l’attribution des codes a été effectuée au moyen de modèles d’apprentissage automatique élaborés à l’aide de l’algorithme de traitement du langage naturel « fastText »Note 1. Enfin, les enregistrements auxquels un code n’a pas été attribué automatiquement par un fichier de référence ou un modèle d’apprentissage automatique ont été codés par des codeurs spécialement formés et des spécialistes du domaine.

Les questions suivantes nécessitaient un codage tant dans le questionnaire détaillé que dans le questionnaire abrégé :

Les questions suivantes nécessitaient un codage pour l’échantillon du questionnaire détaillé seulement :

Un total d’environ 85 millions de réponses écrites ont été codées à partir des questionnaires du Recensement de 2021. Dans l’ensemble, environ 88 % de ces réponses ont été codées automatiquement et environ 9 % ont été codées à l’aide de l’apprentissage automatique, mais le taux de codage variait considérablement d’une question à l’autre.

3.6 Classification et ajustements pour la non-réponse des logements inoccupés et des logements non répondants

L’Enquête sur la classification des logements (ECL) a servi à estimer le taux d’erreur des agents recenseurs lors de la classification des logements privés, hormis ceux dans les unités de collecte (UC) situées dans les communautés des Premières Nations, les établissements métis, les régions inuites et d’autres régions éloignées, et tous les logements privés annexés à un logement collectif, qu’ils soient occupés ou inoccupés. Ces renseignements ont permis d’apporter des ajustements à la base de données du recensement. L’ECL a été réalisée auprès d’un échantillon aléatoire de 1 903 UC visées par les méthodes d’envoi par la poste, de listage/livraison et d’envoi par la poste et livraison à la porte. Les agents recenseurs ont de nouveau visité ces UC en juin, juillet et août 2021 afin de réévaluer l’occupation/inoccupation le jour du recensement de tous les logements privés pour lesquels aucune réponse n’avait été reçue. L’ECL a montré que 17,3 % des 1 259 149 logements privés classés comme étant inoccupés étaient en fait des logements occupés, et que 38,5 % des 342 162 logements privés sans réponse qui avaient été classés comme étant occupés ou dont l’occupation/inoccupation était inconnue étaient en fait des logements inoccupés. Les estimations fondées sur l’échantillon de l’ECL ont servi à ajuster l’occupation/inoccupation des logements individuels. Cela s’est traduit par une augmentation de 3,0 % du nombre de logements privés occupés, et par une diminution de 6,8 % du nombre de logements inoccupés à l’échelle du Canada.

Le statut de non-réponse final est déterminé après l’ajustement du statut d’occupation par l’ECL. Les logements privés occupés avec non-réponse ont vu la taille de leur ménage imputée en fonction de la distribution estimée résultant de l’ECL et le reste de leurs données ont fait l’objet d’une imputation. Les réponses imputées provenaient d’un autre ménage répondant du recensement ou de données administratives et étaient généralement le voisin le plus rapproché géographiquement faisant partie d’un ménage de même taille. Ce processus, appelé imputation des ménages entiers, est expliqué aux sections 3.7 et 3.8.

Le processus d’imputation des ménages entiers comporte un autre élément, outre l’utilisation des estimations de l’ECL, pour ajuster la base de données du recensement. Les aires non couvertes par l’ECL — les UC situées dans les communautés des Premières Nations, les établissements métis, les régions inuites et d’autres régions éloignées, et tous les logements privés annexés à un logement collectif — nécessitent une autre stratégie d’imputation. Dans ces aires seulement, tous les logements privés inoccupés sont traités comme étant réellement inoccupés. En partant du principe que les logements inoccupés sont classés correctement, aucune imputation n’est effectuée. Tous les logements privés non répondants que les agents recenseurs ont classés comme étant occupés ont été traités comme s’ils étaient occupés et ont été imputés comme logements occupés. Comme dans les aires couvertes par l’ECL, pour les logements imputés comme logements occupés, la taille de leur ménage et leurs réponses ont été imputées. Les réponses imputées provenaient d’un autre ménage répondant au recensement ou des données administratives. Aucune restriction n’a été imposée à la taille du ménage pour ces imputations, contrairement aux aires couvertes par l’ECL.

Le résultat du processus d’imputation des ménages entiers est que tous les logements privés sont classés comme occupés ou comme inoccupés (c.-à-d. qu’il n’y a plus de logements non répondants). À l’échelle du Canada (tant pour les aires couvertes par l’ECL que celles non couvertes par l’ECL), 3,1 % des logements privés occupés ont été imputés par l’entremise du processus d’imputation des ménages entiers.

Des renseignements plus détaillés sur l’ECL et le processus d’imputation des ménages entiers seront disponibles dans le Rapport technique sur la couverture, Recensement de la population, 2021, produit no 98-303-X au catalogue de Statistique Canada.

3.7 Utilisation des données administratives

Le recours aux données administratives a augmenté pour le Recensement de 2021 comparativement au Recensement de 2016. En plus des données administratives utilisées pour le processus du revenu, elles ont été utilisées pour l’immigration, ainsi que dans le cadre du processus d’imputation des ménages entiers. Toutes ces utilisations ont bénéficié du couplage des données administratives.

Revenu

Comme c’était le cas en 2016, les données administratives ont constitué l’unique source de renseignements sur le revenu pour le Programme du recensement. Cela a non seulement allégé le fardeau de réponse, mais a aussi augmenté la qualité et la quantité des données disponibles sur le revenu. Les renseignements sur le revenu des particuliers ont été compilés à partir de données administratives pour l’ensemble de la population âgée de 15 ans et plus. Le fichier des déclarations de revenus et de prestations T1; les feuillets T3, T4, T4A, T4RIF, T4RSP, T5, T4A(P), T4A(OAS), T4E et T5007; les données de l’Allocation canadienne pour enfants; et les données sur le crédit pour la taxe sur les produits et services/taxe de vente harmonisée sont des exemples de sources de données administratives utilisées. Le revenu imposable et le revenu non imposable qui ont été reçus de façon régulière et récurrente pendant l’année civile 2020Note 2 ont été inclus. Les revenus ponctuels, comme les retraits forfaitaires de régimes enregistrés d’épargne-retraite et d’autres régimes d’épargne, les règlements forfaitaires d’assurance ou de prestations de retraite, les gains ou pertes en capital, les héritages et les gains de loterie ont été exclus.

Immigration

Le processus d’immigration a succédé au processus de catégorie d’admission de 2016Note 3, qui intègre également des éléments qui figuraient dans le processus ethnoculturel de 2016Note 4. Pour la première fois, en 2021, les données administratives d’Immigration, Réfugiés et Citoyenneté Canada (IRCC) ont été la principale source de renseignements pour la plupart des variables traitées dans le processus d’immigration pour l’échantillon du questionnaire détaillé du recensement. En 2016, on a demandé aux répondants d’indiquer leur lieu de naissance, leur citoyenneté, leur statut d’immigrant et leur année d’immigration (le cas échéant). Pour 2021, les questions sur le statut d’immigrant et l’année d’immigration ont été remplacées par des données administratives. En plus des variables traitées en 2016, les données administratives d’IRCC ont fourni de nouvelles variables avec des renseignements sur les résidents non permanents, l’année d’arrivée, la province ou le territoire de destination et plus encore.

Imputation des ménages entiers

Au cours du processus d’imputation des ménages entiers, des données administratives à l’échelle des ménages et des particuliers ont été utilisées pour imputer certains ménages non répondants afin d’améliorer la qualité des données sur les chiffres de population et des logements. Lorsque les données administratives étaient de qualité suffisante, elles étaient utilisées pour imputer les variables de la taille du ménage, de la date de naissance et du sexe à la naissance.

3.8 Vérification et imputation

Les données recueillies dans le cadre de tout recensement ou enquête contiennent des omissions ou des incohérences. Par exemple, un répondant peut éprouver de la réticence à répondre à une question, fournir une réponse qui contredit la réponse fournie à une question précédente ou fournir une réponse vide de sens. D’autres erreurs, comme le codage incorrect, peuvent aussi se produire.

L’épuration définitive des données, qui est effectuée à l’étape de la vérification et de l’imputation, a été entièrement automatisée en utilisant le Système canadien de vérification et d’imputation du recensement (SCANVIR) (Statistique Canada, 2020), pour l’ensemble des sujets du recensement. Deux méthodes d’imputation ont été appliquées. La première méthode, appelée « imputation déterministe », consistait à attribuer des valeurs précises sous certaines conditions quand la résolution du problème est claire et non ambiguë. Des règles de vérification détaillées ont été appliquées pour déterminer ces conditions, puis des valeurs prédéterminées sont attribuées aux variables intervenant dans les règles. La deuxième méthode, appelée « imputation par donneur à changements minimaux par le plus proche voisin », comprenait l’application d’une série de règles de vérification détaillées qui permettaient de déceler toute réponse manquante ou incohérente. Quand un enregistrement qui contenait des réponses manquantes ou incohérentes était repéré, un autre enregistrement qui répondait aux règles de vérification et dont un ensemble de caractéristiques définies étaient les plus proches de celles de l’enregistrement erroné était sélectionné comme l’enregistrement donneur. Les données qui provenaient de cet enregistrement donneur étaient empruntées et utilisées pour apporter le nombre minimal de changements aux variables afin de résoudre tous les problèmes de réponses manquantes ou incohérentes.

Le processus de vérification et d’imputation commence par l’application de la procédure d’imputation des ménages entiers aux non-répondants au recensement dans les UC ayant un taux de réponse inférieur à 90 %. Pour les non-répondants qui ont des dossiers de données administratives de bonne qualité, les variables relatives à la taille du ménage, à la date de naissance et au sexe à la naissance sont imputées à partir de leurs données administratives pour tous les membres du ménage dans un premier temps. Le reste des variables manquantes sont imputées aux étapes subséquentes. Les autres non-répondants au recensement sont imputés par la méthode du plus proche voisin géographique parmi l’ensemble des répondants complets ou partiels, ou l’ensemble des non-répondants maintenant imputés par les données administratives. Dans les aires couvertes par l’ECL, le donneur doit avoir la même taille de ménage.

Une fois la procédure d’imputation des ménages entiers terminée, le reste des renseignements manquants ou invalides sont imputés de manière déterministe ou au moyen de la méthode du plus proche voisin, module par module. Ces modules sont conçus pour traiter ensemble toutes les variables comportant un sujet commun.

3.9 Non-réponse

Le statut de non-réponse peut différer à l’étape de la collecte et à celle du traitement. Les différences principales surviennent parce que l’occupation/inoccupation peut changer entre la collecte et le traitement, et parce que le ménage doit répondre à un minimum de questions pour qu'il soit considéré comme répondant à l’étape du traitement. À moins d’avis contraire, le terme « non-réponse » désigne la non-réponse à l’étape du traitement des données. Il en sera de même si l’on fait référence à la réponse au lieu de la non-réponse.

Pour le questionnaire détaillé du Recensement de 2021, il y a deux genres de ménages qui sont considérés comme des ménages non répondants :

On parle ici de non-réponse totale. Celle-ci est traitée différemment selon le mode de collecte et le type de ménage.

3.10 Pondération

Le Programme du recensement canadien de 2021 était composé d’un Recensement de la population et d’une enquête-échantillon pour laquelle le quart des ménages privés canadiens avaient été sélectionnés. Les ménages non échantillonnés pour l’enquête ont reçu un questionnaire abrégé, tandis que les ménages échantillonnés ont reçu un questionnaire détaillé. En plus des questions du questionnaire abrégé, le questionnaire détaillé a permis de recueillir des renseignements socioculturels ainsi que des informations sur les activités de la vie quotidienne, sur la mobilité, sur le lieu de naissance, sur la scolarité et sur les activités sur le marché du travail, entre autres. On a fait appel à la pondération pour représenter l’ensemble de la population à partir des renseignements recueillis auprès de l’échantillon.

La première étape de la pondération consistait à attribuer à chaque ménage un poids de sondage qui reflétait la probabilité qu’il soit échantillonné. Dans la plupart des UC, la fraction de sondage était d’un quart. Par conséquent, les ménages de ces UC ont reçu un poids de sondage de 4. Par la suite, les poids de sondage de ces UC ont subi un premier ajustement pour tenir compte de la couverture et de la non-réponse totale. Cet ajustement a été appliqué aux poids des ménages répondants. Finalement, un deuxième ajustement, que l’on appelle le calage final, a été effectué afin d’établir une meilleure concordance entre les estimations obtenues à partir des ménages répondants de l’échantillon et les chiffres du recensement pour un certain nombre de caractéristiques provenant du questionnaire abrégé ou de sources de données administratives. La méthodologie de pondération est décrite en détail au chapitre 4. Tous les ménages privés annexés à un logement collectif et tous les ménages privés dans les UC situées dans les communautés des Premières Nations, les établissements métis, les régions inuites et d’autres régions éloignées ont été sélectionnés pour l’échantillon du questionnaire détaillé et ont donc reçu un poids de sondage de 1. Par la suite, ils ont été exclus des processus d’ajustement pour la couverture et la non-réponse ainsi que du calage final.

Les ménages de l’échantillon du questionnaire détaillé ayant un poids non nul à la fin des étapes de pondération étaient les ménages répondants ainsi que les ménages ayant reçu un poids de sondage de 1, c’est-à-dire les ménages privés annexés à un logement collectif et tous les ménages privés dans les UC situées dans les communautés des Premières Nations, les établissements métis, les régions inuites et d’autres régions éloignées. Ces ménages constituaient l’ensemble des ménages qui contribuaient aux estimations du questionnaire détaillé.

3.11 Taux de réponse finaux

Le tableau 3.11.1 présente les taux de réponse finaux des ménages privés du Recensement de la population de 2021 à l’échelle nationale et pour chaque province et territoire, suivis des taux de réponse non pondérés et pondérés pour l’échantillon du questionnaire détaillé en se basant sur la définition de la non-réponse précisée à la section 3.9.

Le taux de réponse final est calculé par le ratio du numérateur au dénominateur où :

La classification finale d’occupation/inoccupation est fondée sur l’analyse des données recueillies par le personnel sur le terrain, les données fournies par les répondants et les résultats d’une étude de la qualité concernant l’occupation/inoccupation selon l’ECL (voir la section 3.6). Les taux de réponse du tableau 3.11.1 diffèrent des taux de réponse à la collecte, lesquels avaient été publiés auparavant et dont il est fait mention à la section 1.5, en ce sens qu’ils tiennent compte du traitement des données et de la vérification de l’occupation/inoccupation des logements pour cerner les ménages non répondants. Par conséquent, ces taux de réponse sont considérés comme finaux.

Les taux de réponse pondérés ont été produits pour l’échantillon du questionnaire détaillé. Ils sont définis comme le ratio du numérateur au dénominateur où :

Tableau 3.11.1
Taux de réponse finaux des ménages privés au Recensement de la population de 2021 et à l’échantillon du questionnaire détaillé
Sommaire du tableau
Le tableau montre les résultats de Taux de réponse finaux des ménages privés au Recensement de la population de 2021 et à l’échantillon du questionnaire détaillé. Les données sont présentées selon Région (titres de rangée) et Taux de réponse — questionnaire abrégé, Taux de réponse non pondéré — questionnaire détaillé seulement et Taux de réponse pondéré — questionnaire détaillé seulement , calculées selon pourcentage unités de mesure (figurant comme en-tête de colonne).
Région Taux de réponse — questionnaire abrégé Taux de réponse non pondéré — questionnaire détaillé seulement Taux de réponse pondéré — questionnaire détaillé seulement
pourcentage
Canada 96,9 94,9 95,7
Terre-Neuve-et-Labrador 97,0 95,0 95,6
Île-du-Prince-Édouard 97,6 96,5 96,8
Nouvelle-Écosse 97,1 95,6 96,1
Nouveau-Brunswick 96,8 94,8 95,7
Québec 97,1 95,7 96,3
Ontario 97,2 95,8 96,2
Manitoba 96,5 93,1 94,4
Saskatchewan 95,5 91,8 93,5
Alberta 96,5 93,4 94,4
Colombie-Britannique 96,5 94,0 95,1
Yukon 95,7 85,5 89,5
Territoires du Nord-Ouest 91,8 86,2 89,2
Nunavut 79,7 78,1 78,1

Date de modification :