Rapport technique sur l'échantillonnage et la pondération, Recensement de la population, 2016
3. Traitement des données du recensement

 

3.1 Introduction

Le présent chapitre est consacré au traitement de tous les questionnaires remplis, quel que soit leur type, depuis la réception des questionnaires jusqu'à la création d'une base de données du recensement exacte et complète. On trouvera ci-après la description des étapes de l'enregistrement des questionnaires, de l'imagerie et de la saisie des données des questionnaires, du contrôle, de la correction des erreurs, du suivi des questionnaires rejetés au contrôle, du codage, de la classification des logements et des ajustements pour la non-réponse, du couplage des données sur le revenu, de l'imputation, de la pondération et des taux de réponse finaux.

Les processus automatisés, mis en œuvre pour le Recensement de 2016, ont dû être surveillés de manière à ce que toutes les résidences canadiennes soient dénombrées une seule fois. Le Système de contrôle principal (SCP) a été mis au point afin de contrôler et de surveiller l'enchaînement des opérations, de la collecte au traitement des données. Le SCP contenait une liste principale de tous les logements existants au Canada, sur laquelle figurait pour chacun d'eux un identificateur unique. Ce système était mis à jour régulièrement, en fonction des renseignements sur la situation de chaque logement dans le processus d'enchaînement des opérations du recensement (p. ex. livraison, réception ou traitement). Des rapports étaient produits quotidiennement et mis en ligne à la disposition des gestionnaires, afin que les opérations du recensement se déroulent de façon efficace et efficiente.

3.2 Réception et enregistrement

Les réponses reçues par Internet ou recueillies par interview téléphonique par l'Assistance téléphonique du recensement arrivaient directement au Centre des opérations des données (COD) et leur réception était enregistrée automatiquement.

Les répondants qui avaient rempli un questionnaire papier devaient le retourner au COD par la poste. Postes Canada enregistrait automatiquement leur réception dans plusieurs emplacements au Canada (dans le cadre du processus ordinaire de traitement du courrier) en numérisant par la fenêtre transparente des enveloppes-réponses le code à barres qui figurait à la première page du questionnaire. Les enveloppes étaient ensuite livrées au COD chaque jour ouvrable. En outre, Postes Canada envoyait quotidiennement un fichier énumérant tous les questionnaires du recensement reçus à chaque établissement régional de traitement du courrier, selon la date de réception.

L'enregistrement de chaque questionnaire retourné était signalé dans le SCP à Statistique Canada. Le SCP produisait quotidiennement une liste de tous les logements pour lesquels un questionnaire n'avait pas été reçu, et la transmettait aux opérations sur le terrain pour éviter d'effectuer un suivi des cas de non-réponse auprès des ménages qui avaient déjà rempli leur questionnaire.

3.3 Imagerie et saisie à partir d'images

En 2016, tous les questionnaires papier du recensement (2A, 2C, 2A-L, 2A-R, 3A) ont été convertis en images. Le processus d'imagerie comprenait les étapes suivantes :

3.4 Contrôles de couverture, contrôles d'intégralité et suivi des questionnaires rejetés au contrôle

À cette étape, un certain nombre de contrôles automatisés ont été exécutés sur les données des répondants. Ces contrôles ont servi à déceler les cas où le nombre de personnes dénombrées dans le ménage était incorrect en raison d'une erreur de collecte, d'une erreur du répondant ou d'une erreur de saisie des données. La plupart de ces erreurs se sont produites dans les questionnaires papier et comprennent :

Des erreurs peuvent se produire tant dans les questionnaires en ligne que dans les questionnaires papier; par exemple :

Environ 58 % des rejets au contrôle ont été résolus automatiquement par le système, lorsque la nature de l'erreur était telle que la solution était évidente. Les solutions consistaient à supprimer les données sur les personnes fictives provenant d'une erreur du répondant ou d'une erreur de saisie, et à supprimer les réponses en double. Les rejets au contrôle n'ayant pas pu être résolus automatiquement ont été transmis aux commis au dépouillement. Un système interactif permettait aux commis de comparer les données saisies d'un questionnaire à l'autre et d'examiner l'image des questionnaires papier pour détecter les erreurs de saisie et les erreurs des répondants. Les rejets au contrôle ont été résolus en supprimant les personnes non valides ou en double ou en ajoutant les personnes manquantes (c.-à-d. en créant des enregistrements de personne en blanc) lorsque nécessaire.

Les contrôles de couverture ont été suivis d'une autre série de contrôles automatisés, afin de déceler les questionnaires où les réponses manquantes étaient trop nombreuses, ou lorsque les données n'avaient pas été fournies pour tous les membres habituels du ménage, y compris les cas où des personnes manquantes avaient été ajoutées par les commis aux contrôles de couverture. Les ménages rejetés au contrôle ont fait l'objet d'un suivi. Un intervieweur téléphonait aux répondants pour régler les problèmes de couverture et obtenir les renseignements manquants, au moyen d'une application d'interview téléphonique assistée par ordinateur. Dans le cas des ménages qui avaient répondu au questionnaire détaillé, seules les données manquantes aux questions qui figuraient également dans le questionnaire abrégé ont fait l'objet d'un suivi. Les données obtenues lors du suivi étaient réintégrées au système en vue d'un traitement subséquent. Dans les cas où le suivi n'a pas permis d'obtenir les données manquantes, les données ont été imputées à l'étape de la vérification et de l'imputation (voir la section 3.9).

3.5 Codage

Les questionnaires du recensement contenaient des questions dont les réponses pouvaient être cochées sur une liste, ainsi que des questions dont les réponses devaient être inscrites par le répondant dans les cases prévues à cette fin. Chaque réponse écrite s'est vu attribuer automatiquement un code numérique au moyen des fichiers de référence, des ensembles de codes et des classifications types de Statistique Canada. Les fichiers de référence utilisés pour le processus d'appariement automatisé ont été créés au moyen des réponses réelles recueillies lors des recensements antérieurs, et à l'aide de fichiers administratifs. Des codeurs et des spécialistes du domaine ayant reçu une formation particulière réglaient les cas où il était impossible d'attribuer automatiquement un code. Les questions suivantes nécessitaient un codage tant dans le questionnaire détaillé que dans le questionnaire abrégé :

Les questions suivantes nécessitaient un codage pour l'échantillon du questionnaire détaillé seulement :

Un total d'environ 69 millions de réponses écrites ont été codées à partir des questionnaires du Recensement de 2016. Globalement, environ 85 % de ces réponses ont été codées automatiquement, mais le taux de codage automatique variait considérablement d'une variable à l'autre.

3.6 Classification et ajustements pour la non-réponse des logements inoccupés et des logements non répondants

L'Enquête sur la classification des logements (ECL) a servi à estimer le taux d'erreur des agents recenseurs lors de la classification des logements privés comme étant occupés ou inoccupés dans les unités de collecte (UC) où le recensement a été effectué par envoi par la poste et par listage/livraison. L'information ainsi recueillie a permis d'apporter des ajustements à la base de données du recensement. L'ECL a été réalisée auprès d'un échantillon aléatoire de 1 730 UC visées par l'envoi par la poste et le listage/livraison. Les agents recenseurs ont de nouveau visité ces UC en juin et juillet 2016 afin de réévaluer le statut d'occupation le jour du recensement de chaque logement pour lesquels aucune réponse n'avait été reçue. L'ECL a montré que 15,0 % des 1 187 392 logements privés classés comme étant inoccupés étaient en fait occupés, et que 36,9 % des 284 966 logements privés sans réponse qui avaient été classés comme étant occupés ou dont le statut d'occupation était inconnu, étaient en fait inoccupés. Les estimations fondées sur l'échantillon de l'ECL ont servi à ajuster le statut d'occupation des logements individuels. Cela s'est traduit par une augmentation de 2,6 % du nombre de logements privés occupés, et par une diminution de 6,2 % du nombre de logements inoccupés à l'échelle du Canada.

Après l'ajustement du statut d'occupation par l'ECL, les logements privés occupés ayant une non-réponse totale ont fait l'objet d'une imputation du nombre de résidents habituels (s'il n'était pas connu) et de toutes les réponses aux questions du recensement en empruntant les réponses d'un autre ménage répondant dans la même UC. Ce processus, appelé imputation de ménages entiers (IME), a imputé 99,9 % des ménages ayant une non-réponse totale. L'utilisation d'un seul donneur dans le cadre de l'IME était informatiquement plus efficace et moins susceptible de produire des résultats non plausibles que l'utilisation de plusieurs donneurs dans le cadre du processus principal de vérification et d'imputation. Néanmoins, pour les autres ménages ayant une non-réponse totale, c'est-à-dire 0,1 % d'entre eux, pour lesquels aucun ménage donneur n'avait été trouvé dans le cadre de l'IME, l'imputation a été effectuée au moyen du processus principal de vérification et d'imputation.

Le processus de l'IME comporte un autre élément, outre l'utilisation des estimations de l'ECL, pour ajuster la base de données du recensement. Les aires non couvertes par l'ECL — les UC où les questionnaires du recensement sont administrés par des intervieweurs (c.-à-d. les UC dans les réserves indiennes, les UC de recensement par interview et les UC collectives) — nécessitent une autre stratégie d'imputation. Dans ces aires seulement, tous les logements inoccupés sont traités comme étant réellement inoccupés, et tous les logements non répondants sont traités comme étant réellement occupés. Partant du principe que tous les logements inoccupés sont classés correctement, aucune imputation n'est effectuée. Les logements privés dont le statut d'occupation est classé comme inconnu sont également traités comme étant inoccupés. En revanche, les logements privés non répondants que les agents recenseurs ont classés comme étant occupés sont tous traités comme s'ils étaient occupés, et le voisin le plus rapproché géographiquement est utilisé comme ménage donneur pour ces logements. Aucune restriction n'a été imposée à la taille du ménage pour ces imputations, contrairement aux aires couvertes par l'ECL. À l'échelle du Canada (tant pour les aires couvertes par l'ECL que celles non couvertes par l'ECL), 2,6 % des logements privés occupés ont été imputés par l'entremise du processus de l'IME.

Des renseignements plus détaillés sur l'ECL et la procédure d'IME seront disponibles dans le Rapport technique sur la couverture, Recensement de la population, 2016, no 98-303-X au catalogue de Statistique Canada, qui sera publié en 2019.

3.7 Obtention des données sur le revenu

En 2016, pour la première fois, les données administratives ont constitué l'unique source d'information sur le revenu pour le Programme du recensement. Cela a non seulement allégé le fardeau de réponse, mais a aussi accru la qualité et la quantité des données disponibles sur le revenu. Les renseignements sur le revenu des particuliers ont été compilés à partir de données administratives pour l'ensemble de la population âgée de 15 ans et plus plutôt que pour un échantillon, comme c'était le cas en 2011 et 2006. Les revenus imposable et non imposable, de nature régulière et récurrente, reçus pendant l'année civile 2015 ont été inclus. Les revenus ponctuels, comme les retraits forfaitaires de régimes enregistrés d'épargne-retraite et d'autres régimes d'épargne, les règlements forfaitaires d'assurance ou de prestations de retraite, les gains ou pertes en capital, les héritages et les gains de loterie ont été exclus.

L'information sur les répondants au recensement pouvait être couplée à deux types de dossiers de l'Agence du revenu du Canada (ARC) selon qu'ils étaient : 1) des déclarants, pour lesquels toute l'information sur le revenu pouvait être tirée des fichiers d'impôt, soit les déclarations T1, les feuillets fiscaux et les programmes gouvernementaux administrés par l'ARC, ou 2) des non-déclarants, pour lesquels seule l'information provenant des feuillets fiscaux et des programmes gouvernementaux administrés par l'ARC était disponible. En 2016, les renseignements de 94,8 % de la population âgée de 15 ans et plus dans les ménages privés ont été couplés à un dossier administratif de l'ARC. Plus précisément, les renseignements de 85,2 % de la population ont été couplés à un dossier de déclarant, et ceux de 9,6 % de la population ont été couplés à un dossier de non-déclarant.

Pour plus d'information sur l'obtention des données sur le revenu, veuillez consulter le Guide de référence sur le revenu, Recensement de la population, 2016, no 98-500-X2016004 au catalogue.

3.8 Non-réponse

Le statut de non-réponse peut différer à la collecte et au traitement. Les différences principales surviennent parce que le statut d'occupation peut changer entre la collecte et le traitement et parce que le ménage doit répondre à un minimum d'items pour qu'il soit considéré comme répondant à l'étape du traitement. À moins d'avis contraire, lorsqu'il sera mention de « non-réponse », on fera référence à la non-réponse au traitement des données. Il en sera de même si l'on aborde la réponse au lieu de la non-réponse.

Pour le questionnaire détaillé du Recensement de 2016, il y a deux genres de ménages qui sont considérés comme des ménages non répondants :

On parle ici de non-réponse totale. Celle-ci est traitée différemment selon le mode de collecte et le genre de ménage.

Enfin, on parle de non-réponse partielle lorsque le questionnaire détaillé est rempli partiellement. Ce genre de réponse est traité par imputation. Un aperçu de cette méthode est présenté à la section suivante.

3.9 Vérification et imputation

Les données recueillies dans le cadre de tout recensement ou enquête contiennent des omissions ou des incohérences. Par exemple, un répondant peut éprouver de la réticence à répondre à une question, ne pas se souvenir de la bonne réponse ou mal comprendre la question. D'autres erreurs, comme le codage incorrect d'une réponse, peuvent aussi se produire.

L'épuration définitive des données, à l'étape de la vérification et de l'imputation, a été automatisée en utilisant le Système canadien de vérification et d'imputation du recensement (SCANVIR) [Statistique Canada, 2014], pour l'ensemble des sujets du recensement. Deux méthodes d'imputation ont été appliquées. La première méthode, appelée « imputation déterministe », consiste à attribuer des valeurs particulières sous certaines conditions quand la résolution du problème est claire et non ambiguë. Des règles de vérification détaillées sont appliquées pour déterminer ces conditions, puis des valeurs prédéterminées sont attribuées aux variables intervenant dans les règles. La deuxième méthode, appelée « imputation par donneur à changements minimaux par le plus proche voisin », comprend l'application d'une série de règles de vérification détaillées qui permettent de déceler toute réponse manquante ou incohérente. Quand un enregistrement contenant des réponses manquantes ou incohérentes est repéré, un autre enregistrement qui satisfait les règles et dont la plupart des caractéristiques sont les mêmes que celles de l'enregistrement erroné est sélectionné. Les données provenant de cet enregistrement donneur sont empruntées et utilisées pour apporter le nombre minimal de changements aux variables afin de résoudre tous les problèmes de réponses manquantes ou incohérentes.

3.10 Pondération

Le programme du Recensement canadien de 2016 est composé d'un Recensement de la population et d'une enquête-échantillon pour laquelle le quart des ménages privés canadiens sont sélectionnés. Les ménages non échantillonnés pour l'enquête ont reçu un questionnaire abrégé, tandis que les ménages échantillonnés ont reçu un questionnaire détaillé. En plus des questions du questionnaire abrégé, le questionnaire détaillé a permis de recueillir des renseignements socioculturels, des informations sur les activités de la vie quotidienne, la mobilité, le lieu de naissance, la scolarité, les activités sur le marché du travail, etc. On a fait appel à la pondération pour représenter l'ensemble de la population à partir de l'information recueillie auprès de l'échantillon.

La première étape de la pondération consistait à attribuer à chaque ménage un poids de sondage reflétant la probabilité qu'il soit échantillonné. Par la suite, ces poids ont subi un premier ajustement pour tenir compte de la couverture et de la non-réponse totale. Cet ajustement a été appliqué aux poids des ménages répondants. Finalement, un deuxième ajustement, le calage final, a été effectué afin d'établir une meilleure concordance entre les estimations obtenues à partir des ménages répondants de l'échantillon et les chiffres du recensement pour un certain nombre de caractéristiques provenant du questionnaire abrégé ou de sources de données administratives. La méthode de pondération est décrite en détail au chapitre 4. Tous les ménages privés annexés à un logement collectif et tous les ménages privés d'UC de recensement par interview ont été sélectionnés pour l'échantillon du questionnaire détaillé et ont donc reçu un poids de sondage de un. Par la suite, ils ont été exclus des processus d'ajustement pour la couverture et la non-réponse ainsi que du calage final.

Les ménages de l'échantillon du questionnaire détaillé ayant un poids non nul à la fin des étapes de pondération sont les ménages répondants ainsi que les ménages ayant reçu un poids de sondage de un, c.-à-d. les ménages privés annexés à un logement collectif et tous les ménages privés d'UC de recensement par interview. Ces ménages constituent l'ensemble des ménages qui contribuent aux estimations du questionnaire détaillé.

3.11 Taux de réponse finaux

Le tableau 3.11.1 présente les taux de réponse finaux des ménages privés du Recensement de la population de 2016 à l'échelle nationale et pour chaque province et territoire, suivis des taux de réponse non pondérés et pondérés pour l'échantillon du questionnaire détaillé en se basant sur la définition de la non-réponse de la section 3.8.

Le taux de réponse final est calculé par le ratio du numérateur au dénominateur suivant :

La classification finale du statut d'occupation des logements est fondée sur l'analyse des données recueillies par le personnel sur le terrain, les données fournies par les répondants et les résultats d'une étude de la qualité concernant le statut d'occupation selon l'ECL (voir la section 3.6). Rappelons que les taux de réponse du tableau 3.11.1 se distinguent des taux de réponse à la collecte, auparavant publiés et dont il est fait mention à la section 1.3, en ce sens qu'ils tiennent compte du traitement des données et de la vérification du statut d'occupation des logements pour identifier les ménages non répondants. Ces taux de réponse sont ainsi considérés comme finaux.

Les taux de réponse pondérés sont produits pour l'échantillon du questionnaire détaillé. Ils sont basés sur les poids suivants au numérateur et au dénominateur :

Tableau 3.11.1
Taux de réponse finaux des ménages privés au Recensement de la population de 2016 et de l'échantillon du questionnaire détaillé
Sommaire du tableau
Le tableau montre les résultats de Taux de réponse finaux des ménages privés au Recensement de la population de 2016 et de l'échantillon du questionnaire détaillé. Les données sont présentées selon Province/territoire (titres de rangée) et Taux de réponse du questionnaire abrégé, Taux de réponse non pondéré du questionnaire détaillé seulement et Taux de réponse pondéré du questionnaire détaillé seulement, calculées selon pourcentage unités de mesure (figurant comme en-tête de colonne).
Province/territoire Taux de réponse du questionnaire abrégé Taux de réponse non pondéré du questionnaire détaillé seulement Taux de réponse pondéré du questionnaire détaillé seulement
pourcentage
Canada 97,4 96,1 95,9
Terre-Neuve-et-Labrador 97,4 96,0 95,1
Île-du-Prince-Édouard 97,5 96,4 96,3
Nouvelle-Écosse 97,6 96,6 96,1
Nouveau-Brunswick 97,6 96,7 96,2
Québec 97,6 96,7 96,6
Ontario 97,6 96,5 96,3
Manitoba 97,4 95,9 95,8
Saskatchewan 96,7 95,6 95,1
Alberta 97,0 95,3 94,8
Colombie-Britannique 96,5 94,8 94,6
Yukon 95,8 91,9 92,8
Territoires du Nord-Ouest 93,9 92,7 93,0
Nunavut 92,7 92,6 92,6

Note

Date de modification :