Guide du Recensement de la population, 2021
Chapitre 8 – Traitement

Introduction

L’étape suivant la collecte, appelée étape du traitement, a commencé le 26 avril 2021, par la vérification et le codage des réponses d’environ 17 millions de logements privés ou collectifs.

Réception et enregistrement

Pour le Recensement de 2021, les réponses électroniques aux questionnaires en ligne étaient reçues du Portail de gestion de la collecte (PGC) et enregistrées dans le Système de traitement du recensement (STR), toutes les heures, avant d’être intégrées dans le flux des opérations de contrôle et de codage. Le STR enregistrait aussi les réponses des intervieweurs en provenance de l’Assistance téléphonique du recensement, le suivi des cas de non-réponse (SCNR) et le suivi des questionnaires rejetés au contrôle (SQRC) sur une base régulière durant la collecte et le suivi.

Les questionnaires papier retournés par la poste étaient enregistrés dans les centres de tri de Postes Canada au moyen de la numérisation du code à barres à la première page du questionnaire, visible par la fenêtre de l’enveloppe-réponse, avant d’être retournés au Centre des opérations des données (COD). Pour que Statistique Canada puisse accuser réception des questionnaires, ceux-ci ont été sortis de leur enveloppe et numérisés de nouveau au COD par l’intermédiaire des postes d’inscription manuelle. Lorsque Postes Canada n’était pas en mesure de lire les codes à barres (p. ex. lorsque les questionnaires étaient insérés à l’envers dans les enveloppes), les questionnaires ont été retirés des enveloppes, et le code à barres a été numérisé lors de la livraison des enveloppes à Statistique Canada.

L’enregistrement de tous les questionnaires en provenance de Postes Canada était transmis au PGC toutes les heures. Les employés du recensement étaient avisés (par l’entremise du PGC) des questionnaires reçus, afin de cesser de communiquer avec les répondants en question pendant les procédures de SCNR.

Les questionnaires papier remplis par des employés du recensement pendant le SCNR étaient expédiés par les superviseurs (chefs d’équipe) directement au COD, où ils étaient enregistrés. Tous ces questionnaires faisaient ensuite l’objet d’une saisie des données, comme les autres réponses sur papier.

Imagerie et saisie des données

Une fois les questionnaires papier enregistrés, l’étape suivante consistait à préparer les documents et à les numériser pour la saisie des données des réponses.

Étapes

  1. Préparation des documents — Les questionnaires retournés par la poste étaient retirés des enveloppes. En vue de la préparation des questionnaires pour la numérisation, les opérateurs enlevaient des documents tous les objets étrangers, comme les trombones et les agrafes. Les questionnaires étaient également séparés en feuilles détachées à l’aide d’un massicot (gros coupe-papier).
  2. Numérisation — La numérisation, au moyen de scanneurs ultrarapides, a permis de créer des images numériques à partir des questionnaires papier.
  3. Assurance-qualité automatisée de l’image — Un système automatisé a permis de vérifier la qualité de la numérisation, en vue de la saisie. Les images rejetées ont été marquées d’un indicateur au moment de l’analyse des documents, et un opérateur a déterminé la meilleur façon de saisir le questionnaire.
  4. Saisie automatisée des données — Les technologies de reconnaissance optique des marques et de reconnaissance optique des caractères ont été utilisées pour extraire les données des répondants. Lorsque le système ne pouvait pas reconnaître les marques écrites à la main (appelées réponses écrites), l’entrée au clavier était effectuée par un opérateur à partir des images numérisées. Les questionnaires papier qui ne pouvaient pas être numérisés (p. ex. parce qu’ils étaient trop endommagés), ou qui avaient été remplis au moyen d’un stylo ou d’un crayon et ne pouvaient pas être lus par les systèmes de saisie automatisée, étaient envoyés à la transcription (c’est-à-dire que les données étaient transcrites dans un nouveau questionnaire).
  5. Vérification à la sortie — Ce processus d’assurance de la qualité visait à vérifier que les images des questionnaires et les données saisies étaient de qualité suffisante pour que les questionnaires papier ne soient plus nécessaires.

Contrôles

Au fur et à mesure de la saisie des questionnaires papier et de la réception des questionnaires en ligne, un processus interactif de contrôles manuels et automatisés a été effectué afin de déterminer et de résoudre les problèmes et les incohérences.

  1. Aucun contenu ou contenu minimum — Ce contrôle automatisé permettait de repérer les questionnaires ne contenant aucun renseignement ou contenant des renseignements insuffisants pour continuer le traitement. Ces cas étaient retournés sur le terrain, afin que les employés du recensement puissent effectuer un suivi des cas de non-réponse.
  2. Réponses multiples — Il se peut que plusieurs questionnaires aient été nécessaires dans un ménage (p. ex. les ménages nombreux ont besoin de plus d’un questionnaire papier pour répondre au recensement). Ce contrôle automatisé permettait d’identifier les ménages pour lesquels il manquait un ou plusieurs questionnaires. Ces cas étaient mis en attente jusqu’à ce que tous les questionnaires soient reçus.
  3. Contrôles de couverture — Ces contrôles étaient menés pour les logements privés et les logements collectifs afin de confirmer que le nombre déclaré de membres d’un ménage correspondait aux réponses fournies, y compris le nombre de noms inscrits. Les erreurs étaient résolues au moyen d’un processus automatisé ou grâce à une vérification interactive par les employés du COD, qui examinaient manuellement les données saisies et les images numérisées (le cas échéant), afin de déterminer la solution appropriée.
  4. Suivi des questionnaires rejetés au contrôle — Les questionnaires abrégés qui nécessitaient des précisions en ce qui concerne la couverture ou le contenu étaient transmis aux bureaux régionaux de Statistique Canada pour le processus de suivi des questionnaires rejetés au contrôle, puis retournés au STR pour leur traitement subséquent par le COD.

Codage

Les réponses écrites aux questions du recensement étaient converties en codes numériques, avant de pouvoir être totalisées en vue de l’analyse et de la diffusion. Pour le Recensement de 2021, toutes les réponses écrites des questionnaires ont été soumises à un codage automatisé et interactif, afin d’attribuer à chacune un code numérique provenant de fichiers de référence, d’ensembles de codes et de classifications types.

Le codage automatisé a été effectué à l’aide de l’outil de codage généralisé (G-Code) de Statistique Canada. Une étape de prétraitement préparait d’abord les chaînes de texte des réponses écrites pour le codage automatisé. Ces chaînes de texte étaient ensuite mises en correspondance avec des fichiers de référence créés par des spécialistes du domaine à partir de réponses réelles des recensements antérieurs. Ce code était attribué aux réponses écrites avec correspondance exacte dans le fichier de référence.

Les réponses écrites restantes étaient ensuite présentées à un modèle d’apprentissage automatique (AA) formé à l’aide de données codées de grande qualité et de fichiers de référence choisis par des spécialistes du domaine et des méthodologistes. L’algorithme d’AA attribuait à chaque enregistrement un code et une cote de confiance. Ce code était attribué aux correspondances dont la cote de confiance dépassait les seuils établis.

Les réponses écrites sans code étaient envoyées à des applications de codage interactives pour que des opérateurs de codage spécialement formés et des spécialistes du domaine leur attribuent un code.

Les spécialistes du domaine vérifiaient ensuite tous les enregistrements codés pour certifier leurs codes avant la livraison au contrôle et à l’imputation.

Base de données des réponses

Après la réussite de chaque étape de traitement au COD, les données ont été chargées dans la base de données des réponses (BDR).

La BDR est la base de microdonnées qui contient toutes les réponses saisies (questionnaires papier et électroniques) pendant le traitement. Elle comporte trois catégories de fichiers :

La BDR est hébergée dans un environnement Oracle qui offre des fonctions de sécurité visant à garantir la confidentialité ainsi qu’à contrôler l’accessibilité et l’utilisation. Chaque utilisateur doit obtenir l’accès par l’intermédiaire du Système de demande d’accès de l’organisme pour pouvoir utiliser ces données.

La BDR est un entrepôt de données dont l’objectif principal est de servir à alimenter la base de données de contrôle et d’imputation. Une copie est également stockée à Bibliothèque et Archives Canada aux fins d’archivage.

Contrôle et imputation

Les données recueillies dans le cadre d’une enquête ou d’un recensement comporteront des réponses incohérentes, manquantes ou non valides. Ces erreurs peuvent être attribuables au fait que le répondant n’a pas compris une question ou a omis d’y répondre, ou être générées à l’étape du traitement.

Les activités de contrôle et d’imputation commencent lorsque la saisie des données, les contrôles de couverture et le SQRC sont terminés, et que la BDR est jugée aussi complète, cohérente et exempte d’erreurs de traitement que possible. Le contrôle et l’imputation forment la dernière étape de traitement avant la livraison des données du recensement aux fins de diffusion.

Au cours de la première phase, les données du recensement des ménages privés sont traitées au moyen de l’imputation de ménages entiers (IME), qui résout la non-réponse totale au recensement avant le début du contrôle et de l’imputation. Chacun de ces logements est considéré comme étant occupé ou inoccupé selon les résultats de l’Enquête sur la classification des logements, ce qui mène à l’acheminement des chiffres de population et des logements au Centre de géomatique statistique de Statistique Canada. Outre l’état d'occupation, l’IME attribue la taille du ménage ainsi que quelques caractéristiques démographiques fondées sur des données administratives, si elles sont disponibles, et cherche un ménage donneur qui pourrait partager ses données pour les autres variables manquantes.

La deuxième phase consiste à traiter toutes les données au moyen d’une série de modules d’imputation déterministe et d’imputation par donneur pour chaque sujet, tous exécutés dans une séquence particulière à l’aide du Système canadien de vérification et d’imputation du recensement (SCANVIR). Les modules détectent les réponses incohérentes ou non valides ainsi que les non-réponses partielles, et les corrigent.

L’imputation déterministe corrige les erreurs systématiques ou les erreurs qui n’ont qu’une seule solution selon l’expérience des spécialistes du domaine. Lorsque plusieurs solutions sont possibles pour corriger une erreur, on utilise l’imputation par donneur. Cette méthode, aussi appelée méthode du plus proche voisin, est largement utilisée dans le traitement de la non-réponse. Elle remplace l’information manquante, invalide ou incohérente concernant un répondant par les valeurs d’un autre répondant « semblable ». Les règles qui déterminent le répondant le plus semblable peuvent varier selon les variables à imputer. Les méthodes d’imputation par donneur ont de bonnes propriétés et ne modifient généralement pas la distribution des données, un inconvénient de nombreuses autres techniques d’imputation. L’imputation par plus proche voisin permet de s’assurer que toute valeur imputée est cohérente avec les valeurs des autres variables.

Quelques modules en langage de requête structurée (SQL) ou de système d’analyse statistique (SAS) font également partie du flux de traitement du contrôle et de l’imputation du recensement.

Les modules génèrent également un certain nombre d’indicateurs de la qualité des données (p. ex. non-réponse et imputation). Ces indicateurs seront utilisés à l’étape de l’estimation afin de déterminer indirectement divers indicateurs de la qualité pour chaque question correspondante du recensement.

Pour en savoir plus sur les taux d’imputation, consultez les chapitres relatifs à l’évaluation de la qualité des données et à la diffusion.

Date de modification :