Guide du Recensement de la population, 2021
Chapitre 9 – Évaluation de la qualité des données

Table des matières Renseignements supplémentaires

Introduction

Le présent chapitre porte sur l’évaluation de la qualité des données du Recensement de la population. La première section explique les raisons pour lesquelles de telles évaluations sont effectuées et les fins auxquelles les résultats sont utilisés. La deuxième section énumère et décrit les principaux types d’erreurs possibles. La troisième section présente les évaluations portant sur la couverture du Recensement de la population. La quatrième section explique ce qu’est la certification des données.

Dans le cadre du Recensement de la population de 2021, des changements importants ont été apportés à la stratégie de diffusion des indicateurs de la qualité pour permettre aux utilisateurs de faire une évaluation détaillée de la qualité des données en fonction de leurs besoins particuliers. Ces changements, de même que les indicateurs de la qualité disponibles, sont décrits dans la cinquième section. La sixième section porte sur l’erreur d’échantillonnage.

Les dernières sections présentent de l’information et des mesures portant sur la qualité des données du Recensement de la population de 2021.

Pourquoi évaluer la qualité des données du recensement

Les données du recensement fournissent de l’information statistique à propos du logement et de la population canadienne à des niveaux géographiques fins et pour de petites sous-populations. Ces données appuient la planification, l’administration, le développement et l’évaluation de politiques par tous les paliers de gouvernement. Les communautés canadiennes utilisent les données du recensement afin de planifier les services liés à l’emploi, à l’éducation et à la santé. Le Recensement de la population permet également de recueillir les données nécessaires pour mettre à jour les estimations démographiques officielles qui sont utilisées pour déterminer les paiements de transfert fédéraux aux provinces et aux territoires. Comme le prévoit la Loi sur la révision des limites des circonscriptions électorales, les données du Recensement de la population de 2021 serviront aussi à réviser le nombre de circonscriptions électorales fédérales et leurs limites géographiques.

Il est essentiel d’assurer la qualité des données du recensement. L’un des moyens d’assurer la qualité est d’effectuer diverses évaluations. Des activités d’évaluation de la qualité sont ainsi mises en œuvre tout au long du processus du recensement, lesquelles commencent avant la collecte des données et se terminent après la diffusion. Ces évaluations portent sur les six dimensions de la qualité des données présentées dans Statistique Canada : lignes directrices concernant la qualité, produit n^o 12-539-X au catalogue : la pertinence, l’exactitude, l’actualité, l’accessibilité, l’intelligibilité et la cohérence. L’objectif est de vérifier que les données du recensement sont fiables et qu’elles répondent aux besoins des utilisateurs.

Plusieurs évaluations de la qualité des données du recensement portent sur l’exactitude des données, c’est-à-dire la mesure dans laquelle l’information statistique décrit correctement ce qu’elle doit mesurer. Les résultats des activités d’évaluation portant sur l’exactitude des données servent à valider et à certifier les données avant leur publication, à informer les utilisateurs de la fiabilité et de l’exactitude des données, à apporter des améliorations au prochain recensement, à ajuster les chiffres du recensement pour la non-réponse et, à la suite de la réalisation d’études sur la couverture, à produire les estimations démographiques officielles.

Principaux types d’erreurs

Quel que soit le soin apporté à la conception du recensement, les données recueillies comporteront inévitablement des erreurs. Ces erreurs peuvent survenir pratiquement à tout moment du processus, depuis la préparation du matériel jusqu’à l’établissement de la liste des logements et de la collecte des données, tout comme elles peuvent se produire au cours du traitement de ces dernières. Les utilisateurs de données du recensement doivent être conscients de l’existence des différents types d’erreurs qui peuvent survenir et connaître les mesures prises pour minimiser ces erreurs, afin de pouvoir évaluer la pertinence et l’exactitude des données et déterminer si elles répondent à leurs besoins.

Il existe deux principaux types d’erreurs : les erreurs d’échantillonnage et les erreurs non dues à l’échantillonnage. Les erreurs non dues à l’échantillonnage sont susceptibles de biaiser les estimations. On tente de les minimiser à chaque étape de la collecte et du traitement de façon à en réduire l’incidence. Par exemple, on tente de corriger les erreurs dues à la non-réponse et les erreurs de couverture en faisant de l’imputation et en ajustant le poids pour les données du questionnaire détaillé. Il reste cependant une erreur résiduelle à la suite de ce traitement. Quatre types d’erreurs non dues à l’échantillonnage peuvent se produire.

Les erreurs de couverture se produisent lorsque des personnes ou des logements sont omis, dénombrés plus d’une fois ou incorrectement dénombrés (c’est-à-dire qui n’auraient pas dû être dénombrés dans le cadre du recensement). Des études sur la couverture sont réalisées pour mesurer l’erreur de classification des logements ainsi que le sous-dénombrement et le surdénombrement des personnes (voir la section Évaluation de la couverture des données dans ce chapitre).

Les erreurs dues à la non-réponse surviennent lorsqu’une partie des renseignements ou tous les renseignements concernant des personnes, des ménages ou des logements n’ont pas été fournis. On distingue la non-réponse partielle (absence de réponse à une ou quelques questions) et la non-réponse totale (absence de réponse à l’enquête parce que le ménage n’a pu être joint ou qu’il a refusé de participer).

Les erreurs de réponse se produisent lorsqu’une question est mal comprise ou lorsqu’une caractéristique est mal déclarée par le répondant, par l’agent recenseur ou par le téléphoniste de l’Assistance téléphonique du recensement. Elles peuvent également survenir lorsque des données de sources alternatives à la collecte traditionnelle sont utilisées et que les concepts qui y sont mesurés ne sont pas exactement les mêmes que ceux de l’enquête, ou lorsque ces données comportent des erreurs.

Les erreurs de traitement peuvent se manifester à diverses étapes du traitement des données. Des réponses peuvent être entrées de façon incorrecte au moment de la saisie des données ou le codage des réponses peut être erroné. Les erreurs de traitement peuvent aussi survenir durant l’imputation, lorsqu’une réponse valide (qui n’est pas nécessairement exacte) est insérée dans un enregistrement pour remplacer une réponse manquante ou non valide. Les erreurs de manipulation des fichiers sont un autre exemple d’erreurs de traitement.

Les erreurs d’échantillonnage s’appliquent uniquement lorsque les réponses aux questions sont obtenues à partir d’un échantillon. Ce type d’erreur ne s’applique donc qu’au questionnaire détaillé du Recensement de la population. L’erreur d’échantillonnage est la différence que l’on observerait entre l’estimation tirée du questionnaire détaillé et la vraie valeur de la population s’il n’y avait pas d’erreurs non dues à l’échantillonnage, c’est-à-dire tous les types d’erreurs mentionnés ci-dessus. Elle est inévitable lorsqu’on procède à une enquête-échantillon telle que celle menée au moyen du questionnaire détaillé du recensement (voir la section Mesure de l’erreur d’échantillonnage dans ce chapitre).

Évaluation de la couverture des données

Un bon nombre d’études portant sur les erreurs de couverture ont été effectuées lors de recensements récents pour permettre aux utilisateurs d’évaluer les répercussions des erreurs de couverture et de mieux comprendre la façon dont ces erreurs surviennent. Dans le cadre du Recensement de 2021, plusieurs études ont pour but d’améliorer ou d’évaluer la couverture du recensement.

Trois études sont menées pour évaluer les erreurs de couverture :

1) Enquête sur la classification des logements

La classification erronée des logements constitue l’une des sources des erreurs de couverture du recensement. Cette erreur peut se produire lorsqu’un logement occupé est classé dans la catégorie des logements inoccupés, ou lorsqu’un logement inoccupé est classé comme un logement occupé. L’Enquête sur la classification des logements (ECL) vise à étudier ces types d’erreurs de classification et à rectifier le dénombrement, si nécessaire. On sélectionne un échantillon de logements classés comme inoccupés ou non répondants, on détermine lesquels sont occupés et, pour ceux qui le sont, on recueille des renseignements sur le nombre de résidents habituels.

Ces renseignements servent à ajuster les données du recensement relatives aux logements, aux ménages et aux personnes. On fait cela en corrigeant les erreurs de classification et en contrôlant, à l’aide des résultats de l’ECL, la distribution de la taille des ménages qui seront imputés pour les logements n’ayant pas retourné leur questionnaire. Toutes ces opérations sont effectuées à temps pour la diffusion initiale des chiffres de population et des logements.

2) Étude sur le sous-dénombrement du recensement

L’Étude sur le sous-dénombrement du recensement (ESoR) permet d’estimer le nombre de personnes omises dans le cadre du recensement (une fois pris en compte les ajustements décrits dans l’ECL ci-dessus). Des estimations sont élaborées pour chaque province et territoire ainsi que pour divers sous-groupes de la population (p. ex. les groupes définis selon l’âge et le sexe, et l’état matrimonial).

Pour ce qui est des provinces, l’ESoR se fait en deux étapes :
- Étape 1 : Sélection d’un échantillon à partir de diverses sources englobant l’ensemble des personnes qui auraient dû être dénombrées dans le cadre du recensement. Ces sources sont le recensement antérieur, les registres des naissances, les dossiers d’immigration et de résidents non permanents, et l’échantillon des personnes omises de l’ESoR du dernier recensement.
- Étape 2 : Couplage des personnes sélectionnées à l’étape 1 avec la base de données des réponses (BDR) du recensement pour déterminer si ces personnes ont été dénombrées. L’étude vise ensuite à dépister et à interviewer les personnes n’ayant pas pu être couplées avec certitude avec la BDR pour recueillir des renseignements supplémentaires. Les personnes décédées ou qui ont émigré avant le jour du recensement sont identifiées à partir de sources de données administratives telles que les fichiers de décès des statistiques de l’état civil, ou encore durant le dépistage ou au moyen d’interviews.
Pour ce qui est des territoires, l’étape 1 consiste à coupler les personnes dont le nom figure dans les fichiers d’assurance maladie avec la BDR pour identifier les personnes qui ont été dénombrées lors du recensement. L’échantillon de l’ESoR est ensuite choisi parmi les personnes non couplées, et le reste de la méthodologie est semblable à ce qui se fait dans le cas des provinces.
Les résultats de l’ESoR constituent la source de renseignements la plus importante sur les personnes omises dans le contexte du recensement. Toutefois, contrairement à l’ECL, ces estimations ne servent pas à ajuster les données du recensement avant la diffusion initiale des chiffres de population.

3) Étude sur le surdénombrement du recensement

On détecte le dénombrement en double des personnes en cherchant des enregistrements couplés qui possèdent un haut degré de concordance quant au sexe, à la date de naissance et au nom. Les enregistrements couplés sont échantillonnés et vérifiés manuellement; les résultats sont utilisés pour estimer le surdénombrement (ou nombre de personnes dénombrées plus d’une fois) du recensement. Il est à noter que le surdénombrement causé par le dénombrement de personnes ne faisant pas partie de la population cible du recensement n’est pas estimé puisque cette composante est jugée négligeable comparativement aux dénombrements multiples.

La combinaison des résultats de l’ESoR et des résultats de l’Étude sur le surdénombrement du recensement (ESuR) permet d’estimer l’erreur de couverture nette dans les données du recensement. Cette erreur nette est utilisée pour calculer les estimations démographiques officielles de la population canadienne pour chaque province et territoire.

Des renseignements supplémentaires sur la méthodologie de l’ECL, de l’ESoR et de l’ESuR, ainsi que des résultats détaillés sur la couverture du recensement précédent, se trouvent dans le Rapport technique sur la couverture, Recensement de la population, 2016, produit n^o 98-303-X au catalogue de Statistique Canada. Il convient de noter que l’ESoR était appelée l’Enquête de la contre-vérification des dossiers jusqu’au Recensement de 2016.

Certification

La certification consiste en plusieurs activités servant à évaluer rigoureusement la qualité des données du recensement à des niveaux géographiques précis pour que les normes de qualité relatives à la diffusion au grand public soient respectées. Cette évaluation comprend la certification des chiffres de population et des logements ainsi que la certification des variables liées aux caractéristiques des logements et de la population.

Pendant la certification, un grand nombre de mesures et d’indicateurs de la qualité sont analysés tels que les taux de non‑réponse, les réponses non valides, les taux de rejet au contrôle, les taux d’exactitude du codage, les taux d’imputation ainsi que la comparaison des données avant et après l’imputation.

Les totalisations du Recensement de la population de 2021 et les estimations tirées du questionnaire détaillé sont produites et comparées aux données correspondantes de recensements antérieurs, d’autres enquêtes et de diverses sources administratives. Les tableaux croisés détaillés sont aussi vérifiés pour en assurer la cohérence et la précision.

Une analyse des estimations présentant des valeurs aberrantes est réalisée pour que l’on décèle les régions géographiques qui présentent des caractéristiques extrêmes relativement aux autres, et que les raisons qui expliquent ces différences soient validées auprès d’experts internes et externes.

Des vérifications supplémentaires sont également effectuées pour minimiser le risque que des erreurs de manipulation des fichiers ne se soient glissées lors du traitement des données.

Divers outils cartographiques et de visualisation des données sont utilisés tout au long du processus de certification pour faciliter l’exploration des données.

Selon les résultats de la certification, les données du recensement peuvent être diffusées de différentes façons :

Les données peuvent être diffusées sans restriction puisqu’elles sont de qualité suffisante;
Sinon, les données peuvent être diffusées de manière conditionnelle ou de façon restrictive. Dans ce cas, elles sont diffusées et accompagnées d’une note spéciale qui alerte les utilisateurs des limites possibles. On peut aussi traiter les données de façon particulière, par exemple en combinant des catégories de déclaration pour répondre à des préoccupations en matière de qualité ou de confidentialité;
En de rares occasions, les données peuvent être supprimées pour des raisons de qualité. C’est le cas notamment des réserves et établissements partiellement dénombrés (voir l’annexe 1.5).

Pour obtenir de plus amples détails sur les résultats de la certification des données et les indicateurs de qualité, se reporter aux guides de référence associés à chaque domaine d’intérêt sur le site Web de Statistique Canada du Recensement de la population de 2021, à la page Produits de référence.

Indicateurs de la qualité

L’exactitude des estimations du recensement peut être affectée par la majorité des sources potentielles d’erreurs mentionnées précédemment. Pour que les utilisateurs puissent faire une évaluation détaillée de la qualité des données et juger de l’adéquation des données avec leurs besoins, de nouveaux indicateurs de la qualité accompagnent les produits de données du Recensement de la population de 2021. Cela comprend le taux de non-réponse totale et, pour chaque question, les taux de non‑réponse et les taux d’imputation. Pour les estimations liées au questionnaire détaillé, qui sont issues d’une enquête-échantillon et ainsi sujettes à l’erreur d’échantillonnage, des indicateurs de la qualité fondés sur la variance sont également disponibles.

L’ensemble des indicateurs de la qualité des données qui sont fournis a pour objectif de dresser un portrait détaillé des risques d’erreurs potentielles connues et mesurables au moment de la diffusion des données, par exemple les erreurs dues à la non‑réponse, au traitement, à la provenance des données et à l’échantillonnage. Il s’agit d’indicateurs de l’exactitude des données qui permettent de déterminer si l’information statistique décrit correctement ce qu’elle doit mesurer.

Les utilisateurs devraient consulter l’ensemble des indicateurs de la qualité disponibles afin de s’assurer que les données du Recensement de 2021 répondent à leurs besoins. De plus amples renseignements sur les indicateurs de qualité sont fournis dans les Lignes directrices sur la qualité des données du Recensement de 2021, produit n^o 98-26-0006 au catalogue de Statistique Canada.

Taux de non-réponse totale

La non-réponse totale survient lorsque toutes les questions sont sans réponse pour un logement ayant reçu un questionnaire ou lorsqu’un questionnaire retourné ne contient pas le contenu minimum (c’est-à-dire qu’il contient des renseignements insuffisants pour continuer le traitement). Elle est mesurée par le taux de non-réponse totale (NRT). Le taux de NRT est l’indicateur principal de la qualité qui accompagne chaque produit diffusé du Recensement de la population de 2021. En ce sens, il remplace le taux global de non-réponse (TGN), qui était utilisé lors du Recensement de la population de 2016 et des cycles précédents. Le TGN combinait la non-réponse totale et la non-réponse partielle alors que le taux de NRT tient uniquement compte de la non-réponse totale. La non-réponse partielle est considérée séparément (voir les indicateurs de la qualité par question ci-dessous). Cette nouvelle approche permet d’offrir de l’information détaillée sur la qualité des données.

Le taux de NRT est une mesure de la non-réponse reflétant l’étape d’estimation. Cela signifie qu’il est calculé en considérant les corrections apportées à la classification des ménages non répondants à l’aide des résultats de l’Enquête sur la classification des logements. Étant donné que tous les ménages sont énumérés au recensement, le taux de NRT calculé pour les données du questionnaire abrégé n’est pas pondéré. En ce qui concerne les données du questionnaire détaillé, le taux de NRT est pondéré pour tenir compte de l’échantillonnage. Il s’agit donc d’une estimation de la proportion de ménages qui seraient non répondants si tous les ménages de la population étaient interviewés.

La non-réponse est une source potentielle de biais dans les chiffres du recensement et les estimations du questionnaire détaillé. Le biais survient lorsque les caractéristiques des répondants diffèrent de celles des non-répondants. Le taux de NRT peut indiquer le risque qu’un biais non négligeable soit introduit par la non-réponse et, le cas échéant, son ampleur éventuelle. Pour un même profil de non-répondants, un taux de NRT plus faible indique un risque moins élevé de biais dû à la non-réponse et, par conséquent, des chiffres et des estimations plus fiables.

Afin de maximiser l’information diffusée, il n’y a pas de suppression de données fondée sur la non-réponse pour le Recensement de 2021. Les données pour les régions ayant un taux de NRT élevé doivent toutefois être utilisées avec prudence. Un avertissement à cet effet accompagne les produits de données pour lesquels le taux de NRT est supérieur à 50 %.

Comparaison entre le taux de non-réponse totale de 2021 et le taux global de non-réponse des recensements précédents

Le taux de NRT de 2021 et le TGN des recensements précédents répondent au même objectif de mesurer l’ampleur de la non‑réponse dans une région donnée. Conceptuellement, la différence observée entre le TGN d’un recensement précédent et le taux de NRT de 2021 pour une région donnée peut être décomposée en deux parties : la différence attribuable au changement de définition et la différence effective du taux de non-réponse entre les deux cycles. Le TGN inclut la non-réponse partielle et est généralement plus élevé que le taux de NRT (mais il est possible, par définition, qu’il soit plus faible). De plus, le TGN est influencé par la taille des ménages, ce qui n’est pas le cas pour le taux de NRT.

Une étude comparative des deux indicateurs réalisée avec un même ensemble de données a montré que leur différence est généralement inférieure à 5 %. De plus grandes différences ont été observées plus souvent pour les indicateurs du questionnaire détaillé que pour ceux du questionnaire abrégé. Lorsque le TGN et le taux de NRT sont comparés, les différences inférieures à 5 % peuvent être considérées comme étant uniquement attribuables au changement de définition.

Indicateurs de la qualité par question

De nouveaux indicateurs de la qualité par question ont été établis pour le Recensement de la population de 2021. Cela comprend les taux de non-réponse et les taux d’imputation par question.

Le taux de non-réponse par question est une mesure de l’information manquante en raison de la non-réponse à une question. Les types de non-réponse (c’est-à-dire totale ou partielle) pris en compte par le taux de non-réponse par question diffèrent pour les questions du questionnaire abrégé et du questionnaire détaillé car la non-réponse totale est traitée différemment pour les deux types de questionnaire. Plus spécifiquement, le taux de non-réponse par question prend en compte uniquement la non‑réponse qui est résolue par l’imputation (non pas par la repondération). Il peut ainsi être comparé au taux d’imputation par question décrit plus loin. Tout comme le taux de NRT, le taux de non-réponse par question est pondéré pour les données du questionnaire détaillé. Pour un même profil de non-répondants, un taux de non-réponse par question plus faible indique un risque moins élevé de biais dû à la non-réponse pour les estimations dérivées d’une question en particulier.

Le taux d’imputation par question permet de mesurer l’ampleur du traitement des données pour chaque question. L’imputation est utilisée pour remplacer les données manquantes en cas de non-réponse ou lorsqu’une réponse est jugée non valide. En ce sens, le taux d’imputation est lié au taux de non-réponse, mais il tient également compte des corrections apportées aux données considérées incorrectes à l’étape de vérification.

De l’information supplémentaire sur les indicateurs de qualité par question est fournie dans les guides de référence associés à chaque domaine d’intérêt sur le site Web de Statistique Canada, à la page Produits de référence, Recensement de 2021.

Indicateurs de la qualité fondés sur la variance

Étant donné qu’elles proviennent d’une enquête-échantillon, les estimations du questionnaire détaillé sont sujettes à une erreur supplémentaire : l’erreur d’échantillonnage. La variance reflète la variabilité des estimations attribuable à l’utilisation d’un échantillon et non pas de la population au complet. La variance due à l’échantillonnage est donc estimée selon une méthode statistiquement adéquate, c’est-à-dire qui tient compte du plan d’échantillonnage et de la stratégie d’estimation. Les indicateurs de la qualité qui suivent sont établis à partir de cette estimation de la variance.

Erreur-type

L’erreur-type associée à une estimation est la racine carrée de sa variance estimée. Une erreur-type plus faible indique une estimation plus précise. L’erreur-type est un élément clé pour dériver d’autres mesures de variabilité telles que le coefficient de variation, pour construire des intervalles de confiance ou pour faire de l’inférence statistique (p. ex. déterminer si une estimation est significativement différente d’une valeur donnée ou d’une autre estimation).

Intervalle de confiance

L’intervalle de confiance a été choisi comme indicateur de la qualité fondé sur la variance pour accompagner les estimations du questionnaire détaillé du Recensement de la population de 2021 parce qu’il permet aux utilisateurs de réaliser facilement une inférence statistique.

Un intervalle de confiance est associé à un niveau de confiance, généralement établi à 95 %. Un intervalle de confiance de 95 % est un intervalle construit autour de l’estimation de telle sorte que, si le processus ayant généré l’échantillon était répété un grand nombre de fois, la valeur du paramètre d’intérêt dans la population serait contenue dans 95 % de ces intervalles. L’intervalle de confiance usuel suppose que la distribution d’échantillonnage de l’estimateur est une loi normale. Dans ce cas, on estime la borne inférieure de l’intervalle de confiance de 95 % en soustrayant environ deux fois l’erreur-type de l’estimation. On estime la borne supérieure en additionnant environ deux fois l’erreur-type à l’estimation. Lorsque la taille de l’échantillon est petite et pour certaines statistiques comme les proportions, l’hypothèse selon laquelle la distribution de l’estimateur est normale est enfreinte. Un intervalle de confiance ainsi construit n’est donc pas approprié, c’est-à-dire que sa couverture n’est pas de 95 %.

Pour cette raison, les intervalles de confiance présentés avec les estimations du questionnaire détaillé du Recensement de la population de 2021 sont produits selon des méthodes plus élaborées, qui offrent une couverture plus proche du taux nominal. Cela dit, tout intervalle de confiance repose sur des hypothèses, et celles-ci pourraient ne pas être confirmées pour certaines estimations. De plus amples détails au sujet des différentes méthodes utilisées pour construire les intervalles de confiance et de leurs hypothèses sont présentés dans le Rapport technique sur l’échantillonnage et la pondération, Recensement de la population, 2021, produit n^o 98-306-X.

Mesure de l’erreur d’échantillonnage

Plusieurs facteurs influent sur l’erreur d’échantillonnage. On observera une plus petite erreur d’échantillonnage si la fraction de sondage est grande et si la taille de l’échantillon est grande. À la limite, si la fraction de sondage est de 100 %, comme dans le cas du questionnaire abrégé du recensement, alors l’erreur d’échantillonnage sera nulle. Elle sera également petite si la variabilité de la variable d’intérêt dans la population est faible. Cette erreur dépend aussi de l’efficacité du plan de sondage. Par exemple, elle sera plus petite si les populations des strates du plan de sondage sont plutôt homogènes ou, dans le cas d’une caractéristique mesurée au niveau de la personne, si les individus des ménages sont plutôt hétérogènes.

Finalement, l’erreur d’échantillonnage dépend des méthodes d’estimation utilisées, comme les méthodes de pondération, car certaines sont plus efficaces que d’autres. Par exemple, lorsqu’on ajuste le poids de l’enquête pour qu’un total pondéré soit égal au total du recensement, on obtient une erreur d’échantillonnage de ce total pondéré qui est nulle. Il faut noter cependant qu’il est impossible d’adopter une méthode de pondération qui éliminerait les erreurs d’échantillonnage de toutes les estimations pouvant être tirées du questionnaire détaillé.

On ne peut pas mesurer directement l’erreur d’échantillonnage. Pour ce faire, il faudrait connaître la vraie valeur de la variable d’intérêt dans la population pour la soustraire de l’estimation tirée du questionnaire détaillé, et cette estimation ne devrait pas comporter d’erreurs non dues à l’échantillonnage. Toutefois, les mesures de variabilité telles que l’erreur‑type, le coefficient de variation et l’intervalle de confiance sont des indications de l’ampleur de cette erreur (voir l’annexe 1.8).

Taux de réponse au Recensement de la population de 2021

Le taux de réponse est l’une des principales mesures de la qualité du Recensement de la population. Le tableau 9.1 présente les taux de réponse du Recensement de la population de 2021 à l’échelle nationale et pour chaque province et chaque territoire. Les taux sont présentés pour trois groupes distincts :

l’ensemble des logements privés et collectifs occupés pour lesquels on devait obtenir un questionnaire (donc une réponse au questionnaire abrégé);
le sous-ensemble des logements privés occupés pour lesquels on devait obtenir un questionnaire (donc une réponse au questionnaire abrégé);
les logements privés occupés pour lesquels on devait obtenir un questionnaire détaillé. Pour le questionnaire détaillé, les taux de réponse non pondérés et les taux de réponse pondérés sont présentés.

Le tableau 9.1 présente les taux de réponse obtenus à la suite du traitement des données et de la vérification de la qualité des données. Ils sont calculés de la façon suivante : le nombre de logements pour lesquels un questionnaire a été rempli divisé par le nombre de logements classés comme occupés selon la base de données du recensement. La classification finale de l’occupation/inoccupation des logements est fondée sur l’analyse des données recueillies par le personnel sur le terrain, les données fournies par les répondants, les résultats d’une étude de la qualité concernant l’occupation/inoccupation d’un échantillon de logements (l’Enquête sur la classification des logements) et l’utilisation des données administratives pour imputer les données des ménages non répondants dans les régions géographiques ayant de faibles taux de réponse (voir l’annexe 1.7).

Les taux de réponse du tableau 9.1 se distinguent des taux de réponse de la collecte du Recensement de la population de 2021 publiés précédemment pour les logements privés occupés parce qu’ils tiennent compte du traitement des données et de la vérification de l’occupation/inoccupation des logements. Ces taux de réponse sont ainsi considérés comme finaux. Quant aux taux de réponse pondérés, ils sont fondés sur les poids d’échantillonnage du questionnaire détaillé. Les taux de réponse pondérés sont calculés de la façon suivante : le nombre pondéré de logements privés échantillonnés pour lesquels un questionnaire a été rempli divisé par le nombre pondéré de logements privés échantillonnés classés comme occupés.

Les taux de réponse présentés dans la première colonne du tableau 9.1 incluent les logements collectifs. Ces taux sont compatibles avec les taux de non-réponse totale (NRT) du questionnaire abrégé qui accompagnent les produits diffusés. Les taux de réponse pondérés du questionnaire détaillé présentés dans la dernière colonne du tableau 9.1 sont quant à eux compatibles avec les taux de NRT du questionnaire détaillé qui accompagnent les produits diffusés (qui sont aussi pondérés).

Le tableau 9.2 présente le taux de NRT du questionnaire abrégé et le taux de NRT du questionnaire détaillé à l’échelle nationale et pour chaque province et chaque territoire; ces taux accompagnent les produits diffusés du Recensement de la population de 2021^Note 1. À l’échelle nationale, le taux de NRT du questionnaire abrégé est de 3,1 % et celui du questionnaire détaillé est de 4,3 %.

Tableau 9.1
Taux de réponse du Recensement de la population de 2021
Sommaire du tableau
Le tableau montre les résultats de Taux de réponse du Recensement de la population de 2021 . Les données sont présentées selon Région (titres de rangée) et Questionnaire abrégé — Logements privés et collectifs occupés, Questionnaire abrégé — Logements privés occupés , Questionnaire détaillé — Logements privés occupés (taux non pondéré) et Questionnaire détaillé — Logements privés occupés (taux pondéré)(figurant comme en-tête de colonne).
Région	Questionnaire abrégé — Logements privés et collectifs occupés	Questionnaire abrégé — Logements privés occupés	Questionnaire détaillé — Logements privés occupés (taux non pondéré)	Questionnaire détaillé — Logements privés occupés (taux pondéré)
Région	Taux de réponse (%)
Canada	96,9	96,9	94,9	95,7
Terre‑Neuve‑et‑Labrador	96,9	97,0	95,0	95,6
Île-du-Prince-Édouard	97,6	97,6	96,5	96,8
Nouvelle-Écosse	97,1	97,1	95,6	96,1
Nouveau-Brunswick	96,8	96,8	94,8	95,7
Québec	97,1	97,1	95,7	96,3
Ontario	97,2	97,2	95,8	96,2
Manitoba	96,5	96,5	93,1	94,4
Saskatchewan	95,5	95,5	91,8	93,5
Alberta	96,4	96,5	93,4	94,4
Colombie-Britannique	96,5	96,5	94,0	95,1
Yukon	95,7	95,7	85,5	89,5
Territoires du Nord-Ouest	91,8	91,8	86,2	89,2
Nunavut	79,8	79,7	78,1	78,1
Source : Statistique Canada, Recensement de la population, 2021.

Tableau 9.2
Taux de non-réponse totale accompagnant les produits diffusés du Recensement de la population de 2021
Sommaire du tableau
Le tableau montre les résultats de Taux de non-réponse totale accompagnant les produits diffusés du Recensement de la population de 2021 . Les données sont présentées selon Région (titres de rangée) et Questionnaire abrégé —
Logements privés et collectifs occupés et Questionnaire détaillé —
Logements privés occupés (taux pondéré)(figurant comme en-tête de colonne).
Région	Questionnaire abrégé — Logements privés et collectifs occupés	Questionnaire détaillé — Logements privés occupés (taux pondéré)
Région	Taux de non-réponse totale (%)
Canada	3,1	4,3
Terre‑Neuve‑et‑Labrador	3,1	4,4
Île-du-Prince-Édouard	2,4	3,2
Nouvelle-Écosse	2,9	3,9
Nouveau-Brunswick	3,2	4,3
Québec	2,9	3,7
Ontario	2,8	3,8
Manitoba	3,5	5,6
Saskatchewan	4,5	6,5
Alberta	3,6	5,6
Colombie-Britannique	3,5	4,9
Yukon	4,3	10,5
Territoires du Nord‑Ouest	8,2	10,8
Nunavut	20,2	21,9
Source : Statistique Canada, Recensement de la population, 2021.

Comparabilité des estimations des programmes du Recensement de 2021 et du Recensement de 2016

Les utilisateurs doivent faire preuve de prudence lorsqu’ils comparent les estimations de deux recensements ou enquêtes, étant donné qu’il peut exister des différences importantes en ce qui a trait à la méthodologie, à la qualité ou à la population cible.

La population cible du questionnaire abrégé et du questionnaire détaillé du Recensement de 2021 était la même que celle du Recensement de 2016. Les estimations des programmes du Recensement de 2021 et du Recensement de 2016 ont toutes deux été établies à partir d’enquêtes obligatoires ayant eu des taux de réponse très élevés. Le taux de réponse du Recensement de 2021 était de 96,9 % et celui du questionnaire détaillé était de 95,7 %. Ces taux sont légèrement inférieurs aux taux de réponse du Recensement de 2016, qui étaient respectivement de 97,4 % et de 96,9 %.

En raison des taux de réponse légèrement plus faibles du Recensement de 2021, l’erreur due à la non-réponse pourrait être plus importante pour certaines estimations du Programme du Recensement de 2021 que pour celles du Programme du Recensement de 2016. Cela est particulièrement vrai pour les plus petits domaines d’intérêt où la non-réponse pourrait avoir été plus importante en 2021 en raison des défis uniques auxquels ont fait face les régions nordiques ou éloignées du pays et les communautés autochtones (voir l’annexe 1.4). La qualité des estimations et le risque de biais varient légèrement plus entre les différentes collectivités pour le Recensement de 2021 que pour le Recensement de 2016.

La qualité des estimations pour une région géographique donnée varie d’un cycle de recensement à l’autre en fonction des taux de réponse et des réserves et établissements partiellement dénombrés (voir l’annexe 1.5 pour de l’information sur l’augmentation du nombre de réserves et d’établissements partiellement dénombrés en 2021 par rapport à 2016). Lorsqu’ils comparent les estimations du Recensement de 2021 et du Recensement de 2016 pour une région géographique donnée, les utilisateurs doivent être conscients des grandes différences dans les taux de réponse ainsi que des changements importants dans la liste des réserves et des établissements partiellement dénombrés.

Les comparaisons des estimations des programmes du Recensement de 2021 et du Recensement de 2016 pour une variable particulière peuvent également tenir compte de différences dans les taux d’imputation (voir la section précédente sur les indicateurs de la qualité par question pour plus de détails sur cet indicateur disponible dans les deux cycles). Le tableau 9.3 présente les taux d’imputation à l’échelle nationale pour les variables des programmes du Recensement de 2021 et du Recensement de 2016, tels qu’ils sont présentés dans les guides de référence thématiques de 2021 et de 2016^{Note 2}. Dans l’ensemble, les taux d’imputation du questionnaire abrégé du Recensement de 2021 sont légèrement plus élevés que ceux du questionnaire abrégé de 2016, ce qui reflète le taux de réponse national plus faible en 2021 qu’en 2016. Pour les questions posées uniquement dans les questionnaires détaillés, environ la moitié des questions ont un taux d’imputation plus élevé en 2021 qu’en 2016, tandis que l’autre moitié des questions ont un taux d’imputation plus faible en 2021. Deux facteurs principaux allant dans des directions opposées contribuent à ce phénomène :

une non-réponse totale plus élevée en 2021 qu’en 2016 pour les régions nordiques ou éloignées du pays et les communautés autochtones (voir l’annexe 1.4);
des taux plus faibles de renseignements manquants ou non valides pour les questionnaires détaillés reçus. Cela est lié à l’utilisation accrue du questionnaire en ligne pour le Recensement de 2021 comparativement au Recensement de 2016. En effet, les répondants en ligne reçoivent un message d’erreur lorsqu’ils entrent des données non valides ou s’il manque des données, ce qui aide à réduire la quantité de renseignements manquants ou non valides pour chaque question et à améliorer la qualité des données (voir le chapitre 6).

En résumé, les utilisateurs sont encouragés à utiliser tous les indicateurs de la qualité des données disponibles pour juger de la qualité des estimations des programmes du Recensement de 2021 et du Recensement de 2016 lorsqu’ils évaluent la fiabilité des comparaisons (voir les Lignes directrices sur la qualité des données du Recensement de 2021 pour plus d’information sur les indicateurs de la qualité des données). Les utilisateurs sont également invités à consulter les notes sur la qualité qui accompagnent, au besoin, les produits de diffusion.

Tableau 9.3
Taux d’imputation par question ou concept, pour le Recensement de 2021 et le Recensement de 2016, Canada
Sommaire du tableau
Le tableau montre les résultats de Taux d’imputation par question ou concept. Les données sont présentées selon Question ou concept du Recensement de 2021 (titres de rangée) et Recensement de 2021 et Recensement de 2016, calculées selon pourcentage unités de mesure (figurant comme en-tête de colonne).
Question ou concept du Recensement de 2021	Recensement de 2021	Recensement de 2016
Question ou concept du Recensement de 2021	pourcentage
Question 2 – Sexe à la naissance	3,5	2,8
Question 3 – Genre	3,9	Note ...: n'ayant pas lieu de figurer
Question 4 – Date de naissance	3,7	3,1
Question 5 – État matrimonial	4,7	4,3
Question 6 – Situation vis-à-vis l'union libre	5,0	5,1
Question 7 – Lien avec la Personne 1	3,6	3,2
Question 8 – Connaissance des langues	4,5	4,0
Question 9a – Toutes les langues parlées à la maison	4,3	Note ...: n'ayant pas lieu de figurer
Question 9b – Langue parlée le plus souvent à la maison	4,4	3,9
Question 10 – Langue maternelle	4,8	4,3
Question 11 – Expérience militaire canadienne	3,2	Note ...: n'ayant pas lieu de figurer
Question 13 – Études primaires ou secondaires en français au Canada pour les résidents du Canada hors Québec	5,0	Note ...: n'ayant pas lieu de figurer
Question 14 – Type de programme d’études en français au Canada pour les résidents du Canada hors Québec	7,0	Note ...: n'ayant pas lieu de figurer
Question 15 – Nombre d’années d’études au primaire et au secondaire dans un programme régulier d’instruction en français au sein d’une école de langue française au Canada pour les résidents du Canada hors Québec	9,4	Note ...: n'ayant pas lieu de figurer
Question 16 – Études primaires ou secondaires dans une école de langue anglaise au Canada pour les résidents du Québec	5,4	Note ...: n'ayant pas lieu de figurer
Question 17 – Nombre d’années d’études au primaire et au secondaire dans une école de langue anglaise au Canada pour les résidents du Québec	9,4	Note ...: n'ayant pas lieu de figurer
Revenu total dérivé des dossiers d'impôt et des prestations de l'Agence du revenu du Canada	5,3	4,4
Question 19 – Lieu de naissance	0,9	1,0
Question 20 – Lieu de naissance du parent 1	1,7	1,8
Question 20 – Lieu de naissance du parent 2	2,6	1,6
Question 21 – Citoyenneté	0,8	1,3
Statut d’immigrant selon les données administratives d’Immigration, Réfugiés et Citoyenneté Canada^{Tableau 9.3 Note 1}	2,2	0,7
Année d’immigration selon les données administratives d’Immigration, Réfugiés et Citoyenneté Canada^{Tableau 9.3 Note 1}	10,6	9,4
Question 23 – Origine ethnique ou culturelle	8,0	4,5
Question 24 – Groupe autochtone	1,1	1,1
Question 25 – Groupe de population	1,6	2,0
Question 26 – Statut d’Indien inscrit ou des traités	1,3	1,4
Question 27 – Membre d’une Première Nation ou bande indienne	2,1	1,8
Question 28 – Membre d'une organisation métisse ou d'un établissement métis	7,7	Note ...: n'ayant pas lieu de figurer
Question 29 – Inscription en vertu d’une accord sur les revendications territoriales des Inuits	7,8	Note ...: n'ayant pas lieu de figurer
Question 30 – Religion	1,8	Note ...: n'ayant pas lieu de figurer
Question 31 – Mobilité un an auparavant	1,5	1,8
Question 32 – Mobilité cinq ans auparavant	2,1	2,4
Question 33 – Diplôme d’études secondaires ou attestation d’équivalence	1,4	1,2
Question 34a – Certificat ou diplôme d’apprenti ou d’une école de métiers	1,7	1,8
Question 34b – Certificat ou diplôme d’un collège, d’un cégep ou d’un autre établissement d’enseignement non universitaire	1,8	1,8
Question 34c – Certificat, diplôme ou grade universitaire	1,6	1,4
Question 35 – Principal domaine d’études	4,1	4,4
Question 36 – Lieu des études	2,1	3,1
Question 37 – Fréquentation scolaire	2,0	4,3
Question 38 – Heures travaillées	1,8	1,6
Question 39 – Mise à pied ou absence	5,7	4,5
Question 40 – Début futur d’un nouvel emploi	3,1	4,2
Question 41 – Recherche d’emploi	2,9	3,6
Question 42 – Disponibilité pour travailler	2,8	3,1
Question 43 – Date du dernier travail	3,5	6,2
Questions 44 et 45 – Industrie	6,1	6,2
Questions 46 et 47 – Profession	6,7	5,3
Question 48 – Catégorie de travailleur	5,1	3,7
Question 49 – Forme juridique	4,1	5,1
Question 50a – Toutes les langues utilisées au travail	2,8	Note ...: n'ayant pas lieu de figurer
Question 50b – Langue utilisée le plus souvent au travail	2,9	3,1
Question 51 – Catégorie du lieu de travail	2,9	3,7
Question 51 – Emplacement du lieu de travail	3,8	5,4
Question 52b – Principal mode de transport pour la navette	3,3	4,3
Question 52c – Nombre de navetteurs dans le véhicule	3,7	3,8
Question 53b – Durée du navettage	6,3	5,3
Question 54a – Semaines travaillées au cours de l’année de référence	4,9	2,9
Question 54b – Raison principale de ne pas avoir travaillé pendant toute l’année	6,0	Note ...: n'ayant pas lieu de figurer
Question 55a – Principalement du travail à temps plein ou à temps partiel au cours de l’année de référence	3,3	5,4
Question 55b – Raison principale d’avoir travaillé surtout à temps partiel	4,8	2,8
Question 56 – Montant payé pour des services de garde d’enfants	3,9	4,0
Question 57 – Montant payé pour une pension alimentaire	3,5	4,3
Question 58 – Soutien du ménage	2,5	2,0
Question E1 – Mode d’occupation	2,8	1,8
Question E2 – Logements classés comme condominiums	2,4	1,3
Question E3a – Pièces	5,0	3,6
Question E3b – Chambres à coucher	3,2	1,8
Question E4 – Période de construction	3,7	2,9
Question E5 – État du logement	2,9	1,7
Question E7a – Montant payé pour l’électricité	6,8	6,8
Question E7b – Montant payé pour les combustibles	6,5	7,0
Question E7c – Montant payé pour l’eau et les autres services	6,7	7,0
Question E8a – Loyer	5,4	5,4
Question E8b – Logement subventionné	5,5	5,1
Question E9a – Paiements hypothécaires	5,0	5,1
Question E9b – Impôt foncier compris dans les paiements hypothécaires	4,5	4,1
Question E9c – Impôt foncier	7,4	7,4
Question E9d – Valeur du logement	7,1	7,1
Question E9e – Frais de condominium	15,3	14,4
Question E10 – Paiement mensuel pour utiliser ou occuper le logement	44,8	Note ...: n'ayant pas lieu de figurer
... n'ayant pas lieu de figurer Note 1 En 2021, les données sur l’immigration ont été obtenues au moyen des dossiers administratifs d’Immigration, Réfugiés et Citoyenneté Canada (IRCC). Avant 2021, les données sur le statut d’immigrant et l’année d’immigration faisaient l’objet d’une question dans les questionnaire détaillés du recensement. Retour à la référence de note 1 referrer Sources : Statistique Canada, Recensement de la population, 2021 et 2016.

Comparabilité de la variabilité des estimations des questionnaires détaillés des recensements de 2021 et de 2016

Comme il a été mentionné dans les sections précédentes, les estimations produites à partir des données d’une enquête-échantillon telles que celles du questionnaire détaillé du Recensement de 2021 comportent une erreur d’échantillonnage, c’est‑à‑dire l’erreur venant du fait qu’on n’a observé qu’un échantillon de la population. On juge de l’erreur d’échantillonnage à l’aide de mesures de variabilité telles que l’erreur-type ou le coefficient de variation (c.v.). À l’annexe 1.8, les c.v. sont utilisés pour comparer la variabilité des estimations des questionnaires détaillés du Recensement de 2021 et du Recensement de 2016.

Par ailleurs, les questionnaires détaillés du Recensement de 2021 et du Recensement de 2016 avaient comme objectif de produire des estimations pour une série de questions posées pour un large éventail de régions géographiques, allant de très grandes régions (comme les provinces et les régions métropolitaines de recensement) à de très petites régions (comme les quartiers et les municipalités), et pour divers groupes de population tels que les Autochtones et les immigrants. Ces groupes ont également des tailles variables, notamment lorsque recoupés selon la région géographique. Ces regroupements sont généralement appelés « domaines d’intérêt ». Le but de cette section et de l’annexe 1.8 est de comparer la variabilité des estimations de 2021 et de 2016, et non de comparer les estimations. On devrait cependant tenir compte de la variabilité d’échantillonnage si l’on fait des comparaisons entre les estimations de ces enquêtes, en particulier pour de petits « domaines d’intérêt », étant donné que les différences observées peuvent être dues à la variabilité d’échantillonnage et non à une différence réelle dans la population.

Date de modification :: 2022-11-22

Sélection de la langue

Recherche et menus

Recherche

Guide du Recensement de la population, 2021
Chapitre 9 – Évaluation de la qualité des données

Introduction

Pourquoi évaluer la qualité des données du recensement

Principaux types d’erreurs

Évaluation de la couverture des données

Certification

Indicateurs de la qualité

Taux de non-réponse totale

Comparaison entre le taux de non-réponse totale de 2021 et le taux global de non-réponse des recensements précédents

Indicateurs de la qualité par question

Indicateurs de la qualité fondés sur la variance

Erreur-type

Intervalle de confiance

Mesure de l’erreur d’échantillonnage

Taux de réponse au Recensement de la population de 2021

Comparabilité des estimations des programmes du Recensement de 2021 et du Recensement de 2016

Comparabilité de la variabilité des estimations des questionnaires détaillés des recensements de 2021 et de 2016

Guide du Recensement de la population, 2021 Chapitre 9 – Évaluation de la qualité des données

Introduction

Pourquoi évaluer la qualité des données du recensement

Principaux types d’erreurs

Évaluation de la couverture des données

Certification

Indicateurs de la qualité

Taux de non-réponse totale

Comparaison entre le taux de non-réponse totale de 2021 et le taux global de non-réponse des recensements précédents

Indicateurs de la qualité par question

Indicateurs de la qualité fondés sur la variance

Erreur-type

Intervalle de confiance

Mesure de l’erreur d’échantillonnage

Taux de réponse au Recensement de la population de 2021

Comparabilité des estimations des programmes du Recensement de 2021 et du Recensement de 2016

Comparabilité de la variabilité des estimations des questionnaires détaillés des recensements de 2021 et de 2016

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Guide du Recensement de la population, 2021
Chapitre 9 – Évaluation de la qualité des données