Rapport technique sur l'échantillonnage et la pondération, Recensement de la population, 2021
4. Estimation à l’aide de l’échantillon du questionnaire détaillé du recensement

Table des matières Renseignements supplémentaires

Tout processus d’échantillonnage nécessite une méthode d’estimation connexe pour convertir les données-échantillon à l’échelle de la population et pour s’assurer que les estimations d’après les données d’enquête sont représentatives de la population. Le choix d’une méthode d’estimation est généralement régi par des contraintes de nature opérationnelle et théorique. Du point de vue opérationnel, la méthode doit être applicable dans le système de traitement des données dont elle fait partie, et du point de vue théorique, la méthode doit réduire au minimum l’erreur statistique dans les estimations produites.

La méthode d’estimation génère un ensemble de poids, et le poids de chaque unité d’échantillonnage correspond au nombre d’unités dans la population que représente l’unité d’échantillonnage. Ces poids sont appliqués aux données-échantillon pour produire des millions d’estimations à l’aide de l’échantillon du questionnaire détaillé du recensement. Les estimations sont des mesures agrégées telles que les totaux, les moyennes, les proportions et les médianes, qui sont calculés à partir de l’échantillon pour diverses caractéristiques d’intérêt.

4.1 Éléments à considérer pour choisir une méthode d’estimation

4.1.1 Considérations de nature opérationnelle

Sur le plan mathématique, une méthode d’estimation peut être décrite au moyen d’une formule algébrique, ou estimateur, qui montre comment l’estimation pour la population est calculée sous forme d’une fonction des valeurs d’échantillon observées et d’autres données provenant du plan de sondage ou de sources externes. La plupart du temps, cet estimateur est une simple fonction des poids et de la variable d’intérêt pour les unités répondantes. L’utilisation d’un ensemble unique de poids pour produire toutes les estimations garantit un certain niveau de cohérence entre les diverses estimations de l’enquête.

Par conséquent, l’approche adoptée pour l’échantillon du questionnaire détaillé du recensement (et la plupart des enquêtes‑échantillon) consistait à subdiviser la méthode d’estimation en deux étapes : a) le calcul des poids (appelé procédure de pondération); b) l’utilisation des poids pour produire les estimations, comme l’estimation d’un chiffre particulier de population par totalisation des poids appliqués aux personnes ou aux ménages qui possédaient la caractéristique d’intérêt. La complexité mathématique se situe principalement à l’étape a), qui est exécutée une seule fois. L’étape b), quant à elle, est réduite à un simple processus, comme la sommation des poids chaque fois qu’une totalisation est nécessaire. Étant donné que le poids appliqué à chaque unité d’échantillonnage est le même pour toute totalisation faisant intervenir l’unité en question, la cohérence entre les différentes estimations fondées sur les données-échantillon est assurée.

4.1.2 Considérations d’ordre théorique

Pour un plan de sondage donné et une méthode d’estimation donnée, il est possible, en s’appuyant sur la théorie de l’échantillonnage, de formuler un énoncé quant aux chances qu’un certain intervalle contienne la valeur inconnue de la population qu’il faut estimer. Le principal critère relatif au choix d’une méthode d’estimation est la minimisation de l’étendue de ces intervalles pour un niveau donné de confiance, de façon à ce que les énoncés au sujet des valeurs inconnues de la population soient aussi précis que possible. La mesure de précision habituelle pour comparer les méthodes d’estimation est appelée erreur-type. Pourvu que certaines conditions soient respectées, les intervalles de plus ou moins deux erreurs-types par rapport à l’estimation contiendront la vraie valeur de la population pour approximativement 95 % de tous les échantillons possibles. Le chapitre 7 décrit en détail les conditions et les méthodes utilisées pour le calcul des intervalles de confiance des estimations pour l’échantillon du questionnaire détaillé du recensement.

Outre la minimisation de l’erreur-type, un second objectif relatif au choix d’une méthode d’estimation pour l’échantillon du questionnaire détaillé est de garantir, autant que possible, que les estimations de l’échantillon des caractéristiques évaluées au recensement concordent avec les valeurs connues du recensement. Heureusement, ces deux objectifs sont habituellement complémentaires en ce sens que l’erreur d’échantillonnage a tendance à être réduite lorsqu’on veille à ce que les estimations de certaines caractéristiques de base de l’échantillon concordent avec les chiffres de population correspondants. Cependant, bien que cela soit vrai en général, forcer les estimations de l’échantillon du questionnaire détaillé pour des caractéristiques évaluées au recensement à concorder avec les chiffres du recensement correspondants pour de très petits sous-groupes peut avoir un effet indésirable sur l’erreur-type des estimations pour les caractéristiques de l’échantillon proprement dites. Par exemple, si plusieurs aires de diffusion ne comptent qu’un petit nombre de sujets ayant une certaine caractéristique, par exemple un pays de naissance donné, le fait d’assurer la cohérence entre les estimations de l’échantillon et les chiffres du recensement pour ce pays de naissance ferait augmenter de manière injustifiée l’erreur-type pour le reste des caractéristiques.

Si l’on ne dispose d’aucun renseignement au sujet de la population échantillonnée à part celle recueillie pour les unités d’échantillonnage et en l’absence de non-réponse totale, la méthode d’estimation est limitée à la pondération des unités d’échantillonnage par l’inverse de leurs probabilités de sélection. Par exemple, si une unité avait 1 chance sur 4 d’être sélectionnée, elle recevrait un poids de 4. Lorsque la non-réponse totale est observée, le poids doit également être ajusté en fonction de l’estimation de la probabilité de réponse de l’unité, par exemple. En pratique, on dispose souvent de certains renseignements supplémentaires au sujet de la population (p. ex. sa taille totale et peut-être sa répartition en fonction d’une variable donnée — selon la province ou le territoire). Ce genre de renseignement peut être utilisé pour améliorer la formule d’estimation afin de produire des estimations ayant plus de chances d’être proches de la valeur inconnue de la population. Dans le cas de l’échantillon du questionnaire détaillé du recensement, on dispose d’un grand nombre de données très détaillées sur la population échantillonnée grâce aux données du questionnaire abrégé du recensement, à tous les niveaux géographiques. Dans le cadre des ajustements pour la couverture, la non-réponse et le calage, on peut profiter de cette quantité considérable de renseignements sur la population pour améliorer les estimations tirées de l’échantillon du questionnaire détaillé.

Néanmoins, on ne peut pas faire concorder les estimations de l’échantillon du questionnaire détaillé pour les caractéristiques du recensement avec tous les chiffres du recensement à chaque niveau géographique. On observe des différences entre les estimations de l’échantillon et les chiffres du recensement lorsqu’on produit un tableau croisé d’une variable-échantillon et de la variable de recensement correspondante. Le tableau des totaux estimés d’après l’échantillon pour des caractéristiques particulières ne concordera pas nécessairement avec le tableau équivalent des totaux des chiffres du recensement pour ces caractéristiques.

L’ajustement le plus minime possible des poids afin d’obtenir une concordance parfaite entre les estimations du questionnaire détaillé et les chiffres du recensement pour certaines caractéristiques et certains sous-groupes porte le nom de « calage ».

4.2 Régions de pondération

Les divers ajustements effectués sur les poids de sondage ont été faits indépendamment selon la région de pondération. Les régions géographiques qui ont été utilisées à cette fin étaient les aires de diffusion agrégées (ADA) et les super aires de diffusion agrégées (SADA). L’ADA est une nouvelle région géographique de diffusion créée pour le Recensement de 2016. La SADA a été créée expressément pour les procédures de pondération par l’agrégation d’ADA.

4.2.1 Aires de diffusion agrégées

Au total, pour le Recensement de 2021, le Canada est divisé en 5 433 ADA. Des ménages ont été sélectionnés pour l’échantillon du questionnaire détaillé dans 5 191 ADA. Parmi les 242 ADA où il n’y a pas eu de ménages échantillonnés, 237 étaient formées uniquement de ménages hors du champ de l’enquête. Dans les cinq autres ADA, il n’y avait qu’un petit nombre de ménages dans le champ de l’enquête et aucun d’entre eux n’a été sélectionné.

Les ADA de 2021 ont été créées en apportant des modifications minimes aux ADA de 2016, de façon à tenir compte des changements au niveau des aires de diffusion (AD). L’objectif était d’établir des tendances historiques des ADA. Étant donné que les critères liés à la taille sont les plus pertinents pour le processus de pondération, les critères de délimitation ayant servi à définir les ADA de 2016 sont présentés ci-dessous.

Les ADA respectent les critères de délimitation suivants :

Les ADA couvrent l’ensemble du pays et, dans la mesure du possible, ont une population de 5 000 à 15 000 personnes (selon les chiffres de population du recensement précédent).
Les ADA respectent les limites provinciales et territoriales ainsi que les limites des divisions de recensement (DR), des régions métropolitaines de recensement (RMR) et des agglomérations de recensement (AR) qui ont été divisées en secteurs de recensement (SR) au Recensement de 2016.
Les ADA sont établies à partir de l’une des trois régions géographiques de diffusion du Recensement de 2016 : les AD, les subdivisions de recensement (SDR) ou les SR :
- Dans les RMR et les AR qui comptent des SR, les SR adjacents sont regroupés afin de respecter le critère de population de l’ADA.
- Dans les régions sans SR (soit les régions à l’extérieur des RMR et des plus grandes AR), où les SDR ont une population inférieure à 15 000 personnes, les SDR adjacentes sont regroupées afin de respecter le critère de population de l’ADA.
- Dans les régions sans SR, où les SDR ont une population supérieure à 15 000 personnes, les AD adjacentes sont regroupées dans ces SDR afin de respecter le critère de population de l’ADA.
Chaque SDR formée d’une réserve indienne et d’un petit nombre d’autres régions où l’on a eu recours au recensement par interview constitue des ADA distinctes.

« Pour obtenir de plus amples renseignements sur les aires de diffusion agrégée, consultez le Dictionnaire, Recensement de la population, 2021, produit n^o 98-301-X au catalogue. »

Le tableau 4.2.1.1 indique dans quelle mesure les ADA qui comptaient des ménages dans l’échantillon du questionnaire détaillé étaient bien ajustées aux SDR. Le premier scénario s’est produit dans la grande majorité des cas, car les ADA ont été formées d’abord et avant tout de sorte à respecter les limites géographiques des SR et des SDR. Le scénario 4 est le seul où les limites géographiques des SDR n’ont pas été respectées. Les SR ne figuraient pas dans le tableau, car ils figuraient dans le premier scénario, sauf un qui figurait dans le scénario 3.

Tableau 4.2.1.1
Nombre de subdivisions de recensement situées dans les limites des aires de diffusion agrégées comptant des ménages dans l’échantillon du questionnaire détaillé, Recensement de 2021
Sommaire du tableau
Le tableau montre les résultats de Nombre de subdivisions de recensement situées dans les limites des aires de diffusion agrégées comptant des ménages dans l’échantillon du questionnaire détaillé. Les données sont présentées selon Scénario (titres de rangée) et Description et Subdivision de recensement, calculées selon nombre et pourcentage unités de mesure (figurant comme en-tête de colonne).
Scénario	Description	Subdivision de recensement
Scénario	Description	nombre	pourcentage
1	La SDR était de taille suffisamment petite pour être contenue entièrement dans une ADA, et cette même ADA ne comprenait que des SDR entières. Aucune SDR dans l’ADA ne faisait aussi partie d’une autre ADA.	4 526	93,26
2	La SDR était suffisamment petite pour être contenue entièrement dans une ADA, mais une autre SDR dans la même ADA faisait aussi partie d’une autre ADA.	39	0,80
3	La SDR était suffisamment grande pour contenir des ADA entières. Aucune des ADA ne faisait partie d’une autre SDR.	262	5,40
4	La SDR faisait partie de deux ADA ou plus.	26	0,54
Total		4 853	100,00
SDR = Subdivision de recensement ADA = Aire de diffusion agrégée Source : Statistique Canada, échantillon du questionnaire détaillé du Recensement de 2021.

Le tableau 4.2.1.2 montre la répartition du nombre d’ADA qui comptent des ménages dans l’échantillon du questionnaire détaillé selon la province ou le territoire.

Tableau 4.2.1.2
Nombre d’aires de diffusion agrégées comptant des ménages dans l’échantillon du questionnaire détaillé, selon la province ou le territoire
Sommaire du tableau
Le tableau montre les résultats de Nombre d’aires de diffusion agrégées comptant des ménages dans l’échantillon du questionnaire détaillé. Les données sont présentées selon Région (titres de rangée) et Nombre d’ADA(figurant comme en-tête de colonne).
Région	Nombre d’ADA
Terre-Neuve-et-Labrador	83
Île-du-Prince-Édouard	23
Nouvelle-Écosse	148
Nouveau-Brunswick	129
Québec	1 144
Ontario	1 659
Manitoba	222
Saskatchewan	263
Alberta	515
Colombie-Britannique	912
Yukon	29
Territoires du Nord-Ouest	38
Nunavut	26
Canada	5 191
ADA = Aire de diffusion agrégée Source : Statistique Canada, échantillon du questionnaire détaillé du Recensement de 2021.

Le tableau 4.2.1.3 montre le nombre d’ADA selon le nombre de ménages du recensement dans le champ de l’enquête. La majorité des ADA qui comptaient des ménages dans l’échantillon du questionnaire détaillé comptaient de 2 000 à 4 999 ménages. Un nombre important d’ADA étaient peu populeuses.

Tableau 4.2.1.3
Répartition des aires de diffusion agrégées comptant des ménages dans l’échantillon du questionnaire détaillé, selon le nombre de ménages dans le champ de l’enquête
Sommaire du tableau
Le tableau montre les résultats de Répartition des aires de diffusion agrégées comptant des ménages dans l’échantillon du questionnaire détaillé. Les données sont présentées selon Nombre de ménages dans le champ de l’enquête (titres de rangée) et Nombre d’ADA et Pourcentage(figurant comme en-tête de colonne).
Nombre de ménages dans le champ de l’enquête	Nombre d’ADA	Pourcentage
Nombre de ménages dans le champ de l’enquête	Nombre d’ADA	Pourcentage
0 à 499	996	19,19
500 à 999	118	2,27
1 000 à 1 999	359	6,92
2 000 à 2 999	1 190	22,92
3 000 à 3 999	1 189	22,91
4 000 à 4 999	733	14,12
5 000 à 5 999	356	6,86
6 000 à 6 999	143	2,75
7 000 à 7 999	46	0,89
8 000 à 8 999	29	0,56
9 000 à 9 999	13	0,25
10 000 et plus	19	0,37
Total	5 191	100,00
ADA = Aire de diffusion agrégée Source : Statistique Canada, Recensement de la population de 2021.

Le tableau 4.2.1.4 présente le nombre d’ADA selon les intervalles du nombre de ménages répondants au questionnaire détaillé du Recensement de 2021. Pour les ADA qui comptaient le moins de répondants, un traitement particulier a été appliqué afin d’avoir suffisamment de ménages pour la pondération (voir la section 4.5).

Tableau 4.2.1.4
Répartition des aires de diffusion agrégées comptant des ménages dans l’échantillon du questionnaire détaillé, selon le nombre de ménages répondant au questionnaire détaillé
Sommaire du tableau
Le tableau montre les résultats de Répartition des aires de diffusion agrégées comptant des ménages dans l’échantillon du questionnaire détaillé. Les données sont présentées selon Nombre de répondants (titres de rangée) et Nombre d’ADA et Pourcentage(figurant comme en-tête de colonne).
Nombre de répondants	Nombre d’ADA	Pourcentage
0 à 99	690	13,29
100 à 199	276	5,32
200 à 299	132	2,54
300 à 399	128	2,47
400 à 499	272	5,24
500 à 599	478	9,21
600 à 699	559	10,77
700 à 799	583	11,23
800 à 899	499	9,61
900 à 999	411	7,92
1 000 à 1 099	322	6,20
1 100 à 1 199	246	4,74
1 200 à 1 299	189	3,64
1 300 à 1 399	128	2,47
1 400 à 1 499	98	1,89
1 500 et plus	180	3,47
Total	5 191	100,00
ADA = Aire de diffusion agrégée Source : Statistique Canada, échantillon du questionnaire détaillé du Recensement de 2021.

4.2.2 Super aires de diffusion agrégées

Les SADA ont été créées expressément pour la pondération des données du Recensement de 2016 afin de mener certaines procédures de pondération pour lesquelles il est souhaitable d’avoir un grand nombre d’observations.

Les SADA de 2021 ont été créées en apportant des modifications minimes aux SADA de 2016, de façon à tenir compte des changements au niveau des ADA. Étant donné que les critères liés à la taille présentent un intérêt particulier pour le processus de pondération, les critères de délimitation ayant servi à définir les SADA de 2016 sont présentés ci-dessous.

Les SADA ont été établies de sorte à respecter les règles suivantes (en ordre de priorité) :

Les SADA sont créées en regroupant des ADA (obligatoire).
Les SADA respectent les limites provinciales et territoriales (obligatoire).
Les SADA ont une population de 50 000 à 150 000 personnes (sauf pour les DR qui ont une population de 40 000 à 50 000 personnes qui forment leur propre SADA) excluant les personnes vivant dans des UC de recensement par interview.
Les SADA respectent les limites des DR.
Les SADA respectent les limites des RMR et des AR.
Les SADA respectent les limites des SDR.
Les SADA sont en un seul morceau, donc contigües.
Les SADA sont aussi compactes que possible.

Les deux premières règles étaient obligatoires et les règles 3 à 9 ont été respectées autant que possible. Au total, 409 SADA ont été formées.

Le tableau 4.2.2.1 montre la répartition du nombre de SADA selon la province ou le territoire.

Tableau 4.2.2.1
Nombre de super aires de diffusion agrégées, selon la province ou le territoire
Sommaire du tableau
Le tableau montre les résultats de Nombre de super aires de diffusion agrégées. Les données sont présentées selon Région (titres de rangée) et Nombre de SADA(figurant comme en-tête de colonne).
Région	Nombre de SADA
Terre-Neuve-et-Labrador	8
Île-du-Prince-Édouard	2
Nouvelle-Écosse	13
Nouveau-Brunswick	8
Québec	97
Ontario	150
Manitoba	15
Saskatchewan	14
Alberta	44
Colombie-Britannique	55
Yukon	1
Territoires du Nord-Ouest	1
Nunavut	1
Total	409
SADA = Super aire de diffusion agrégée Note : Pour les trois territoires, la SADA correspond au territoire. Source : Statistique Canada, échantillon du questionnaire détaillé du Recensement de 2021.

Le tableau 4.2.2.2 indique dans quelle mesure les SADA sont bien ajustées aux DR et aux RMR. Les SADA respectent les limites géographiques de la grande majorité des DR (scénarios 1 et 3) et respectent celles des trois quarts des RMR. Les autres RMR font partie d’au moins deux SADA (scénario 4).

Tableau 4.2.2.2
Nombre de divisions de recensement et de régions métropolitaines de recensement situées dans les limites des super aires de diffusion agrégées, Recensement de 2021
Sommaire du tableau
Le tableau montre les résultats de Nombre de divisions de recensement et de régions métropolitaines de recensement situées dans les limites des super aires de diffusion agrégées. Les données sont présentées selon Scénario (titres de rangée) et Description, Divisions de recensement et Régions métropolitaines de recensement, calculées selon nombre et pourcentage unités de mesure (figurant comme en-tête de colonne).
Scénario	Description	Divisions de recensement		Régions métropolitaines de recensement
Scénario	Description	nombre	pourcentage	nombre	pourcentage
1	La DR ou la RMR était de taille suffisamment petite pour être contenue entièrement dans une SADA, et la même SADA ne comprenait que des DR ou des RMR entières. Aucune DR ou RMR contenue dans la SADA ne faisait aussi partie d’une autre SADA.	249	84,98	6	14,63
2	La DR ou la RMR était de taille suffisamment petite pour être contenue entièrement dans une SADA, mais une autre DR ou RMR contenue dans la même SADA faisait aussi partie d’une autre SADA.	2	0,68	0	0,00
3	La DR ou la RMR était de taille suffisamment grande pour contenir des SADA entières. Aucune des SADA ne faisait aussi partie d’une autre DR ou RMR.	40	13,65	26	63,41
4	La DR ou la RMR faisait partie de deux SADA ou plus.	2	0,68	9	21,95
Total		293	100,00	41	100,00
DR = Division de recensement RMR = Région métropolitaine de recensement SADA = Super aire de diffusion agrégée Source : Statistique Canada, Recensement de la population de 2021.

Le tableau 4.2.2.3 montre le nombre de SADA, selon le nombre de personnes dans le champ de l’enquête.

Tableau 4.2.2.3
Répartition des super aires de diffusion agrégées comptant des ménages dans l’échantillon du questionnaire détaillé, selon le nombre de personnes dans le champ de l’enquête
Sommaire du tableau
Le tableau montre les résultats de Répartition des super aires de diffusion agrégées comptant des ménages dans l’échantillon du questionnaire détaillé. Les données sont présentées selon Nombre de personnes dans le champ de l’enquête (titres de rangée) et Nombre de SADA et Pourcentage(figurant comme en-tête de colonne).
Nombre de personnes dans le champ de l’enquête	Nombre de SADA	Pourcentage
30 000 à 39 999	3	0,73
40 000 à 49 999	20	4,89
50 000 à 59 999	23	5,62
60 000 à 69 999	29	7,09
70 000 à 79 999	101	24,69
80 000 à 89 999	66	16,14
90 000 à 99 999	46	11,25
100 000 à 149 999	114	27,87
150 000 et plus	7	1,71
Total	409	100,00
SADA = Super aire de diffusion agrégée Source : Statistique Canada, Recensement de la population de 2021.

4.3 Poids de sondage

Le poids de sondage de chaque ménage de l’échantillon du questionnaire détaillé a été calculé différemment selon le mode de collecte dans le secteur où se trouvait le logement correspondant.

Si le mode de collecte était l’envoi par la poste (EP), le listage/livraison (L/L) ou l’envoi par la poste et livraison à la porte (EPLP), le poids de sondage correspondait à l’inverse de la fraction de sondage, c.-à-d. un poids de 4.
Les ménages situés dans les communautés des Premières Nations, les établissements métis, les régions inuites et d’autres régions éloignées ont reçu un poids de sondage de 1.

Les ménages qui vivent dans des logements privés annexés à un logement collectif faisaient exception. Comme mentionné à la section 2.2, tous ces ménages ont été ajoutés à l’échantillon. Ils étaient considérés comme étant à tirage complet et ont par le fait même reçu un poids de sondage de 1.

4.3.1 Poids des ménages sélectionnés dans l’échantillon

Les ménages échantillonnés qui ont un poids de sondage de 1 n’ont reçu aucun ajustement de poids. Ces ménages ont conservé leur poids de 1 une fois les procédures de pondération terminées (couverture et non‑réponse, ainsi que calage aux totaux du recensement). Ils provenaient d’UC de recensement par interview ou étaient des ménages privés annexés à des logements collectifs.

Pour ces ménages, la non-réponse totale et la non-réponse partielle ont été traitées par imputation. Une fois les données manquantes imputées, ces ménages étaient considérés comme répondants aux fins d’estimation (bien qu’ils soient non‑répondants pour le calcul des taux de réponse présentés à la section 3.11).

4.4 Ajustement pour la couverture et pour la non-réponse totale

Bien qu’il existe plusieurs manières de traiter la non-réponse aux enquêtes, elles peuvent être classées en deux catégories principales : l’imputation et la repondération. La première est généralement employée pour traiter les valeurs manquantes isolées, et la deuxième, pour traiter les cas de non-réponse totale. Un ménage était traité comme un ménage répondant au questionnaire détaillé lorsqu’il répondait à au moins une question du questionnaire détaillé. Compte tenu du taux de réponse élevé au questionnaire détaillé, toute méthode d’ajustement aux cas de non-réponse aurait eu un effet généralement modeste sur les estimations et les poids définitifs de l’enquête. La couverture et la non-réponse totale des ménages vivant dans les UC situées dans les communautés des Premières Nations, les établissements métis, les régions inuites et d’autres régions éloignées ont été compensées par des procédures d’imputation, principalement par l’imputation de ménages entiers telle que décrite à la section 3.6. Dans le reste du pays, des procédures de repondération ont été employées. Le reste du présent chapitre décrit ces procédures de pondération.

Les ajustements pour la couverture et pour la non-réponse visent principalement à réduire au minimum l’incidence de tout biais causé par une couverture incomplète (ou des questionnaires reçus en double) et par la non-réponse totale. Pour que l’ajustement réduise réellement le biais potentiel, il est très utile de disposer d’un vaste ensemble de renseignements sur les non-répondants. En l’absence de tels renseignements, l’ajustement pour la non-réponse que l’on peut appliquer sera limité et ne pourra pas grandement réduire le biais potentiel. Seuls les renseignements géographiques de tous les ménages non répondants étaient connus. Les renseignements sur les non-répondants étaient donc plutôt limités. Heureusement, avant que ne soient appliqués les ajustements pour la couverture et pour la non-réponse, le processus d’imputation de ménages entiers a été effectué. Une part importante de l’imputation de ménages entiers consiste à imputer les caractéristiques du questionnaire abrégé pour tous les non-répondants à ce questionnaire. Cela comprenait les non-répondants de l’échantillon du questionnaire détaillé qui n’ont pas répondu aux questions du questionnaire abrégé. Ces renseignements supplémentaires ont servi de base à l’ajustement pour la non-réponse pour l’échantillon du questionnaire détaillé.

Aux fins d’ajustement pour la couverture et pour la non-réponse totale dans l’échantillon du questionnaire détaillé, on a appliqué une procédure de repondération fondée sur le calage aux poids de sondage. Cette procédure peut être divisée en quatre étapes principales :

sélection des contraintes de calage pour les étapes 2 et 3;
ajustement pour la couverture selon un calage non linéaire;
estimation de la propension à la non-réponse en fonction du calage non linéaire de la non-réponse;
application d’une méthode de pointage fondée sur la propension à l’étape 3.

Les étapes 1 à 4 ont été appliquées de manière indépendante dans chaque SADA. Autrement dit, l’ajustement pour la non‑réponse a été appliqué par SADA. La section 4.2 présente des définitions et des renseignements au sujet des ADA et des SADA.

La première étape consistait en une sélection ascendante des contraintes de calage dans la SADA, qui a été effectuée comme suit :

L’ensemble de contraintes potentielles a été tiré des variables communes au questionnaire abrégé et au questionnaire détaillé, ainsi que de données administratives obtenues au moyen de stratégies de couplage des enregistrements (au cours desquelles toutes les unités de la population du questionnaire détaillé sont soumises aux procédures de couplage). En raison des exigences de la méthode de calage non linéaire utilisée à la deuxième et à la troisième étape, seules les contraintes au niveau de la SADA, ainsi que le nombre de ménages et de personnes dans chaque ADA de la SADA, ont été prises en considération.
Dans chaque SADA, deux contraintes obligatoires ont été sélectionnées en premier : le nombre de ménages dans la SADA (TOTHHLD) et le nombre de personnes dans la SADA (TOTPERS).
Les contraintes propres aux ADA — le nombre de ménages (HHADA) et le nombre de personnes (PPADA) — ont été évaluées pour la sélection.
Toutes les autres contraintes potentielles de la SADA ont été évaluées, en donnant priorité à celles qui divisaient le plus possible la population de la SADA en deux parts égales.

Le processus de sélection excluait les contraintes qui visaient moins de 250 ménages dans la SADA et les contraintes jugées redondantes ou presque redondantes au chapitre de la colinéarité avec ces contraintes ou avec des contraintes déjà sélectionnées. Les contraintes redondantes à des contraintes déjà sélectionnées ont été exclues parce qu’elles n’apportaient aucun nouveau renseignement. Compte tenu de ces filtres, l’ordre de priorité employé dans l’évaluation des contraintes a fait en sorte que les contraintes sélectionnées se complétaient mutuellement et compensaient tout écart potentiel de couverture entre le questionnaire détaillé et le questionnaire abrégé, ainsi que pour la non-réponse totale au recensement.

La deuxième étape consistait à appliquer un ajustement pour la couverture selon un calage non linéaire à l’échantillon entier dans la SADA (c.-à-d. les répondants comme les non-répondants). Pour les contraintes sélectionnées à la première étape, les comptes pondérés de l’échantillon du questionnaire détaillé ont été harmonisés avec les chiffres de population correspondants. Cette étape avait pour but de corriger tout écart potentiel de la couverture entre l’échantillon du questionnaire détaillé et son complément (c.-à-d. l’ensemble des ménages recevant uniquement le questionnaire abrégé). Le surdénombrement peut se produire lorsque des personnes sont comptées dans deux ménages différents. La couverture pour les deux populations pourrait également être différente si, par exemple, les logements occupés étaient plus susceptibles d’être incorrectement répertoriés comme étant inoccupés selon le questionnaire détaillé que selon le questionnaire abrégé. Un autre objectif de cette étape consistait à isoler autant que possible l’erreur d’échantillonnage. Sans cette étape, le calage de la non-réponse à l’étape suivante confondrait l’erreur due à la non-réponse avec l’erreur d’échantillonnage. Cette étape fait concorder les estimations de l’échantillon avec les estimations de population. En outre, les mêmes totaux de contrôle sont utilisés dans les deux procédures de calage. Par conséquent, l’estimation de la propension à la non-réponse effectuée à l’étape suivante n’a pas besoin de corriger (directement ou indirectement) l’erreur d’échantillonnage. La combinaison d’une correction pour l’erreur d’échantillonnage et pour l’erreur due à la non-réponse à l’étape suivante aurait été inappropriée. La procédure de calage aurait échoué si le poids de tout répondant avait dû être réduit en vue de concorder avec les chiffres du recensement, car la propension estimée aurait alors dépassé 1. De plus, la méthode de pointage appliquée à la dernière étape nécessitait une estimation de la propension de réponse toute seule. Dans la mesure où la variable d’intérêt était liée aux contraintes sélectionnées, la variance d’échantillonnage a également été réduite lors de cette étape.

Après ces deux étapes, le principal ajustement pour la non-réponse a été effectué. Le poids des non-répondants, ajusté à l’étape précédente, a été mis à 0 tandis que le poids des répondants a été augmenté pour faire en sorte que les sommes pondérées de la SADA concordaient avec les chiffres de population correspondants pour les contraintes sélectionnées. Une fonction de lien logistique entre la propension de réponse et les caractéristiques utilisées lors du calage a permis une estimation implicite de la propension de réponse. Folsom et Singh (2000) ont proposé cette méthode de calage non linéaire comme méthode d’ajustement pour la non-réponse tout en s’assurant que les deux estimations correspondaient aux chiffres de population sélectionnés et que les probabilités de réponse estimées se trouvaient entre 0 et 1. Cette dernière condition ne reste pas nécessairement valable lorsqu’un calage linéaire est utilisé pour l’ajustement pour la non-réponse. Dans la mesure où la propension de réponse était liée aux contraintes sélectionnées, le biais de non-réponse potentiel a été réduit sans augmenter la variance lors de cette étape.

L’inverse des probabilités de réponse estimées obtenues lors de l’étape précédente pourrait être utilisé directement pour ajuster le poids de la non-réponse. Cependant, la méthode de pointage a été utilisée pour la dernière étape de l’ajustement pour la non‑réponse afin de lisser les probabilités estimées de l’étape précédente. Cela a permis d’assurer la qualité de l’ajustement pour la non-réponse et d’éviter les ajustements extrêmes. Pour chaque ADA, des classes de pondération homogènes ont été constituées en fonction des probabilités de réponse estimées. Dans chaque classe, la moyenne harmonique pondérée des probabilités de réponse a été calculée. La moyenne harmonique a été utilisée, car les valeurs aberrantes des probabilités de réponse estimées ont une moins grande incidence sur elle. L’inverse de cette moyenne a été appliqué au poids des répondants de la classe à titre d’ajustement pour la non-réponse. Il s’agit d’une méthode équivalente à l’application de la moyenne arithmétique pondérée des facteurs d’ajustement à l’intérieur de chacune des classes de pondération homogènes, où les facteurs d’ajustement correspondraient à l’inverse des propensions à répondre estimées.

En bref, l’ajustement pour la couverture et pour la non-réponse totale était un produit de deux quantités : l’ajustement pour la couverture et l’inverse de la moyenne harmonique obtenue selon la méthode de pointage.

4.5 Calage final

Le calage final est un calage linéaire et il a été effectué dans le but de réduire au minimum la variabilité d’échantillonnage des estimations dérivées des réponses au questionnaire détaillé tout en assurant la cohérence entre les totaux estimés et les totaux du Recensement de la population. Cette étape de pondération était nécessaire, car il était important d’assurer la cohérence entre les totaux estimés et les totaux du Recensement de la population pour un grand nombre de variables et de régions géographiques, c’est-à-dire de respecter des contraintes de calage.

Seuls les poids des ménages dont le mode de collecte était l’EP, le L/L ou l’EPLP ont été calés, car ces ménages ont été échantillonnés. Les ménages faisant exception à cette règle étaient ceux dans ces secteurs qui vivaient dans des logements privés annexés à un logement collectif. Parce que tous ces ménages font partie de l’échantillon du questionnaire détaillé et que toutes les réponses au questionnaire détaillé de ces ménages ont été imputées, aucun calage n’a été effectué. Les poids finaux de ces ménages équivalaient donc à 1. Les poids produits par le processus de calage étaient les poids finaux qui servaient à calculer les estimations provenant du questionnaire détaillé et ces poids s’appliquaient autant aux ménages qu’aux familles et aux personnes. Autrement dit, toutes les familles et personnes d’un même ménage reçoivent le poids du ménage. Pour ce dernier ajustement, il était important de limiter la variabilité des poids calés afin d’éviter qu’une part excessive de poids ne soit appliquée à un ménage ou à une personne. Par conséquent, les poids ont été contraints de prendre une valeur de 1 à 20.

Les contraintes de calage ont été définies aux niveaux de la personne, du ménage et de la famille de recensement. De plus, les contraintes peuvent être choisies à deux niveaux géographiques différents, soit au niveau des ADA et au niveau des SADA. Ces deux niveaux permettent de maximiser de façon globale la cohérence entre les totaux estimés et les totaux du Recensement de la population tout en minimisant le nombre de contraintes de calage, ce qui devrait permettre de réduire la variabilité des estimations. L’annexe C énumère toutes les contraintes qui ont été prises en considération durant le processus de calage au niveau des ADA et au niveau des SADA. Les caractéristiques pour lesquelles des données provenant du recensement, de sources administratives et du questionnaire détaillé étaient disponibles et pour lesquelles on s’est efforcé d’établir une concordance comprennent, entre autres, l’âge, le genre, l’état matrimonial, l’union libre, la taille du ménage, le type de logement, la langue officielle parlée, l’année d’immigration et le lieu de naissance.

Le processus de sélection des contraintes est appliqué simultanément à une SADA et à ses ADA, mais de manière indépendante dans chaque SADA. Par la suite, le calage a été exécuté en utilisant toutes les contraintes sélectionnées. Trois nouvelles contraintes ont été ajoutées au processus de calage de 2021. Il s’agit du nombre de personnes qui vivent dans un appartement dans un immeuble de cinq étages ou plus (APT5PLUS) et de deux contraintes liées au nombre de personnes qui ont immigré de 2016 à 2021 (YRIMD_2016 et YRIMG1_2016). De plus, les contraintes précédemment basées sur le concept de sexe du Recensement de 2016 sont désormais basées sur la variable sur le genre à deux catégories du Recensement de 2021^{Note 1}. Au niveau des SADA, 203 contraintes ont été définies, tandis que 271 contraintes ont été définies au niveau des ADA. Différentes raisons ont justifié le choix du niveau géographique des contraintes de calage. Ce choix a été fait en collaboration avec les spécialistes du sujet. Par exemple, certaines contraintes n’ont été définies qu’au niveau des SADA, car elles n’auraient pas été assez populeuses au niveau des ADA. Pour d’autres contraintes telles que les groupes d’âge, en plus de chercher des contraintes assez populeuses, le choix a été fait de façon à ce que les contraintes ne soient pas trop semblables lorsqu’elles sont évaluées par le processus de sélection.

Pour faciliter le calage des petites ADA, celles-ci ont été regroupées avant d’effectuer la sélection des contraintes de calage afin d’avoir un minimum de 60 ménages répondants au questionnaire détaillé par ADA. Les petites ADA qui appartenaient entièrement à une SDR ont premièrement été regroupées avec d’autres ADA de la même SADA. Par la suite, les petites ADA des DR ont été regroupées avec d’autres ADA de la même SADA. Enfin, les petites ADA restantes ont été regroupées à une ADA appartenant à une SADA voisine. La procédure de groupement des ADA a produit 4 207 groupements d’ADA de 60 ménages répondants ou plus.

La première étape du processus de sélection des contraintes de calage consistait à classer les contraintes en trois groupes :

Contraintes obligatoires : Ces contraintes devaient être utilisées dans le calage parce qu’il devait y avoir concordance entre les chiffres du recensement et les estimations provenant du questionnaire détaillé aux niveaux géographiques qui sont des agrégats habituels des ADA et des SADA (p. ex. Canada, provinces et territoires). Le nombre de personnes et le nombre de ménages dans les ADA et les SADA étaient les deux contraintes obligatoires.

Contraintes à faible réponse : Les contraintes évaluées pour une population de 200 ménages ou moins n’ont pas été utilisées dans le calage parce qu’elles peuvent rendre les estimations de l’enquête instables.

Toutes les autres contraintes : Ces contraintes ont été examinées plus en détail afin de déterminer s’il fallait les utiliser dans le calage.

La deuxième étape consistait à déterminer quelles contraintes du troisième groupe devaient être utilisées dans le processus de calage en plus des contraintes obligatoires. Les contraintes de ce troisième groupe ont été ajoutées une par une en choisissant itérativement la contrainte qui divisait le plus également possible la population de la SADA ou de l’ADA en deux. Les contraintes qui étaient trop linéairement dépendantes ont été exclues. De plus, afin d’éviter d’introduire un biais dans les estimations ponctuelles et d’éviter d’augmenter leur variance, le nombre de contraintes sélectionnées a été limité. À la suite d’évaluations, il a donc été déterminé que ce nombre devait être plus petit que la racine carrée du nombre de ménages répondants participant à la contrainte.

Après avoir sélectionné les contraintes de calage à utiliser, une dernière vérification a été faite afin de vérifier que l’ensemble des contraintes choisi au niveau des ADA et au niveau des SADA soit exempt de colinéarité.

Le calage proprement dit a ensuite été exécuté pour l’ensemble final de contraintes de la deuxième étape en modifiant les poids ajustés pour la couverture et la non-réponse aussi peu que possible de manière à ce que les estimations pondérées soient égales aux totaux du recensement pour ces contraintes. Le Système généralisé d’estimation de Statistique Canada a été utilisé pour effectuer le calage.

Il existe quelques raisons pour lesquelles les estimations de l’échantillon peuvent différer des chiffres du recensement, particulièrement pour les petites régions, même après l’étape du calage. Quelques-unes de ces raisons sont énumérées ci‑dessous.

Contraintes exclues durant la sélection des contraintes : Comme il est décrit plus haut, des contraintes potentielles pouvaient être exclues parce que le nombre de réponses était faible, parce qu’elles étaient linéairement dépendantes d’autres contraintes choisies (ou trop dépendantes) ou parce qu’elles étaient linéairement dépendantes de contraintes pour lesquelles le nombre de réponses était faible (ou trop dépendantes). Cela a donné lieu à des différences entre les chiffres du recensement et les estimations provenant du questionnaire détaillé pour ces variables lorsqu’il ne s’agissait pas de dépendance linéaire parfaite avec des contraintes choisies.
Sous-région de pondération : L’ADA était la plus petite région de pondération pour laquelle on a essayé d’obtenir une concordance entre les chiffres du recensement et les estimations provenant du questionnaire détaillé. Toute entité plus petite qu’une ADA, comme la plupart des AD, est appelée sous-région de pondération. Des écarts pouvaient exister entre les chiffres du recensement et les estimations provenant du questionnaire détaillé pour ces sous-régions de pondération.

4.6 Détails sur la sélection des contraintes

Au cours du processus de pondération, la sélection de contraintes a été effectuée à deux reprises : d’abord lors de l’ajustement pour la couverture et la non-réponse, abordé à la section 4.4, et lors du calage final, abordé à la section 4.5. Les variables qui constituaient les contraintes étaient essentiellement les mêmes, mais l’inclusion ou l’exclusion de contraintes variaient légèrement entre les deux étapes de pondération afin de mieux atteindre l’objectif de chaque étape. La présente section explique de quelle façon les contraintes ont été choisies durant ces étapes de pondération.

Le processus de sélection des contraintes, pour les deux ajustements, a commencé à partir d’un ensemble de contraintes obligatoires décrites dans les sections qui précèdent, puis a évalué l’ajout de toutes les autres contraintes candidates une par une. L’ordre de l’évaluation des contraintes candidates était le même pour toutes les SADA. Lors de l’ajout d’une contrainte, les critères Population nulle et Faible population étaient évalués et la contrainte était exclue si l’un ou l’autre des critères n’était pas satisfait. Si une contrainte répondait aux deux critères, le nouvel ensemble de contraintes qui la comprenait était alors évalué pour les critères de dépendance linéaire, de grande colinéarité et de redondance explicative. Si l’un de ces critères n’était pas respecté, la contrainte était rejetée. Sinon, la contrainte était ajoutée à l’ensemble des contraintes incluses et le processus de sélection était itéré jusqu’à la prochaine contrainte candidate de la liste. Le tableau 4.6.1 résume ces cinq critères, s’ils ont été appliqués à chacun des deux processus, de même que les différences dans la paramétrisation des critères entre les deux processus d’ajustement des poids.

Pour chaque processus d’ajustement des poids, la sélection des contraintes a été effectuée indépendamment pour chacune des 408 SADA qui comportaient des ménages échantillonnés dont le poids était ajusté.

La liste des contraintes de même que la fréquence d’inclusion ou d’exclusion de chaque contrainte, et ce pour chacun des deux processus de pondération, peut être consultée dans l’annexe C.

Tableau 4.6.1
Critères appliqués dans la sélection des contraintes d’ajustement pour la couverture, la non-réponse et le calage final
Sommaire du tableau
Le tableau montre les résultats de Critères appliqués dans la sélection des contraintes d’ajustement pour la couverture. Les données sont présentées selon Critère (titres de rangée) et Ajustement pour la couverture et la non-réponse et Calage final(figurant comme en-tête de colonne).
Critère	Ajustement pour la couverture et la non-réponse	Calage final
Population nulle selon les chiffres du recensement : Si la contrainte ne comportait aucune population dans l’aire de pondération, l’estimation après ajustement doit aussi être égale à 0 pour cette contrainte. Ces contraintes ne sont pas classées comme étant exclues; elles sont plutôt classées comme étant inadmissibles au processus d’ajustement.	Appliqué au niveau de la SADA/ADA.	Appliqué au niveau de la SADA/ADA.
Faible population selon les chiffres du recensement : Si une contrainte concerne moins qu’un certain nombre de ménages dans la population de la région de pondération, on considère que cette contrainte est négligeable et on l’exclut. Le fait d’inclure ce type de contrainte augmenterait exagérément la variance. Toutefois, les contraintes relatives à une faible population peuvent être implicitement calées et, dans ce cas, sont comprises dans le nombre total de contraintes calées.	Appliqué au niveau de la SADA/ADA. Le nombre de ménages dans la population de la région de pondération est supérieur à 0 et inférieur à 250.	Appliqué au niveau de la SADA/ADA. Le nombre de ménages dans la population de la région de pondération est supérieur à 0 et inférieur à 200.
Dépendance linéaire : S’il est possible de calculer la valeur d’une contrainte en combinant les valeurs d’autres contraintes, l’une de ces contraintes n’est pas nécessaire et doit être supprimée pendant le processus d’ajustement en raison de sa dépendance linéaire. Toutefois, les contraintes exclues en raison de leur dépendance linéaire sont implicitement calées. Par conséquent, celles-ci sont comprises dans le nombre total de contraintes calées.	Appliqué au niveau de la SADA. La sélection des contraintes peut être comparée à la sélection des variables explicatives dans une régression linéaire. Par conséquent, le FIV^{Tableau 4.6.1 Critères appliqués dans la sélection des contraintes d’ajustement pour la couverture, la non-réponse et le calage final Note 1} et l’indice de conditionnement^{Tableau 4.6.1 Critères appliqués dans la sélection des contraintes d’ajustement pour la couverture, la non-réponse et le calage final Note 2} sont utilisés pour détecter une colinéarité élevée.	Appliqué au niveau de la SADA/ADA. Deux vérifications de dépendance sont effectuées pour déterminer les contraintes linéairement dépendantes. La première vérification est effectuée pendant la sélection des contraintes au niveau de la SADA/ADA, et la deuxième vérification comprend l’ensemble des contraintes choisies aux deux niveaux de la hiérarchie géographique (SADA et ADA).
Grande colinéarité : Si la valeur d’une contrainte peut être pratiquement calculée en la combinant à d’autres valeurs de contrainte, au moins l’une de ces contraintes doit être supprimée du processus d’ajustement. Une contrainte de ce type n’est pas parfaitement calée.	Appliqué au niveau de la SADA. La sélection des contraintes peut être comparée à la sélection des variables explicatives dans une régression linéaire. Par conséquent, le FIV^{Tableau 4.6.1 Critères appliqués dans la sélection des contraintes d’ajustement pour la couverture, la non-réponse et le calage final Note 1} et l’indice de conditionnement^{Tableau 4.6.1 Critères appliqués dans la sélection des contraintes d’ajustement pour la couverture, la non-réponse et le calage final Note 2} sont utilisés pour détecter une colinéarité élevée.	Appliqué au niveau de la SADA/ADA. Deux vérifications de dépendance linéaire sont effectuées pour déterminer les contraintes presque linéairement dépendantes. La première vérification est effectuée pendant la sélection des contraintes au niveau de la SADA et de l’ADA, et la deuxième vérification comprend l’ensemble des contraintes choisies simultanément aux deux niveaux de la hiérarchie (SADA et ADA).
Redondance explicative : Si une contrainte explique la non-réponse (presque) au même titre que d’autres contraintes déjà sélectionnées, la procédure de calage de la non‑réponse échouerait. Autrement dit, si une contrainte n’ajoute rien de plus aux explications fournies par les contraintes déjà sélectionnées au sujet du mécanisme de non-réponse, il ne faudrait pas l’inclure.	Appliqué au niveau de la SADA. On applique une procédure séquentielle (une forme de régression logistique) pour tester la convergence de la régression logistique.	S.O.
SADA = Super aire de diffusion agrégée ADA = Aire de diffusion agrégée FIV = Facteur d’inflation de la variance S.O. = Sans objet / non disponible Note 1 Le FIV quantifie l’accroissement de la variance des coefficients de régression attribuable à la colinéarité. Retour à la référence de note 1 referrer Note 2 L’indice de conditionnement quantifie le degré selon lequel une matrice est proche de la singularité. Retour à la référence de note 2 referrer Source : Statistique Canada, échantillon du questionnaire détaillé du Recensement de 2021.

Date de modification :: 2023-09-26

Sélection de la langue

Recherche et menus

Recherche

Rapport technique sur l'échantillonnage et la pondération, Recensement de la population, 2021
4. Estimation à l’aide de l’échantillon du questionnaire détaillé du recensement

4.1 Éléments à considérer pour choisir une méthode d’estimation

4.1.1 Considérations de nature opérationnelle

4.1.2 Considérations d’ordre théorique

4.2 Régions de pondération

4.2.1 Aires de diffusion agrégées

4.2.2 Super aires de diffusion agrégées

4.3 Poids de sondage

4.3.1 Poids des ménages sélectionnés dans l’échantillon

4.4 Ajustement pour la couverture et pour la non-réponse totale

4.5 Calage final

4.6 Détails sur la sélection des contraintes

Rapport technique sur l'échantillonnage et la pondération, Recensement de la population, 2021 4. Estimation à l’aide de l’échantillon du questionnaire détaillé du recensement

4.1 Éléments à considérer pour choisir une méthode d’estimation

4.1.1 Considérations de nature opérationnelle

4.1.2 Considérations d’ordre théorique

4.2 Régions de pondération

4.2.1 Aires de diffusion agrégées

4.2.2 Super aires de diffusion agrégées

4.3 Poids de sondage

4.3.1 Poids des ménages sélectionnés dans l’échantillon

4.4 Ajustement pour la couverture et pour la non-réponse totale

4.5 Calage final

4.6 Détails sur la sélection des contraintes

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Rapport technique sur l'échantillonnage et la pondération, Recensement de la population, 2021
4. Estimation à l’aide de l’échantillon du questionnaire détaillé du recensement