Rapport technique sur l'échantillonnage et la pondération, Recensement de la population, 2016
4. Estimation à l'aide de l'échantillon du questionnaire détaillé du recensement

Table des matières Renseignements supplémentaires

Tout processus d'échantillonnage nécessite une méthode d'estimation connexe pour convertir les données-échantillon à l'échelle de la population et pour s'assurer que les estimations d'après les données d'enquête sont représentatives de la population. Le choix d'une méthode d'estimation est généralement régi par des contraintes de nature opérationnelle ainsi que théorique. Du point de vue opérationnel, la méthode doit être applicable dans le système de traitement des données dont elle fait partie, et du point de vue théorique, la méthode doit réduire au minimum l'erreur statistique dans les estimations produites.

La méthode d'estimation génère un ensemble de poids, et le poids de chaque unité d'échantillonnage correspond au nombre d'unités dans la population que représente l'unité d'échantillonnage. Ces poids sont appliqués aux données-échantillon pour produire des millions d'estimations à l'aide de l'échantillon du questionnaire détaillé du recensement. Les estimations sont des mesures agrégées telles que les totaux, les moyennes, les proportions et les médianes, que l'on calcule à l'aide de l'échantillon pour diverses caractéristiques pertinentes.

4.1 Éléments à considérer pour choisir une méthode d'estimation

4.1.1 Considérations de nature opérationnelle

Mathématiquement, une méthode d'estimation peut être décrite au moyen d'une formule algébrique, ou estimateur, qui montre comment l'estimation pour la population est calculée sous forme d'une fonction des valeurs d'échantillon observées et d'autres données provenant du plan de sondage ou de sources externes. La plupart du temps, cet estimateur est une simple fonction des poids et de la variable d'intérêt pour les unités répondantes. L'utilisation d'un ensemble unique de poids pour produire toutes les estimations garantit un certain niveau de cohérence entre les diverses estimations de l'enquête.

Par conséquent, l'approche adoptée pour l'échantillon du questionnaire détaillé du recensement (et la plupart des enquêtes-échantillon) consistait à subdiviser la méthode d'estimation en deux étapes : a) le calcul des poids (appelé procédure de pondération); b) l'utilisation des poids pour produire les estimations, comme l'estimation d'un chiffre particulier de population par totalisation des poids appliqués aux personnes ou aux ménages possédant la caractéristique pertinente. La complexité mathématique est alors principalement confinée à l'étape a), qui est exécutée une seule fois. L'étape b), quant à elle, est réduite à un simple processus, comme la sommation des poids chaque fois qu'une totalisation est nécessaire. Étant donné que le poids appliqué à chaque unité d'échantillonnage est le même pour toute totalisation faisant intervenir l'unité en question, la cohérence entre les différentes estimations fondées sur les données-échantillon est assurée.

4.1.2 Considérations d'ordre théorique

Pour un plan de sondage donné et une méthode d'estimation donnée, il est possible, en s'appuyant sur la théorie de l'échantillonnage, de formuler un énoncé quant aux chances qu'un certain intervalle contienne la valeur inconnue de la population qu'il faut estimer. Le principal critère relatif au choix d'une méthode d'estimation est la minimisation de l'étendue de ces intervalles pour un niveau donné de confiance, de façon que les énoncés au sujet des valeurs inconnues de la population soient aussi précis que possible. La mesure de précision habituelle pour comparer les méthodes d'estimation est appelée erreur-type. Pourvu que certaines conditions soient respectées, les intervalles de plus ou moins deux erreurs-types par rapport à l'estimation contiendront la vraie valeur de la population pour approximativement 95 % de tous les échantillons possibles.

Outre la minimisation de l'erreur-type, un second objectif relatif au choix d'une méthode d'estimation pour l'échantillon du questionnaire détaillé est de garantir, autant que possible, que les estimations d'après l'échantillon des caractéristiques évaluées au recensement concordent avec les valeurs connues du recensement. Heureusement, ces deux objectifs sont habituellement complémentaires en ce sens que l'erreur d'échantillonnage a tendance à être réduite lorsqu'on veille à ce que les estimations de certaines caractéristiques de base de l'échantillon concordent avec les chiffres de population correspondants. Cependant, bien que cela soit vrai en général, forcer les estimations de l'échantillon du questionnaire détaillé pour des caractéristiques évaluées au recensement à concorder avec les chiffres du recensement correspondants pour de très petits sous-groupes peut avoir un effet indésirable sur l'erreur-type des estimations pour les caractéristiques de l'échantillon proprement dites. Par exemple, si plusieurs aires de diffusion ne comptent qu'un petit nombre de sujets ayant une certaine caractéristique, par exemple un pays de naissance donné, le fait d'assurer la cohérence entre les estimations de l'échantillon et les chiffres du recensement pour ce pays de naissance ferait augmenter de manière injustifiée l'erreur-type pour le reste des caractéristiques.

Si l'on ne dispose d'aucune information au sujet de la population échantillonnée à part celle recueillie pour les unités d'échantillonnage et en l'absence de non-réponse totale, la méthode d'estimation est limitée à la pondération des unités d'échantillonnage par l'inverse de leurs probabilités de sélection. Par exemple, si une unité avait une chance sur quatre d'être sélectionnée, elle recevrait un poids de 4. Lorsque la non-réponse totale est observée, le poids doit également être ajusté en fonction de l'estimation de la probabilité de réponse de l'unité, par exemple. En pratique, on dispose souvent de certains renseignements supplémentaires au sujet de la population (p. ex. sa taille totale et, parfois, sa répartition en fonction d'une variable donnée — peut-être selon la province ou le territoire). Ce genre d'information peut être utilisé pour améliorer la formule d'estimation afin de produire des estimations ayant plus de chances d'être proches de la valeur inconnue de la population. Dans le cas de l'échantillon du questionnaire détaillé du recensement, on dispose d'un grand nombre de données très détaillées sur la population échantillonnée grâce aux données du questionnaire abrégé du recensement, à tous les niveaux géographiques. Dans le cadre des ajustements pour la couverture, la non-réponse et le calage, on peut profiter de cette quantité considérable de renseignements sur la population pour améliorer les estimations tirées de l'échantillon du questionnaire détaillé.

Néanmoins, on ne peut pas faire concorder les estimations de l'échantillon du questionnaire détaillé pour les caractéristiques du recensement avec tous les chiffres du recensement à chaque niveau géographique. On observe des différences entre les estimations de l'échantillon et les chiffres du recensement lorsqu'on produit un tableau croisé d'une variable-échantillon et de la variable de recensement correspondante. Le tableau des totaux estimés d'après l'échantillon pour des caractéristiques particulières ne concordera pas nécessairement avec le tableau équivalent des totaux des chiffres du recensement pour ces caractéristiques.

L'ajustement, aussi faible que possible, des poids afin d'obtenir une concordance parfaite entre les estimations du questionnaire détaillé et les chiffres du recensement pour certaines caractéristiques et certains sous-groupes porte le nom de « calage ».

4.2 Régions de pondération

Les divers ajustements effectués sur les poids de sondage ont été faits indépendamment selon la région de pondération. Les régions géographiques qui ont été utilisées à cette fin sont les aires de diffusion agrégées (ADA) et les super aires de diffusion agrégées (SADA). L'ADA est une nouvelle région géographique de diffusion créée pour le Recensement de 2016. La SADA est créée spécifiquement pour les procédures de pondération par l'agrégation d'ADA. Il est à noter que les subdivisions géographiques qui ont été utilisées en 2011 et avant étaient construites différemment.

4.2.1 Aire de diffusion agrégée

L'aire de diffusion agrégée (ADA) est une nouvelle région géographique de diffusion créée pour le Recensement de 2016. Son objectif est de permettre la diffusion d'un plus grand nombre de données à un niveau géographique détaillé à l'échelle du pays. Au total, le Canada est divisé en 5 386 ADA, et il y a eu des ménages sélectionnés pour l'échantillon du questionnaire détaillé dans 5 143 ADA. Parmi les 243 ADA où il n'y a pas eu de ménages échantillonnés, 235 étaient formées uniquement de ménages hors du champ de l'enquête. Dans les 8 autres ADA, il n'y avait qu'un petit nombre de ménages dans le champ de l'enquête et aucun d'entre eux n'a été sélectionné.

Les ADA respectent les critères de délimitation suivants :

Les ADA couvrent l'ensemble du pays et, dans la mesure du possible, ont une population de 5 000 à 15 000 habitants (selon les chiffres de population du recensement précédent).
Les ADA respectent les limites provinciales et territoriales ainsi que les limites des divisions de recensement (DR), des régions métropolitaines de recensement (RMR) et des agglomérations de recensement (AR) comptant des secteurs de recensement (SR) en vigueur au Recensement de 2016.
Les ADA sont établies à partir de l'une des trois régions géographiques de diffusion du Recensement de 2016 : les aires de diffusion (AD), les subdivisions de recensement (SDR) ou les secteurs de recensement (SR) :
- Dans les RMR et les AR comptant des SR, les SR adjacents sont regroupés afin de respecter le critère de population de l'ADA.
- Dans les régions sans SR (soit les régions à l'extérieur des RMR et des plus grandes AR), où les SDR ont une population inférieure à 15 000 habitants, les SDR adjacentes sont regroupées afin de respecter le critère de population de l'ADA.
- Dans les régions sans SR, où les SDR ont une population supérieure à 15 000 habitants, les AD adjacentes sont regroupées dans ces SDR afin de respecter le critère de population de l'ADA.
Chaque SDR formée d'une réserve indienne et un petit nombre d'autres régions où l'on a eu recours au recensement par interview constituent des ADA distinctes.

« Pour plus de renseignements sur l'Aire de Diffusion Agrégée, consultez le Dictionnaire, Recensement de la population, 2016, n^o 98-301-X au catalogue. »

Le tableau 4.2.1.1 présente certaines statistiques indiquant dans quelle mesure les ADA comptant des ménages dans l'échantillon du questionnaire détaillé sont bien ajustées aux SDR. Le premier scénario s'est produit dans la grande majorité des cas, car les ADA ont été formées de sorte à respecter en priorité les limites géographiques des SR et des SDR. Le scénario 4 est le seul où les limites géographiques des SDR ne sont pas respectées. Les SR ne figurent pas dans le tableau car tous, sauf un, étaient dans le premier scénario et celui qui n'y était pas se trouvait dans le scénario 3.

Tableau 4.2.1.1
Nombre de subdivisions de recensement qui respectent les limites des ADA comptant des ménages dans l'échantillon du questionnaire détaillé, Recensement de 2016
Sommaire du tableau
Le tableau montre les résultats de Nombre de subdivisions de recensement qui respectent les limites des aires de diffusion agrégées comptant des ménages dans l'échantillon du questionnaire détaillé. Les données sont présentées selon Scénario (titres de rangée) et Description et Subdivisions de recensement, calculées selon nombre et pourcentage unités de mesure (figurant comme en-tête de colonne).
Scénario	Description	Subdivisions de recensement
Scénario	Description	nombre	pourcentage
1	La SDR était de taille suffisamment petite pour être contenue entièrement dans une ADA, et cette même ADA ne comprenait que des SDR entières. Aucune SDR dans l'ADA ne faisait aussi partie d'une autre ADA.	4 512	92,40
2	La SDR était de taille suffisamment petite pour être contenue entièrement dans une ADA, mais une autre SDR dans la même ADA faisait aussi partie d'une autre ADA.	81	1,66
3	La SDR était de taille suffisamment grande pour contenir des ADA entières. Aucune des ADA ne faisait aussi partie d'une autre SDR.	261	5,35
4	La SDR faisait partie d'au moins deux ADA.	29	0,59
Total		4 883	100,00
SDR = Subdivision de recensement. ADA = Aire de diffusion agrégée. Source : Statistique Canada, échantillon du questionnaire détaillé du Recensement de 2016.

Le tableau 4.2.1.2 montre la ventilation du nombre d'ADA comptant des ménages dans l'échantillon du questionnaire détaillé selon la province ou le territoire.

Tableau 4.2.1.2
Nombre d'ADA comptant des ménages dans l'échantillon du questionnaire détaillé selon la province ou le territoire
Sommaire du tableau
Le tableau montre les résultats de Nombre d'aires de diffusion agrégées comptant des ménages dans l'échantillon du questionnaire détaillé selon la province ou le territoire. Les données sont présentées selon Région (titres de rangée) et Nombre d'aires de diffusion agrégées (figurant comme en-tête de colonne).
Région	Nombre d'ADA
Terre-Neuve-et-Labrador	81
Île-du-Prince-Édouard	21
Nouvelle-Écosse	146
Nouveau-Brunswick	124
Québec	1 118
Ontario	1 655
Manitoba	216
Saskatchewan	256
Alberta	516
Colombie-Britannique	916
Yukon	28
Territoires du Nord-Ouest	40
Nunavut	26
Canada	5 143
ADA = Aire de diffusion agrégée. Source : Statistique Canada, échantillon du questionnaire détaillé du Recensement de 2016.

Le tableau 4.2.1.3 montre le nombre d'ADA selon le nombre de ménages du recensement dans le champ de l'enquête. La majorité des ADA comptant des ménages dans l'échantillon du questionnaire détaillé comptent entre 2 000 et 4 999 ménages. Un nombre assez important d'ADA sont peu populeuses.

Tableau 4.2.1.3
Répartition des ADA comptant des ménages dans l'échantillon du questionnaire détaillé selon le nombre de ménages dans le champ de l'enquête
Sommaire du tableau
Le tableau montre les résultats de Répartition des aires de diffusion agrégées comptant des ménages dans l'échantillon du questionnaire détaillé selon le nombre de ménages dans le champ de l'enquête. Les données sont présentées selon Ménages dans le champ de l'enquête (titres de rangée) et Nombre d'aires de diffusion agrégées et Pourcentage (figurant comme en-tête de colonne).
Ménages dans le champ de l'enquête	Nombre d'ADA	Pourcentage
0 à 499	976	18,98
500 à 999	117	2,27
1 000 à 1 999	366	7,12
2 000 à 2 999	1 339	26,04
3 000 à 3 999	1 229	23,90
4 000 à 4 999	664	12,91
5 000 à 5 999	300	5,83
6 000 à 6 999	98	1,91
7 000 à 7 999	32	0,62
8 000 à 8 999	14	0,27
9 000 à 9 999	3	0,06
10 000+	5	0,10
Total	5 143	100,00
ADA = Aire de diffusion agrégée. Source : Statistique Canada, Recensement de la population, 2016.

Le tableau 4.2.1.4 présente le nombre d'ADA selon les intervalles du nombre de ménages répondants au questionnaire détaillé du Recensement de 2016. Pour les ADA comptant le moins de répondants, un traitement particulier a été appliqué afin d'avoir suffisamment de ménages pour la pondération (voir la section 4.5). Globalement, les ADA comptaient davantage de répondants que les régions de pondération utilisées en 2011.

Tableau 4.2.1.4
Répartition des ADA comptant des ménages dans l'échantillon du questionnaire détaillé selon le nombre de ménages répondants au questionnaire détaillé
Sommaire du tableau
Le tableau montre les résultats de Répartition des aires de diffusion agrégées comptant des ménages dans l'échantillon du questionnaire détaillé selon le nombre de ménages répondants au questionnaire détaillé. Les données sont présentées selon Ménages répondants (titres de rangée) et Nombre d'aires de diffusion agrégées et Pourcentage (figurant comme en-tête de colonne).
Ménages répondants	Nombre d'ADA	Pourcentage
0 à 99	605	11,76
100 à 199	265	5,15
200 à 299	158	3,07
300 à 399	142	2,76
400 à 499	311	6,05
500 à 599	537	10,44
600 à 699	628	12,21
700 à 799	604	11,74
800 à 899	518	10,07
900 à 999	400	7,78
1 000 à 1 099	304	5,91
1 100 à 1 199	229	4,45
1 200 à 1 299	162	3,15
1 300 à 1 399	101	1,96
1 400 à 1 499	73	1,42
1 500 et plus	106	2,06
Total	5 143	100,00
ADA = Aire de diffusion agrégée. Source : Statistique Canada, échantillon du questionnaire détaillé du Recensement de 2016.

4.2.2 Super aire de diffusion agrégée

Les super aires de diffusion agrégées ont été créées spécifiquement pour la pondération du Recensement de 2016 afin de mener certaines procédures de pondération pour lesquelles il est souhaitable d'avoir un grand nombre d'observations.

Les SADA ont été établies de sorte à respecter les règles suivantes (en ordre de priorité) :

Les SADA sont créées en regroupant des ADA (obligatoire).
Les SADA respectent les limites provinciales et territoriales (obligatoire).
Les SADA ont une population de 50 000 à 150 000 personnes (sauf pour les divisions de recensement (DR) qui ont une population de 40 000 à 50 000 personnes qui elles forment leur propre SADA.
La population des SADA exclue les personnes vivant dans des UC de recensement par interview.
Les SADA respectent les limites des divisions de recensement (DR).
Les SADA respectent les limites des régions métropolitaines de recensement (RMR) et des agglomérations de recensement (AR).
Les SADA respectent les limites des subdivisions de recensement.
Les SADA sont en un seul morceau, donc contigües.
Les SADA sont aussi compactes que possible.

Les deux premières règles étaient obligatoires et les règles 3 à 9 ont été respectées autant que possible. Au total, 409 SADA ont été formées.

Le tableau 4.2.2.1 montre la ventilation du nombre de SADA selon la province ou le territoire.

Tableau 4.2.2.1
Nombre de SADA selon la province ou le territoire
Sommaire du tableau
Le tableau montre les résultats de Nombre de super aires de diffusion agrégées selon la province ou le territoire. Les données sont présentées selon Région (titres de rangée) et Nombre de super aires de diffusion agrégées (figurant comme en-tête de colonne).
Région	Nombre de SADA
Terre-Neuve-et-Labrador	8
Île-du-Prince-Édouard	2
Nouvelle-Écosse	13
Nouveau-Brunswick	8
Québec	97
Ontario	150
Manitoba	15
Saskatchewan	14
Alberta	44
Colombie-Britannique	55
Yukon	1
Territoires du Nord-Ouest	1
Nunavut	1
Canada	409
SADA = Super aire de diffusion agrégée. Note : Pour les trois territoires, la SADA correspond au territoire. Source : Statistique Canada, échantillon du questionnaire détaillé du Recensement de 2016.

Le tableau 4.2.2.2 présente certaines statistiques indiquant dans quelle mesure les SADA sont bien ajustées aux DR et aux RMR. Les SADA respectent les limites géographiques de la grande majorité des DR (scénarios 1 et 3) et respectent celles des trois quarts des RMR. Les autres RMR font partie d'au moins deux SADA (scénario 4).

Tableau 4.2.2.2
Nombre de divisions de recensement et de régions métropolitaines de recensement qui respectent les limites des SADA, Recensement de 2016
Sommaire du tableau
Le tableau montre les résultats de Nombre de divisions de recensement et de régions métropolitaines de recensement qui respectent les limites des SADA. Les données sont présentées selon Scénario (titres de rangée) et Description, Divisions de recensement et Régions métropolitaines de recensement, calculées selon nombre et pourcentage unités de mesure (figurant comme en-tête de colonne).
Scénario	Description	Divisions de recensement		Régions métropolitaines de recensement
Scénario	Description	nombre	pourcentage	nombre	pourcentage
1	La DR ou la RMR était de taille suffisamment petite pour être contenue entièrement dans une SADA, et la même SADA ne comprenait que des DR ou des RMR entières. Aucune DR ni aucune RMR dans la SADA ne faisait aussi partie d'une autre SADA.	249	84,98	2	5,71
2	La DR ou la RMR était de taille suffisamment petite pour être contenue entièrement dans une SADA, mais une autre DR ou RMR dans la même SADA faisait aussi partie d'une autre SADA.	2	0,68	0	0,00
3	La DR ou la RMR était de taille suffisamment grande pour contenir des SADA entières. Aucune des SADA ne faisait aussi partie d'une autre DR ou RMR.	40	13,65	25	71,43
4	La DR ou la RMR faisait partie d'au moins deux SADA.	2	0,68	8	22,86
Total		293	100,00	35	100,00
DR = Division de recensement. RMR = Région métropolitaine de recensement. SADA = Super aire de diffusion agrégée. Source : Statistique Canada, Recensement de la population, 2016.

Le tableau 4.2.2.3 montre le nombre de SADA selon le nombre de personnes dans le champ de l'enquête.

Tableau 4.2.2.3
Répartition des SADA comptant des ménages dans l'échantillon du questionnaire détaillé selon le nombre de personnes dans le champ de l'enquête
Sommaire du tableau
Le tableau montre les résultats de Répartition des super aires de diffusion agrégées comptant des ménages dans l'échantillon du questionnaire détaillé selon le nombre de personnes dans le champ de l'enquête. Les données sont présentées selon Personnes dans le champ de l'enquête (titres de rangée) et Nombre de super aires de diffusion agrégées et Pourcentage (figurant comme en-tête de colonne).
Personnes dans le champ de l'enquête	Nombre de SADA	Pourcentage
30 000 à 39 999	2	0,49
40 000 à 49 999	26	6,36
50 000 à 59 999	23	5,62
60 000 à 69 999	45	11,00
70 000 à 79 999	106	25,92
80 000 à 89 999	67	16,38
90 000 à 99 999	46	11,25
100 000 à 149 999	94	22,98
Total	409	100,00
SADA = Super aire de diffusion agrégée. Source : Statistique Canada, Recensement de la population, 2016.

4.3 Poids de sondage

Le poids de sondage de chaque ménage de l'échantillon du questionnaire détaillé a été calculé différemment selon le mode de collecte de l'UC dans lequel se trouve le logement correspondant.

Si le mode de collecte est :

l'envoi par la poste, le poids de sondage correspond à l'inverse de la fraction de sondage, ce qui correspond à un poids de quatre
le listage/livraison, le poids de sondage correspond au ratio du nombre de logement privés dénombrés au nombre de logement privés échantillonnés dans l'UC et ces poids sont d'environ quatre pour 98 % des ménages sélectionnés, et ils varient de un à sept
le recensement par interview, le poids de sondage est de un.

Les ménages vivant dans des logements privés annexés à un logement collectif font exception. Comme mentionné à la section 2.2, tous ces ménages ont été ajoutés à l'échantillon. Ils sont considérés à tirage complet et ont par le fait même reçu un poids de sondage de un.

4.3.1 Poids des ménages dénombrés dans l'échantillon

Les ménages échantillonnés qui ont un poids de sondage de un ne reçoivent aucun ajustement de poids. Ces ménages conservent leur poids de un une fois les procédures de pondération terminées (couverture et non-réponse, ainsi que calage aux totaux du recensement). Ils proviennent d'UC de recensement par interview ou bien sont des ménages privés annexés à des logements collectifs.

Pour ces ménages, la non-réponse totale et la non-réponse partielle sont traitées par imputation. Une fois les données manquantes imputées, ces ménages sont considérés comme répondants aux fins d'estimation (bien qu'ils soient non-répondants pour le calcul des taux de réponse présentés à la section 3.11).

4.4 Ajustement pour la couverture et pour la non-réponse totale

Les diverses manières de traiter la non-réponse aux enquêtes peuvent être classées en deux catégories principales : l'imputation et la repondération. La première est généralement employée pour traiter les valeurs manquantes isolées. La deuxième sert surtout pour les cas de non-réponse totale. Un ménage était traité comme un répondant au questionnaire détaillé lorsqu'il répondait à au moins une question du questionnaire détaillé. Étant donné le taux de réponse élevé au questionnaire détaillé, toute méthode d'ajustement aux cas de non-réponse aurait eu un effet généralement moindre sur les estimations et les poids définitifs de l'enquête. La couverture et la non-réponse totale des ménages dans les UC situées dans les réserves indiennes et dans les UC de recensement par interview ont été compensées par des procédures d'imputation, principalement par l'imputation de ménages entiers (IME) telle que décrite dans la section 3.6. Dans le reste du pays, des procédures de repondération ont été employées. Le reste du présent chapitre décrit ces procédures de pondération.

Les ajustements pour la couverture et pour la non-réponse visent principalement à réduire l'incidence de tout biais causé par une couverture incomplète (ou des questionnaires reçus en double) ou par la non-réponse totale. Pour que l'ajustement réduise réellement le biais potentiel, il est très utile d'avoir un vaste ensemble de renseignements sur les non-répondants. En l'absence de tels renseignements, l'ajustement pour la non-réponse que l'on peut appliquer sera limité et ne pourra pas réduire de beaucoup le biais potentiel. On connaissait les renseignements géographiques de tous les ménages non répondants et de tous les non-répondants de l'échantillon du questionnaire détaillé (c.-à-d. les répondants de l'échantillon du questionnaire détaillé qui ont répondu aux questions du questionnaire abrégé, mais pas à celles du questionnaire détaillé). Les renseignements sur les non-répondants étaient donc plutôt limités. Heureusement, avant que ne soient appliqués les ajustements pour la couverture et pour la non-réponse, le processus d'IME a été effectué. Une part importante de l'IME consistait à imputer les caractéristiques du questionnaire abrégé pour tous les non-répondants à ce questionnaire. Cela comprenait les non-répondants de l'échantillon du questionnaire détaillé. Ces renseignements supplémentaires ont servi de base à l'ajustement pour la non-réponse pour l'échantillon du questionnaire détaillé.

Aux fins d'ajustement pour la couverture et pour la non-réponse totale dans l'échantillon du questionnaire détaillé, on a appliqué une procédure de repondération fondée sur le calage aux poids de sondage. Cette procédure peut être divisée en quatre étapes principales :

sélection des contraintes de calage pour les étapes 2 et 3
ajustement pour la couverture selon un calage non linéaire
estimation de la propension à la non-réponse en fonction du calage non linéaire de la non-réponse
application d'une méthode de pointage fondée sur la propension à l'étape 3.

Les étapes 1 à 4 ont été appliquées de manière indépendante dans chaque SADA. En d'autres termes, l'ajustement pour la non-réponse a été appliqué par SADA. La section 4.2 présente des définitions et des renseignements ayant trait aux ADA et aux SADA.

La première étape consistait en une sélection ascendante des contraintes de calage dans la SADA, qui a été effectuée comme suit :

L'ensemble de contraintes potentielles a été tiré des variables communes au questionnaire abrégé et au questionnaire détaillé, ainsi que de données administratives obtenues au moyen de stratégies de couplage des enregistrements (au cours desquelles toutes les unités de la population du questionnaire détaillé sont soumises aux procédures de couplage). En raison des exigences de la méthode de calage non linéaire utilisée à la deuxième et à la troisième étape, seules les contraintes au niveau de la SADA ainsi que le nombre de ménages et de personnes dans chaque ADA de la SADA ont été pris en considération.
Dans chaque SADA, deux contraintes obligatoires ont été sélectionnées en premier : le nombre de ménages dans la SADA (TOTHHLD) et le nombre de personnes dans la SADA (TOTPERS).
Les contraintes propres aux ADA — le nombre de ménages (HHADA) et le nombre de personnes (PPADA) — ont été évaluées pour la sélection.
Toutes les autres contraintes potentielles de la SADA ont été évaluées, en donnant priorité à celles qui divisaient le plus possible la population de la SADA en deux parts égales.

Le processus de sélection excluait les contraintes qui visaient moins de 250 ménages dans la SADA et les contraintes jugées redondantes ou presque redondantes à ces contraintes ou à des contraintes déjà sélectionnées. Les contraintes redondantes à des contraintes déjà sélectionnées ont été exclues parce qu'elles n'apportaient aucun nouveau renseignement. Compte tenu de ces filtres, l'ordre de priorité employé dans l'évaluation des contraintes a fait en sorte que les contraintes sélectionnées se complétaient mutuellement et compensaient tout écart potentiel de couverture entre le questionnaire détaillé et le questionnaire abrégé, ainsi que pour la non-réponse totale au recensement.

La deuxième étape consistait à appliquer un ajustement pour la couverture selon un calage non linéaire à l'échantillon entier dans la SADA (c.-à-d. les répondants comme les non-répondants). Pour les contraintes sélectionnées à la première étape, les comptes pondérés de l'échantillon du questionnaire détaillé ont été harmonisés avec les chiffres de population correspondants. Cette étape avait pour but de corriger tout écart potentiel de la couverture entre l'échantillon du questionnaire détaillé et son complément (c.-à-d. l'ensemble des ménages recevant uniquement le questionnaire abrégé). Le surdénombrement peut se produire notamment lorsque des personnes sont comptées dans deux ménages différents. La couverture pour les deux populations pourrait également être différente si, par exemple, les logements occupés étaient plus susceptibles d'être incorrectement répertoriés comme étant inoccupés selon le questionnaire détaillé que selon le questionnaire abrégé. Un autre objectif de cette étape consistait à isoler autant que possible l'erreur d'échantillonnage. Sans cette étape, le calage de la non-réponse à l'étape suivante confondrait l'erreur due à la non-réponse avec l'erreur d'échantillonnage. Cette étape fait concorder les estimations de l'échantillon avec les estimations de population. En outre, les mêmes totaux de contrôle sont utilisés dans les deux procédures de calage. Par conséquent, l'estimation de la propension à la non-réponse effectuée à l'étape suivante n'a pas besoin de corriger (directement ou indirectement) l'erreur d'échantillonnage. Combiner une correction pour l'erreur d'échantillonnage et pour l'erreur due à la non-réponse à l'étape suivante aurait été inapproprié. La procédure de calage aurait échoué si le poids de tout répondant avait dû être réduit en vue de concorder avec les chiffres du recensement, car la propension estimée aurait alors dépassé 1. De plus, la méthode de pointage appliquée à la dernière étape nécessitait une estimation de la propension de réponse toute seule. Dans la mesure où la variable d'intérêt était liée aux contraintes sélectionnées, la variance d'échantillonnage a également été réduite lors de cette étape.

Après ces deux étapes, le principal ajustement pour la non-réponse a été effectué. Le poids des non-répondants, ajusté à l'étape précédente, a été mis à 0 tandis que le poids des répondants a été augmenté pour faire en sorte que les sommes pondérées de la SADA concordent avec les chiffres de population correspondants pour les contraintes sélectionnées. Une fonction de lien logistique entre la propension de réponse et les caractéristiques utilisées lors du calage a permis une estimation implicite de la propension de réponse. Folsom et Singh (2000) ont proposé cette méthode de calage non linéaire comme méthode pour ajuster la non-réponse tout en s'assurant que les deux estimations correspondaient aux chiffres de population sélectionnés et que les probabilités de réponse estimées se trouvaient entre 0 et 1. Cette dernière condition ne reste pas nécessairement valable lorsqu'un calage linéaire est utilisé pour l'ajustement pour la non-réponse. Dans la mesure où la propension de réponse était liée aux contraintes sélectionnées, le biais de non-réponse potentiel a été réduit sans augmenter la variance lors de cette étape.

L'inverse des probabilités de réponse estimées obtenues lors de l'étape précédente pourrait être utilisé directement pour ajuster le poids de la non-réponse. Cependant, la méthode de pointage a été utilisée pour la dernière étape de l'ajustement pour la non-réponse afin d'« aplanir » les probabilités estimées de l'étape précédente. Cela a permis d'assurer la qualité de l'ajustement pour la non-réponse et d'éviter les ajustements trop extrêmes. Pour chaque ADA, des classes de pondération homogènes ont été constituées en fonction des probabilités de réponse estimées. Dans chaque classe, la moyenne harmonique pondérée des probabilités de réponse a été calculée. La moyenne harmonique a été utilisée parce qu'elle est moins affectée par les valeurs aberrantes des probabilités de réponse estimées. L'inverse de cette moyenne a été appliqué au poids des répondants de la classe à titre d'ajustement pour la non-réponse.

En bref, l'ajustement pour la couverture et pour la non-réponse totale était un produit de deux quantités : l'ajustement pour la couverture et l'inverse de la moyenne harmonique obtenue selon la méthode de pointage.

4.5 Calage final

Le calage final est un calage linéaire et il a été effectué dans le but de minimiser la variabilité d'échantillonnage des estimations dérivées des réponses au questionnaire détaillé tout en assurant la cohérence entre les totaux estimés et les totaux du Recensement de la population. Cette étape de pondération était nécessaire, car il était important d'assurer la cohérence entre les totaux estimés et les totaux du Recensement de la population pour un grand nombre de variables et de régions géographiques, c.-à-d. de respecter des contraintes de calage.

Seuls les poids des ménages dont le mode de collecte de l'UC était l'envoi par la poste ou le listage/livraison ont été calés, car ces ménages ont été échantillonnés. Les ménages faisant exception à cette règle sont ceux de ces UC, mais provenant de logements privés annexés à un logement collectif. Parce que tous ces ménages font partie de l'échantillon du questionnaire détaillé et que toutes les réponses au questionnaire détaillé de ces ménages ont été imputées, aucun calage n'a été effectué. Les poids finaux de ces ménages sont donc égaux à un. Les poids produits par le processus de calage sont les poids finaux servant à calculer les estimations provenant du questionnaire détaillé et ces poids s'appliquent autant aux ménages qu'aux familles et aux personnes, c.-à-d. que toutes les familles et personnes d'un même ménage reçoivent le poids du ménage. Pour ce dernier ajustement, il était important de limiter la variabilité des poids calés afin d'éviter qu'une part excessive de poids ne soit appliquée à un ménage ou à une personne. Par conséquent, les poids ont été contraints de prendre une valeur comprise entre 1 et 20.

Les contraintes de calage ont été définies aux niveaux de la personne, du ménage et de la famille de recensement. De plus, en 2016, on a ajouté deux niveaux géographiques hiérarchiques dans la notion de contraintes, soit les niveaux d'ADA et de SADA. L'ajout de ces deux niveaux a permis de maximiser de façon globale la cohérence entre les totaux estimés et les totaux du Recensement de la population tout en minimisant le nombre de contraintes de calage, ce qui devrait permettre de réduire la variabilité des estimations. L'annexe C énumère toutes les contraintes qui ont été prises en considération durant le processus de calage au niveau des ADA et au niveau des SADA. Les caractéristiques pour lesquelles des données provenant du recensement, de sources administratives et du questionnaire détaillé étaient disponibles et pour lesquelles on s'est efforcé d'établir une concordance comprennent, entre autres, l'âge, le sexe, l'état matrimonial, l'union libre, la taille du ménage, le type de logement et la langue officielle parlée.

Le choix des contraintes s'est fait dans les deux types de régions géographiques simultanément et de façon indépendante. Par la suite, le calage a été exécuté en utilisant toutes les contraintes sélectionnées. En 2016, l'ajout de contraintes de calage à deux niveaux géographiques (ADA et SADA), le retrait des contraintes de langue maternelle et l'ajout de contraintes basées sur des données administratives appariées signifient que le nombre de contraintes potentielles était différent du Recensement de 2011. Au niveau des ADA, 270 contraintes ont été définies, tandis que 200 contraintes ont été définies au niveau des SADA. Différentes raisons ont justifié le choix du niveau géographique des contraintes de calage. Ce choix s'est fait en collaboration avec les spécialistes des domaines spécialisés. Par exemple, certaines contraintes n'ont été définies qu'au niveau des SADA, car elles n'auraient pas été assez populeuses au niveau des ADA. Pour d'autres contraintes telles que les groupes d'âge, en plus de vouloir des contraintes assez populeuses, le choix s'est fait de façon à ce que les contraintes ne soient pas trop semblables l'une de l'autre lorsqu'elles sont évaluées par la procédure de sélection.

Pour faciliter le calage des petites ADA, celles-ci ont été regroupées avant d'effectuer la sélection des contraintes de calage afin d'avoir un minimum de 60 ménages répondants au questionnaire détaillé par ADA. Les petites ADA appartenant entièrement à une SDR ont premièrement été regroupées avec d'autres ADA de la même SADA. Par la suite, les petites ADA des DR ont été regroupées avec d'autres ADA de la même SADA. Enfin, les petites ADA restantes ont été regroupées à une ADA appartenant à une SADA voisine. La procédure de groupement des ADA a produit 4 180 groupements d'ADA de 60 ménages répondants ou plus.

La première étape du processus de sélection des contraintes de calage consistait à classer les contraintes en trois groupes :

Contraintes obligatoires : Ces contraintes doivent être utilisées dans le calage parce qu'il doit y avoir concordance entre les chiffres du recensement et les estimations provenant du questionnaire détaillé aux niveaux géographiques qui sont des agrégats habituels des ADA et des SADA (p. ex. Canada, provinces et territoires). Le nombre de personnes et le nombre de ménages dans les ADA et les SADA étaient les deux contraintes obligatoires.

Contraintes à faible réponse : Les contraintes évaluées pour une population de 200 ménages ou moins ne sont pas utilisées dans le calage parce qu'elles peuvent rendre les estimations de l'enquête instables.

Toutes les autres contraintes : Ces contraintes ont été examinées plus en détail afin de déterminer s'il fallait les utiliser dans le calage.

La deuxième étape consistait à déterminer quelles contraintes du troisième groupe devaient être utilisées dans le processus de calage en plus des contraintes obligatoires. Les contraintes de ce troisième groupe ont été ajoutées une par une en choisissant itérativement la contrainte divisant le plus également possible la population de la SADA ou de l'ADA en deux. Les contraintes qui étaient trop linéairement dépendantes ont été exclues. De plus, afin d'éviter d'introduire un biais dans les estimations ponctuelles et d'éviter d'augmenter leur variance, le nombre de contraintes sélectionnées a été limité. À la suite d'évaluations, il a donc été déterminé que ce nombre devait être plus petit que la racine carrée du nombre de ménages répondants participant à la contrainte.

Après avoir sélectionné les contraintes de calage à utiliser, une dernière vérification a été faite afin de vérifier que l'ensemble des contraintes choisi au niveau des ADA et au niveau de la SADA soit exempt de colinéarité.

Le calage proprement dit a ensuite été exécuté pour l'ensemble final de contraintes de la deuxième étape en modifiant les poids ajustés pour la couverture et la non-réponse aussi peu que possible de manière à ce que les estimations pondérées soient égales aux totaux du recensement pour ces contraintes. Le Système généralisé d'estimation (SGE) de Statistique Canada a été utilisé pour effectuer le calage.

Il existe quelques raisons pour lesquelles les estimations de l'échantillon peuvent différer des chiffres du recensement, particulièrement pour les petites régions, même après l'étape du calage. Quelques-unes de ces raisons sont énumérées ci-dessous.

Contraintes exclues durant la sélection des contraintes : Comme il est décrit plus haut, des contraintes potentielles pouvaient être exclues parce que le nombre de réponses était faible, parce qu'elles étaient linéairement dépendantes à d'autres contraintes choisies (ou trop dépendantes) ou parce qu'elles étaient linéairement dépendantes à des contraintes pour lesquelles le nombre de réponses était faible (ou trop dépendantes). Cela a donné lieu à des différences entre les chiffres du recensement et les estimations provenant du questionnaire détaillé pour ces variables lorsqu'il ne s'agissait pas de dépendance linéaire parfaite avec des contraintes choisies.
Sous-région de pondération : En 2016, l'ADA était la plus petite région de pondération pour laquelle on a essayé d'obtenir une concordance entre les chiffres du recensement et les estimations provenant du questionnaire détaillé. Toute entité plus petite qu'une ADA, comme la plupart des AD, est appelée sous-région de pondération. Des écarts pouvaient exister entre les chiffres du recensement et les estimations provenant du questionnaire détaillé pour ces sous-régions de pondération.

4.6 Détails sur la sélection des contraintes^{Note 1}

Au cours du processus de pondération, la sélection de contraintes a été effectuée à deux reprises : lors de l'ajustement pour la couverture et la non-réponse, qui fait appel à des techniques de calage non linéaire, et lors du calage final. Les variables constituant les contraintes étaient essentiellement les mêmes, mais l'inclusion ou l'exclusion de contraintes variaient entre les deux étapes de pondération, car leurs objectifs respectifs étaient différents. En résumé, la sélection des contraintes ne fait pas exactement appel aux mêmes critères, et les régions de pondération varient selon l'étape de pondération.

La présente section explique comment la sélection des contraintes est effectuée de part et d'autre de ces étapes de pondération et donne la fréquence à laquelle certaines contraintes ont été exclues durant l'ajustement pour la couverture et la non-réponse de même qu'au calage final. La sélection des contraintes a été effectuée indépendamment pour les 408 SADA qui comportent des ménages échantillonnés dont le poids est ajusté, ainsi que pour les 4 238 ADA qui les composent. Une seule SADA n'a pas subi d'ajustement de poids car elle ne contenait que des ménages dénombrés (la SADA correspondant au Nunavut). Cela explique pourquoi les tableaux qui suivent présentent les résultats de 408 SADA alors que le nombre total de SADA figurant à la section 4.2 est de 409. Durant l'ajustement pour la couverture et la non-réponse, 4 646 régions de pondération ont été définies, soit 408 SADA et 4 238 ADA, tandis que 4 588 régions de pondération ont été définies à l'étape du calage final. Le nombre de régions de pondération diffère selon l'étape de pondération car à l'étape du calage final, les petites ADA ont été combinées en « ADA de calage » de façon à avoir un minimum de 60 ménages par ADA, ce qui a donné un total de 4 180 ADA à l'étape du calage.

4.6.1 Processus d'ajustement pour la couverture et la non-réponse

La procédure d'ajustement pour la couverture et la non-réponse utilise le calage pour ajuster les poids de sondage. La justification est que si les estimations fondées sur les répondants concordent autant que possible avec les chiffres du recensement pour les variables auxiliaires, le biais de non-réponse des estimations associées à ces variables sera réduit. La section 4.4 décrit plus en détail l'ajustement pour la couverture et la non-réponse.

Comme le mentionne la section 4.4, l'ajustement pour la couverture et la non-réponse a été apporté de manière indépendante dans la SADA, où plusieurs variables ont été utilisées pour définir les contraintes, et dans l'ADA, pour deux variables. Une procédure séquentielle a été utilisée pour sélectionner les contraintes. Dans chaque SADA, deux contraintes obligatoires ont été sélectionnées en premier : le nombre de ménages dans la SADA (TOTHHLD) et le nombre de personnes dans la SADA (TOTPERS). Par la suite, des contraintes propres aux ADA — le nombre de ménages (HHADA) et le nombre de personnes (PPADA) — dans chacune des ADA ont été prises en considération. Ensuite, toutes les autres contraintes potentielles de la SADA ont été prises en considération, en privilégiant celles qui divisaient (approximativement) la SADA en deux parts égales. Les contraintes non obligatoires ont été ajoutées de manière séquentielle à l'ajustement, à condition de ne pas correspondre aux critères cités dans le tableau 4.6.3.1. La liste définitive des contraintes de calage qui ont été prises en considération pour l'ajustement pour la couverture et la non-réponse se trouve à l'annexe C.

Une contrainte qui est fréquemment exclue présente généralement un plus grand écart entre le chiffre du recensement et l'estimation de l'échantillon ajusté pour la non-réponse qu'une contrainte qui est utilisée plus souvent. Cela est observable lorsque l'on compare l'annexe C avec le tableau 5.2.1. L'annexe C présente toutes les variables ou les contraintes potentielles, le nombre de fois qu'une contrainte a été utilisée pour le calage, et le nombre de fois que les contraintes ont été exclues pour l'une des raisons indiquées au tableau 4.6.3.1. Cinq critères ont pu mener à l'exclusion d'une contrainte de l'ajustement pour la couverture et la non-réponse : « Population nulle », « Faible population », « Dépendance linéaire », « Grande colinéarité » et « Redondance explicative ». Il est possible qu'une contrainte soit exclue du calage pour l'une de ces raisons, mais qu'elle soit calée à la fin du processus. Cela se produit par exemple lorsque la contrainte est colinéaire avec les contraintes sélectionnées. Dans un tel cas, l'annexe C montre cette contrainte comme étant « calée ».

4.6.2 Procédures pour l'ajustement du calage final

L'objectif du calage final est d'ajuster les poids des ménages afin que les estimations produites à partir du questionnaire détaillé soient aussi proches que possible des chiffres du recensement pour de nombreuses caractéristiques communes. En plus de produire une concordance entre les estimations, un choix judicieux de contraintes aura pour effet de réduire la variance. L'annexe C fournit la liste complète des contraintes potentielles et la section 4.5 donne une description du calage effectué sur les estimations provenant du questionnaire détaillé. Les critères appliqués pour la sélection des contraintes sont similaires à ceux appliqués à la sélection des contraintes pour l'ajustement de la couverture et de la non-réponse, avec quelques variantes telles que présentées au tableau 4.6.3.1.

Le calage a été effectué simultanément pour les SADA et les ADA de calage. Dans chacune des SADA, des contraintes de calage ont été définies au niveau de la SADA et au niveau des ADA. Dans chaque SADA, toutes les contraintes ont été évaluées et n'ont été exclues qu'au besoin. Le nombre total de personnes (TOTPERS) et le nombre total de ménages (TOTHHLD) étaient les deux seules contraintes obligatoires, ce qui signifie qu'elles ne pouvaient être exclues pour aucune des ADA.

À l'échelle canadienne, un total de 132 777 contraintes présélectionnées a été envoyé au SGE développé par Statistique Canada afin que celui-ci effectue le calage linéaire final, ce qui représente une moyenne de 27 contraintes par ADA et une moyenne de 31 contraintes par SADA. Les contraintes obligatoires ont été sélectionnées dans toutes les régions de pondération. Le processus mis en place a fait en sorte que les contraintes de revenu, en particulier celle du revenu du ménage ainsi que celle indiquant un ménage à faible revenu, ont été sélectionnées le plus souvent. Les contraintes sélectionnées le moins souvent correspondent principalement à l'année d'immigration ainsi qu'au pays d'origine.

4.6.3 Comparaison des procédures entre les deux étapes d'ajustement et sélection

À chacune des étapes de pondération, des critères ont été appliqués lors de la sélection des contraintes. Ces critères sont présentés au tableau 4.6.3.1 selon l'étape de pondération.

Tableau 4.6.3.1
Critères appliqués lors de la sélection des contraintes pour l'ajustement de la couverture, de la non-réponse et du calage final
Sommaire du tableau
Le tableau montre les résultats de Critères appliqués lors de la sélection des contraintes pour l'ajustement de la couverture. Les données sont présentées selon Critère (titres de rangée) et Ajustement de la couverture et de la non-réponse et Calage final(figurant comme en-tête de colonne).
Critère	Ajustement de la couverture et de la non-réponse	Calage final
Population nulle selon les chiffres du recensement : Si la contrainte ne comportait aucune population dans l'aire de pondération, l'estimation après ajustement doit aussi être égale à 0 pour cette contrainte. Ces contraintes ne sont pas classées comme étant exclues, mais sont plutôt inadmissibles au processus d'ajustement.	Appliqué au niveau de la SADA/ADA.	Appliqué au niveau de la SADA/ADA.
Petite population selon les chiffres du recensement : Si une contrainte fait intervenir moins qu'un certain nombre de ménages dans la population de l'aire de pondération, on considère que cette contrainte est négligeable et on l'exclut. Inclure ce type de contrainte augmenterait exagérément la variance. Toutefois, les contraintes assorties d'une petite population peuvent être implicitement calées et, dans ce cas, on les inclut dans le nombre total des contraintes calées.	Appliqué au niveau de la SADA/ADA. Le nombre de ménages dans la population de la région de pondération est supérieur à 0 mais inférieur à 250.	Appliqué au niveau de la SADA/ADA. Le nombre de ménages dans la population de la région de pondération est supérieur à 0 mais inférieur à 200.
Linéairement dépendant : S'il est possible de calculer la valeur d'une contrainte en combinant les valeurs d'autres contraintes, l'une de ces contraintes n'est pas nécessaire et elle doit être supprimée lors du processus d'ajustement en raison de sa dépendance linéaire. Toutefois, les contraintes exclues en raison de leur dépendance linéaire sont implicitement calées. Celles-ci sont donc incluses dans le total du nombre de contraintes calées.	Appliqué au niveau de la SADA. La sélection des contraintes peut être comparée avec la sélection des variables explicatives dans une régression linéaire. Par conséquent, on utilise le facteur d'inflation de la variance^{Tableau 4.6.3.1 Note 1} (FIV) et l'indice de conditionnement^{Tableau 4.6.3.1 Note 2} pour détecter une colinéarité élevée.	Appliqué au niveau de la SADA/ADA. Deux vérifications de dépendance sont effectuées pour identifier les contraintes linéairement dépendantes : une première lors de la sélection des contraintes au niveau de la SADA/ADA) et une deuxième sur l'ensemble complet des contraintes choisies aux deux niveaux géographiques hiérarchiques (SADA et ADA qui la composent).
Colinéarité élevée : Si la valeur d'une contrainte peut quasiment être calculée en la combinant avec d'autres valeurs de contrainte, il conviendra de supprimer l'une de ces contraintes lors du processus d'ajustement. Une contrainte de ce type n'est pas parfaitement calée.	Appliqué au niveau de la SADA. La sélection des contraintes peut être comparée avec la sélection des variables explicatives dans une régression linéaire. Par conséquent, on utilise le facteur d'inflation de la variance^{Tableau 4.6.3.1 Note 1} (FIV) et l'indice de conditionnement^{Tableau 4.6.3.1 Note 2} pour détecter une colinéarité élevée.	Appliqué au niveau de la SADA/ADA. Deux vérifications de dépendance linéaire sont effectuées pour identifier les contraintes presque linéairement dépendantes : une première lors de la sélection des contraintes au niveau de la SADA et au niveau de la ADA et une deuxième sur l'ensemble complet des contraintes choisies aux deux niveaux hiérarchiques (SADA et ADA qui la composent).
Redondance explicative : Si une contrainte explique la non-réponse (presque) au même titre que d'autres contraintes déjà sélectionnées, la procédure de calage des non-réponses échouerait. Autrement dit, si une contrainte n'ajoute rien de plus aux explications fournies par les contraintes déjà sélectionnées au sujet du mécanisme de non-réponse, il ne faudrait pas l'inclure.	Appliqué au niveau de la SADA. On applique une procédure séquentielle (un genre de régression logistique) pour tester la convergence de la régression logistique.	S/O
Note 1 Le FIV quantifie l'accroissement de la variance des coefficients de régression en raison de la colinéarité. Retour à la référence de note 1 Note 2 L'indice de conditionnement quantifie le degré selon lequel une matrice est proche de la singularité. Retour à la référence de note 2 SADA = Super aire de diffusion agrégée ADA = Aire de diffusion agrégée.

L'annexe C indique le statut de chacune des contraintes ayant été sélectionnées dans au moins une des régions géographiques une fois la sélection des contraintes effectuée selon l'étape de pondération. La colonne ayant trait à la géographie indique le niveau géographique auquel la contrainte s'appliquait. Dans le cas d'une contrainte s'appliquant aux deux niveaux géographiques, les totaux englobent ces deux niveaux sans différenciation. Il est à noter qu'une contrainte peut avoir été exclue du processus de calage, mais être tout de même calée. Dans ce cas, cette contrainte est considérée comme calée.

4.6.4 Analyse du calage lors de l'ajustement pour la couverture et la non-réponse

La présente section résume le nombre de contraintes qui ont été sélectionnées ou exclues, ainsi que les raisons pour lesquelles certaines contraintes n'ont pas été sélectionnées. En outre, la section explique pourquoi certaines contraintes sont fréquemment exclues.

Les personnes nées dans certains lieux ont tendance à se concentrer davantage dans certaines régions du pays, au point où de nombreuses SADA comptent peu de personnes ayant un lieu de naissance donné ou n'en comptent pas. Par conséquent, les contraintes relatives au lieu de naissance n'ont souvent pas été sélectionnées, en raison des faibles chiffres du recensement. De même, la contrainte relative au français, langue officielle (OLN_FR) compte peu de personnes dans certaines régions du pays ou n'en compte pas, ce qui a souvent mené à son exclusion suppression.

Les contraintes les plus souvent exclues pour cause de grande colinéarité ont été les suivantes :

« Personnes dans l'ADA » (PPADA)
« Enfants faisant partie d'une famille de recensement » (CHILD)
« Familles de recensement avec enfants » (CHILDFAM)
« Ménages de 1 personne » (HHSIZE1)
« Femmes » (FEMALE)
« Hommes » (MALE)
« Familles de recensement sans enfant » (NOCLDFAM)
« Femmes âgées de moins de 15 ans » (FEMALELT15)
« Personnes dans une famille économique » (INEFAM)
« Personnes dans un ménage ne faisant pas partie d'une famille économique » (NOINEFAM)
« Hommes âgés de 14 ans et moins » (MALELT15)
« Personnes âgées de 10 à 14 ans » (AGE14)
« Ménages de 5 personnes et plus » (HHSIZEGE5)
« Personnes ne faisant pas partie d'une famille de recensement » (NOTINFAM)
« Personnes âgées de 5 à 9 ans » (AGE9)
« Personnes âgées de 0 à 4 ans » (AGE4)
« Ménages de 6 personnes et plus » (HHSIZEGE6)
« Adultes faisant partie d'une famille de recensement » (ADULTCF)
« Personnes faisant partie d'un couple (mariage, partenaire) » (COUPLE)
« Ménages de 2 personnes » (HHSIZE2).

La procédure a exclue ces contraintes automatiquement, car elles pouvaient être déterminées avec une grande précision à l'aide d'une combinaison des contraintes obligatoires « Ménages » (TOTHHLD) et « Personnes » (TOTPERS) avec d'autres contraintes qui ont souvent été sélectionnées, telles que celles relatives à l'âge, à l'état matrimonial, à la taille du ménage, au sexe selon l'âge et aux personnes dans la famille de recensement. Ces contraintes auraient également pu être expliquées trop facilement par une combinaison des variables sélectionnées et des petites contraintes.

Les différences réelles entre les chiffres du recensement et les estimations ajustées pour la non-réponse sont examinées dans la section 5.2.

Le tableau 4.6.4.1 montre le nombre de fois où chaque raison de supprimer ou d'éliminer une contrainte au niveau de la SADA est survenue. Le nombre total de contraintes exclues est la somme des catégories « Faible population », « Grande colinéarité » et « Redondance explicative ». La catégorie « Population nulle » n'est pas incluse dans le total parce qu'elle ne représente pas réellement des contraintes exclues. Le nombre moyen de contraintes exclues par SADA est le total de chaque catégorie divisé par 408, soit le nombre de SADA où ont été effectués des ajustements pour la couverture et la non-réponse.

Tableau 4.6.4.1
Statistiques sommaires sur les contraintes relatives aux SADA dans l'ajustement pour la couverture et la non-réponse en 2016
Sommaire du tableau
Le tableau montre les résultats de Statistiques sommaires sur les contraintes relatives aux SADA dans l'ajustement pour la couverture et la non-réponse en 2016. Les données sont présentées selon Contrainte (titres de rangée) et Calée, Population nulle, Exclues et Total exclues(figurant comme en-tête de colonne).
Contrainte	Calée	Population nulle	Exclues			Total exclues
Contrainte	Calée	Population nulle	Petite population	Colinéarité élevée	Redondance explicative	Total exclues
Nombre total de contraintes	30 328	2 865	29 742	11 550	49	41 341
Nombre moyen de contraintes par SADA	74,3	7,0	72,9	28,3	0,1	101,3
SADA = Super aire de diffusion agrégée. Note : Deux SADA sont exclues, la SADA de Wood Buffalo et une deuxième parce qu'elle est formée de ménages provenant de réserves seulement. Source : Statistique Canada, échantillon du questionnaire détaillé du Recensement de 2016.

En moyenne, 74,3 contraintes au niveau de la SADA ont été calées par SADA. Une moyenne de 72,9 contraintes ont été exclues par SADA en raison d'une faible population et 28,3, en raison d'une grande colinéarité.

4.6.5 Analyse du calage final

Sauf dans le cas où la population est nulle, chaque fois qu'une contrainte est exclue le processus de calage n'essaiera pas de faire concorder les estimations du questionnaire détaillé aux chiffres du recensement pour cette contrainte dans la région de pondération en question. L'écart entre le chiffre du recensement et l'estimation provenant du questionnaire détaillé sera habituellement plus grand pour une contrainte exclue fréquemment que pour une contrainte exclue moins souvent.

Le tableau 4.6.5.1 montre à quelle fréquence une contrainte a été exclue ou éliminée au niveau de la région de pondération selon chaque critère. Le nombre total de contraintes exclues est égal à la somme des valeurs pour les différents critères de suppression. Le nombre moyen de contraintes exclues par région de pondération est simplement égal au total pour la catégorie divisé par le nombre de régions de pondération.

Tableau 4.6.5.1
Statistiques sommaires relatives au statut de sélection des contraintes au niveau de la région de pondération dans l'ajustement final des poids en 2016
Sommaire du tableau
Le tableau montre les résultats de Statistiques sommaires relatives au statut de sélection des contraintes au niveau de la région de pondération dans l'ajustement final des poids en 2016. Les données sont présentées selon Contraintes (titres de rangée) et Région de pondération, Calées, Population nulle, Exclues, Total exclues et Nombre de régions de pondération (figurant comme en-tête de colonne).
Contraintes	Région de pondération	Calées	Population nulle	Exclues		Total exclues	Nombre de régions de pondération
Contraintes	Région de pondération	Calées	Population nulle	Petite population	Colinéarité élevée	Total exclues	Nombre de régions de pondération
Nombre de contraintes	ADA	210 307	112 442	283 947	99 319	383 266	4 180
Nombre de contraintes	SADA	39 262	2 698	27 292	10 588	37 880	408
Nombre moyen de contraintes par SADA/ADA	ADA	50,3	27,1	67,9	23,8	91,7	4 180
Nombre moyen de contraintes par SADA/ADA	SADA	96,2	6,6	66,9	26,0	92,0	408
SADA = Super aire de diffusion agrégée. ADA = Aire de diffusion agrégée. Note : Deux SADA sont exclues, la SADA de Wood Buffalo et une deuxième parce qu'elle est formée de ménages provenant de réserves seulement. Source : Statistique Canada, échantillon du questionnaire détaillé du Recensement de 2016.

Note

Date de modification :: 2019-01-03

Sélection de la langue

Recherche et menus

Recherche

Rapport technique sur l'échantillonnage et la pondération, Recensement de la population, 2016
4. Estimation à l'aide de l'échantillon du questionnaire détaillé du recensement

4.1 Éléments à considérer pour choisir une méthode d'estimation

4.1.1 Considérations de nature opérationnelle

4.1.2 Considérations d'ordre théorique

4.2 Régions de pondération

4.2.1 Aire de diffusion agrégée

4.2.2 Super aire de diffusion agrégée

4.3 Poids de sondage

4.3.1 Poids des ménages dénombrés dans l'échantillon

4.4 Ajustement pour la couverture et pour la non-réponse totale

4.5 Calage final

4.6 Détails sur la sélection des contraintes^{Note 1}

4.6.1 Processus d'ajustement pour la couverture et la non-réponse

4.6.2 Procédures pour l'ajustement du calage final

4.6.3 Comparaison des procédures entre les deux étapes d'ajustement et sélection

4.6.4 Analyse du calage lors de l'ajustement pour la couverture et la non-réponse

4.6.5 Analyse du calage final

Note

Rapport technique sur l'échantillonnage et la pondération, Recensement de la population, 2016 4. Estimation à l'aide de l'échantillon du questionnaire détaillé du recensement

4.1 Éléments à considérer pour choisir une méthode d'estimation

4.1.1 Considérations de nature opérationnelle

4.1.2 Considérations d'ordre théorique

4.2 Régions de pondération

4.2.1 Aire de diffusion agrégée

4.2.2 Super aire de diffusion agrégée

4.3 Poids de sondage

4.3.1 Poids des ménages dénombrés dans l'échantillon

4.4 Ajustement pour la couverture et pour la non-réponse totale

4.5 Calage final

4.6 Détails sur la sélection des contraintesNote 1

4.6.1 Processus d'ajustement pour la couverture et la non-réponse

4.6.2 Procédures pour l'ajustement du calage final

4.6.3 Comparaison des procédures entre les deux étapes d'ajustement et sélection

4.6.4 Analyse du calage lors de l'ajustement pour la couverture et la non-réponse

4.6.5 Analyse du calage final

Note

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Rapport technique sur l'échantillonnage et la pondération, Recensement de la population, 2016
4. Estimation à l'aide de l'échantillon du questionnaire détaillé du recensement

4.6 Détails sur la sélection des contraintes^{Note 1}