Un ensemble de données global externalisé pour valider les couches de surface construites

janvier 20, 2022 0 Par brandon


Définition des zones bâties

Une zone bâtie est définie comme une zone contenant tout bâtiment avec un toit25, où un bâtiment est défini comme une « construction fermée hors sol, qui est destinée ou utilisée pour abriter des êtres humains, des animaux, des choses ou pour la production de biens économiques et qui fait référence à toute construction construite ou érigée sur son emplacement »26. Notez que la définition des zones bâties employée ici n’inclut aucune référence à la permanence, de sorte que les structures temporaires sont également incluses dans cette définition. Comme les bâtiments sont facilement visibles à partir d’images satellitaires et aériennes à très haute résolution, ils peuvent être interprétés visuellement à l’aide du crowdsourcing.

Conception de l’échantillonnage

Pour produire un échantillon de validation indépendant du produit en cours de validation, une approche telle que celle mise en place par Olofsson et al.27 est nécessaire, c’est-à-dire la génération d’un échantillon aléatoire stratifié basé sur des strates externes. Cela implique la division de la population (c’est-à-dire la collection de tous les pixels contenus dans la carte) en sous-ensembles mutuellement exclusifs (c’est-à-dire des strates) au sein desquels des échantillons aléatoires sont ensuite sélectionnés. Un masque de zones terrestres a d’abord été utilisé pour s’assurer que les échantillons ne se trouvaient que dans des zones terrestres. Le schéma d’échantillonnage comprenait une stratification à trois niveaux comme suit :

  • Dans la strate 1 : nous considérons les zones habitées et non habitées telles que définies par la zone de peuplement généralisée28. Ce dernier a été généré à partir de l’union de tous les ensembles de données disponibles décrivant les établissements humains à l’échelle mondiale sur une grille de 1 km2. Une cellule habitée est l’endroit où au moins un ensemble de données signale la présence d’établissements humains, tandis qu’une cellule non habitée est l’endroit où aucun des ensembles de données mondiaux ne signale d’établissements humains.

  • Dans la strate 2 : nous considérons les pays à revenu faible, intermédiaire et élevé sur la base de la classification des pays des Nations Unies (ONU) de 201529.

  • Dans la strate 3 : nous considérons les classes de couverture terrestre agrégées suivantes telles que définies selon la couverture terrestre de l’Initiative sur le changement climatique de l’ESA pour 2014 à une résolution de 300 m30: la classe 1 comprend le « couvert arboré » ; la classe 2 comprend les « prairies » et les « arbustes », la classe 3 comprend les « terres cultivées », la classe 4 comprend les « zones urbaines », les « zones dénudées », la « neige » et la « glace » ; et la classe 5 comprend les « masses d’eau ».

Au total, 1 667 échantillons ont ensuite été sélectionnés au hasard dans chaque strate unique (codée par une séquence de chiffres) résultant des combinaisons de strates 1, strates 2 et strates 3, soit un total de 50 000 échantillons (voir Tableau S1 et Figure S1 dans le SI ). Pour atténuer les erreurs dues à un mauvais enregistrement et faciliter la mise en œuvre de différentes approches de validation, y compris l’appariement exact des pixels ou le pourcentage d’accord, un bloc de 80 × 80 m composé de 64 cellules de 10 × 10 m a été généré pour chaque point d’échantillonnage (voir Figure S1) .

Collecte de données participative

Les données de validation de la surface construite ont été collectées via une campagne Geo-Wiki (https://www.geo-wiki.org/). Geo-Wiki est une application en ligne pour le crowdsourcing de l’interprétation visuelle d’images satellitaires et aériennes à très haute résolution, par exemple de Google Maps ou de Microsoft Bing Maps24. Cette application a été utilisée dans un certain nombre de campagnes de collecte de données au cours de la dernière décennie, recueillant des données sur la couverture terrestre, l’impact humain, la nature sauvage, les terres cultivées et la taille des champs agricoles31,32,33. Pour cette campagne, nous avons implémenté une nouvelle branche de Geo‐Wiki appelée ‘Global Built-up Surface Validation’ comme le montre la Fig. 1.

Fig. 1
Un ensemble de données global externalisé pour valider les couches de surface construites, lescouvreur.com

Capture d’écran de la branche Geo-Wiki Global Built-up Surface Validation montrant un exemple d’écran de collecte de données pour les surfaces bâties.

Une fois que les participants se sont connectés à l’application et ont commencé le processus de validation, on leur montre un emplacement aléatoire avec une image satellite ou aérienne de Google Maps, recouverte d’une grille jaune contenant 64 cellules à une résolution de 10 m chacune (panneau central illustré à la Fig. 1). L’utilisateur a ensuite été invité à effectuer trois tâches (étapes 1 à 3) illustrées dans le panneau à droite de la Fig. 1 et développées pour montrer plus de détails sur la Fig. 2b.

Figure 2
Un ensemble de données global externalisé pour valider les couches de surface construites, lescouvreur.com

Captures d’écran de (une) main gauche et (b) panneaux de droite de la branche Geo-Wiki Global Built-up Surface Validation.

À l’étape 1, l’utilisateur a basculé entre les images de Google Maps et de Microsoft Bing Maps (qui ont des dates différentes, comme indiqué dans la case de l’étape 1 de la Fig. 2b). En se déplaçant entre les images, l’idée était que les utilisateurs a) recherchent la présence de bâti et b) recherchent un changement de bâti entre les deux images, par exemple, l’apparition d’un nouveau bâtiment (ou la disparition d’un immeuble). Les utilisateurs pouvaient ajuster la vitesse à laquelle les images basculaient d’avant en arrière, et une fois l’animation arrêtée, elle affichait toujours l’image satellite de Google Maps. À l’étape 2, l’utilisateur a été invité à indiquer s’il y avait un changement dans l’accumulation, aucun changement ou à sélectionner « pas sûr » si le changement était difficile à identifier. Si aucune accumulation n’était présente, l’utilisateur a appuyé sur le bouton Aucune accumulation dans la case de l’étape 2 (Fig. 2b), ce qui a terminé la validation, et l’image suivante a ensuite été affichée. Cependant, si une accumulation était présente, l’utilisateur était invité à terminer l’étape 3. Les utilisateurs devaient d’abord cliquer sur le bouton Construit, puis sélectionner les cellules contenant n’importe quelle quantité d’accumulation dans la cellule, aussi petite soit-elle. Différents outils de sélection ont été fournis (icônes situées en haut du panneau illustré à la Fig. 2a sous « Outil de sélection : »), c’est-à-dire cliquer sur des cellules individuelles, peindre des zones en maintenant enfoncé le bouton gauche de la souris ou dessiner un polygone autour d’un région. Lorsqu’il était difficile de déterminer si le bord d’un bâtiment se trouvait dans une cellule, les utilisateurs étaient encouragés à sélectionner la classe « Je ne sais pas » pour indiquer l’incertitude. Des commentaires pourraient également être ajoutés si l’utilisateur sentait qu’il y avait quelque chose de notable dans l’image, bien que nous ayons demandé aux participants d’utiliser la zone de commentaire pour nous dire quand l’imagerie de Microsoft Bing manquait ou si l’emplacement était complètement rempli d’eau, par exemple, au milieu d’un Lac. Enfin, les utilisateurs pouvaient sélectionner une raison de saut, qui comprenait des situations où l’une des images de Google Maps était manquante, l’image était obscurcie par des nuages, sa résolution était trop faible (par exemple, l’imagerie Landsat) ou si l’image était trop difficile à interpréter. Une fois qu’une raison de saut a été choisie, cela activerait le bouton Ignorer, et les utilisateurs pourraient alors terminer la validation en appuyant sur Ignorer, après quoi le prochain emplacement sélectionné au hasard serait affiché.

Avant de lancer la campagne, les participants se sont vu proposer deux types de supports de formation différents : une courte vidéo expliquant le but de la campagne et certaines des fonctionnalités disponibles sur le site Web de la campagne ; et un guide QuickStart qui apparaissait au démarrage d’une session de validation, qui contenait une série d’instructions sur les trois tâches à entreprendre pour chaque point de validation. Ce guide de démarrage rapide était également accessible à tout moment en cliquant sur le bouton approprié situé dans le panneau de gauche de l’interface Geo-Wiki (Fig. 2a). Le bouton « Demander de l’aide à des experts » (affiché sur les deux panneaux de la Fig. 2) a généré un e-mail automatisé avec l’ID de point qui a été envoyé à un ensemble d’experts, qui ont fourni des commentaires dans les 24 heures aux participants concernant un lieu ou une requête spécifique.

La campagne s’est déroulée la dernière semaine de septembre 2020 et a duré 7 jours. C’était le temps nécessaire pour compléter l’interprétation visuelle de 50 points K avec un minimum de cinq fois chacun par différents participants. La communication avec les participants a pris la forme de messages postés sur une page facebook Geo-Wiki, via Messenger dans facebook et par e-mail. La campagne a impliqué un large groupe de participants, principalement des universitaires et des instituts de recherche dans les domaines de la télédétection, de la géographie et d’autres sciences spatiales/naturelles. Voir l’IS pour plus de détails sur les participants qui ont rempli un sondage à la fin de la campagne ainsi que sur leur formation/expertise (figures S2 et S3 ; tableaux S2 et S3). Les données collectées au cours de la campagne ont été exportées depuis l’application Geo-Wiki et mises à disposition dans le référentiel PURE de l’IIASA (http://pure.iiasa.ac.at/id/eprint/17534/)34; l’ensemble de données est décrit plus en détail dans le Enregistrements de données section.

Erreurs de géo-enregistrement

L’une des raisons pour lesquelles une grille 8 × 8 de cellules de 10 m a été choisie était de tenir compte des erreurs potentielles de géolocalisation dans les images satellitaires et aériennes dans Google Maps et Microsoft Bing Maps. Geo-Wiki a été conçu à l’origine avec une question supplémentaire pour savoir si un décalage était perceptible entre des paires d’images au même emplacement de validation entre Google Maps et Microsoft Bing Maps. Cependant, lors de la collecte des points de contrôle experts, nous avons observé que de petits décalages étaient généralement présents mais qu’ils étaient généralement inférieurs à 5 m et presque toujours inférieurs à une cellule ou 10 m. De plus, les décalages étaient parfois difficiles à détecter en raison des différences d’angle de capteur entre les paires d’images. Par conséquent, nous avons décidé que ce n’était pas une bonne utilisation du temps de la foule pour enregistrer ces informations. Au lieu de cela, nous avons consulté la littérature sur les études qui ont enquêté sur les erreurs de géo-enregistrement dans Google Earth. Basé sur une étude entreprise par Paredes-Hernández et al.35, la précision de position horizontale moyenne dans les zones rurales s’est avérée être de 4,1 m, ce qui a réduit à 3,4 m si l’on ne considère que l’imagerie après 2008, ce qui est généralement le cas dans cette campagne. D’autres études citées dans35 avaient des erreurs plus élevées, mais les auteurs ont critiqué la plupart des études précédentes en raison d’inexactitudes potentielles dans les points de référence ou en raison d’un manque d’informations sur la façon dont les erreurs ont été calculées. Dans le Remarques sur l’utilisation, nous fournissons différents modes de validation, dont la plupart minimiseront les erreurs potentielles dues au géo-enregistrement.

Incentives et contrôle qualité pendant la campagne

Les incitations au crowdsourcing et les mécanismes de contrôle de la qualité utilisés dans les campagnes Geo-Wiki sont fortement interconnectés. Chaque campagne Geo-Wiki s’est inspirée des expériences de campagne précédentes, mais la plupart ont les deux mêmes composants qui semblent fonctionner efficacement. Le premier élément est l’utilisation de prix et de co-auteurs comme incitations à participer. Dans cette campagne, les 30 meilleurs participants ont reçu un prix sous forme de co-auteur sur ce document pour reconnaître leurs contributions à la collecte des données, un bon Amazon ou une combinaison des deux. Tous les co-auteurs participant à la campagne devaient également fournir des commentaires sur cet article. Étant donné que beaucoup ont une formation universitaire (voir la figure S2 dans l’IS pour plus de détails), ces commentaires ont été riches et précieux. Cet apport scientifique des participants s’apparente davantage à de la science citoyenne qu’à du crowdsourcing. De plus, les résultats des enquêtes administrées à la fin de la campagne ont indiqué que les prix (bons Amazon) et la co-rédaction figuraient parmi les motivations les mieux classées pour participer (tableau S3).

La deuxième composante était l’utilisation de points de contrôle pour évaluer la qualité. Les points de contrôle sont des grilles sélectionnées à partir de l’échantillon qui ont été préalablement interprétées par deux experts, c’est-à-dire le premier et le deuxième auteur de cet article, qui ont tous deux une expérience considérable de l’interprétation visuelle. Au début de la campagne, les participants ont été invités à classer 10 points de contrôle, qui ont été choisis pour illustrer différents exemples de paysages non bâtis et bâtis. Pour chaque grille d’échantillon classée, le participant recevait une rétroaction textuelle avec un score ainsi que la bonne réponse ; un exemple est illustré à la Fig. 3.

Figure 3
Un ensemble de données global externalisé pour valider les couches de surface construites, lescouvreur.com

Un exemple de retour d’information fourni sur un point de contrôle.

Après avoir terminé les 10 points de contrôle, les scores des participants ont été remis à zéro. À partir de ce moment, les points de contrôle ont été présentés au hasard aux participants à raison de deux points de contrôle tous les 20 points de l’échantillon. Les points de contrôle étaient le principal moyen par lequel les participants pouvaient augmenter leurs scores pendant la campagne, avec des pénalités maximales de -35 et un score maximum réalisable de +25 par point de contrôle. Les détails du système de notation sont fournis dans le SI.

Les points de contrôle ont été choisis dans l’échantillon de 50 K, initialement avec une proportion de 70 % bâtis et 30 % non bâtis. Cependant, au jour 3 de la campagne, il est devenu clair que certains participants ne faisaient qu’augmenter leurs scores en fournissant des réponses à des points d’échantillonnage non construits et en actualisant leurs navigateurs sur des points construits pour éviter les pénalités. Pour décourager ce comportement, les points de contrôle avec des zones non bâties ont été retirés de la compétition, les scores des points de contrôle non bâtis ont été diminués et la notation n’était alors possible que par l’interprétation visuelle des zones bâties. Ce défaut de conception technologique dans l’interface Geo-Wiki a été identifié au cours de cette campagne, les leçons apprises étant reportées sur les campagnes futures.



Source