QUALITE DES DONNEES SPATIALES

 

Ce texte est une mise à jour d'un article publié par Mounir Azouzi et Bertrand Merminod sous le même titre dans la revue suisse "Mensuration, Photogrammétrie, Génie Rural" en décembre 1996. Il a bénéficié de la lecture critique de Régis Caloz, du Laboratoire des Systèmes d'Information Géographique de l'EPFL (LaSIG).

 

Les bases de données géographiques permettent de gérer de grandes masses de données, aussi diverses par leur type que par leur source. D’autre part, la quantité et la diversité des utilisateurs vont grandissant. Or dans la plupart des cas aujourd’hui, ces utilisateurs ne peuvent connaître la provenance des informations qu’ils traitent. Il faut donc ajouter des indicateurs de qualité pour l’information spatiale, dès sa saisie sur le terrain. Ce surcroît d’information n’est certes pas négligeable, mais à l’aide d’outils adéquats il permet d’exploiter des données de sources différentes et peut représenter une sécurité pour les divers utilisateurs. La qualité de l’information peut être affectée de diverses manières au cours des étapes de son cycle de vie. Dans cet article, nous présentons ces influences ainsi que l’état d’avancement des recherches sur la définition et la normalisation de la qualité des données.

1.      Préambule

Commençons par considérer l’évolution d’un paquet de biscuits. Il n’y a pas si longtemps, le conseil de la voisine était un gage suffisant de qualité. Aujourd’hui, quel grand distributeur oserait présenter un emballage neutre? L’information jointe à des biscuits “ multigrains naturels ” s’est étoffée progressivement: désignation en plusieurs langues, composition, date limite de vente, propriétés diététiques, proportions de chaque composant, composition de l’emballage, part de chaque élément nutritif pour la couverture des besoins quotidiens, sigles relatifs au contenu et à l’emballage (propres à la marque, nationaux et internationaux), conseils pour le recyclage de l’emballage, pays de provenance pour chaque composant, norme de référence pour l’appellation “ bio ” de chaque composant, mode de transport utilisé de l’usine au magasin, ...

Bref en trente ans, l’information relative au produit a plus que décuplé! Mais au fait, qui s’en plaint? Personne puisque chaque consommateur ne lit que ce qui l’intéresse et prend une décision qui concerne au plus ses proches. Toute cette information résulte de la législation et de la stratégie du distributeur, qui fait pression sur le producteur. Le consommateur n’a pas à gérer le tout.

Revenons à l’information spatiale. Jusqu’à récemment, seule la forme graphique était accessible à un large public et la perception de la qualité était fondée sur l’intuition. Seuls le producteur de coordonnées et son client connaissaient la précision des données. L’usage d’information spatiale sous forme numérique était l’apanage d’un groupe de spécialistes respectant les mêmes conventions. Pour un géomètre, il va sans dire que la précision de coordonnées à deux décimales n’est pas la même au centre ville ou à l’alpage. Pour les non-initiés, la précision est supposée égale à la dernière décimale disponible. L’usage d’information numérique a toujours été source de malentendus. Combien de propriétaires se sont sentis lésés lorsque la surface de leur parcelle était réduite d’un seul mètre carré suite à une nouvelle mensuration? La généralisation du stockage de l’information spatiale sous forme digitale et l’éclatement du cercle des utilisateurs initiés accroissent le risque d’erreurs d’interprétation de façon spectaculaire. A cela s’ajoute le changement des pratiques professionnelles. Les procédés topométriques étaient fortement normalisés, conditionnés par de multiples ordonnances visant à garantir la qualité en contrôlant le processus de mesure et de calcul. Pour garantir la qualité de l’information spatiale malgré la tendance actuelle au libre choix des méthodes de saisie, il faut choisir des critères différents, attachés seulement aux résultats.

Ce n’est pas la première fois que les géomètres doivent expliciter des critères de qualité. C’est bien dans le cadre de la géodésie que Gauss et Legendre ont développé les procédures d’estimation par moindres carrés qui permettent de décrire la précision des résultats sur une base mathématique solide. Pendant des décennies, les géomètres ont mesuré de manière fiable en se fondant sur le dicton “ une seule mesure ne suffit jamais ” ainsi que sur une bonne dose de bon sens. La découverte du concept mathématique de fiabilité remonte aux années 60 et son application s’est généralisée au cours des années 80, même si elle demeure confinée aux calculs de réseaux de points de base.

L’évolution actuelle est influencée par deux phénomènes nouveaux.

·    Maintenant, il faut qualifier des éléments non quantifiables. L'information spatiale est beaucoup plus qu'un ensemble de mesures et de coordonnées et la qualité est beaucoup plus que leur précision et leur fiabilité. Les éléments composant la qualité ne sont pas tous des métriques quantifiables, or la propagation des éléments non quantifiables est encore mal connue. Belle occasion d’essayer de mieux cerner un sujet encore flou.

·    Un mouvement de consommateurs d’information spatiale émerge. Alors que les géodésiens ont librement choisi d’expliciter et d’appliquer les concepts de précision et de fiabilité, l’extension des critères de qualité est exigée surtout par des gens issus d’autres filières de formation. Or l’exemple des biscuits montre que rien ne peut retenir une telle pression.

Sachons nous inspirer des exemples de la précision et de la fiabilité, mais sachons aussi reconnaître les différences. En l'état actuel des choses, les paramètres composant la qualité des données tels qu'ils seront définis ci-dessous, ont un caractère principalement informatif. Aucun Système d'Information Géographique (SIG) ne permet un traitement complet de ce surcroît d'information. Une seule chose est sûre: pour rester dans la course, il faudra passer du concept à l’application en moins de vingt ans!

2.      Définition de la notion de qualité

Une information de qualité ne représente pas forcément l'information la plus précise ou la plus détaillée, mais plutôt l’ information dont la qualité est en adéquation avec les besoins de l'utilisateur. On a souvent tendance à confondre la notion de qualité avec celle d'excellence ou de parfait.

La norme ISO 8402 définit la qualité comme l’ensemble des propriétés et caractéristiques d’un produit ou service qui lui confère l’aptitude à satisfaire des besoins exprimés ou implicites. C’est une définition générale de la qualité, mais qui a influencé la définition de la qualité des données et la détermination de ses composantes, étant donné que les données en soi représentent une des composantes d’un produit ou d’un service livré à un utilisateur.

La diversité des types de données dans les systèmes d’information ainsi que la multiplicité des sources de données et des acteurs rendent l’information sur la qualité des données utile, voire nécessaire lors de tout échange de données, car les informations supplémentaires permettront à l’utilisateur d’exploiter les données reçues de façon optimale.

3.      De la réalité au système d'information

L’information spatiale passe par différents stades depuis le point de départ qui est le monde réel tel qu’on le perçoit, jusqu’à son utilisation dans un SIG. Les différentes phases où une intervention, de quelque nature qu'elle soit, a une influence directe ou indirecte sur l’état des données représentent des sources potentielles d’erreurs.

Dans le cycle de vie de l'information, les données spatiales passent par quatre phases principales qui sont l’abstraction, l’acquisition, les traitements et l'utilisation. La figure 1 montre le cheminement de l’information spatiale, du monde réel jusqu'à l'utilisateur. Ce cheminement part du principe qu’il faut acquérir des données selon un modèle déjà établi pour une Base de Données Géographiques (BDG).

 

FIGURE 1

 

Fig. 1 Cheminement de l’information spatiale du monde réel à l’utilisateur

 

3.1. Abstraction du monde réel

Cette phase est très importante et représente le premier pas dans la modélisation des données. Elle permet d’avoir un modèle selon lequel les données seront acquises. On détermine durant cette phase non seulement les éléments à saisir, mais aussi les méthodes d’acquisition pour une représentation aussi fidèle que possible des objets qui vont constituer le lot de données. Deux sources d'erreur sont possibles:

·        La nécessaire simplification de la complexité du monde réel, qui peut entraîner des défauts de modélisation;

·        La mauvaise définition de certains objets, qui dépend directement de celui qui la fait.

L'abstraction contient forcément une partie d’arbitraire et, par conséquent, elle ne permet pas la saisie de données qui pourraient restituer la réalité avec une fidélité absolue. C’est pourquoi cette phase représente une étape très sensible dans la détermination de la qualité des données.

 

3.2. Acquisition des données

C’est durant cette phase que l’on saisit des données selon le modèle abstrait du monde réel, élaboré dans la phase précédente. L’acquisition se fait à l’aide d’outils appropriés, nous permettant de saisir les données nécessaires à la restitution du modèle élaboré. Toute l’information est encapsulée, généralement sous forme numérique, textuelle et graphique.

Les appareils et les méthodes de saisie, le matériel de stockage, les procédés d’échange des données et les opérateurs sont autant de facteurs qui peuvent avoir une influence sur les données et sur leur qualité. Les erreurs intervenant dans le transfert de données, que ce soit à partir des appareils de mesure ou vers les outils de traitement, sont fortement diminuées par l’informatisation de toute cette chaîne. Il reste principalement les erreurs formelles, qui nécessitent une intervention “manuelle”, telle l’identification des objets ou la transcription manuelle de certaines valeurs.

Dans ce contexte, il faut clairement distinguer la précision de la localisation et la qualité des données attributaires en général. On peut dire que la fiabilité résulte d'une combinaison de la précision géométrique et de la présence de métadonnées judicieuses.

 

3.3. Traitement des données

Le traitement des données comporte différentes phases qui constituent les étapes intermédiaires entre les données à l’état brut, telles qu’elles ont été saisies, et la représentation des objets tels qu’ils sont dans le modèle abstrait de la réalité. Une première étape consiste en un traitement des données brutes pour l’obtention des premiers éléments représentant tout ou partie de l’objet réel (par exemple, le calcul des coordonnées des points levés sur terrain). Viennent ensuite une ou plusieurs étapes durant lesquelles on fait d’autres traitements (par exemple, le calcul de surfaces ou de volumes, le traitement graphique interactif), selon le degré de complétude du premier traitement. Le résultat final est une représentation de l’objet, fidèle au modèle que l’on a déterminé durant la phase d’abstraction. Puis il s’agira d’injecter les résultats dans la BDG si les traitements n’y ont pas été faits.

Cette phase joue un rôle aussi important que les deux précédentes dans la détermination de la qualité des données. C’est dans le traitement que la qualité se “propage”, car on fait intervenir différentes informations pour le traitement des données, ainsi que différents modèles de traitement. Les divers éléments constituant la qualité des données entrent en ligne dans ces procédures. La maîtrise de leur propagation jusqu’à l’obtention de la qualité du résultat final est prépondérante pour pouvoir qualifier une information extraite de la BD.

 

3.4. Extraction et utilisation des données

Durant cette phase, les données sont extraites de la BD et mises à disposition de l’utilisateur. Les outils utilisés pour cette opération et les formats d’échange peuvent être plus ou moins bien adaptés (par ex.: perte de l’information topologique dans une extraction en format DXF). De même on peut faire appel à des méthodes ou des algorithmes plus ou moins adéquats. La qualité des données qui a été affectée par les différentes étapes précédentes peut être aussi influencée par l’utilisation. La qualité du résultat final découlera directement de la façon dont la qualité s’est propagée.

4.      Critères de qualité des données

Les recherches dans le domaine de la qualité des données sont encore récentes. La figure 2 montre la hiérarchie des besoins pour la gestion de la qualité des données. Elle a été adaptée de [Veregin 1989], qui l’a établie pour la gestion des erreurs dans les SIG. Les différents paramètres de la qualité sont connus actuellement, mais la gestion proprement dite de la qualité (modélisation de la propagation, stratégie pour la gestion et l’amélioration) est encore peu connue. Une recherche conduite au sein de l'unité de Topométrie de L'EPFL a permis de développer une méthodologie pour l'acquisition des différents éléments composant la qualité des données, le contrôle de leur propagation et leur utilisation [Azouzi 2000]. La notion générale de mesure a été traitée dans d'autres domaines également et d'autres techniques ont été développées. Actuellement, on assiste à l'entrée en vigueur de certaines normes.

 

FIGURE 2

Fig. 2 : Hiérarchie des besoins pour la gestion de la qualité des données dans les BDG (adapté de Veregin 1989 à la qualité des données)

 

 

5.      Les composantes de la qualité

La précision et la fiabilité sont des éléments de qualité qui ont été appliqués aux réseaux géodésiques depuis longtemps. Les logiciels de compensation utilisés actuellement (par exemple, LTOP de l'Office Fédéral de Topographie) permettent de déterminer de tels paramètres pour toutes les coordonnées compensées des points d’un réseau. Toutefois dans une BDG, il y a beaucoup plus d'informations que des points géoréférencés. On y trouve aussi d'autres objets ainsi que les relations qui les lient (par exemple: segments, polygones, surfaces, différents attributs, etc.). Depuis plusieurs années, différentes études ont porté sur l'extension de la notion de qualité à l'ensemble des données dans une BDG, principalement sur la définition des différentes composantes de la qualité des données. Dans les paragraphes suivants, nous en présenterons quelques éléments: la généalogie, la précision géométrique, la précision des attributs, la précision sémantique, la cohérence logique, et l'exhaustivité. Aux Etats-Unis, une norme est en vigueur depuis 1994. Cette norme a été établie par le Federal Geographical Data Committee (FGDC). Elle définit le contenu des métadonnées, notamment les éléments constituant la qualité des données, que toute organisation doit livrer avec un lot de données destiné a une autre organisation. De même une norme européenne est actuellement en procédure d'enquête publique. Elle définit aussi les composantes de la qualité des données qui doivent accompagner un lot de données lors d'un échange entre systèmes ou organisations. Elle prévoit même un modèle en langage EXPRESS pour le codage de l’information-qualité. Le tableau 1 représente une récapitulation des éléments composant la qualité des données selon le Comité Européen de Normalisation (CEN), l’International Cartographic Association (ICA) et le FGDC.

 

 

Elément de qualité

 

CEN

 

ICA

 

FGDC

 

Généalogie

Précision de la position

Précision des attributs

 

Précision sémantique

 

 

Précision thématique

 

 

Précision temporelle

 

 

Cohérence logique

Exhaustivité

Fidélité textuelle

 

 

Tableau 1 : Composantes de la qualité selon différents organismes
CEN : Comité Européen de Normalisation
ICA : International Cartographic Association
FGDC : Federal Geographical Data Committee

 

5.1. La généalogie

C'est un ensemble d'informations qui décrivent l’historique des données depuis leur acquisition jusqu'à l'état où elles se trouvent. On y trouve une description :

   de la source des données et les systèmes d'acquisition,

   des dates des différentes phases de traitement,

   des différents opérateurs et organisations responsables de ces données
(qui sont intervenus dans une des phases d'acquisition ou de traitement des donnés),

   des différents traitements et transformations appliqués aux données,

   des référentiels (systèmes de coordonnées, systèmes de projection, datum).

Cette information, qui est en quelque sorte la trace de la trajectoire des données, trouve toute son importance lors de l'identification d'un lot de données et lors de son intégration dans une BDG, notamment pour le choix des méthodes et des outils de traitement. C'est la base pour l'information-qualité sur les données.

 

5.2. La précision de la position

La position d'objets dans la base de donnée est un ensemble de valeurs cardinales qui permettent de les positionner dans un système de coordonnées tridimensionnel cartésien ou polaire, par exemple: levé de terrain (Y, X, H), position GPS (Lat., Lon., Alt.), numérisation (Y,X). La précision géométrique, ou précision des coordonnées, dépend directement des moyens d’acquisition et de traitement des mesures. Par exemple, la précision en position et en altitude des courbes de niveau dépend de la précision des mesures du semis de points et des algorithmes utilisés pour l'interpolation. Elle contient les erreurs moyennes quadratiques en planimétrie et en altimétrie sur les coordonnées des points, éventuellement leur ellipse d'erreur moyenne.

 

5.3. La précision des attributs

Par analogie à la précision de la position, les attributs des objets constituant la BD sont dotés d’indicateurs qui qualifient leur incertitude. Selon que les attributs ont une valeur cardinale, ordinale ou nominale, ces indicateurs doivent être adaptés. Pour les attributs ayant une valeur cardinale, l’écart-type peut être utilisé, ou éventuellement une estimation (hauteur des arbres estimée à ± 10% ). Pour les attributs à valeur ordinale, il faut qualifier la précision de la classification des objets due par exemple à la confusion possible entre les classes. Quant aux valeurs nominales, un descriptif peut être utilisé pour avertir l’utilisateur quant à la précision du texte introduit. Par exemple, la désignation étant un des attributs d’un bâtiment, un qualificatif de cet attribut permettra de rendre l’utilisateur attentif aux difficultés rencontrées lors de la définition de la désignation. Par leur nature même, les erreurs liées au divers types d'attributs obéissent à des statistiques différentes.

 

5.4. La cohérence logique

C'est un concept qui a été utilisé d'abord dans le contrôle d'intégrité des bases de données. Son extension à l'information géographique a été faite lors des premières analyses dans le domaine de la topologie. C'est d'ailleurs sa principale utilisation actuelle dans le domaine de l'information géographique. On y trouve aussi la notion de fiabilité appliquée aux informations en général. La cohérence logique décrit ainsi la fidélité structurelle des données par rapport à la réalité. Elle permet de vérifier :

   si les objets décrits dans la BDG respectent la réalité de manière exacte;

   si les relations entre les objets sont respectées et si elles sont conformes à la réalité, ou du moins ce que l'on veut en représenter;

   si la topologie est représentée et respectée;

   si les variables utilisées adhèrent à des valeurs appropriées (valeurs limites, type, etc.);

   la cohérence du fichier dans lequel les données sont stockées (selon la norme européenne, elle peut même s'étendre à la fiabilité du support sur lequel le fichier est enregistré).

La consistance de la BD joue un rôle important dans la gestion des données. On parle même d'intégrité de la BD dans le cadre de transactions pour éviter de faire des mauvaises mises à jour [Date 1985].

 

5.5. L'exhaustivité

C'est un paramètre de qualité qui indique le degré de complétude de la base de données ou d'un lot de données par rapport au terrain nominal qu'il est censé représenter. Le contrôle se fait aux niveaux suivants:

   la couverture de la zone est-elle complète?

   le nombre d'entités modélisées est-il égal au nombre d'objets dans le terrain?

   est-ce que les objets modélisés ont le bon nombre d'attributs?

   Toutes les entités représentées dans le terrain nominal sont-elles représentées dans le modèle?

   Tout ce que contient le modèle conceptuel a-t-il été porté dans la BD?

L’exhaustivité contrôle autant le manque que le surplus d’information par rapport à la quantité de données que la BDG devrait contenir.

 

FIGURE 3

Fig. 3 : Contenu de la qualité des données selon la norme américaine émise par le Federal Geographical Data Committee depuis 1994. Notons qu’il prévoit un paramètre qui décrit la couverture nuageuse pour les information acquises par télédétection (imagerie satellitaire)

 

Nous remarquons que ces différents éléments constituent une masse d'informations qui enrichit les données, mais qui est assez conséquente à gérer en plus des données proprement dites. Ce qui n’est pas un moindre problème, étant donné que toute information supplémentaire crée de nouvelles difficultés que l’on doit gérer dans le système.

6.      Gestion de la qualité des données

6.1.   Le stockage

Un problème important ressort dès que l'on parle d'intégration de la qualité des données dans une BDG, c’est son stockage. Pour chaque donnée ou lot de données, on dispose de plusieurs paramètres décrivant leur qualité. Cependant toute cette information supplémentaire nécessite, si l'on doit la stocker, beaucoup plus d'espace disque sur les ordinateurs que les données mêmes. On se trouvera par conséquent avec des bases de données extrêmement volumineuses à gérer, ce qui n'est pas aisé, quand on connaît les limites de certains SIG utilisé actuellement. Ce genre de problème risque de décourager les utilisateurs de "payer" la qualité des données par l'augmentation de l'espace disque de leur ordinateur et l'alourdissement des traitements à l'aide du SIG. Il faut reconnaître que les SIG ont fonctionné jusqu'ici sans tenir compte de la qualité des données. Mais ce qui est sûr, c’est que les traitements ne sont pas tous exempts d'erreurs. En plus, les données échangées ne correspondent pas toutes à ce que veut exactement le demandeur. Il faudra ainsi sensibiliser autant les concepteurs de SIG que leurs utilisateurs à l’importance de la qualité des données en tant qu’information complémentaire. C’est une information qui, même si elle alourdit le système, permet d’optimiser le choix des données et des outils pour les gérer.

 

6.2.   Le traitement

Que ce soit dans la future norme européenne ou dans la norme américaine de la FGDC, l’information qualité doit accompagner un lot de données lors d’échanges entre organisations ou entre systèmes. Elle y est donc à titre informatif. L’automatisation de la génération de cette information ne peut être faite que si les différents paramètres qui la composent sont stockés dans la BD. Mais il faudra d’abord se doter des outils nécessaires pour la gestion de la qualité depuis l’acquisition des données jusqu’à leur utilisation, sans négliger le problème du stockage. Il existe actuellement plusieurs outils logiciels ou mathématiques qui permettent de gérer la propagation de valeurs pour autant qu’elles aient une métrique. Cependant, pour les paramètres non quantifiables, il n’y a pas encore assez d’outil pour en gérer la propagation lors des différents traitements.

7.      Conclusion

Si la qualité des points de base est exigée dans le cadre de la mensuration officielle en Suisse, il n'en va pas de même pour toute l'information que l'on introduit dans les BDG. La modélisation, l'acquisition, le traitement et l'utilisation de l'information spatiale sont autant de sources d'erreurs affectant directement la qualité des données gérées dans les BDG et par conséquent les résultats dont la majorité servent de base pour l'aide à la décision. Les études ont défini la qualité des données ainsi que ses composantes grâce à une extension de la notion d'assurance qualité.

Maintenant des méthodologies devront êtres mises au point pour le suivi et le traitement de cette métainformation. Il est clair que ce surplus d'information va faire augmenter le volume donner de l'information, ainsi que le prix de son stockage, générant des problèmes au niveau de l'exploitation. Mais devant la diversité de l'information, des sources et des intervenants, l'information qualité est un avantage indéniable pour favoriser une utilisation optimale de l'information spatiale, à l'aide de l'outil le mieux adapté. Pour une BDG, l’information qualité est le talon d'Achille.

 

Bibliographie

Azouzi M. (2000) Suivi de la qualité des données spatiales au cours de leur acquisition et de leurs traitements, Thèse EPFL, 107p.

Comité Européen de Normalisation (1995) Projet de Norme, prEN 287008, Qualité des données. CEN/TC287/.

Date C. J. (1989) An introduction to Database Systems. Addison-Wesley.

EN ISO 8402 (1995) Management de la qualité et assurance qualité - Vocabulaire, Association Suisse de Normalisation

Goodchild, M., Gopal, S. (1989) Accuracy of Spatial Databases. Taylor & Francis.

Guptill, S. C., Morrison, J. L. (1995) Elements of Spatial Data Quality, International Cartographic Association & Peargamon.

Salgé, F. (1995) Semantic accuracy dans “Elements of Spatial Data Quality”, de Guptill & Morrison, ICA&Peargamon, pp139-151.

Veregin, H (1989) Error Modeling for Map Overlay Operation dans “Accuracy Of Spatial Databases”, de Goodchild & Gopal. Taylor & Francis, pp 3-18.

 

Adresse de l'auteur:

Prof. Bertrand MERMINOD

EPFL-Topométrie

Bâtiment GR

CH-1015 LAUSANNE

bertrand.merminod@ epfl.ch

 

 

http://www.iag.asso.fr/