QUALITE DES DONNEES SPATIALES
Ce texte est une mise à jour
d'un article publié par Mounir Azouzi et Bertrand Merminod sous le même titre
dans la revue suisse "Mensuration, Photogrammétrie, Génie Rural" en décembre
1996. Il a bénéficié de la lecture critique de Régis Caloz, du Laboratoire des
Systèmes d'Information Géographique de l'EPFL (LaSIG).
Les bases de données géographiques
permettent de gérer de grandes masses de données, aussi diverses par leur type
que par leur source. D’autre part, la quantité et la diversité des utilisateurs
vont grandissant. Or dans la plupart des cas aujourd’hui, ces utilisateurs ne
peuvent connaître la provenance des informations qu’ils traitent. Il faut donc
ajouter des indicateurs de qualité pour l’information spatiale, dès sa saisie
sur le terrain. Ce surcroît d’information n’est certes pas négligeable, mais à
l’aide d’outils adéquats il permet d’exploiter des données de sources
différentes et peut représenter une sécurité pour les divers utilisateurs. La
qualité de l’information peut être affectée de diverses manières au cours des
étapes de son cycle de vie. Dans cet article, nous présentons ces influences
ainsi que l’état d’avancement des recherches sur la définition et la
normalisation de la qualité des données.
Commençons par considérer l’évolution d’un paquet de
biscuits. Il n’y a pas si longtemps, le conseil de la voisine était un gage
suffisant de qualité. Aujourd’hui, quel grand distributeur oserait présenter un
emballage neutre? L’information jointe à des biscuits “ multigrains
naturels ” s’est étoffée progressivement: désignation en plusieurs
langues, composition, date limite de vente, propriétés diététiques, proportions
de chaque composant, composition de l’emballage, part de chaque élément
nutritif pour la couverture des besoins quotidiens, sigles relatifs au contenu
et à l’emballage (propres à la marque, nationaux et internationaux), conseils
pour le recyclage de l’emballage, pays de provenance pour chaque composant,
norme de référence pour l’appellation “ bio ” de chaque composant,
mode de transport utilisé de l’usine au magasin, ...
Bref en trente ans, l’information relative au produit a plus
que décuplé! Mais au fait, qui s’en plaint? Personne puisque chaque
consommateur ne lit que ce qui l’intéresse et prend une décision qui concerne
au plus ses proches. Toute cette information résulte de la législation et de la
stratégie du distributeur, qui fait pression sur le producteur. Le consommateur
n’a pas à gérer le tout.
Revenons à l’information spatiale. Jusqu’à récemment, seule
la forme graphique était accessible à un large public et la perception de la
qualité était fondée sur l’intuition. Seuls le producteur de coordonnées et son
client connaissaient la précision des données. L’usage d’information spatiale
sous forme numérique était l’apanage d’un groupe de spécialistes respectant les
mêmes conventions. Pour un géomètre, il va sans dire que la précision de
coordonnées à deux décimales n’est pas la même au centre ville ou à l’alpage.
Pour les non-initiés, la précision est supposée égale à la dernière décimale
disponible. L’usage d’information numérique a toujours été source de
malentendus. Combien de propriétaires se sont sentis lésés lorsque la surface de
leur parcelle était réduite d’un seul mètre carré suite à une nouvelle
mensuration? La généralisation du stockage de l’information spatiale sous forme
digitale et l’éclatement du cercle des utilisateurs initiés accroissent le
risque d’erreurs d’interprétation de façon spectaculaire. A cela s’ajoute le
changement des pratiques professionnelles. Les procédés topométriques étaient
fortement normalisés, conditionnés par de multiples ordonnances visant à
garantir la qualité en contrôlant le processus de mesure et de calcul. Pour
garantir la qualité de l’information spatiale malgré la tendance actuelle au
libre choix des méthodes de saisie, il faut choisir des critères différents,
attachés seulement aux résultats.
Ce n’est pas la première fois que les géomètres doivent
expliciter des critères de qualité. C’est bien dans le cadre de la géodésie que
Gauss et Legendre ont développé les procédures d’estimation par moindres carrés
qui permettent de décrire la précision des résultats sur une base mathématique
solide. Pendant des décennies, les géomètres ont mesuré de manière fiable en se
fondant sur le dicton “ une seule mesure ne suffit jamais ” ainsi que
sur une bonne dose de bon sens. La découverte du concept mathématique de
fiabilité remonte aux années 60 et son application s’est généralisée au cours
des années 80, même si elle demeure confinée aux calculs de réseaux de points
de base.
L’évolution actuelle est influencée par deux phénomènes
nouveaux.
· Maintenant,
il faut qualifier des éléments non quantifiables. L'information spatiale
est beaucoup plus qu'un ensemble de mesures et de coordonnées et la qualité est
beaucoup plus que leur précision et leur fiabilité. Les éléments composant la
qualité ne sont pas tous des métriques quantifiables, or la propagation des éléments
non quantifiables est encore mal connue. Belle occasion d’essayer de mieux
cerner un sujet encore flou.
· Un
mouvement de consommateurs d’information spatiale émerge. Alors que les
géodésiens ont librement choisi d’expliciter et d’appliquer les concepts de
précision et de fiabilité, l’extension des critères de qualité est exigée
surtout par des gens issus d’autres filières de formation. Or l’exemple des
biscuits montre que rien ne peut retenir une telle pression.
Sachons nous inspirer des exemples de la précision et de la
fiabilité, mais sachons aussi reconnaître les différences. En l'état actuel des
choses, les paramètres composant la qualité des données tels qu'ils seront
définis ci-dessous, ont un caractère principalement informatif. Aucun Système d'Information
Géographique (SIG) ne permet un traitement complet de ce surcroît
d'information. Une seule chose est sûre: pour rester dans la course, il faudra
passer du concept à l’application en moins de vingt ans!
Une information de qualité ne représente pas forcément
l'information la plus précise ou la plus détaillée, mais plutôt l’ information
dont la qualité est en adéquation avec les besoins de l'utilisateur. On a
souvent tendance à confondre la notion de qualité avec celle d'excellence ou de
parfait.
La norme ISO 8402 définit la qualité comme l’ensemble des propriétés et caractéristiques
d’un produit ou service qui lui confère l’aptitude à satisfaire des besoins
exprimés ou implicites. C’est une définition générale de la qualité, mais
qui a influencé la définition de la qualité des données et la détermination de
ses composantes, étant donné que les données en soi représentent une des
composantes d’un produit ou d’un service livré à un utilisateur.
La diversité des types de données dans les systèmes
d’information ainsi que la multiplicité des sources de données et des acteurs
rendent l’information sur la qualité des données utile, voire nécessaire lors
de tout échange de données, car les informations supplémentaires permettront à
l’utilisateur d’exploiter les données reçues de façon optimale.
L’information spatiale passe par différents stades depuis le
point de départ qui est le monde réel tel qu’on le perçoit, jusqu’à son utilisation
dans un SIG. Les différentes phases où une intervention, de quelque nature
qu'elle soit, a une influence directe ou indirecte sur l’état des données
représentent des sources potentielles d’erreurs.
Dans le cycle de vie de l'information, les données spatiales
passent par quatre phases principales qui sont l’abstraction, l’acquisition,
les traitements et l'utilisation. La
figure 1 montre le cheminement de l’information spatiale, du monde réel jusqu'à
l'utilisateur. Ce cheminement part du principe qu’il faut acquérir des données
selon un modèle déjà établi pour une Base de Données Géographiques (BDG).
FIGURE 1

Fig. 1 Cheminement de l’information spatiale du monde réel à
l’utilisateur
Cette phase est très importante et représente le premier pas
dans la modélisation des données. Elle permet d’avoir un modèle selon lequel
les données seront acquises. On détermine durant cette phase non seulement les
éléments à saisir, mais aussi les méthodes d’acquisition pour une
représentation aussi fidèle que possible des objets qui vont constituer le lot
de données. Deux sources d'erreur sont possibles:
·
La nécessaire simplification de la complexité du monde réel,
qui peut entraîner des défauts de modélisation;
·
La mauvaise définition de certains objets, qui dépend
directement de celui qui la fait.
L'abstraction contient forcément une partie d’arbitraire et,
par conséquent, elle ne permet pas la saisie de données qui pourraient
restituer la réalité avec une fidélité absolue. C’est pourquoi cette phase
représente une étape très sensible dans la détermination de la qualité des
données.
C’est durant cette phase que l’on saisit des données selon
le modèle abstrait du monde réel, élaboré dans la phase précédente.
L’acquisition se fait à l’aide d’outils appropriés, nous permettant de saisir
les données nécessaires à la restitution du modèle élaboré. Toute l’information
est encapsulée, généralement sous forme numérique, textuelle et graphique.
Les appareils et les méthodes de saisie, le matériel de
stockage, les procédés d’échange des données et les opérateurs sont autant de
facteurs qui peuvent avoir une influence sur les données et sur leur qualité.
Les erreurs intervenant dans le transfert de données, que ce soit à partir des
appareils de mesure ou vers les outils de traitement, sont fortement diminuées
par l’informatisation de toute cette chaîne. Il reste principalement les
erreurs formelles, qui nécessitent une intervention “manuelle”, telle
l’identification des objets ou la transcription manuelle de certaines valeurs.
Dans ce contexte, il faut clairement distinguer la précision
de la localisation et la qualité des données attributaires en général. On peut
dire que la fiabilité résulte d'une combinaison de la précision géométrique et
de la présence de métadonnées judicieuses.
Le traitement des données comporte différentes phases qui
constituent les étapes intermédiaires entre les données à l’état brut, telles
qu’elles ont été saisies, et la représentation des objets tels qu’ils sont dans
le modèle abstrait de la réalité. Une première étape consiste en un traitement
des données brutes pour l’obtention des premiers éléments représentant tout ou
partie de l’objet réel (par exemple, le calcul des coordonnées des points levés
sur terrain). Viennent ensuite une ou plusieurs étapes durant lesquelles on
fait d’autres traitements (par exemple, le calcul de surfaces ou de volumes, le
traitement graphique interactif), selon le degré de complétude du premier
traitement. Le résultat final est une représentation de l’objet, fidèle au
modèle que l’on a déterminé durant la phase d’abstraction. Puis il s’agira
d’injecter les résultats dans la BDG si les traitements n’y ont pas été faits.
Cette phase joue un rôle aussi important que les deux
précédentes dans la détermination de la qualité des données. C’est dans le
traitement que la qualité se “propage”, car on fait intervenir différentes
informations pour le traitement des données, ainsi que différents modèles de
traitement. Les divers éléments constituant la qualité des données entrent en
ligne dans ces procédures. La maîtrise de leur propagation jusqu’à l’obtention
de la qualité du résultat final est prépondérante pour pouvoir qualifier une
information extraite de la BD.
Durant cette phase, les données sont extraites de la BD et
mises à disposition de l’utilisateur. Les outils utilisés pour cette opération
et les formats d’échange peuvent être plus ou moins bien adaptés (par ex.:
perte de l’information topologique dans une extraction en format DXF). De même
on peut faire appel à des méthodes ou des algorithmes plus ou moins adéquats.
La qualité des données qui a été affectée par les différentes étapes
précédentes peut être aussi influencée par l’utilisation. La qualité du
résultat final découlera directement de la façon dont la qualité s’est
propagée.
Les recherches dans le domaine de la qualité des données
sont encore récentes. La figure 2 montre la hiérarchie des besoins pour la
gestion de la qualité des données. Elle a été adaptée de [Veregin 1989], qui
l’a établie pour la gestion des erreurs dans les SIG. Les différents paramètres
de la qualité sont connus actuellement, mais la gestion proprement dite de la
qualité (modélisation de la propagation, stratégie pour la gestion et
l’amélioration) est encore peu connue. Une recherche conduite au sein de
l'unité de Topométrie de L'EPFL a permis de développer une méthodologie pour
l'acquisition des différents éléments composant la qualité des données, le
contrôle de leur propagation et leur utilisation [Azouzi 2000]. La notion
générale de mesure a été traitée dans d'autres domaines également et d'autres techniques
ont été développées. Actuellement, on assiste à l'entrée en vigueur de
certaines normes.
FIGURE 2

Fig. 2 : Hiérarchie des besoins pour la gestion de la qualité des
données dans les BDG (adapté de Veregin 1989 à la qualité des données)
La précision et la fiabilité sont des éléments de qualité
qui ont été appliqués aux réseaux géodésiques depuis longtemps. Les logiciels
de compensation utilisés actuellement (par exemple, LTOP de l'Office Fédéral de
Topographie) permettent de déterminer de tels paramètres pour toutes les
coordonnées compensées des points d’un réseau. Toutefois dans une BDG, il y a
beaucoup plus d'informations que des points géoréférencés. On y trouve aussi
d'autres objets ainsi que les relations qui les lient (par exemple: segments,
polygones, surfaces, différents attributs, etc.). Depuis plusieurs années,
différentes études ont porté sur l'extension de la notion de qualité à
l'ensemble des données dans une BDG, principalement sur la définition des
différentes composantes de la qualité des données. Dans les paragraphes
suivants, nous en présenterons quelques éléments: la généalogie, la précision
géométrique, la précision des attributs, la précision sémantique, la cohérence
logique, et l'exhaustivité. Aux Etats-Unis, une norme est en vigueur depuis
1994. Cette norme a été établie par le Federal Geographical Data Committee
(FGDC). Elle définit le contenu des métadonnées, notamment les éléments
constituant la qualité des données, que toute organisation doit livrer avec un
lot de données destiné a une autre organisation. De même une norme européenne
est actuellement en procédure d'enquête publique. Elle définit aussi les
composantes de la qualité des données qui doivent accompagner un lot de données
lors d'un échange entre systèmes ou organisations. Elle prévoit même un modèle
en langage EXPRESS pour le codage de l’information-qualité. Le tableau 1
représente une récapitulation des éléments composant la qualité des données
selon le Comité Européen de Normalisation (CEN), l’International Cartographic
Association (ICA) et le FGDC.
|
Elément de qualité |
CEN |
ICA |
FGDC |
|
Généalogie |
• |
• |
• |
|
Précision de la position |
• |
• |
• |
|
Précision des attributs |
|
• |
• |
|
Précision sémantique |
|
• |
|
|
Précision thématique |
• |
|
|
|
Précision temporelle |
• |
|
|
|
Cohérence logique |
• |
• |
• |
|
Exhaustivité |
• |
• |
• |
|
Fidélité textuelle |
• |
|
|
Tableau 1 : Composantes de la qualité selon différents organismes
CEN : Comité Européen de Normalisation
ICA : International Cartographic Association
FGDC : Federal Geographical Data Committee
C'est un ensemble d'informations qui décrivent l’historique des
données depuis leur acquisition jusqu'à l'état où elles se trouvent. On y
trouve une description :
• de la source des
données et les systèmes d'acquisition,
• des dates des
différentes phases de traitement,
• des différents
opérateurs et organisations responsables de ces données
(qui sont intervenus dans une des phases d'acquisition ou de traitement des
donnés),
• des différents
traitements et transformations appliqués aux données,
• des référentiels
(systèmes de coordonnées, systèmes de projection, datum).
Cette information, qui est en quelque sorte la trace de la
trajectoire des données, trouve toute son importance lors de l'identification
d'un lot de données et lors de son intégration dans une BDG, notamment pour le
choix des méthodes et des outils de traitement. C'est la base pour
l'information-qualité sur les données.
La position d'objets dans la base de donnée est un ensemble
de valeurs cardinales qui permettent de les positionner dans un système de
coordonnées tridimensionnel cartésien ou polaire, par exemple: levé de terrain
(Y, X, H), position GPS (Lat., Lon., Alt.), numérisation (Y,X). La précision
géométrique, ou précision des coordonnées, dépend directement des moyens
d’acquisition et de traitement des mesures. Par exemple, la précision en
position et en altitude des courbes de niveau dépend de la précision des
mesures du semis de points et des algorithmes utilisés pour l'interpolation.
Elle contient les erreurs moyennes quadratiques en planimétrie et en altimétrie
sur les coordonnées des points, éventuellement leur ellipse d'erreur moyenne.
Par analogie à la précision de la position, les attributs
des objets constituant la BD sont dotés d’indicateurs qui qualifient leur
incertitude. Selon que les attributs ont une valeur cardinale, ordinale ou
nominale, ces indicateurs doivent être adaptés. Pour les attributs ayant une
valeur cardinale, l’écart-type peut être utilisé, ou éventuellement une
estimation (hauteur des arbres estimée à ± 10% ). Pour les attributs à valeur
ordinale, il faut qualifier la précision de la classification des objets due
par exemple à la confusion possible entre les classes. Quant aux valeurs
nominales, un descriptif peut être utilisé pour avertir l’utilisateur quant à
la précision du texte introduit. Par exemple, la désignation étant un des
attributs d’un bâtiment, un qualificatif de cet attribut permettra de rendre
l’utilisateur attentif aux difficultés rencontrées lors de la définition de la
désignation. Par leur nature même, les erreurs liées au divers types
d'attributs obéissent à des statistiques différentes.
C'est un concept qui a été utilisé d'abord dans le contrôle
d'intégrité des bases de données. Son extension à l'information géographique a
été faite lors des premières analyses dans le domaine de la topologie. C'est
d'ailleurs sa principale utilisation actuelle dans le domaine de l'information
géographique. On y trouve aussi la notion de fiabilité appliquée aux informations
en général. La cohérence logique décrit ainsi la fidélité structurelle des
données par rapport à la réalité. Elle permet de vérifier :
• si les objets décrits dans la BDG respectent
la réalité de manière exacte;
• si les relations entre les objets sont respectées
et si elles sont conformes à la réalité, ou du moins ce que l'on veut en
représenter;
• si la topologie est représentée et respectée;
• si les variables utilisées adhèrent à des
valeurs appropriées (valeurs limites, type, etc.);
• la cohérence du fichier dans lequel les
données sont stockées (selon la norme européenne, elle peut même s'étendre à la
fiabilité du support sur lequel le fichier est enregistré).
La consistance de la BD joue un rôle important dans la
gestion des données. On parle même d'intégrité de la BD dans le cadre de
transactions pour éviter de faire des mauvaises mises à jour [Date 1985].
C'est un paramètre de qualité qui indique le degré de complétude
de la base de données ou d'un lot de données par rapport au terrain nominal
qu'il est censé représenter. Le contrôle se fait aux niveaux suivants:
• la couverture de la zone est-elle complète?
• le nombre d'entités modélisées est-il égal au
nombre d'objets dans le terrain?
• est-ce que les objets modélisés ont le bon
nombre d'attributs?
• Toutes les entités représentées dans le
terrain nominal sont-elles représentées dans le modèle?
• Tout ce que contient le modèle conceptuel
a-t-il été porté dans la BD?
L’exhaustivité contrôle autant le manque que le surplus
d’information par rapport à la quantité de données que la BDG devrait contenir.
FIGURE 3

Fig. 3 :
Contenu de la qualité des données selon la norme américaine émise par le Federal
Geographical Data Committee depuis 1994. Notons qu’il prévoit un paramètre qui
décrit la couverture nuageuse pour les information acquises par télédétection
(imagerie satellitaire)
Nous remarquons que ces différents éléments constituent une
masse d'informations qui enrichit les données, mais qui est assez conséquente à
gérer en plus des données proprement dites. Ce qui n’est pas un moindre
problème, étant donné que toute information supplémentaire crée de nouvelles
difficultés que l’on doit gérer dans le système.
Un problème important ressort dès que l'on parle
d'intégration de la qualité des données dans une BDG, c’est son stockage. Pour
chaque donnée ou lot de données, on dispose de plusieurs paramètres décrivant
leur qualité. Cependant toute cette information supplémentaire nécessite, si
l'on doit la stocker, beaucoup plus d'espace disque sur les ordinateurs que les
données mêmes. On se trouvera par conséquent avec des bases de données extrêmement
volumineuses à gérer, ce qui n'est pas aisé, quand on connaît les limites de
certains SIG utilisé actuellement. Ce genre de problème risque de décourager
les utilisateurs de "payer" la qualité des données par l'augmentation
de l'espace disque de leur ordinateur et l'alourdissement des traitements à
l'aide du SIG. Il faut reconnaître que les SIG ont fonctionné jusqu'ici sans
tenir compte de la qualité des données. Mais ce qui est sûr, c’est que les
traitements ne sont pas tous exempts d'erreurs. En plus, les données échangées
ne correspondent pas toutes à ce que veut exactement le demandeur. Il faudra
ainsi sensibiliser autant les concepteurs de SIG que leurs utilisateurs à
l’importance de la qualité des données en tant qu’information complémentaire.
C’est une information qui, même si elle alourdit le système, permet d’optimiser
le choix des données et des outils pour les gérer.
Que ce soit dans la future norme européenne ou dans la norme
américaine de la FGDC, l’information qualité doit accompagner un lot de données
lors d’échanges entre organisations ou entre systèmes. Elle y est donc à titre
informatif. L’automatisation de la génération de cette information ne peut être
faite que si les différents paramètres qui la composent sont stockés dans la
BD. Mais il faudra d’abord se doter des outils nécessaires pour la gestion de
la qualité depuis l’acquisition des données jusqu’à leur utilisation, sans
négliger le problème du stockage. Il existe actuellement plusieurs outils
logiciels ou mathématiques qui permettent de gérer la propagation de valeurs
pour autant qu’elles aient une métrique. Cependant, pour les paramètres non
quantifiables, il n’y a pas encore assez d’outil pour en gérer la propagation
lors des différents traitements.
Si la qualité des points de base est exigée dans le cadre de
la mensuration officielle en Suisse, il n'en va pas de même pour toute
l'information que l'on introduit dans les BDG. La modélisation, l'acquisition,
le traitement et l'utilisation de l'information spatiale sont autant de sources
d'erreurs affectant directement la qualité des données gérées dans les BDG et
par conséquent les résultats dont la majorité servent de base pour l'aide à la
décision. Les études ont défini la qualité des données ainsi que ses
composantes grâce à une extension de la notion d'assurance qualité.
Maintenant des méthodologies devront êtres mises au point
pour le suivi et le traitement de cette métainformation. Il est clair que ce
surplus d'information va faire augmenter le volume donner de l'information,
ainsi que le prix de son stockage, générant des problèmes au niveau de
l'exploitation. Mais devant la diversité de l'information, des sources et des
intervenants, l'information qualité est un avantage indéniable pour favoriser
une utilisation optimale de l'information spatiale, à l'aide de l'outil le
mieux adapté. Pour une BDG, l’information qualité est le talon d'Achille.
Bibliographie
Azouzi M. (2000) Suivi
de la qualité des données spatiales au cours de leur acquisition et de leurs
traitements, Thèse EPFL, 107p.
Comité Européen de Normalisation (1995) Projet de Norme, prEN 287008, Qualité des données. CEN/TC287/.
Date C. J. (1989) An introduction to Database Systems. Addison-Wesley.
EN ISO 8402 (1995) Management
de la qualité et assurance qualité - Vocabulaire, Association Suisse de
Normalisation
Goodchild, M., Gopal, S.
(1989) Accuracy of Spatial Databases.
Taylor & Francis.
Guptill, S. C., Morrison, J.
L. (1995) Elements of Spatial Data
Quality, International Cartographic Association & Peargamon.
Salgé, F. (1995) Semantic accuracy dans “Elements of
Spatial Data Quality”, de Guptill & Morrison, ICA&Peargamon, pp139-151.
Veregin, H (1989) Error Modeling for Map Overlay Operation
dans “Accuracy Of Spatial Databases”, de Goodchild & Gopal. Taylor &
Francis, pp 3-18.
Adresse de l'auteur:
Prof. Bertrand MERMINOD
EPFL-Topométrie
Bâtiment GR
CH-1015 LAUSANNE
bertrand.merminod@ epfl.ch