Variogramme

Le variogramme est une fonction mathématique utilisée en géostatistique, en particulier pour le krigeage. On parle également de semivariogramme, de par le facteur ½ de sa définition.

L'analyse variographique, variographie, ou analyse structurale est l'estimation et l'étude d'un variogramme sur une variable aléatoire.

Variogramme d'une fonction aléatoire

Considérons une variable aléatoire, $Z$ de la variable d'espace $x$ , et supposons-la stationnaire, c'est-à-dire que la moyenne et la variance de $Z (x)$ sont indépendantes de $x$ . On pose la grandeur: $\gamma (x,y)={\frac {1}{2}}\mathbf {Var} \left[Z\left(x\right)-Z\left(y\right)\right]={\frac {1}{2}}\mathbf {E} \left[|Z(x)-Z(y)|^{2}\right]$ Comme $Z$ est stationnaire, le membre de droite dépend uniquement de la distance entre les points $x$ et $y$ . Le variogramme à une distance $h$ est alors la demi moyenne des carrés des différences des réalisations de $Z$ sur les points espacés de $h$ . $\gamma (h)={\frac {1}{2}}\mathbf {E} _{|y-x|=h}\left[|Z(x)-Z(y)|^{2}\right]$

Variogramme borné

Théorème — Si $Z$ est une fonction aléatoire stationnaire de covariance $C$ , alors son variogramme est borné et s'écrit : $\gamma \left(h\right)=C\left(0\right)-C\left(h\right)$

La réciproque est fausse : si $Z$ est intrinsèque et de variogramme borné, alors $Z$ est la somme d'une fonction aléatoire stationnaire de $L 2$ et d'une variable aléatoire réelle.

Intérêt du variogramme

Le variogramme est défini pour toute fonction aléatoire intrinsèque et dépendant uniquement de l'interdistance $h$ , alors que la fonction de covariance ne l'est que pour le cas d'une fonction aléatoire stationnaire d'ordre 2. De plus, l'estimation du variogramme n'est pas biaisée par la moyenne, au contraire de la covariance.

Paliers et portée

Si la covariance de $Z$ tend vers 0 à l'infini, le variogramme présente un palier $γ (\infty) = Var[Z]$ . On nomme portée la distance à partir de laquelle le variogramme atteint, respectivement, son palier ; la portée pratique (parfois facteur d'échelle) est la distance à partir de laquelle le variogramme reste dans un intervalle de 5 % autour de son palier. La norme est le rapport de la portée sur la portée pratique.

Variogramme expérimental

Le variogramme expérimental ou variogramme empirique est un estimateur du variogramme théorique à partir des données.

Soit un ensemble de points où sont connus les valeurs d'une variable régionalisée $z$ . Pour être exploitable, la somme doit se faire avec une certaine tolérance, c'est-à-dire que l'on réalisera la somme sur les couples interdistants de $h \pm δh$ , où souvent on définit un pas $d$ pour $h = n \times d, n \inℕ$ et la tolérance $δh =½ d$ . Alors on peut estimer le variogramme par la formule : ${\hat {\gamma }}\left(h\right)={\frac {1}{2n\left(h\right)}}\sum _{h-\delta h<|x-y|<h+\delta h}\left(z\left(x\right)-z\left(y\right)\right)^{2}$ où $n(h)$ est le nombre de paires de points dont l'interdistance est comprise entre $h - δh$ et $h + δh$ .

Dans un cas plus général, $h$ pourra être un vecteur, et la somme se fera sur tous les points $x$ , $y$ tels que $y = x + h$ . Cela permet de traiter les anisotropies.

Variogramme empirique d'un processus gaussien

Si $X$ est un processus gaussien, on peut estimer une loi du variogramme empirique. ${\begin{aligned}&{\text{si }}X\sim {\mathcal {N}}_{n}(0,\Sigma )\\&{\text{alors }}{\hat {\gamma }}\left(h\right)\sim \sum _{i=1}^{\operatorname {n} \left(h\right)}\lambda _{i}\left(h\right)\chi _{i1}^{2}{\text{ pour des }}\chi ^{2}{\text{ iid à 1 ddl}}\\&{\text{soit }}\mathbf {E} \left[{\hat {\gamma }}\left(h\right)\right]=\operatorname {Trace} \left(A\left(h\right)\Sigma \right){\text{, }}\mathbf {Var} \left[{\hat {\gamma }}\left(h\right)\right]=2\operatorname {Trace} \left(A\left(h\right)\Sigma \right)^{2}\\&{\text{où }}A_{x_{i},x_{j}}=-{\frac {1}{\operatorname {n} \left(h\right)}}{\text{ si }}x_{i}\neq x_{j}{\text{, }}A_{x_{i},x_{i}}=-{\frac {\operatorname {n} \left(h\right)-1}{\operatorname {n} \left(h\right)}}\end{aligned}}$

Modélisation (ajustement)

Le variogramme estimé n'est pas prédictif et ne respecte le plus souvent pas les contraintes de krigeage. C'est pourquoi les méthodes géostatistiques modélisent le variogramme estimé par une fonction continue soumise à certaines contraintes (fonction conditionnellement définie négative). Cette étape s'appelle la modélisation ou l'ajustement du variogramme. La modélisation est la partie essentielle du krigeage.

Modèle gigogne

Le modèle est une fonction continue reproduisant au mieux l'allure générale du variogramme théorique. Toutes les fonctions ne sont pas possibles : elle doivent permettre la combinaison linéaire autorisée. Une combinaison linéaire $\sum i λ i Z i$ est dite autorisée si son espérance et sa variance sont toujours définies (dans le modèle en question). On utilise généralement un modèle gigogne de variogramme sous la forme $γ (h)=\sum i γ i (h)$ . L'approche en modèle gigogne peut conduire à considérer le phénomène étudié comme une somme de fonctions aléatoires indépendantes, que l'on peut étudier séparément dans le cadre de l'analyse krigeante ; cependant, ces composantes n'ont généralement pas de signification physique propre.

Les composantes sont définies par un palier $C$ et éventuellement une portée $a$ et des paramètres de formes. Les composantes $γ i$ les plus fréquemment utilisées sont :

Composantes de variogrammes
Comportement	Nom	Norme $δ$	Formule de la composante $γ (h)$
composantes à palier $C$ , sans portée	pépite pure (correspondant à un bruit blanc faible)	—	$\gamma (h)={\begin{cases}C,&{\text{si }}h>0\\0,&{\text{si }}h=0\end{cases}}$
composantes classiques à palier $C$ et portée $a$	gaussien	1,731	$\gamma (h)=C\left(1-e^{-3\left({\frac {h}{a}}\right)^{2}}\right)$
	cubique	1	$\gamma \left(h\right)=C\left(7\left({\frac {h}{a}}\right)^{2}-{\frac {35}{4}}\left({\frac {h}{a}}\right)^{3}+{\frac {7}{2}}\left({\frac {h}{a}}\right)^{5}-{\frac {3}{4}}\left({\frac {h}{a}}\right)^{7}\right)$
	exponentiel	≃ 2,996	$\gamma (h)=C\left(1-e^{-{\frac {h}{a}}}\right)$
	sphérique en dimension au plus 3[1]	1	$\gamma (h)={\begin{cases}C\left({\frac {3}{2}}{\frac {h}{a}}-{\frac {1}{2}}\left({\frac {h}{a}}\right)^{3}\right),&{\text{si }}0\leqslant h\leqslant a\\C,&{\text{si }}h\geqslant a\end{cases}}$
	sinus cardinal[2]	≃ 20,371	$\gamma \left(h\right)=C\left(1-{\frac {sin\left({\frac {h}{a}}\right)}{\frac {h}{a}}}\right)$
composantes classiques non-stationnaires	linéaire	1	$\gamma (h)=C{\frac {h}{a}}$
composantes classiques non-stationnaires	puissance[3]	1	$\gamma (h)=C\left({\frac {h}{a}}\right)^{b}\ {\text{où}}\ 0<b\leq 2$
composantes plus rarement utilisées	stable ou exponentiel généralisé	$α \sqrt 3$	$\gamma \left(h\right)=C\left(1-e^{-\left({\frac {h}{a}}\right)^{\alpha }}\right)$
	gamma	$α \sqrt 20 -1$	$\gamma \left(h\right)=C\left(1-{\frac {1}{\left(1+{\frac {h}{a}}\right)^{\alpha }}}\right)$ , $α >0$
	J de Bessel	1	$\gamma \left(h\right)=C\left(1-2^{\alpha }\Gamma \left(\alpha +1\right){\frac {J_{\alpha }\left({\frac {h}{a}}\right)}{\left({\frac {h}{a}}\right)^{\alpha }}}\right)$ , $α > d ⁄ 2 -1$
	K de Bessel ou Matérn où $K α$ est la fonction de Bessel modifiée de deuxième espèce de paramètre $α$	1	$\gamma \left(h\right)=C\left(1-{\frac {\left({\frac {h}{a}}\right)^{\alpha }}{2^{\alpha -1}\Gamma \left(\alpha \right)}}K_{-\alpha }\left({\frac {h}{a}}\right)\right)$ , $α >0$
	cosinus exponentiel, ou modèle à effet de trou^{[réf. nécessaire]}
	Cauchy généralisé	$\sqrt(α \sqrt 20 -1)$	$\gamma \left(h\right)=C\left(1-\left(1+\left({\frac {h}{a}}\right)^{2}\right)^{-\alpha }\right)$ , $α >0$

Cinq structures classiques de variogrammes. À gauche, courbes des variogrammes en fonction de l'interdistance ; à droite, des champs stationnaires simulés, contraints par ces variogrammes

Anisotropie

Le variogramme directionnel dans la direction d'un vecteur unitaire $u$ est défini par $γ u (h) = ½Var[Z (x + hu)- Z (x)]$ . On parle d'anisotropie s'il existe deux vecteurs unitaires tels que les variogrammes directionnels sont différents. On distingue deux cas de figures principaux :

anisotropie géométrique : portées différentes, même palier selon la direction ; le variogramme est une déformation linéaire $A$ d'un variogramme isotrope $γ 0$ ; $γ (h) = γ 0 (‖ Ah ‖)$ .
anisotropie zonale ou stratifiée : même portée, paliers différents selon la direction ; le variogramme est somme de composantes présentant des anisotropies de supports : dans une certaine base, elles ne dépendent que de certaines coordonnées. Il est déconseillé d'utiliser des modèles où les anisotropies sont séparables selon les coordonnées (par exemple $γ (h) = γ 1 (h 1, h 2) + γ 2 (h 3)$ )

Propriétés

Le variogramme est une fonction paire, à valeurs positives.

Lorsque la covariance $C$ est définie, elle est liée au variogramme par la relation :

$\gamma (h)=C(0)-C(h)$ où $C (η)$ est la covariance à une distance $η$ (dépendante uniquement de $η$ pour une fonction aléatoire stationnaire)

Le variogramme est souvent une fonction croissante bornée. Dans ce cas, on nomme palier la limite du variogramme à l'infini et portée la distance où le palier est quasiment atteint (généralement, à 95 %). Lorsqu'elle existe, la variance $C (0)$ est ce palier. En pratique, à cause en particulier des effets de bords, le variogramme calculé est croissant jusqu'à un maximum, puis globalement légèrement décroissant ou stable.

Convolution : soit $Z$ la convolution $p$ d'une fonction aléatoire $Y$ : $Z = Y * p$ . Alors la relation entre leurs variogrammes vérifie $γ Y = γ Z *(p*p)$ .

Propriétés du variogramme stationnaire

$\scriptstyle \gamma \left(0\right)=0$
$\scriptstyle \gamma \left(h\right)\geq 0~\forall h$
symétrie : $\scriptstyle \gamma \left(h\right)=\gamma \left(-h\right)~\forall h$
$- γ$ est de type positif conditionnel : soit une mesure $λ$ vérifiant $\int λ (d t)=0$ , alors $\scriptstyle \int \lambda \left(\mathrm {d} t\right)\left(-\gamma \left(t-u\right)\right)\lambda \left(\mathrm {d} u\right)\geq 0$
Pour tout $t >0,$ $e - tγ$ est une covariance
le rapport $γ (h)∕| h | 2$ est borné pour $h ⟶\infty$
en l'absence de dérive, c'est-à-dire dans le cas intrinsèque, $\lim \limits _{h\to \infty }{\frac {\gamma \left(h\right)}{\left|h\right|^{2}}}=0$ , autrement dit : $\gamma (h){\underset {h\to \infty }{=}}\mathbf {o} \left(\left|h\right|^{2}\right)$
si le variogramme est borné à l'infini, la fonction aléatoire est stationnaire d'ordre 2 ; il existe alors une covariance stationnaire $C (h)$ telle que $γ (h)= C (0)- C (h)$
Le variogramme $γ (h)$ est égal à la demie variance d'extension d'un point ${x}$ quelconque au point ${x + h}$

Le comportement à l'origine du variogramme traduit la régularité de la fonction aléatoire.

Autre présentation du variogramme

On peut définir également le variogramme comme la fonction $γ$ telle que $\scriptstyle {\text{si }}\sum _{i}\lambda _{i}=0{\text{, alors }}\mathbf {Var} \left[\sum _{i}\lambda _{i}Z_{i}\right]=\sum _{i,j}-\lambda _{i}\gamma _{i,j}\lambda _{j}$

Cette formule fournit une définition du variogramme à une constante additive près.

Substitution entre variogramme et covariance

Les formules définies dans l'hypothèse stationnaire peuvent être réécrites dans l'hypothèse intrinsèque, à condition qu'elles fassent intervenir des CLA, en remplaçant la covariance $C$ par l'opposé du variogramme $- γ$

Effet pépite

La formule fournit immédiatement $γ (0)=0$ . Or l'on observe généralement que le variogramme ne tend pas vers 0 pour des petites distances. On appellera pépite la limite du variogramme en zéro. Elle représente la variation entre deux mesures effectuées à des emplacements infiniment proches, et peut donc provenir de trois effets :

une variabilité naturelle du paramètre mesuré : il pourra par exemple prendre deux valeurs différentes si mesuré à deux instants différents ;
une variabilité de l'instrument de mesure : la pépite mesure donc en partie l'erreur statistique de l'instrument de mesure ;
un réel effet pépite : une variation brutale du paramètre mesuré ; le cas historique est le passage sans transition d'une pépite d'or à un sol ne contenant quasiment pas d'or.

Si le variogramme d'un champ est continu partout sauf à l'origine, ce champ se décompose en somme de deux champs, non-corrélés, de variogrammes respectifs une pépite pure et une fonction continue partout.

Cas multivariable

En géostatistique multivariable est défini le variogramme croisé $γ$ d'une fonction aléatoire multivariable intrinsèque $Z = (Z (x,1); Z (x,2); \dots; Z (x, n))$ sur ses variables $i$ et $j$ au pas $h$ : $\gamma _{i,j}\left(h\right)={\frac {1}{2}}\mathbf {Cov} \left[Z\left(x+h,i\right)-Z\left(x,i\right),Z\left(x+h,j\right)-Z\left(x,j\right)\right]\ \forall x$ On pose sa généralisation $γ̃$ aux points $x$ et $y$ aux distances $a$ et $b$ : ${\tilde {\gamma }}_{i,j}\left(a,b\right)={\frac {1}{2}}\mathbf {Cov} \left[Z\left(x+a,i\right)-Z\left(x,i\right),Z\left(y+b,j\right)-Z\left(y,j\right)\right]\ \forall x,y$ En toute généralité, $γ$ n'est pas suffisant pour traiter le problème multivariable. Cette fonction est paire, donc ne rend pas compte des décalages entre variables. Précisément: $\gamma _{i,j}\left(h\right)=K_{i,j}\left(0\right)-{\frac {K_{i,j}\left(h\right)+K_{i,j}\left(-h\right)}{2}}$ Cela a conduit à introduire le pseudovariogramme croisé, qui a l'inconvénient de sommer selon des composantes différentes (donc potentiellement selon des unités différentes): $\pi _{i,j}\left(h\right)={\frac {1}{2}}\mathbf {Var} \left[Z\left(x+h,i\right)-Z\left(x,j\right)\right]$

Articles connexes

Covariance de Matérn

Bibliographie

Pierre Chauvet, Aide-mémoire de géostatistique linéaire, Paris, Les Presses de l'École des Mines, août 1999 (réimpr. 1993, 1994, 1998, 1999, 2008) (1^re éd. 1989), 367 p., 16 × 24 cm (ISBN 2-911762-16-9, BNF 37051458)

Références

nommé ainsi car il s'applique décompte de points d'un processus ponctuel de Poisson dans une sphère
autorisé au plus à 3 dimensions ; atteint son palier la première fois à $π a$
c'est le seul modèle autosimilaire, c'est-à-dire invariant par changement d'échelle : $γ (k h) = k b γ (h)$ ; le phénomène spatial associé est sans échelle

Portail des mathématiques

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[1] é ainsi car il s'applique décompte de points d'un processus ponctuel de Poisson dans une sphère

[2] utorisé au plus à 3 dimensions ; atteint son palier la première fois à $π a$

[3] 'est le seul modèle autosimilaire, c'est-à-dire invariant par changement d'échelle : $γ (k h) = k b γ (h)$ ; le phénomène spatial associé est sans échelle