MesuresBioDiv2/03-Phylodiversite.Rmd at master · EricMarcon/MesuresBioDiv2 · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
# (PART) Diversité fonctionnelle et phylogénétique {-}

# Cadre {#chap-cadrephyfonc}

```{r, include=FALSE}
library("tidyverse")
library("gridExtra")
```


::: {.Summary data-latex=""}
La diversité fonctionnelle ou phylogénétique prend en compte la proximité des espèces entre elles.
  Généralement, la distance entre espèces est évaluée dans l'espace des traits, approximation de l'espace des niches, pour la diversité fonctionnelle et dans un dendrogramme représentant la phylogénie ou la taxonomie pour la diversité phylogénétique.
:::


Les mesures neutres de la diversité considèrent que toutes les classes auxquelles les objets appartiennent sont différentes, sans que certaines soient plus différentes que d'autres.
Par exemple, toutes les espèces sont équidistantes les unes des autres, qu'elles appartiennent au même genre ou à des familles différentes.
Intuitivement, l'idée qu'une communauté de $S$ espèces toutes de genres différents est plus diverse qu'une communauté de $S$ espèces du même genre est satisfaisante.
@Walker1992 argumente en faveur de la protection de groupes fonctionnels plutôt que de celle de chacune des espèces qui les constitue pour maintenir le bon état des écosystèmes.

Il s'agit donc de caractériser la différence entre deux classes d'objets, puis de construire des mesures de diversité en rapport [@Pielou1975; @May1990a; @Cousins1991].
En écologie, ces différences sont fonctionnelles ou phylogénétiques, définissant la diversité fonctionnelle [@Tilman1997] ou la diversité phylogénétique (*phylodiversity*) [@Webb2006].

Les premières propositions de ce type d'indices sont dues à @Rao1982 (voir section \@ref(sec-Rao)) puis, avec nettement moins de succès, @Vane-Wright1991 et @Warwick1995.
@Chave2007 montrent que la diversité neutre prédit mal la diversité phylogénétique (calculée par l'entropie quadratique de Rao).

De nombreuses mesures de diversité ont été créées et plusieurs revues permettent d'en faire le tour. [@Ricotta2007; @Vellend2010]
Les mesures présentées ici sont les plus utilisées, et notamment celles qui peuvent être ramenées aux mesures classiques en fixant une distance égale entre toutes les espèces.
Le cadre méthodologique dans lequel ces mesures ont été développées est présenté dans ce chapitre, suivi par une revue des nombreuses mesures de diversité fonctionnelles et phylogénétiques de la littérature.
L'entropie phylogénétique et la diversité de Leinster et Cobbold sont ensuite développées en détail, suivies d'une synthèse et de considérations sur la mesure de la diversité individuelle plutôt que spécifique.

Des exemples montrent comment calculer cette diversité, principalement à l'aide du package *entropart*.
Le package contient les données d'inventaire de deux hectares du dispositif de Paracou et la taxonomie des espèces concernées:

```{r entropart}
library("entropart")
# Chargement du jeu de données
data(Paracou618)
```

## Dissimilarité et distance

Une similarité ou dissimilarité est toute application à valeurs numériques qui permet de mesurer le lien entre les individus d'un même ensemble ou entre les variables.
Pour une similarité le lien est d'autant plus fort que sa valeur est grande.

Une dissimilarité vérifie ($k$, $l$ et $m$ sont trois individus):

* La dissimilarité d'un individu avec lui-même est nulle: $d\left(k,k\right)=0$;
* La dissimilarité entre deux individus différents est positive: $d\left(k,l\right)\ge 0$;
* La dissimilarité est symétrique: $d\left(k,l\right)=d\left(l,k\right)$.

Une distance vérifie en plus:

* La distance entre deux individus différents est strictement positive: $d\left(k,l\right)=0\Rightarrow k=l$;
* L'inégalité triangulaire: $d\left(k,m\right)\le d\left(k,l\right)+d\left(l,m\right)$.
De nombreux indices de dissimilarité ne vérifient pas cette propriété.

Une distance est euclidienne si elle peut être représentée par des figures géométriques.
On peut rendre toute distance euclidienne par ajout d'une constante [@Lingoes1971; @Cailliez1983].
Dans R, utiliser `is.euclid()` pour vérifier qu'une distance est euclidienne, et `cailliez()` ou `lingoes()` pour la transformation.

Enfin, une distance est ultramétrique si $d\left(k,m\right) \le \max\left(d\left(k,l\right),d\left(l,m\right)\right)$.
Les distances obtenues en mesurant les longueurs des branches d'un dendrogramme (arbre) résultant d'une classification hiérarchique sont ultramétriques.


(ref:ArbreA1) Arbre phylogénétique ou fonctionnel hypothétique. 5 espèces sont présentes ($S=5$), leurs probabilités notées $p_1$ à $p_5$. Les noms des branches sont affichés.
```{r ArbreA1, fig.cap="(ref:ArbreA1)", echo=FALSE}
knitr::include_graphics('images/ArbreA.png')
```

La façon exacte de mesurer les longueurs de branche est illustrée par la figure \@ref(fig:ArbreA1): la distance entre les espèces 1 et 2 est $T_1+T_2$, elle est égale à $T_1$ entre les espèces 4 et 5.
La distance est la hauteur du premier noeud commun.

## Distance phylogénétique {#sec-Dphylo}

La façon la plus évidente de définir une distance entre espèces est d'utiliser la taxonomie [@Clarke2001, Warwick2001], en attribuant une distance arbitraire (par exemple 1) à deux espèces du même genre, une autre (par exemple 2) à deux espèces de la même famille, etc.
La distance définie est ultramétrique.

La taxonomie peut être remplacée avantageusement par une phylogénie.
La phylogénie idéale contiendrait l'histoire évolutive de toutes les espèces et les distances seraient les temps de divergence depuis le premier ancêtre commun.
En pratique, les phylogénies sont établies à partir d'un nombre de marqueurs génétiques limités, sans datation précise (mais avec des calages partiels à partir de fossiles), et ne sont pas toujours ultramétriques.
Elles peuvent prendre en compte chaque individu, sans regroupement par espèce.
Une méthode pour dater une phylogénie est fournie par @Chave2007
@Zanne2014 fournissent une phylogénie datée de plus de 32000 espèces.
@Ricotta2012a montrent sur des exemples que la diversité calculée à partir de phylogénies datées est très corrélée à celle calculée à partir de simples taxonomies.


Dans tous les cas, la distance est une mesure de la divergence évolutive.
Du point de vue de la biologie de la conservation, chaque espèce accumule une quantité d'évolution, interprétée comme une quantité d'information [@Crozier1997] dont le maximum doit être préservé.

L'entropie phylogénétique (voir chapitre \@ref(chap-Phyloentropie)) utilise un arbre phylogénétique pour mesurer la diversité.


## Distance fonctionnelle {#sec-DFonctionnelle}

L'approche fonctionnelle est différente.
Chaque espèce ou individu est représenté par ses valeurs de traits dans un espace multidimensionnel.
Le vecteur de traits est considéré comme un proxy de la niche écologique [@Westoby2002].
Les individus proches dans l'espace des traits sont donc considérés comme proches écologiquement.
Les distances entre les points peuvent être calculées directement dans l'espace des traits ou, fréquemment, un arbre est construit par classification automatique hiérarchique.

La première étape consiste donc à choisir un ensemble de traits pertinents et à les mesurer de façon standardisée [@Cornelissen2003].
Toute la stratégie relative à la photosynthèse peut être par exemple assez bien résumée par la masse surfacique des feuilles [@Wright2004], mais, en forêt tropicale, ce trait est décorrélé de la densité du bois [@Baraloto2010].
Les valeurs manquantes peuvent être complétées en utilisant toute l'information disponible par MICE (*multiple imputation by chained equations*) [@VanBuuren2006], disponible sous R dans le package `mice` [@VanBuuren2011].

La prise en compte de variables qualitatives ou de rang et la possibilité de données manquantes pose un problème pratique de construction de la matrice de dissimilarité, traité par @Gower1971.
La formule de Gower, étendue par @Podani1999 puis @Pavoine2009b à d'autres types de variables, calcule la dissimilarité entre deux espèces par la moyenne des dissimilarités calculées pour chaque trait, dont la valeur est comprise entre 0 et 1:

* Pour une variable quantitative, la différence de valeur entre deux espèces est normalisée par l'étendue des valeurs de la variable;
* Les variables ordonnées sont remplacées par leur rang et traitées comme les variables quantitatives;
* Pour des variables qualitatives, la dissimilarité vaut 0 ou 1;
* Les valeurs manquantes sont simplement ignorées et n'entrent pas dans la moyenne.

Une matrice de distances entre espèces est construite de cette façon.
@Podani2006 suggèrent d'utiliser ensuite une classification hiérarchique par UPGMA [@Sokal1958] qu'ils montrent être la plus robuste (pour le calcul de FD, voir section \@ref(sec-PDFD)) à l'ajout ou au retrait d'un trait ou d'une espèce.
@Mouchet2008 suggèrent plutôt d'appliquer toutes les méthodes de classification et de retenir à la fin l'arbre dont la distribution des distances entre espèces dans l'arbre est la plus proche de la distribution des distances dans la matrice de dissimilarités: cette proximité est mesurée par la corrélation cophénétique, c'est-à-dire le coefficient de corrélation entre les valeurs de distances [@Sokal1962; @Legendre2012].
Un arbre consensus [@Felsenstein2004] est souvent plus proche de la matrice de distance.

Un dendrogramme fonctionnel n'a pas d'interprétation aussi claire qu'un arbre phylogénétique qui représente le processus de l'évolution.
Il peut être interprété comme la représentation à des échelles de plus en plus grossières en allant vers le haut de l'arbre de regroupements fonctionnels dans des niches de plus en plus vastes.

La transformation d'une matrice (non ultramétrique) en dendrogramme déforme la topologie des espèces [@Pavoine2005a; @Podani2007]: une mesure de diversité qui utilise directement la matrice est préférable, c'est un intérêt de la  diversité de Leinster et Cobbold (voir chapitre \@ref(chap-LeinsterCobbold)).
@Maire2015 ont défini une mesure de qualité d'un espace fonctionnel, *mSD*, comme l'écart quadratique moyen entre les distances fonctionnelles entre espèces dans l'espace utilisé (par exemple les distances cophénétiques dans un dendrogramme fonctionnel) et les distances originales (dans la matrice de distance à partir de laquelle l'arbre a été obtenu).
Dans la matrice originale, les valeurs de traits sont centrées et réduites, et la hauteur du dendrogramme est fixée pour que la distance cophénétique maximale soit égale à la distance originale maximale.

@Villeger2017 ont montré que l'utilisation de dendrogrammes fonctionnels dans une étude de @Sobral2016 amène à sous-estimer les changements de niveau de biodiversité liés à l'arrivée d'espèces invasives d'oiseaux.
Dans la très grande majorité des dendrogrammes utilisés, la transformation de la matrice de distance a entraîné un écart moyen de plus de 10\% par rapport aux valeurs originales (une valeur de *mSD*, l'écart quadratique moyen, supérieure à 1\%).
Cette déformation est suffisante pour largement invalider les résultats obtenus.


## Équivalence des deux diversités

L'approche fonctionnelle étant particulièrement complexe et lourde à mettre en oeuvre (notamment pour la mesure des traits sur chaque individu), la tentation a été grande de considérer que la phylogénie contenait plus d'information fonctionnelle que ce qui pouvait être mesuré, et donc de considérer la diversité phylogénétique comme proxy de la diversité fonctionnelle.

Du point de vue théorique, le modèle le plus simple de l'évolution de la valeur d'un trait hypothétique au cours du temps est le mouvement brownien: à chaque génération, la valeur du trait varie un peu, sans mémoire.
Dans ce cadre [@Felsenstein1985], la variance de la valeur actuelle du trait pour une espèce donnée est proportionnelle à la durée de l'évolution et la covariance entre deux espèces à celle de l'âge de leur ancêtre commun.
Deux espèces proches dans l'arbre phylogénétique décrivant l'évolution doivent donc avoir des valeurs de trait corrélées.

@Webb2000 a montré que des communautés d'arbres tropicaux avaient une moins grande diversité phylogénétique locale qu'attendue sous l'hypothèse nulle d'une distribution aléatoire des espèces, et a supposé que la cause en était le filtrage environnemental local, agissant sur les traits et observables par la phylogénie, sous l'hypothèse de conservation phylogénétique des traits fonctionnels.
La discipline appelée *écologie phylogénétique des communautés* cherche encore à comprendre quels traits sont conservés et lesquels sont convergents [@Cavender-Bares2009].

@Swenson2009 puis @Hahn2024 ont montré que la corrélation entre les deux diversités était faible, voire négative.
L'utilisation de la diversité phylogénétique comme proxy de la diversité fonctionnelle n'est pas satisfaisante [@Pavoine2011]. Pour optimiser la conservation, les deux aspects de la diversité, souvent divergents, doivent être pris en compte [@Devictor2010].

## Typologie des mesures

À partir de la littérature [@Ricotta2007; @Pavoine2011], une typologie des mesures de diversité émerge.
Elle étend les notions classiques de richesse et équitabilité.

La richesse est l'accumulation de classes différentes dans les mesures classiques.
Dans un arbre phylogénétique, la longueur des branches représente un temps d'évolution: la richesse en est la somme.
FD et PD sont des mesures de richesse.


(ref:Pavoine2011) Régularité contre irrégularité. Les arbres de A à D sont de plus en plus irréguliers. L'arbre A, parfaitement régulier, est le cadre des mesures classiques de la diversité. La phylogénie étant donnée, trois vecteurs d'abondance (P1 à P3) sont de moins en moins réguliers: dans les cas C et D, la régularité maximale n'est pas obtenue pour des effectifs identiques, mais en augmentant les effectifs des espèces originales.
```{r Pavoine2011, fig.cap="(ref:Pavoine2011)", echo=FALSE}
knitr::include_graphics('images/Pavoine2011.png')
```

La régularité mesure la façon dont les espèces occupent uniformément l'espace des niches [@Pavoine2011].
Cette notion est simple dans un espace multidimensionnel (par exemple, l'espace des traits fonctionnels).
Dans un arbre phylogénétique (figure \@ref(fig:Pavoine2011), @Pavoine2011), la régularité de l'arbre [@Mooers1997] est un premier critère, complété éventuellement par les abondances.
Dans un arbre parfaitement régulier, la régularité se réduit à l'équitabilité.

Les mesures de divergence sont des fonctions croissantes de la dissimilarité entre les espèces, généralement considérées par paires.
Certaines sont pondérées par les abondances, d'autres non.
Dans un arbre parfaitement régulier, l'indice de Simpson est une mesure de divergence pondérée.
Ces mesures sont influencées par la richesse et la régularité.

Face à la profusion des mesures de diversité fonctionnelle, @Ricotta2005d, en complément de @Solow1994 établit un certain nombre d'axiomes:

1. Monotonicité d'ensemble: la diversité ne doit pas diminuer quand une espèce est ajoutée avec une faible probabilité (qui ne modifie pas la structure de la communauté existante), quelles que soient ses caractéristiques fonctionnelles;
2. Jumelage [@Weitzman1992]: l'introduction d'une espèce identique à une espèces existante ne doit pas augmenter la diversité. De façon moins triviale, une espèce infiniment proche ne doit pas augmenter la diversité: il s'agit donc d'un axiome de continuité dans l'espace des niches.
3. Monotonicité de distance: la diversité ne doit pas diminuer quand la distance entre espèces est augmentée.
4. Décomposabilité: les mesures de divergence doivent être décomposables en diversité $\alpha$, $\beta$ et $\gamma$, ce qui implique leur concavité par rapport aux probabilités.

L'entropie phylogénétique permet d'unifier ces notions, mais de nombreuses mesures ont été proposées.
Elles sont détaillées au chapitre suivant.


# Mesures particulières

::: {.Summary data-latex=""}
  De nombreuses mesures de diversité fonctionnelle ou phylogénétique ont été développées pour combiner le mieux possible la richesse et la régularité de la distribution des espèces dans l'espace des niches ou la phylogénie.
  Certaines (PD, FD, l'entropie quadratique de Rao, $H_p$ et $I_1$) seront unifiées au chapitre suivant dans le cadre de l'entropie phylogénétique.
:::

Un certain nombre de mesures de diversité phylogénétiques a émergé dans la littérature.
Elles sont passées en revue ici, en commençant par la diversité fonctionnelle envisagée dans l'espace multidimensionnel des traits.
Les sections suivantes envisagent les espèces dans un arbre phylogénétique.

## Richesse, équitabilité et divergence fonctionnelle

@Mason2005 postulent que la diversité fonctionnelle peut être abordée dans trois dimensions indépendantes (@Jost2010 montrera que l'indépendance n'est pas assurée):

* la richesse fonctionnelle, qui indique l'étendue de l'espace des niches fonctionnelles occupé par la communauté;
* l'équitabilité de la distribution des espèces dans ces niches (appelée régularité par @Pavoine2011);
* la divergence fonctionnelle, qui mesure comment la distribution des espèces dans l'espace des niches maximise la variabilité des caractéristiques fonctionnelles dans la communauté et combine richesse et équitabilité.

@Schleuter2010 font une revue des mesures utilisées dans ce cadre.
Les notations des indices utilisées ici sont les leurs.

Différents traits numériques sont connus pour toutes les espèces de la communauté.
La matrice $\mathbf{X}$ les contient: l'élément $x_{t,s}$ est la valeur moyenne du trait $t$ pour l'espèce $s$.
On note $\mathbf{T}_s$ le vecteur des valeurs moyennes de chaque trait de l'espèce $s$.

### Richesse fonctionnelle

#### Étendue fonctionnelle

L'étendue fonctionnelle [@Mason2005] mesure l'étendue des valeurs d'un trait occupée par une communauté, normalisée par l'étendue maximale possible:
\begin{equation}
  (\#eq:FRR)
  \mathit{FR}_R = \dfrac{\max_s(x_{t,s}) - \min_s(x_{t,s})}{X_{t,max} - X_{t,min}},
\end{equation}

où $\max_s(x_{t,s})$ est la valeur maximale pour toutes les espèces de la matrice de la valeur du trait $t$, $X_{t,max}$ est sa valeur maximale absolue (les notations sont identiques pour les minima).
Les extrêmes absolus peuvent être ceux de l'ensemble des communautés comparées.
Ils sont toujours sous-estimés: il est toujours possible théoriquement de trouver des valeurs plus extrêmes en augmentant l'effort d'échantillonnage.
L'étendue fonctionnelle peut être moyennée sur plusieurs traits.

Schleuter et al. développent l'indice $\mathit{FR}_{Is}$ pour prendre en compte la variabilité intraspécifique et les valeurs de traits non occupées par des espèces dans l'étendue fonctionnelle.
Les valeurs de traits individuelles sont nécessaires: l'étendue des valeurs d'un trait est définie comme l'union des étendues des valeurs de chaque espèce.


(ref:Schleuter2010) Fonction d'appartenance de l'espace des niches de Schleuter et al., en une dimension. $x$, en ordonnée, est la valeur du trait considéré. Chaque espèce est considérée comme un ensemble flou dans l'espace des traits. Quatre espèces sont représentées, avec leur fonction d'appartenance $f_s(x)$. Le volume de l'espace des traits occupé, $\mathit{FR}_{Im}$, est obtenu en intégrant les fonctions d'appartenance: c'est la zone grisée de la figure.
```{r Schleuter2010, fig.cap="(ref:Schleuter2010)", echo=FALSE}
knitr::include_graphics('images/Schleuter2010.png')
```

#### Volume de niches

La définition de la niche écologique de @Hutchinson1957 est l'hypervolume, dans l'espace des ressources environnementales, qu'une espèce peut occuper.
L'espace des traits fonctionnels peut être considéré comme une approximation de l'espace des ressources.
Le volume de l'enveloppe convexe de l'espace des traits occupé par la communauté (*convex hull volume*) est donc une mesure de richesse fonctionnelle multidimensionnelle.
La prise en compte des trous, c'est-à-dire la restriction du volume à l'espace réellement occupé à l'intérieur de cette enveloppe, est possible grâce à une méthode d'estimation d'hypervolume plus élaborée, implémentée dans le package *hypervolume* pour R [@Blonder2014].

De même que pour l'étendue fonctionnelle, Schleuter et al. développent une mesure proche, $\mathit{FR}_{Im}$, prenant en compte la variabilité intraspécifique et les espaces non occupés.
Chaque espèce est supposée occuper un espace autour de sa position moyenne dans l'espace des traits, avec une fonction d'appartenance [@Zadeh1965] gaussienne multidimensionnelle (une représentation unidimensionnelle se trouve en figure \@ref(fig:Schleuter2010), @Schleuter2010): la fonction d'appartenance, issue de la logique floue, peut être vue comme une densité de probabilité non normalisée.

Les variances et covariances intraspécifiques des traits (rassemblés dans la matrice carrée $\mathbf{\Sigma}_s$ de dimension $t$ pour chaque espèce $s$) sont nécessaires.
La fonction d'appartenance de l'espèce $s$ dans l'espace des traits est, pour le vecteur $\mathbf{T}$ de valeur de l'ensemble des traits:
\begin{equation}
  f_s(\mathbf{T})= e^{-\frac{1}{2} \left(\mathbf{T}-\mathbf{T}_s \right)^\top \mathbf{\Sigma}_s^{-1}  \left(\mathbf{T}-\mathbf{T}_s \right)}.
\end{equation}

La richesse fonctionnelle est l'intégrale des valeurs maximales de $f_s$ dans l'ensemble de l'espace des traits:
\begin{equation}
  (\#eq:FRIm)
  \mathit{FR}_{Im} = \int \max_s\left(f_s(\mathbf{T}) \right) \mathop{d\mathbf{T}}.
\end{equation}

Après transformation de la matrice de distance en dendrogramme fonctionnel, éventuellement sous la forme d'un arbre-consensus [@Mouchet2008], la longueur totale des branches, FD [@Petchey2002], est une autre mesure de richesse multidimensionnelle.


### Equitabilité fonctionnelle

L'équitabilité fonctionnelle, ou régularité [@Pavoine2011], rend compte de l'homogénéité de l'occupation des niches.

L'indice d'équitabilité de @Mouillot2005a, que les auteurs nomment "indice de régularité fonctionnelle", est inspiré de l'indice d'équitabilité de Bulla \@ref(eq:Bulla).
C'est un indice unidimensionnel: un seul trait est pris en compte.
Les espèces sont classées par valeur croissante du trait.
L'équitabilité maximale est obtenue si l'écart entre deux valeurs de traits est proportionnel aux abondances cumulées des deux espèces.
La statistique fondamentale est appelée équitabilité pondérée (*weighted evenness*).
Pour l'intervalle entre l'espèce $s$ et l'espèce $s+1$:

\begin{equation}
  (\#eq:EWs)
  \mathit{EW}_{s} = \frac{T_{s+1}-T_{s}}{N_{s+1}+N_{s}}.
\end{equation}

Cette valeur est normalisée: $\mathit{PEW}_{s}={\mathit{EW}_{s}}/{\sum_s{\mathit{EW}_{s}}}$.
Sa valeur de $\mathit{PEW}_{s}$ attendue pour le maximum d'équitabilité est ${1}/{(S-1)}$.
L'indice est celui de Bulla, appliqué aux $S-1$ intervalles entre espèces:

\begin{equation}
  (\#eq:FEs)
  \mathit{FE}_{s} = \sum_{s=1}^{S-1}{\min(\mathit{PEW}_{s},\frac{1}{S-1})}.
\end{equation}


L'indice $\mathit{FE}_{s}$ a été étendu pour être multidimensionnel par @Villeger2008a.
L'arbre recouvrant de longueur minimum (*minimum spanning tree*) est d'abord calculé à partir des distances euclidiennes entre les espèces dans l'espace des traits: il s'agit de l'arbre de longueur totale minimale reliant tous les points.
La longueur des branches est ensuite traitée de la même façon que $\delta T_s$ précédemment.

Un autre indice, ${\Lambda}^+$ [@Clarke2001], mesure la variance des distances entre paires d'espèces:

\begin{equation}
  (\#eq:Clarke2001)
  {\Lambda}^+ =\frac{\sum_s{\sum_t{{\left(d_{s,t}-\hat{d}\right)}^2}}}{S\left(S-1\right)}.
\end{equation}


Comme le montrent @Merigot2011, les mesures de régularité n'ont absolument pas les mêmes propriétés que les mesures de diversité: elles peuvent par exemple augmenter quand on retire des espèces originales.


### Divergence fonctionnelle

Les mesures de divergence fonctionnelle décrivent la variabilité de position des espèces dans l'espace des traits.
Ce sont tout simplement des mesures de diversité au sens classique du terme.

Quand un seul trait est considéré, la mesure la plus simple est sa variance.
@Mason2003 effectuent une transformation logarithmique de la valeur du trait et pondèrent le calcul de la variance par les probabilités $p_s$.
Ils transforment finalement le résultat en son arc-tangente pour qu'il soit compris entre 0 et 1.

Schleuter et al. proposent d'utiliser la différence entre le troisième et le premier quartile de la valeur du trait, normalisée par son étendue maximale possible.

FAD a été proposé par @Walker1999, à partir d'une matrice de distances dans l'espace des traits.
$d_{s,t}$ est la distance entre deux espèces indicées par $s$ et $t$, alors:

\begin{equation}
  (\#eq:FAD)
  \mathit{FAD}=\sum_s{\sum_t{d_{s,t}}}.
\end{equation}

FAD est très sensible au nombre d'espèces.
Sa version normalisée, MFAD [@Schmera2009] est

\begin{equation}
  (\#eq:MFAD)
  \mathit{MFAD}=\frac{\sum_s{\sum_t{d_{s,t}}}}{S}.
\end{equation}

Les deux indices violent l'axiome de jumelage.
À un facteur de normalisation près, ce sont des cas particuliers de l'indice de Rao pour des effectifs égaux.

Le calcul sous R est immédiat avec un arbre au format `phylog` du package *ade4*.
Un arbre au format `phylo` du package *ape* nécessite une conversion: la fonction `Preprocess.Tree` du package *entropart* la réalise.

```{r MFAD}
phyTree <- Paracou618.Taxonomy
# La conversion as.hclust() double les distances. Il faut donc les diviser par deux.
phyTree$edge.length <- phyTree$edge.length/2
library("ape")
# Conversion au format hclust
hTree <- as.hclust.phylo(phyTree)
# Conversion au format phylog
library("ade4")
Tree <- hclust2phylog(hTree)
# Tree$Wdist contient les valeurs de sqrt(2*distance)
(FAD <- sum(Tree$Wdist^2/2))
(MFAD <- FAD/length(Tree$leaves))
```


@Kader2007 regroupent les valeurs de trait par catégories et calculent l'entropie de Simpson des catégories.

Enfin, @Villeger2008a utilisent la distance euclidienne moyenne des espèces au centre de gravité de la communauté plutôt que la variance.
Précisément, le centre de gravité de la communauté (sans pondération par les fréquences) est calculé.
La distance euclidienne de l'espèce $s$ au centre de gravité est $dG_s$; la moyenne pour toutes les espèces $\bar{dG}$.
L'écart moyen des individus de la communauté à la distance moyenne est $\Delta d=\sum_s{p_s(dG_s - \bar{dG})}$.
L'écart moyen absolu est $\Delta |d|=\sum_s{p_s|dG_s - \bar{dG}|}$.

L'indice est
\begin{equation}
  (\#eq:FDm)
  \mathit{FD}_{m} = \frac{\Delta d + \bar{dG}}{\Delta |d| +\bar{dG}}.
\end{equation}

Sa forme lui permet d'être compris entre 0 et 1.

@Laliberte2010 généralisent $\mathit{FD}_{m}$ en proposant l'usage de n'importe quelle dissimilarité entre espèces, obtenue à partir de la méthode de Gower (vue en section \@ref(sec-DFonctionnelle)), autorisant des variables qualitatives et des données manquantes, au-delà de la seule distance euclidienne entre traits quantitatifs.
Ils fournissent le package *FD* pour calculer leur indice $\mathit{FDis}$ et ceux de
@Villeger2008a.


## Originalité, richesse et équitabilité phylogénétique

La littérature de la diversité phylogénétique s'est intéressée tôt à l'originalité taxonomique des espèces parce que les questions traitées concernaient la conservation, concernée par la valeur de l'héritage évolutif [@Faith2008].

### Mesures spécifiques d'originalité

@Vane-Wright1991 définissent la distinction taxonomique (*taxonomic distinctness*) $\mathit{TD}_s$ de chaque espèce comme l'inverse du nombre de noeuds entre elle et la racine de l'arbre phylogénétique, normalisé pour que $\sum_s{\mathit{TD}_s} = 1$.
Dans l'arbre de la figure \@ref(fig:ArbreA4), les valeurs de TD non normalisées sont ${1}/{2}$ pour les deux premières espèces et ${1}/{3}$ pour les trois autres: la racine de l'arbre est comptabilisée dans le nombre de noeuds.
Les valeurs de $\mathit{TD}_s$ sont respectivement ${1}/{4}$ et ${1}/{6}$ après normalisation.


(ref:ArbreA4) Arbre phylogénétique ou fonctionnel hypothétique. L'arbre comprend 5 espèces dont les probabilités sont notées $p_s$, 3 périodes de durées $T_k$ délimitées par les noeuds. Les branches sont notées $b$ et indicées par la période à laquelle elles se terminent et un numéro d'ordre.
```{r ArbreA4, fig.cap="(ref:ArbreA4)", echo=FALSE}
knitr::include_graphics('images/ArbreA.png')
```


La particularité évolutive [@Isaac2007] (*evolutive distinctiveness*, $\mathit{ED}_s$) de l'espèce $s$ est la somme de la longueur des branches qui la relient à la racine de l'arbre, partagées entre tous les descendants de chaque branche.
Pour l'espèce 3 de la figure \@ref(fig:ArbreA4), $\mathit{ED}_3$ est égal à $l(b_{1,3})$, la longueur de la branche terminale propre à l'espèce 3, plus un tiers de la longueur de la branche qui relie la racine de l'arbre à la polytomie dont l'espèce 3 est issue.
Clairement, la diversité phylogénétique PD (section \@ref(sec-PDFD)) est la somme des particularités évolutives de toutes les espèces de l'arbre.


### Originalité taxonomique de Ricotta {#sec-OrigTax}

(ref:HurlbertCFig) Contribution des espèces à l'indice de Hurlbert. Les contributions de 4 espèces d'une communauté à l'indice sont représentées en fonction de la taille de l'échantillon $n$. Les fréquences des espèces sont lisibles pour $n = 1$: une espèce fréquente (probabilité égale à 0,7, supérieure à $1/S$), deux espèces peu fréquentes (0,19 et 0,1), et une espèce rare (0,01). Quand $n$ est assez grand, toutes les contributions tendent vers $1/S = 1/4$ (ligne horizontale).
```{r HurlbertCFig, echo=FALSE, results='hide', ref.label='HurlbertCCode', fig.cap="(ref:HurlbertCFig)"}
```

@Ricotta2004a construit un indice paramétrique (permettant de donner plus ou moins d'importance aux espèces rares) à partir de l'espérance du nombre d'espèces tirées dans un échantillon de taille $n$ fixée (l'indice de @Hurlbert1971):

\begin{equation}
  (\#eq:ESn)
  {\mathbb E}\left( S^n \right)
  = \sum_s{\left[ 1-\left( 1-p_s \right)^n  \right]}.
\end{equation}

Ricotta pondère cette espérance par l'originalité taxonomique de chaque espèce, notée $w_s$ et normalise la mesure:
\begin{equation}
  (\#eq:Ricotta2004a)
  ^n{T}
  = \frac{\sum_s{w_s \left[ 1-\left( 1-p_s \right)^n  \right]}}{{\mathbb E}\left( S^n \right)}.
\end{equation}

L'originalité taxonomique est définie comme la distance phylogénétique moyenne entre l'espèce $s$ et les autres: $w_s={\sum_s{d_{s,t}}}/{(S-1)}$.

@Weikard2006 montrent que cette définition de $w_s$ ne permet pas de satisfaire l'axiome de monotonicité d'ensemble.
La définition correcte de $w_s=\sum_s{d_{s,t}}$, validée par @Ricotta2006.

L'interprétation de $^n{T}$ est plus intuitive en inversant la logique de sa construction.

$w_s$ est l'originalité de l'espèce $s$.
${[1-(1-p_s)^n]}/{{\mathbb E}(S^n)}$ est la contribution de l'espèce $s$ à l'espérance du nombre d'espèces, comprise entre 0 et 1.
$^n{T}$ est donc l'originalité moyenne des espèces de la communauté, pondérée par la contribution de chaque espèce à l'espérance du nombre d'espèces observé, dans un échantillon de taille $n$.
Cette contribution est présentée en figure \@ref(fig:HurlbertCFig).

Quand $n=1$, c'est simplement la fréquence des espèces.
Quand $n$ augmente, le poids des espèces fréquentes (dont la proabilité est supérieure à $\frac{1}{S}$) diminue alors que celui des espèces intermédiaires augmente.
Ce dernier atteint ${1}/{{\mathbb E}(S^n)}$ (une espèce est échantillonnée à coup sûr dès que l'échantillon est assez grand) d'autant plus rapidement que $p_s$ est grand.
Il baisse ensuite alors que les espèces rares atteignent à leur tour progressivement leur poids maximal.

Quand $n \to +\infty$, le numérateur tend vers FAD, et le dénominateur tend vers le nombre d'espèces: $^n{T}$ tend vers MFAD.

Code R pour la figure \@ref(fig:HurlbertCFig):
```{r HurlbertCCode, eval=FALSE, tidy=FALSE}
Ps <- c(0.7, 0.19, 0.1, 0.01)
S <- length(Ps)
nRange <- 1:500
# Indice de Hurlbert
ESn <- c(1, sapply(nRange[-1], function(n) Hurlbert(Ps, n)))
# Préparation du graphique
Xlab <- "Taille de l'échantillon"
Ylab <- "Contribution des espèces"
# Contribution de chaque espece à chaque valeur de n
Csn <- sapply(1:S, function(s) sapply(nRange,
              function(n) (1-(1-Ps[s])^n))/ESn)
# Dataframe contenant les données
df <- as.data.frame(cbind(nRange, Csn))
colnames(df) <- c("n", "s07", "s019", "s01", "s001")
# Graphique
ESnplot <- ggplot(gather(df, Sp, Contribution, -n), aes(x=n)) +
  geom_line(aes(y = Contribution, lty=Sp)) +
  geom_hline(yintercept=1/4, col="red") +
  scale_x_log10() +
  labs(x = Xlab, y = Ylab) +
  theme(legend.position = "none")
ESnplot
```


### Richesse phylogénétique

La particularité taxonomique moyenne [@Warwick1995] (*Average Taxonomic Distinctiveness, AvTD*) est la distance moyenne dans l'arbre entre deux espèces choisies au hasard.
C'est donc l'équivalent taxonomique de MFAD.
La variabilité phylogénétique des espèces [@Helmus2007] (*Phylogenetic Species Variability, PSV*) est la même mesure, obtenue à partir du modèle d'évolution suivant un mouvement brownien [@Felsenstein1985].
La distance moyenne entre deux espèces est dans ce cadre proportionnelle à la covariance de leurs traits fonctionnels.
La richesse phylogénétique des espèces, PSR, est PSV multipliée par le nombre d'espèces: c'est l'équivalent taxonomique de FAD.

La diversité FD de Faith (section \@ref(sec-PDFD)), égale à la somme des longueurs des branches de l'arbre, semble avoir fait consensus, d'où un moindre développement des mesures de richesse que dans la littérature fonctionnelle.


### Indices de Cadotte

@Cadotte2010 proposent un ensemble de mesure phylogénétiques: équitabilité, déséquilibre d'abondance et diversité de la particularité evolutive.

#### Equitabilité phylogénétique

Les branches terminales de l'arbre phylogénétique sont ici à la base de la définition de l'équitabilité.
figure \@ref(fig:ArbreA3), les branches $b_{1,s}$ sont les segments terminés par une feuille (au bas de l'arbre), c'est-à-dire que leur longueur est la partie de l'arbre que les espèces ne partagent pas.
La mesure d'équitabilité est
\begin{equation}
  \mathit{PAE} = \frac{\mathit{PD} + \sum_s{l(b_{1,s})(n_s-1)}}{\mathit{PD} + (\frac{n}{S}-1)\sum_s{l(b_{1,s})} }.
\end{equation}

```{r ArbreA3, fig.cap="Arbre phylogénétique ou fonctionnel hypothétique.", echo=FALSE}
knitr::include_graphics('images/ArbreA.png')
```

$\mathit{PAE}$ vaut 1 quand les espèces sont sont distribuées équitablement pour la longueur des branches.
Une valeur plus grande est obtenue quand les espèces sont concentrées au bout des longues branches, et inversement si $0<\mathit{PAE}<1$.


#### Déséquilibre d'abondance

L'équilibre d'abondance est défini par une distribution aléatoire des espèces par division de l'effectif total à partir de la racine de l'arbre phylogénétique.
En figure \@ref(fig:ArbreA3), en partant de la racine, la moitié des individus est supposée se répartir sur chaque branche.
À la période 2, les effectifs de la branche de gauche se partagent en deux parties égales.
À partir du nombre total d'individus de la communauté, $n$, le nombre attendu d'individus $n_s^0$ de l'espèce $s$ est une fraction de $n$ correspondant au nombre de noeuds et au nombre de branches partant de chaque noeud.
On note $y_{k,s}$ le nombre de branches partant du noeud ancestral de l'espèce $s$ à la période $k$, s'il existe, $y_{k,s}=1$ sinon:
\begin{equation}
  n_s^0 = \frac{n}{\prod_{k=2}^{K}{y_{k,s}}}.
\end{equation}

En figure \@ref(fig:ArbreA3), pour l'espèce 3, $y_{1,3}=3$ (l'espèce est issue d'une polytomie), $y_{2,3}=1$ (absence de noeud) et $y_{3,3}=2$ (la racine de l'arbre est dichotomique).
On s'attend donc à ce que l'espèce 3 soit représentée par un sixième des individus.

L'indice de déséquilibre d'abondance mesure l'écart à cette distribution théorique:
\begin{equation}
  (\#eq:IAC)
  \mathit{IAC} = \frac{\sum_s{|n_s - n_s^0|}}{\nu}.
\end{equation}

$\nu$ est le nombre de noeuds de l'arbre (3 dans l'exemple de la figure \@ref(fig:ArbreA3)).


#### Diversité de la particularité évolutive

L'entropie de Shannon peut être appliquée pour mesurer la diversité des particularités évolutives:
\begin{equation}
  (\#eq:HED)
  H_{\mathit{ED}} = -\sum_s{\frac{\mathit{ED}_s}{\mathit{PD}} \ln\frac{\mathit{ED}_s}{\mathit{PD}}}.
\end{equation}

L'équitabilité des particularités évolutives est celle de Pielou:

\begin{equation}
  (\#eq:EED)
  E_{\mathit{ED}} = \frac{H_{\mathit{ED}}}{\ln{S}}.
\end{equation}

Ces mesures ne prennent pas en compte les abondances des espèces.
Pour y remédier, il suffit d'ajouter une période de durée nulle à chaque feuille de l'arbre, correspondant à une polytomie entre les $n_s$ individus de chaque espèce.
La particularité évolutive $\mathit{AED}_s$ des individus de l'espèce $s$, est calculée en partageant la longueur de chaque branche ancestrale entre le nombre d'individus qui en descendent (et non le nombre d'espèces).
Alors $\mathit{PD} = \sum_s{n_s \mathit{AED}_s}$.
L'entropie devient
\begin{equation}
  (\#eq:HAED)
  H_{\mathit{AED}} = -\sum_s{\frac{n_s \mathit{AED}_s}{\mathit{PD}} \ln\frac{n_s \mathit{AED}_s}{\mathit{PD}}}
\end{equation}
et l'équitabilité correspondante est
\begin{equation}
  (\#eq:EAED)
  E_{\mathit{AED}} = \frac{H_{\mathit{AED}}}{\ln{N}}.
\end{equation}

Ces indices ne mesurent pas la diversité phylogénétique au sens des autres mesures présentées dans ce chapitre.
Ils mesurent la diversité de le particularité évolutive, autrement dit du temps d'évolution accumulé par chaque espèce ou chaque individu.
Pour un nombre d'espèces fixé, $E_{\mathit{ED}}$ atteint son maximum quand les valeurs de $\mathit{ED}_s$ sont toutes identiques.
Un arbre phylogénétique composé d'une seule branche depuis la racine terminé par une polytomie de longueur nulle portant toutes les espèces correspond à cette description.
Dans cet exemple, les espèces ont une divergence évolutive nulle, mais $E_{\mathit{ED}} = S$, son maximum possible.


## Diversité de Scheiner

@Scheiner2012 développe un cadre unifié pour mesurer la diversité spécifique, phylogénétique ou fonctionnelle, séparément ou simultanément.
L'idée générale est que toute quantité partagée par les espèces (le nombre d'individus, le temps d'évolution accumulé, la taille des niches écologique) peut être traduite en nombre de Hill.

La diversité spécifique est simplement $^{q}\!D$. Scheiner la note $^{q}\!D(A)$, pour diversité d'abondance.

La diversité phylogénétique $^{q}\!D(P)$ ne prend pas en compte les abondances mais mesure la diversité de la divergence évolutive des espèces.
La divergence totale dans un arbre phylogénétique (pas forcément ultramétrique) est la longueur totale des branches (c'est-à-dire FD).
Elle est répartie entre toutes les espèces: la longueur de chaque branche (représentant une quantité d'évolution) est partagée à parts égales entre les espèces qui en descendent.
La divergence de l'espèce 1 de la figure \@ref(fig:Arbre) est $T1+T2$, la longueur de la branche terminale, plus ${T3}/{2}$, parce que la branche est partagée par les espèces 1 et 2.
La divergence de l'espèce 1, est donc $L_1 = T1+T2+{T3}/{2}$.
La part de la divergence de l'espèce $s$ est $l_s = {L_s}/{FD}$.
La diversité phylogénétique est le nombre de Hill des divergences:

\begin{equation}
  (\#eq:HillDivergences)
  ^{q}\!D = {\left(\sum^S_{s=1}{l_s^q}\right)}^{\frac{1}{1-q}}.
\end{equation}

La diversité fonctionnelle $^{q}\!D(F)$ est la diversité des tailles des niches. La taille de la niche est définie par Scheiner comme le volume de l'hypersphère (dans l'espace des traits fonctionnels de dimension $m$) centrée sur chaque espèce dont le rayon est la moitié de la distance à l'espèce la plus proche pour que les sphères ne se superposent pas.
Une meilleure définition [@Presley2014] de la taille de la niche est la somme des distances aux autres espèces: $t_s = \sum_t{d_{s,t}}$. La part de chaque espèce est $f_s={t_s}/{\sum_t{t_t}}$ et la définition de la diversité fonctionnelle est

\begin{equation}
  (\#eq:DqT)
  ^{q}\!D(T) = {\left(\sum^S_{s=1}{f_s^q}\right)}^{\frac{1}{1-q}}.
\end{equation}

La diversité peut prendre en compte plusieurs composantes, pas exemple l'abondance et la phylogénie pour définir

\begin{equation}
  (\#eq:qDAP)
  ^{q}\!D(AP) = {\left(\sum^S_{s=1}{\left(\frac{n_s L_s}{\sum^S_{t=1}{n_t L_t}}\right)^q}\right)}^{\frac{1}{1-q}}.
\end{equation}

La diversité d'abondance et phylogénétique est la diversité des divergences pondérées par les effectifs des espèces.
La mesure de biodiversité de Scheiner, incluant les trois composantes, est

\begin{equation}
  (\#eq:qDAF)
  ^{q}\!D(APF) = {\left(\sum^S_{s=1}{\left(\frac{n_s L_s t_s}{\sum^S_{t=1}{n_t L_t t_t}}\right)^q}\right)}^{\frac{1}{1-q}}.
\end{equation}

Son interprétation est moins immédiate.
Chaque espèce est associée à une fraction d'une des trois dimensions de la diversité (abondance, temps d'évolution cumulé, taille des niches).
Elle occupe un parallélépipède de dimensions $(p_s, l_s, f_s)$ dans le cube de dimension 1 qui les contient toutes.
Cette représentation ne donne pas d'importance particulière à l'abondance, et peut être appliquée à un nombre quelconque de dimensions.
La mesure de biodiversité est la diversité des volumes occupés par les espèces, normalisés par leur somme (qui n'est pas égale à 1).

En se limitant à deux dimensions pour la lisibilité, la figure \@ref(fig:ScheinerPsfsFig) présente les rectangles correspondant à la diversité d'abondance et fonctionnelle occupés par les espèces de la méta-communauté `Paracou618`, classées par fréquences décroissantes.


(ref:ScheinerPsfsFig) Rectangles de surface fréquence $\times$ taille de niche des espèces de la méta-communauté `Paracou618`. La diversité de Scheiner $^{q}\!D(AF)$ est la diversité de leur surface.
```{r ScheinerPsfsFig, echo=FALSE, results='hide', fig.width=6, fig.height=6, ref.label='ScheinerPsfsCode', fig.cap="(ref:ScheinerPsfsFig)"}
```

Code R:
```{r ScheinerPsfsCode, eval=FALSE, tidy=FALSE}
# Probabilités
Ps <- Paracou618.MC$Ps[Paracou618.MC$Ps>0]
Ps <- sort(Ps, decreasing = TRUE)
# Fréquences cumulées
PsCum <- cumsum(Ps)
Xgauche <- c(0, PsCum)
Xdroite <- c(PsCum, 1)
# Matrice de distances fonctionnelles
DistanceMatrix <- as.matrix(Paracou618.dist)
# Mise en correspondance de la matrice et du vecteur de probabilités
DistanceMatrix <- DistanceMatrix[names(Ps), names(Ps)]
# Taille des niches
ts <- rowSums(DistanceMatrix)
fs <- ts/sum(ts)
# Fréquences cumulées
fsCum <- cumsum(fs)
Ybas <- c(0, fsCum)
Yhaut <- c(fsCum, 1)
# Rectangles occupés par chaque espèce
ggplot(data.frame(Xgauche, Ybas, Xdroite, Yhaut)) +
  geom_rect(aes(xmin= Xgauche, xmax= Xdroite, ymin= Ybas, ymax= Yhaut),
             color = "black", fill = "white") +
  coord_fixed() +
  labs(x = "Fréquence", y="Niche")
```


La diversité d'abondance et fonctionnelle est la diversité de la surface des rectangles:
```{r ScheinerDqAF}
Surface <- Ps*fs
Rs <- Surface/sum(Surface)
Diversity(Rs, q=2)
```

Le profil de diversité d'abondance et fonctionnelle est en figure \@ref(fig:ProfilDqAFFig).


(ref:ProfilDqAFFig) Profil de diversité d'abondance et fonctionnelle de Scheiner de la méta-communauté `Paracou618`. Pointillés longs: diversité d'abondance; pointillés courts: diversité fonctionnelle; trait plein: diversité d'abondance et fonctionnelle.
```{r ProfilDqAFFig, echo=FALSE, results='hide', ref.label='ProfilDqAFCode', fig.cap="(ref:ProfilDqAFFig)"}
```

  Code R:
```{r ProfilDqAFCode, eval=FALSE, tidy=FALSE}
autoplot(CommunityProfile(Diversity, Rs),
         xlab="Ordre de diversité", ylab="Diversité") +
geom_line(data = as.data.frame.list(CommunityProfile(Diversity, Ps)),
          mapping = aes(x, y), lty = 2) +
geom_line(data = as.data.frame.list(CommunityProfile(Diversity, fs)),
          mapping = aes(x, y), lty=3)
```

La notion de diversité phylogénétique ou fonctionnelle traitée par Scheiner est assez différente de celles vues précédemment parce qu'elle considère toutes les dimensions de façon symétrique: l'ordre de diversité, $q$, s'applique à toutes les dimensions.
Si $q$ est grand, les espèces dont le produit des dimensions de la diversité est petit (que l'espèce soit rare, ait une divergence phylogénétique faible ou une niche étroite) sont négligées, alors que $q$ n'affecte que la fréquence dans le cadre de la phylodiversité $^{q}\!\bar{D}$ ou la banalité pour $^q\!D^{\mathbf{Z}}$.


## Diversité de Solow et Polasky

@Solow1994 relient la richesse fonctionnelle ou phylogénétique à la probabilité de trouver au moins une espèce intéressante (par exemple, capable de fournir une molécule utile) dans une communauté.

Les distances entre espèces sont supposées connues, qu'elles soient fonctionnelle, phylogénétique ou autre.
La probabilité qu'une espèce quelconque soit intéressante est fixée à $p$, par exemple à partir de l'expérience passée (si une espèce criblée sur 100 fournit une molécule utile, $p=1\%$).
En absence d'information sur les espèces, $p$ est *a priori* identique pour toutes mais on suppose une corrélation entre les probabilités dépendant de la distance entre les espèces.
Formellement, une fonction de similarité entre les espèces $s$ et $t$ est définie: $z_{s,t}=f(d_{s,t})$.
Cette fonction est décroissante entre 1 (quand la distance est nulle) et 0 (à distance infinie); par exemple $f(d_{s,t}) = e^{-u d_{s,t}}$ où $u$ est une constante strictement positive.
La matrice $\mathbf{Z}$ réunit les éléments $z_{s,t}$.

On définit ensuite la variable de Bernoulli $B_s$ (d'espérance $p_s$) qui vaut 1 si l'espèce $s$ est intéressante.
$z_{s,t}$ est, par construction du modèle, la corrélation entre $B_s$ et $B_t$: deux espèces très proches ont la même probabilité d'être intéressante, deux espèces très éloignées ont des probabilités indépendantes.
La probabilité qu'au moins une espèce soit intéressante est minorée par $p^2 \mathbf{1}_S' \mathbf{Z}^{-1} \mathbf{1}_S$, où $\mathbf{1}_S$ est le vecteur de longueur $S$ ne contenant que des 1, $'$ indique la transposée et $\mathbf{Z}^{-1}$ est la matrice inverse de $\mathbf{Z}$ (son existence est garantie puisque $\mathbf{Z}$ est une matrice de variance-covariance).
La valeur de $p$ est incertaine et sans grand intérêt.

$V = \mathbf{1}_S' \mathbf{Z}^{-1} \mathbf{1}_S$ est la mesure de diversité de Solow et Polasky.
Elle rend compte de la dispersion des espèces: moins les espèces sont similaires, plus la probabilité que l'une d'elle au moins soit intéressante est élevée, conditionnellement au nombre d'espèces et à $p$.
Si les espèces sont infiniment éloignées les unes des autres, $\mathbf{Z}$ est la matrice identité et la diversité est égale à la richesse: $V$ est donc un nombre effectif d'espèces, c'est-à-dire le nombre d'espèces totalement dissimilaires nécessaires pour obtenir la diversité observée.
À l'opposé, si toutes les espèces sont identiques, $\mathbf{Z}$ ne contient que des 1 et la diversité vaut 1.


## FD et PD {#sec-PDFD}

(ref:Arbre) Arbre phylogénétique ou fonctionnel hypothétique. (a) Arbre complet. 5 espèces sont présentes ($S = 5$). Une période de l'arbre est définie entre deux noeuds successifs: l'arbre contient $K = 3$ périodes. Les hauteurs des périodes sont notées $T_k$. À chaque période correspond un arbre plus simple: (b) pour la période 2, (c) pour la période 3 dans lequel les espèces originales sont regroupées. Le nombre de feuilles de ces arbres est noté $L_k$. Les probabilités pour un individu d'appartenir à une feuille sont notées $u_{k,l}$.
```{r Arbre, fig.cap="(ref:Arbre)", echo=FALSE}
knitr::include_graphics('images/Arbre.png')
```

Si la dissimilarité entre les espèces est représentée par un dendrogramme, les indices de diversité les plus simples sont la diversité phylogénétique [@Faith1992] et sa transposition, la diversité fonctionnelle [@Petchey2002].

Étant donné un arbre contenant toutes les espèces ou tous les individus étudiés, PD ou FD sont égaux à la somme de la longueur des branches (figure \@ref(fig:Arbre): $\mathit{PD}=5\times T_1 + 3\times T_2 + 2\times T_3)$.
Si les noeuds de l'arbre phylogénétique sont datés, PD peut être considéré comme une accumulation de temps d'évolution par la communauté étudiée: @Sol2017 montrent par exemple que les milieux urbanisés ont un déficit de 450 millions d'années d'évolution dans les communautés d'oiseaux relativement aux environnements naturels voisins.

Dans le cas particulier ou toutes les branches sont de longueur 1, c'est-à-dire que toutes les espèces sont liées à la même racine (on dira que l'arbre est parfaitement régulier), PD et FD sont égales à la richesse spécifique.

Le package *entropart* fournit la fonction `PDFD`:

```{r PDFD}
# Vecteur des probabilités
Ps <- Paracou618.MC$Ps
PDFD(Ps, Paracou618.Taxonomy)
```

@Chao2014b fournissent un estimateur de PD (ou FD) permettant de l'estimer sans biais pour un échantillon plus petit que celui observé et de façon fiable pour un échantillon de taille double au maximum. Ces estimateurs permettent de tracer des courbes de raréfaction et d'extrapolation.

En même temps que Faith, @Weitzman1992 a établi une fonction de diversité identique à PD.
À partir d'une matrice de dissimilarités entre espèces, un arbre est construit par la méthode suivante.
Les deux espèces les plus proches sont rassemblées.
L'une d'elles, celle qui diminue le moins la longueur totale des branches de l'arbre final en la retirant, est l'espèce de *lien*, l'autre est l'espèce *représentative* du clade.
L'espèce de lien est retirée et le regroupement poursuivi entre les deux nouvelles espèces les plus proches.
À chaque étape, l'espèce de lien est retirée jusqu'au regroupement final entre les deux dernières espèces.
La difficulté est que l'arbre final n'est pas connu aux premiers stades de regroupement donc tous les arbres doivent être testés pour trouver la solution unique.
La diversité est la somme des distances entre les espèces de lien et leur espèce représentative, c'est-à-dire la longueur totale des branches de l'arbre obtenu.
L'application à la conservation est que les espèces représentatives doivent être favorisées par rapport aux espèces de lien; en d'autres termes, les espèces dont les branches sont les plus courtes dans l'arbre sont celles qui apportent le moins de diversité.
Ce résultat est assez évident quand on dispose d'un arbre phylogénétique.
L'originalité de la méthode de Weitzman est de fournir un algorithme pour créer l'arbre à partir d'une matrice de distances qui est cohérent avec la mesure de diversité appliquée.

La mesure de diversité peut être combinée avec une probabilité d'extinction de chaque espèce (à dire d'expert) pour calculer l'espérance de la diversité à une échéance donnée [@Weitzman1993]: $2^S$ arbres peuvent être construit en faisant disparaître certaines des $S$ espèces de la communauté, la probabilité de chaque arbre est calculable à partir des probabilités d'extinction de chaque espèce (supposées indépendantes) et l'espérance de diversité est simplement la moyenne des diversités de chaque arbre pondérée par sa probabilité.
L'espérance de la perte de diversité peut être calculée de façon plus simple [@Witting1995], comme la moyenne de la longueur des branches pondérée par la probabilité de leur disparition, qui est le produit de la probabilité de disparition de toutes les espèces descendant de la branche.

Diverses optimisations économiques sont possibles, dont le choix des espèces à protéger à partir de l'élasticité de la diversité, c'est-à-dire le gain de diversité entraîné par la diminution de la probabilité de disparition de chaque espèce: les espèces ayant la plus grande élasticité sont celles sur lesquelles les efforts auront les plus grands résultats.


## Indice de Rao {#sec-Rao}

L'indice de Rao est une mesure de divergence pondérée. Son utilisation s'est largement développée depuis le début des années 2000 [@Izsak2000; @Shimatani2001a;  @Botta-Dukat2005; @Escalas2013] en raison de ses propriétés particulièrement intéressantes.

### Principe

À partir de relevés fournissant la fréquence de chaque espèce par communauté et d'une matrice de dissimilarité entre paires d'espèces, l'indice de @Rao1982 donne la dissimilarité moyenne entre deux individus choisis au hasard.

L'indice de Rao est souvent appelé "entropie quadratique" en raison de sa forme mathématique.

### Formalisation

Les espèces sont prises deux à deux et sont donc notées ici $s'$ et $s''$.

On note $\mathbf{\Delta}$ la matrice de dissimilarité dont les éléments sont $\delta_{s's''}$, la dissimilarité entre l'espèce $s'$ et l'espèce $s''$.
Il n'est pas nécessaire à ce stade que $\mathbf{\Delta}$ soit une distance.
$\mathbf{p}$ est le vecteur des probabilités dont $p_{s'}$ et $p_{s''}$ sont des éléments:

L'indice de Rao est

\begin{equation}
  (\#eq:Rao)
  H_{\mathbf{\Delta}}\left(\mathbf{p}\right)=\sum_{s'}{\sum_{s''}{p_{s'}}}p_{s''}\delta_{s's''}.
\end{equation}


### Propriétés

La définition de la distance est essentielle:

* en fixant $\delta_{s's''}=1$ si deux espèces sont différentes, on obtient l'indice de Simpson.
Sa valeur peut être interprétée comme la probabilité qu'une paire d'individus choisie au hasard soit de deux espèces différentes;
* Dans un espace unidimensionnel où la valeur $y_s$ associée à l'espèce $s$ est une variable quantitative $Y$, choisir $\delta_{s's''}={{\left(y_k-y_l\right)}^2}/{2}$ rend l'indice de Rao égal à la variance de $Y$.

@Pavoine2005c ont montré que l'utilisation de distances ordinaires fait que la valeur maximale de l'entropie quadratique pour un effectif donné est obtenue en éliminant les espèces intermédiaires en ne retenant que les espèces extrêmes (le résultat est évident en une dimension: la variance est maximale en ne retenant que les valeurs extrêmes d'un échantillon).
Ce résultat est contraire aux propriétés attendues d'un indice de diversité.
Les auteurs ont établi que l'utilisation de distances ultramétriques corrige ce défaut.
L'indice atteint alors son maximum pour des fréquences d'autant plus grandes que l'espèce est originale [@Pavoine2005a].

L'estimation empirique de l'indice se fait simplement en estimant les probabilités par les fréquences.
Le biais d'estimation est très faible [@Marcon2014a]: par analogie avec l'estimateur de l'indice de Simpson, les espèces rares interviennent peu.

### Calcul sous R

Le package *entropart* fournit la fonction `Rao`:

```{r Rao}
# Vecteur des probabilités
Ps <- Paracou618.MC$Ps
Rao(Ps, Paracou618.Taxonomy)
```

Le package *ADE4* permet le calcul avec la fonction `divc` qui utilise un format différent pour les probabilités et surtout la matrice des racines carrées du double des distances de l'objet `phylog` (chaque élément de `\$Wdist` vaut $\sqrt{2\delta_{s's''}}$.
Cette particularité d'*ADE4* vient de l'analyse multivariée [@Champely2002]: l'entropie quadratique de Rao peut être représentée dans l'espace euclidien engendré par une matrice de distances $\mathbf{D}$ entre espèces (par une Analyse en Coordonnées Principales, PCoA).
L'inertie des points représentants les espèces, précisément la moyenne des carrés des distances entre les espèces et leur centre de gravité (les probabilités $\mathbf{p}$ des espèces constituent leur poids), est alors égale à l'entropie de Rao $H_{\mathbf{\Delta}}\left(\mathbf{p}\right)$, où la matrice de distances $\mathbf{\Delta}$ est ${\mathbf{D}^{\circ2}}/{2}$: les valeurs de  $\mathbf{\Delta}$ valent la moitié du carré de celles de $\mathbf{D}$.
Cette représentation est étendue dans la double analyse en composantes principales de @Pavoine2004, section \@ref(sec-RaoDisc).

Dans *ADE4*, les arbres phylogénétiques sont donc stockés sous la forme d'objets de type `phylog` où la matrice des distances (`\$Wdist`) est $\mathbf{D}$ mais les longueurs des branches de l'arbre (`\$droot`) correspondent aux valeurs de $\mathbf{\Delta}$.


```{r divc, message=FALSE}
library("ade4")
divc(as.data.frame(Ps), Paracou618.Taxonomy$Wdist)
```

`divc` peut traiter plusieurs communautés simultanément; `Rao` peut être utilisé avec la fonction `apply`:

```{r divcRao}
divc(as.data.frame (Paracou618.MC$Psi), Paracou618.Taxonomy$Wdist)
apply(Paracou618.MC$Psi, 2, Rao, Tree=Paracou618.Taxonomy)
```

### Maximum théorique {#sec-MaxTheorique}

@Pavoine2005a ont défini l'originalité d'une espèce comme sa fréquence maximisant l'entropie quadratique, sachant la matrice de distances entre espèces.
Les espèces les plus originales sont celles ayant le moins d'espèces proches dans la classification.

L'originalité n'est pas intéressante dans une taxonomie: une phylogénie doit être créée pour illustrer cette notion.
Le fichier `rao.traits.csv` contient une espèce par ligne, identifiée par le champ `Code`, et un certain nombre de valeurs de traits en colonnes.

```{r Originalite1}
# Lecture des données: traits pour 34 espèces
read.csv2 ("data/rao.traits.csv", row.names=1, header=T)-> traits
```

Le résultat est un *data frame* nommé `traits` à 8 lignes (espèces) et 6 colonnes (traits):

```{r Originalite2}
# Aperçu
traits[1:4, 1:3]
```

La matrice de distances est créée par classification automatique hiérarchique.

```{r Originalite3}
# ACP sur les traits foliaires
pcaf <- dudi.pca(traits, scale=T, scannf=FALSE, nf=2)
```


```{r PCAFFig, echo=FALSE, results='hide', ref.label='PCAFCode', fig.cap="Analyse en composante principale des traits foliaires"}
```


`pcaf` (figure \@ref(fig:PCAFFig)) est une liste qui contient les résultats de l'ACP, à utiliser pour la classification:

```{r Originalite4}
# CAH Ward des traits foliaires
hf <- hclust(dist(pcaf$tab), "ward.D")
```

Code R pour la figure \@ref(fig:PCAFFig):
```{r PCAFCode, eval=FALSE}
scatter(pcaf)
```


```{r HclustFig, echo=FALSE, results='hide', ref.label='HclustCode', fig.cap="Arbre phylogénétique issu de la classification automatique."}
```


Le résultat de la classification est un objet `hclust` (figure \@ref(fig:HclustFig) qui doit être transformé en `phylog` pour la suite de l'analyse:

```{r Originalite5}
# Transformation de l'arbre du format hclust au format phylog
phyf <- hclust2phylog(hf)
```

Code R pour la figure \@ref(fig:HclustFig):
```{r HclustCode, eval=FALSE}
plot(hf, h=-1)
```

Le résultat est en figure \@ref(fig:PhylogRaoFig).

(ref:PhylogRaoFig) Présentation de l'arbre phylogénétique avec la contribution de chacune des variables.
```{r PhylogRaoFig, echo=FALSE, results='hide', ref.label='PhylogRaoCode', fig.cap="(ref:PhylogRaoFig)"}
```

Code R pour la figure \@ref(fig:PhylogRaoFig):
```{r PhylogRaoCode, eval=FALSE}
table.phylog(pcaf$tab[names (phyf$leaves),], phyf)
```


La limite des distances ultramétriques est leur tendance à déformer le jeu de points [@Pavoine2005a].
Dans cet exemple, les deux premiers axes de l'ACP rendent compte de presque toute l'inertie.
Le nuage de points est pratiquement contenu dans un plan alors que sa représentation en distance ultramétrique est une hypersphère en 7 dimensions.

Le calcul de l'originalité des espèces utilise la fonction `originality` (figure \@ref(fig:originalityFig)).

```{r originalityFig, echo=FALSE, results='hide', ref.label='originalityCode', fig.cap="Originalité des espèces."}
```

Code R pour la figure \@ref(fig:originalityFig):
```{r originalityCode, eval=FALSE}
dotchart.phylog(phyf, originality(phyf, 5))
```

La fonction a pour paramètres l'objet `phylog` contenant la classification et le numéro de la méthode de calcul à utiliser, 5 pour l'entropie quadratique.
Sa représentation graphique est faite par `dotchart.phylog`:

L'originalité ne repose que sur l'arbre, pas sur la fréquence des espèces.

Si la distance utilisée n'est pas ultramétrique, il existe plusieurs distributions possibles d'espèces qui maximisent la diversité [@Pavoine2009], le concept d'originalité n'a pas de sens dans ce cas.

La valeur de l'entropie quadratique dépend de la hauteur de l'arbre.
Plusieurs normalisations ont été proposées: par sa valeur maximale ou par la diversité de Simpson (correspondant à un arbre dont toutes les espèces seraient équidistantes) [@Ricotta2005c], ou en fixant la hauteur de l'arbre à 1 [@Marcon2014b].


## Diversité et moyenne

@Garnier2004 définissent la moyenne pondérée d'un trait à l'échelle de la communauté (CWM: *Community Weigthed Mean*), simplement égal à la moyenne de la valeur du trait pondérée par la fréquence des espèces:

\begin{equation}
  (\#eq:CWM)
  \mathit{CWM} = \sum_s{p_s y_s}.
\end{equation}

CWM n'est pas une mesure de diversité fonctionnelle, bien qu'il ait été utilisé parfois en tant que tel [@Lavorel2008], mais une mesure de la composition de la communauté.
CWM peut être étendu à plusieurs traits: le vecteur formé par les valeurs de CWM pour chaque trait correspond au centre de gravité de la communauté représentée dans l'espace des traits.
L'entropie quadratique de Rao mesure la dispersion des espèces autour de ce point: les deux mesures se complètent donc [@Ricotta2011].


## Variations sur l'entropie quadratique

@Izsak2011 proposent deux variantes de l'indice de Rao dans lesquelles la distance entre espèces dépend de leurs probabilités:

\begin{equation}
  (\#eq:L1)
  L_1 = \sum_{s}{\sum_{t}{p_{s}p_{t}{\left(p_{s}-p_{t}\right)}^2}};
\end{equation}

\begin{equation}
  (\#eq:L2)
  L_2=\sum_{s}{\sum_{t}{p_{s}p_{t}{\left(\ln{p_{s}}-\ln{p_{t}}\right)}^2}}.
\end{equation}

Ces indices sont proposés pour leurs propriétés mathématiques, assurant l'existence de sa décomposition, sans support écologique bien établi.

$\mathbf{\Delta}$ est la matrice de dissimilarité dont les éléments sont $\delta_{s,t}$, la dissimilarité entre l'espèce $s$ et l'espèce $t$.
R. C. Guiasu et S. Guiasu [-@Guiasu2011; -@Guiasu2012] proposent l'indice $\mathit{{GS}_{D}}$ pour ses propriétés mathématiques et fournissent sa décomposition:

\begin{equation}
  (\#eq:Guiasu)
  \mathit{{GS}_{D}}=\sum_{s}{\sum_{t}{\delta_{s,t}p_{s}}}p_{t}\left(1-p_{s}p_{t}\right).
\end{equation}


## Diversité fonctionnelle de Chiu et Chao

@Chiu2014b proposent de pondérer l'entropie quadratique par la distance entre les paires d'espèces et obtiennent un nombre de Hill permettant de mesurer la diversité fonctionnelle à partir d'une matrice de dissimilarité:

\begin{equation}
  (\#eq:Chiu2014bDq)
  ^{q}\!D\left(Q\right)
  = \left[\sum_s{\sum_t{\frac{\delta_{s,t}}{Q}\left(p_s p_t\right)^q}}\right]^\frac{1}{2\left(1-q\right)};
\end{equation}

\begin{equation}
  (\#eq:Chiu2014bD1)
  ^{1}\!D\left(Q\right)
  = e^{\frac{1}{2}\left[\sum_s{\sum_t{p_s p_t\frac{\delta_{s,t}}{Q}\ln{p_s p_t}}}\right]}.
\end{equation}

La notation $^{q}\!D(Q)$ fait référence à l'entropie quadratique $Q = {^{2}\!\bar{H}}(T)$.
Une approche complémentaire est développée ci-dessous.
Chiu et Chao notent que $\mathit{{GS}_{D}} = Q - ^{q}\!D(Q)$.

La définition de Chiu et Chao revient à calculer l'entropie des paires d'individus à partir de la fonction d'information
$$I(p_s p_t) = \ln_q[\frac{(\frac{\delta_{s,t}}{Q})^{\frac{1}{1-q}}}{p_s p_t}]$$
pour $q \ne 1$ et
$$I(p_s p_t) = \ln[\frac{1}{(p_s p_t)^{\frac{\delta_{s,t}}{Q}}}]$$
pour $q=1$.
Le nombre effectif de paires est $[^{q}\!D(Q)]^2$. Le nombre effectif d'espèces est donc $^{q}\!D(Q)$.

Le nombre effectif de paires est le nombres de paires équifréquentes dont la distance entre les deux espèces est $Q$. Le problème de cette approche est que les paires constituées de la même espèce doivent aussi avoir une distance $\delta_{s,s}$ égale à $Q$. Chiu et Chao considèrent ce point comme la possibilité de prendre en compte la variabilité intraspécifique, mais elle doit être identique à la variabilité interspécifique, ce qui n'est pas très convaincant. En absence de variabilité intraspécifique, Chiu et Chao redéfinissent la distance de référence: $\delta_{s,s}=0$ et $\delta_{s,t}=(\frac{D}{D-1})Q$. Il n'est donc pas possible de comparer le nombre effectif d'espèces de deux communautés différentes puisque la définition même du nombre effectif dépend de la diversité, ce qui invalide cette définition de la diversité fonctionnelle.

Enfin, cette définition de la diversité ne respecte pas le principe de @Solow1993 selon lequel le remplacement d'une partie des effectifs d'une espèce par le même nombre d'individus d'une espèce différente mais fonctionnellement identique ne doit pas faire varier la diversité [@Botta-Dukat2017].


## $H_p$ et $I_1$ {#sec-HpI1}

Simultanément, @Pavoine2009a et @Allen2009 ont proposé la généralisation de l'indice de Shannon à la diversité phylogénétique.
La présentation de Allen et al. est donnée ici, celle de Pavoine et al., plus générale, sera détaillée dans le paragraphe suivant.

```{r ArbreA2, fig.cap="Arbre phylogénétique ou fonctionnel hypothétique.", echo=FALSE}
knitr::include_graphics('images/ArbreA.png')
```

Étant donné une phylogénie, comme celle de la figure \@ref(fig:ArbreA2), on définit une branche $b_{k,l}$ comme un segment terminé par une feuille (au bas de l'arbre) ou un noeud (dans l'arbre).
$k$ indique la période de l'arbre à laquelle la branche se termine, $l$ le numéro d'ordre.
Une branche n'existe que si elle se termine effectivement par un noeud ou une feuille: il n'y a pas de branche $b_{2,1}$ par exemple.
Sa probabilité $p(b_{k,l})$ est la somme des probabilités des feuilles de la branche, c'est-à-dire $u_{k,l}$, et $l(b)$ est sa longueur.
Sur la figure, la branche commençant en haut de l'arbre et se terminant au noeud réunissant les espèces 3 à 5 a une valeur $p(b_{2,3})$ égale à la somme des probabilités d'occurrence des espèces 3 à 5 alors que $p(b_{1,1})$ est seulement la probabilité de l'espèce 1.
Leurs longueurs respectives sont $T_2+T_3$ et $T_1+T_2$.
L'arbre possède 7 branches.

L'indice d'entropie phylogénétique est

\begin{equation}
  (\#eq:Hp)
  H_p =-\sum_{b}{l(b)p(b)\ln{p}(b)}.
\end{equation}

Dans un arbre parfaitement régulier, toutes les branches sont de longueur 1 et $H_p$ est l'indice de Shannon.