Bonjour,
J'ai identifié un bug en analysant les données (prises directement sur l'API du MESR) .
L'UR 4081 Rome et ses renaisances : arts, archéologie, littérature et philosophie,
Rattachée aux ED 124 et 22, et figurant donc deux fois dans la colonne `nom_laboratoires`,
est, en les deux occurrences, coupée en deux morceaux.
Par exemple, pour l'ED 124, on obtient cette liste de labos :
['Centre de Recherche sur l’Extrême-Orient de Paris-Sorbonne (CREOPS)',
'Centre de Recherche sur l’Amérique Préhispanique (CeRAP)',
"Centre André Chastel : Laboratoire de recherche en histoire de l'art",
'Orient et Méditerranée, textes - archéologie - histoire (O&M)',
'Rome et ses renaissances',
'arts, archéologie, Littératures et philosophie']
Vous pouvez identifier de tels cas à venir en comparant les longueurs de listes de noms et d'identifiants de labos à l'aide du code suivant :
```python
data.identifiant_laboratoires = data.identifiant_laboratoires.str.split(";")
n_1 = data.identifiant_laboratoires.apply(len)
n_2 = data.nom_laboratoires.apply(len)
print((n_1 != n_2).sum())
display(labos[n_1 != n_2])
```
Cordialement,