Ce billet fait suite à un premier, dans lequel nous avions commencé à nous intéresser aux noms des entreprises en Bretagne administrative, en travaillant notamment sur les mots.
Nous allons poursuivre dans cette seconde partie en travaillant cette fois sur les lettres.
Données
Les informations sur les entreprises et leurs établissements proviennent de la base Sirene, disponible en Open Data sur le site data.gouv.fr.
Les entreprises répertoriées dans ce jeu de données peuvent-être classées en 2 catégories :
- Les entreprises.
- Les entrepreneurs individuels.
Tout comme dans la première partie de cette série, nous ne prendrons en compte que les entreprises.
Précisons que la base Sirene recense le nom d’exploitation de la société ainsi que le nom de l’enseigne, qui peuvent parfois être différents. C’est le nom d’exploitation que nous utiliserons ici.
Analyse exploratoire
Rappelons pour commencer que le nombre d’établissements référencés en Bretagne administrative est de 468 108.
Commençons par l’utilisation des lettres de l’alphabet, en comptabilisant le nombre d’occurrences pour chaque lettre.
C’est sans réelle surprise la lettre e qui apparaît le plus souvent.
Plus globalement, la fréquence d’apparition des lettres dans le nom des entreprises est-elle similaire à celle observée dans la langue française (qui est plus basée sur du contenu littéraire que sur des appellations) ?
Comparons les deux fréquences d’utilisation :
Vous pouvez vous reporter à la fiche Wikipedia correspondante pour plus d’information sur la fréquence d’apparition des lettres en français.
Les fréquences d’utilisation semblent relativement similaires. Essayons de valider statistiquement cette intuition.
La différence de fréquence entre les deux catégories (noms d’entreprises, langue française) pour chaque lettre est comprise entre 0.07% et 2.57%, pour une moyenne de 0.86%.
Pour en savoir plus les boîtes à moustache, se reporter à la fiche Wikipedia.
Le coefficient de corrélation entre les fréquences est de 0.95 (avec un interval de confiance compris entre 0.89 et 0.98), ce qui est considéré comme élevé (le maximum étant 1).
Observons graphiquement cette corrélation en affichant pour chaque lettre une fréquence d’utilisation (noms sur l’axe des abscisses) par rapport à l’autre (langue française sur l’axe des ordonnées).
Plus une lettre est proche de la ligne en pointillés (qui indique une corrélation parfaite), plus la corrélation est importante.
La représentation graphique vient confirmer la corrélation élevée (0.95) qu’il y a dans l’usage des lettres de l’alphabet entre les noms d’entreprises et la langue française.
Terminons avec quelques noms surprenants, dans la mesure où ceux-ci sont composés d’une seule et même lettre, répétée une ou plusieurs fois :
Nom | Activité |
---|---|
CC | Autres activités de services |
K | Activités immobilières |
L | Activités immobilières |
AA | Activités de services administratifs et de soutien |
K | Commerce ; réparation d’automobiles et de motocycles |
K | Commerce ; réparation d’automobiles et de motocycles |
DD | Activités immobilières |
O | Activités immobilières |
MMM | Activités immobilières |
55 | Activités immobilières |
B | Industrie manufacturière |
H | Activités spécialisées, scientifiques et techniques |
AAA | Activités financières et d’assurance |
K | Construction |
K | Activités immobilières |
H | Activités immobilières |
Conclusion
On le constate, les noms des entreprises peuvent faire l’objet de nombreuses études, qu’elles soient informatives ou plus anecdotiques.
Les idées et sujets d’exploration ne manquent donc pas, et seront, qui sait, peut-être un prétexte à un troisième billet sur le sujet…
Le code R utilisé pour la rédaction de cet article ainsi que du précédent est disponible sur notre dépôt de sources Github.
Rédigé par: Michel Caradec
Rédacteur pour Data Bzh
Une réponse sur “Noms des entreprises en Bretagne administrative – Partie 2”
Les commentaires sont fermés.