Titre | Geoscience language models and their intrinsic evaluation |
| |
Auteur | Lawley, C J M ;
Raimondo, S; Chen, T; Brin, L; Zakharov, A; Kur, D; Hui, J; Newton, G; Burgoyne, S L ; Marquis, G |
Source | Applied Computing and Geosciences 14, 100084, 2022 p. 1-10, https://doi.org/10.1016/j.acags.2022.100084 Accès ouvert |
Image |  |
Année | 2022 |
Séries alt. | Ressources naturelles Canada, Contribution externe 20210227 |
Éditeur | Elsevier |
Document | publication en série |
Lang. | anglais |
DOI | https://doi.org/10.1016/j.acags.2022.100084 |
Media | papier; numérique; en ligne |
Référence reliée | Cette publication est reliée à Datasets to
support geoscience language models |
Formats | pdf |
Sujets | applications par ordinateur; Données lisibles par machine; Intelligence artificielle; intégration des mots; modèles de langue; l'apprentissage machine; géomathématique; Nature et environnement; Sciences
et technologie |
Illustrations | organigrammes; graphiques; tableaux; graphiques |
Programme | Initiative géoscientifique ciblée (IGC-6) Projet de géoscience numérique et élaboration de méthodes |
Diffusé | 2022 06 01 |
Résumé | (non publié) Les géoscientifiques utilisent des observations et des descriptions des roches pour élucider l'origine des planètes, ce qui, au fil du temps, a donné lieu à un vaste volume de
littérature scientifique. Cependant, les outils numériques nécessaires pour analyser ce texte non structuré ont eu tendance à être en retard par rapport aux autres technologies avancées qui ont amélioré la détection, la quantification et la
modélisation des processus géoscientifiques. Les méthodes avancées d'apprentissage automatique et le traitement du langage naturel (NLP) ont le potentiel de combler ce manque de connaissances, mais se sont, jusqu'à présent, concentrées sur d'autres
disciplines scientifiques plutôt que sur les concepts et vocabulaires spécifiques à la géoscience. Dans le présent document, nous récoltons et traitons des rapports géoscientifiques publics (c.-à-d., des bases de données de publications de
commissions géologiques fédérales et provinciales) et un sous-ensemble de publications à accès libre et révisées par des pairs afin d'entraîner de nouveaux modèles linguistiques à l'aide de textes géologiques. La performance du modèle linguistique
est validée à l'aide d'une gamme de tâches de TAL spécifiques à la géoscience (c.-à-d., analogies, regroupement, parenté et analyse du plus proche voisin) qui ont été développées dans le cadre de l'étude actuelle. Nous démontrons que les modèles de
langage non contextuels (i.e., Global Vectors for Word Representation, GloVe) et contextuels (i.e., Bidirectional Encoder Representations from Transformers, BERT) mis à jour en utilisant les corpus géoscientifiques surpassent les versions
pré-entraînées de ces modèles pour chacun des critères d'évaluation. Les résultats suggèrent qu'un réentraînement continu et spécifique à un domaine a le potentiel d'améliorer les performances des modèles de langage pour des tâches spécifiques.
L'analyse en composantes principales suggère également que les encastrements de mots formés sur des textes géoscientifiques capturent des relations sémantiques significatives, y compris les classifications de roches, les propriétés et compositions
minérales, et le comportement géochimique des éléments. Les relations sémantiques qui émergent de l'espace vectoriel ont le potentiel de débloquer les connaissances latentes dans les textes non structurés, mais, ce qui est peut-être plus important,
elles soulignent également le potentiel des mots incorporés à être utilisés dans d'autres tâches NLP en aval (par exemple, la prédiction de mots clés, la similarité des documents, les systèmes de recommandation, la classification des roches et des
minéraux). Les publications publiques ouvertes, associées à un meilleur accès au calcul haute performance sur le cloud, représentent donc des atouts stratégiques pour de nouvelles applications du NLP en géoscience. |
Sommaire | (Résumé en langage clair et simple, non publié) Les modèles de langage sont à la base de la plupart des outils de prédiction de texte que les gens utilisent dans leur vie quotidienne et sont
souvent entraînés sur des textes généraux provenant du Web. Nous démontrons ici que le réentraînement des modèles de langage à l'aide de rapports géoscientifiques peut améliorer les performances du modèle pour des tâches spécifiques. Ces modèles de
langage géologiques améliorés pourront être appliqués à l'avenir à toute une série de tâches, notamment la prédiction de mots-clés, la similarité de documents et les systèmes de recommandation. |
GEOSCAN ID | 328838 |
|
|