Titre | Applications of natural language processing to geoscience text data and prospectivity modelling |
| |
Auteur | Lawley, C J M ;
Gadd, M G ; Parsa, M; Lederer, G W; Graham, G E; Ford,
A |
Source | Natural Resources Research 32, 4, 2023 p. 1503-1527, https://doi.org/10.1007/s11053-023-10216-1 Accès ouvert |
Image |  |
Année | 2023 |
Séries alt. | Ressources naturelles Canada, Contribution externe 20220496 |
Éditeur | Springer |
Document | publication en série |
Lang. | anglais |
DOI | https://doi.org/10.1007/s11053-023-10216-1 |
Media | papier; numérique; en ligne |
Formats | pdf |
Sujets | applications par ordinateur; Données lisibles par machine; Intelligence artificielle; intégration des mots; modèles de langue; l'apprentissage machine; géomathématique; Nature et environnement; Sciences
et technologie |
Programme | Initiative géoscientifique ciblée (IGC-6) Projet de géoscience numérique et élaboration de méthodes |
Diffusé | 2023 06 02 |
Résumé | (non publié) Les cartes géologiques sont des modèles puissants pour visualiser la distribution complexe des types de roches dans l'espace et le temps. Cependant, l'information descriptive qui
constitue la base d'une interprétation cartographique privilégiée est généralement stockée dans les bases de données de cartes géologiques sous forme de données textuelles non structurées qui sont difficiles à utiliser en pratique. Dans cet article,
nous appliquons le traitement du langage naturel (NLP) aux données textuelles géoscientifiques du Canada, des États-Unis et de l'Australie afin de combler ce manque de connaissances. Tout d'abord, les descriptions de roches, les âges géologiques, les
informations lithostratigraphiques et d'autres données textuelles longues sont traduites en vecteurs numériques, c'est-à-dire en un encastrement de mots, en utilisant un modèle de langage géoscientifique. L'analyse de réseau des associations de mots,
les plus proches voisins et l'analyse en composantes principales sont ensuite utilisés comme méthodes de validation intrinsèques pour caractériser les groupements naturels de vecteurs de mots. Les résultats démontrent comment les intégrations de mots
capturent des relations sémantiques significatives entre les types de roches qui peuvent être extraites de données textuelles non structurées en utilisant des méthodes d'apprentissage automatique non supervisées. Nous démontrons en outre, à l'aide de
classificateurs Naive Bayes simples et de l'aire sous la courbe (AUC) pour le tracé des caractéristiques d'exploitation du récepteur comme mesure d'évaluation, comment les vecteurs de mots peuvent être utilisés pour : (1) prédire les emplacements des
roches " pegmatitiques " (AUC = 0,962) et " alcalines " (AUC = 0,938). Ces types de roches sont des sources importantes de minéraux critiques, mais les intrusions ignées hôtes ont tendance à être trop petites pour les applications de cartographie
continentale ; (2) prédire le potentiel minéral des gisements de Zn-Pb de type Mississippi-Valley (AUC = 0,868) et à dominante clastique (AUC = 0. 809) sur la base de l'âge et des caractéristiques lithologiques de leurs roches hôtes ; et (3)
rechercher dans des données textuelles géoscientifiques des analogues du gisement géant de Zn-Pb à dominante clastique de Mount Isa en utilisant les similitudes en cosinus entre les vecteurs de mots. Cette forme de recherche sémantique est une
approche NLP prometteuse pour évaluer le potentiel minéral avec des données d'entraînement limitées. Dans l'ensemble, les résultats soulignent comment les modèles de langage géoscientifiques et la PNL peuvent être utilisés pour extraire de nouvelles
connaissances à partir de données textuelles non structurées et réduire l'espace de recherche de l'exploration minérale pour les matières premières critiques. |
Sommaire | (Résumé en langage clair et simple, non publié) Modèle linguistique utilisé pour extraire de nouvelles connaissances à partir de données textuelles géoscientifiques. |
GEOSCAN ID | 331326 |
|
|