L'Agence nationale de la recherche Des projets pour la science

Translate this page in english

Programme franco-allemand en Sciences humaines et sociales (FRAL)
Edition 2015


PHRASEOROM


La phraséologie du roman

PHRASEOROM
Analyser, sur de grands corpus textuels français, anglais et allemands, le fonctionnement des unités lexicales étendues spécifiques à la littérature contemporain. Le classement des données sur les plans sémantique, syntaxique et discursif est articulée à l'analyse stylistique. Il s’agit de jeter les fondements d’un lexique-grammaire des unités lexicales étendues qui contribuent à la construction du discours romanesque avec les moyens modernes de la linguistique de corpus et de la textométrie.

Enjeux et objectifs
a) Extraire des motifs textuels à partir des constructions lexico-syntaxiques spécifiques (CLS), automatiquement repérées (sous forme d’arbres lexico-syntaxiques ALR) dans les vastes corpus trilingues du projet (français, anglais, allemand).
b) Développer des outils pour mesurer la spécificité des CLS au sein des différents genres, sous-genres et de rechercher des motifs séquentiels transphrastiques (Lexicoscope : http://phraseotext.u-grenoble3.fr/lexicoscope/,
c) Elaborer une typologie structurelle et fonctionnelle des CLS statistiquement spécifiques au discours romanesque francophone, anglophone et germanophone du 20 ème siècle formant des motifs textuels afin de mieux identifier et caractériser le genre littéraire par rapport à d’autres genres et sous-genres littéraires et paralittéraires (sentimental, policier, science-fiction, fantasy, historique, général ).
d) Proposer des comparaisons interlinguistiques ponctuelles des CLS, en travaillant sur des corpus comparables et parallèles d'œuvres françaises, anglaises et allemandes afin de mieux cerner les ressemblances et les divergences dans les sous-genres littéraires anglophones, francophones et germanophones et les traditions scripturales respectives.
d) Conjoindre les approches textométriques, linguistiques et stylistiques pour aboutir à une description des patrons stylistiques littéraires en termes de « motifs textuels ».
f) Créer une base de données PhraséoBase ouverte aux chercheurs et aux étudiants à usage interdisciplinaire (linguistique de corpus, TAL, stylistique, traductologie, phraséologie, linguistique contrastive) en Humanités numériques

Méthodes et approches
Notre approche est essentiellement inductive, basée sur l’observation des données (corpus driven, cf. Sinclar, Biber, Hoey). Les arbres lexico-syntaxiques récurrents (ALR) spécifiques sont extraits des corpus à partir des pivots nominaux et verbaux dont la fréquence est supérieure à 5, puis leurs fréquences respectives sont comparées afin de mesurer leur spécificité dans chaque corpus. Suivant la méthode Keywords (Bertels et Speelmann, 2013), nous utilisons le calcul du rapport de vraisemblance ou log-likelihood ratio (LL). Les critères retenus pour la sélection des ALR représentatifs sont les suivants :
a) LL supérieur ou égal à 10,83. Cela correspond au seuil à partir duquel la surreprésentation de l’ALR dans un corpus peut être considérée comme statistiquement significative ;
b) Dispersion : ALR présent chez au moins 42 auteurs dans chacun des corpus ( par ex. environ 50 % pour le corpus POL). Le nombre d’auteurs représentés est fixé à l’identique pour les différents corpus et permet d’isoler des ALR caractéristiques d’un sous-genre et non seulement d’un auteur ou d'une œuvre ;
c) Critère morpho-syntaxique : on s'intéresse aux ALR contenant des verbes, pertinents pour la dimension sémantique étudiée . Cela permet en outre d’exclure les expressions exclusivement référentielles (ex : tous les habitants de l’immeuble, Monsieur le Procureur, les nains de jardin…).
Les ALR extraits et intégrés dans des fichiers Excell sont analysés ensuite selon une grille sémantique élaborée selon des ontologies existantes (Hanks, 1995 ; Thésaurus Larousse . Les ALR sont regroupés automatiquement par catégroies sémantiques et analysés sur le plan syntaxique et stylistique. Les variations des unités lexicales étendues sur le plan lexico-syntaxique permettent d’identifier différents motifs (par ex. le motif de la scène du crime dans le roman policier) et d’analyser leurs fonctions discursives. On obtient ainsi une analyse fonctionnelle globale des motifs textuels.

Résultats

Our approach is essentially corpus driven (see Sinclar, Biber, Hoey). The specific lexico-syntactic recurrent trees (ALR) are extracted from nominal and verbal core (frequency : more than 5 occurrences). Then their frequencies are compared in order to measure their specificity in each corpus. According to the Keywords method (Bertels and Speelmann, 2013), we use the calculation of the likelihood ratio or log-likelihood ratio (LL). The criteria selected for the selection of representative ARL are as follows:
a) LL greater than or equal to 10.83. This corresponds to the threshold at which the overrepresentation of ALR in a corpus can be considered statistically significant;
b) Dispersion: ALR present in at least 42 authors in each of the two corpora (for example approximately 50% for the detective fiction corpus ). The number of authors represented is fixed identically for the different corpora and makes it possible to isolate ALR characteristic of a genre and not only of an author or a work;
c) Morpho-syntactic criterion: we are interested in ALR containing verbs, relevant for the semantic dimension studied. This also allows excluding exclusively referential expressions (eg all inhabitants of the building, the Prosecutor, the garden gnomes ...).
The extracted ALR integrated in Excell files are then analyzed according to a semantic classification table elaborated according to existing ontologies (Hanks, 1995, Larousse Thesaurus). The ALR are automatically gathered by semantic categories and analyzed on the syntactic and stylistic level. Lexical and syntactical variations are observed in order to identify different textual motifs (e.g. the motif of the crime scene in the detective fiction) and analyze their discourse functions. We propose finally a global functional analysis of textual motifs.

Perspectives

A l’issue du projet, nous proposerons une typologie trilingue (français, anglais, allemand) des motifs textuels statistiquement spécifiques du genre littéraire en général et des sous-genres retenus permettant de mieux les caractériser et identifier. Toutes les données seront présentées sous forme de fichiers Excel, classées et intégrées à la PhraséoBase. Cette base de données PhraséoBase sera ouverte aux chercheurs et aux étudiants à usage interdisciplinaire (linguistique de corpus, TAL, stylistique, traductologie, phraséologie, linguistique contrastive) en Humanités numériques.
Une collaboration en vue de l’application des résultats du projet est en train d’être mise en place avec l’association Les Mots Voyageurs http://lesmotsvoyageurs.com. Nos données seront exploitées dans le cadre d’ateliers d’écriture littéraire pour adultes. Ce nouveau projet vise à explorer les motifs textuels, spécifiques à la littérature générale (GEN) en langue française et anglaise, en vue de leur exploitation dans le cadre d’ateliers d’écriture littéraire pour adultes. Les résultats du projet ANR DFG Phraséorom serviront de base au développement de cette nouvelle collaboration. Dirk Siepmann et Iva Novakova aussi établi des contacts avec Une Journée d’étude l’équipe de Michaela Mahlberg de l’Université de Birmingham (GB) en vue de l’organisation d’une Journée d’étude internationale sur les motifs littéraires en 2018 ou 2019 à Birmingham.

Productions scientifiques et brevets

Revues à comité de lecture: 11 publications
Chapitres d'ouvrage: 7
Communications et conférences: 13
Vulgarisation: 3 conférences

Total : 34

Partenaires

Uiversität Bonn, Anglistik Uiversität Bonn, Institut für Anglistik, Amerikanistik und Keltologie

Université Grenoble Alpes, Lidilem Université Grenoble Alpes, Laboratoire de Linguistique et Didactique des Langues Etrangères et Maternelles

Université Grenoble Alpes, Litt&Arts  Université Grenoble Alpes, Litt&Arts. Arts et pratiques du texte, de l’image, de l’écran et de la scène

Universität Erlangen, Romanistik Universität Erlangen, Institut für Romanistik

Universität Osnabrück, Anglistik (coord.) Universität Osnabrück,Institut für Anglistik und Amerikanistik

Aide de l'ANR 325 208 euros
Début et durée du projet scientifique mai 2016 - 36 mois

Résumé de soumission

Le principal objectif de ce projet est d’élaborer, dans une démarche inductive corpus-driven, une typologie structurelle et fonctionnelle des constructions lexico-syntaxiques spécifiques (CLS) au discours romanesque francophone, anglophone et germanophone du XXe siècle, le roman constituant le genre littéraire qui touche le lectorat le plus large. Sur la base de cette typologie, on procédera à deux types de comparaison :
a) entre littérature et paralittérature (angl. popular literature, all. Trivialliteratur ; science-fiction ; roman policier ; roman sentimental) ;
b) entre les pratiques stylistiques observables dans des traditions littéraires de pays différents (Royaume Uni, France, Allemagne).
Dans un premier temps, nous effectuerons des calculs statistiques qui permettront d’établir les récurrences significatives des constructions lexico-syntaxiques au sein des textes littéraires par rapport à un corpus de contraste (journalistique, scientifiques). Nous chercherons ensuite à établir, sur de grands corpus textuels, dans quelle mesure ces unités lexicales étendues jouent-elles un rôle dans la construction du texte littéraire et proposerons une typologie de ces unités. L’analyse linguistique des données sur les plans sémantique, syntaxique et discursif sera articulée à une analyse stylistique au sein de différents genres romanesques dans un but comparatif. Il s’agit de jeter les fondements d’un « lexique-grammaire » des constructions spécifiques au roman, avec des retombées en linguistique et en stylistique contrastives, ainsi qu’en traductologie.
Il s’agit d’un projet interdisciplinaire au croisement de la linguistique et des études littéraires et, en particulier, de la phraséologie, de la stylistique, de la théorie des genres, de la linguistique de corpus et du traitement automatique du langage (TAL). Par son objet de recherche (les phraséologismes du roman) et sa méthodologie (celle de la linguistique de corpus outillée), le projet relève du domaine des Humanités numériques en Sciences humaines et sociales.

 

Programme ANR : Programme franco-allemand en Sciences humaines et sociales (FRAL) 2015

Référence projet : ANR-15-FRAL-0009

Coordinateur du projet :
Madame Iva NOVAKOVA (Université Grenoble Alpes, Laboratoire de Linguistique et Didactique des Langues Etrangères et Maternelles)

Site internet du projet : https://phraseorom.univ-grenoble-alpes.fr/accueil

 

Revenir à la page précédente

 

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.