Trois objectifs ont été, plus particulièrement, mis au premier plan lors du projet de création de ce laboratoire junior. Etablis par les fondatrices et les membres du laboratoire junior en avril 2011, ils pourront être amenés à évoluer en même temps que nos réflexions.
Ce laboratoire junior regroupe initialement différentes disciplines (géographie, linguistique, informatique) autour des problématiques posées par les corpus. Cette interdisciplinarité se justifie par un matériau commun : le corpus textuel et par une volonté méthodologique partagée. Elle semble nécessaire à la construction d’une approche renouvelée. Par la suite, d’autres disciplines se grefferaient à ce premier collectif de jeunes chercheurs : des historiens ou des sociologues par exemple, mais aussi des chercheurs issus des mathématiques appliquées ou des sciences physiques.
L’ambition est donc de faire dialoguer des spécialistes de différentes disciplines autour des enjeux méthodologiques posés par le corpus. Le but serait d’échanger des savoirs, des méthodes et des outils ainsi que des problèmes. Il aborderait donc les questions posées par les corpus dans un cadre relativement large.
Parmi les questions soulevées, « l’ouvert du texte » (Adam et Viprey, 2009), c’est-à-dire des éléments extérieurs au texte que le chercheur peut être amené à incorporer dans son analyse, s’avère central. Cet ouvert doit-il être pris en compte dès les hypothèses, formatant alors le regard du chercheur ou doit-il être intégré sous la forme d’un codage d’analyse de contenu, ou encore doit-il être analysé ultérieurement comme un élément d’interprétation des résultats ?
Un des autres enjeux s’inscrit dans la question de l’appréhension de corpus de langues différentes avec le choix ou non de recourir à la traduction. Cette démarche comparative de plus en plus répandue questionne aussi la place du traitement automatique de texte par des logiciels qui peinent souvent à manier la complexité de langues distinctes.
Enfin, en termes de recueil et de formalisation des corpus, la numérisation ou non des données questionne le transfert de méthodes de traitement traditionnelles sur papier auquel le chercheur a été formé lors de son parcours universitaire, vers des méthodes encore parfois peu stabilisées du fait de l’émergence récente d’offres logicielles plus complètes.
Les travaux de recherche envisagés s’inscrivent dans une démarche synchronique et/ou diachronique ; ce qui sous-entend la manipulation de corpus de taille importante afin de pouvoir mener les études comparées. Or ces corpus, déjà imposants, prennent une tout autre ampleur lorsque des analyses fines sont menées à l’échelle du paragraphe, d’une structure ou même d’un mot. Face à la taille impressionnante des données à manipuler, développer des méthodes et des outils s’avère donc nécessaire.
En termes de méthodes, un des enjeux principaux s’inscrit à la croisée d’une approche qualitative presque « intuitive » et d’une approche quantitative fondée sur les ressorts de calculs statistiques. Cette complémentarité doit être creusée notamment en termes de temporalités de la recherche : par exemple quel type d’approches se justifie à quel moment du processus de recherche ?
En termes d’outils, une des questions fondamentales réside dans le champ des possibles offert par la numérisation. Or cette numérisation chronophage lors de la constitution des corpus semble précieuse dans un second temps d’analyse. Se pose donc la question des ressources mises à la disposition du chercheur, de l’automatisation de démarches parfois laborieuses, et enfin de la place laissée ou prise par le chercheur au sein de ce monde de l’intelligence artificielle.