Trois séances du cours « Méthodologie de la recherche documentaire et du traitement de l’information » se déroulent à la Bibliothèque :

  • Visite thématique de la Bibliothèque, présentant des aspects bibliothéconomiques (types de documents et de supports, classement, localisation,etc) et ses services (groupe d’étudiants divisé en deux, 2x1heure);
  • Présentation théorique des ressources électroniques de la Bibliothèque (cours avec vidéoprojection) durant 2 heures en salle de formation;
  • Travaux Pratiques : deux étudiants par poste informatique (salle équipée de 10 postes) mettent en application l’interrogation des bases de données, vues précédemment, en fonction de leur recherche bibliographique.

Chacune de ces séances se déroule en présence d’un bibliothécaire-formateur et de l’enseignant de l’EC.

Contacts à la BU :

Responsable des formations : Isabelle Breuil (isabelle.breuil@univ-paris8.fr)

Quelques informations concernant le contenu des formations en bibliothèque :

Mémento du formateur (19/09/2008),
réalisé par l’équipe des formateurs et Isabelle Breuil :

Objet : contenu et déroulement idéal d’une séance de formation de deux heures.

Forme : séance de démonstration avec projection sur le mur de l’écran d’ordinateur relié au

réseau.

Les objectifs :

1/ donner une vue synoptique des ressources électroniques disponibles,

2/ apprendre à lire les interfaces et à évoluer dans les sites,

3/ présenter les méthodes et syntaxes d’interrogation.

L’ensemble des points est présenté non pas de manière abstraite mais moyennant des exemples illustratifs qui sont empruntés chaque fois à la discipline, voir au thème de l’UE, des étudiants.

Dans ce mémento, vous trouverez seulement la structure du contenu et des étapes de la démonstration. A chacun de l’illustrer chaque fois dans la discipline des étudiants. Vous avez ici les incontournables, ce qui doit absolument figurer dans toute formation, que tout étudiant est censé savoir après avoir suivi une formation de la bibliothèque.

* * *

I- Typologie des outils informatiques

– Les outils de recherche bibliographique et documentaire sont aujourd’hui essentiellement des outils informatiques (ou électroniques).

– On distingue plusieurs types de ressources, chaque ressource étant caractérisée par des collections de documents d’un certain type et d’un outil de recherche spécifique :

  • Les collections physiques des documents de bibliothèque et leurs catalogues informatisés : les catalogues de bibliothèque universitaire (par exemple, celui de Paris-8, environ 320.000 titres et 400.000 exemplaires, septembre 2008), le Sudoc (environ 7 millions de références), les catalogues de la BNF, en particulier BN Opale Plus (catalogue général des collections imprimées, environ 9 millions de références), et également BN Opaline (catalogues des départements conservant des documents « spécialisés » : Arts du spectacle, Cartes et plans, Estampes et photographie, Manuscrits, Monnaies, médailles et antiques, Musique).
  • Les banques de données et leurs logiciels d’interrogation. Il en existe trois types:
    – i/ bibliographiques, telles Electre (notices descriptives des ouvrages disponibles dans le commerce) et, en particulier, celles qui « dépouillent » des périodiques (Francis, etc.),
    – ii/ de texte intégral : encyclopédies (Encyclopaedia universalis), archives de presse (Factiva), oeuvres d’auteurs classiques (Frantext),
    – iii/ mixtes, comprenant à la fois notices descriptives et texte intégral des articles (PsycInfo).
  • L’Internet visible et les moteurs de recherche ou les répertoires : l’Internet visible, c’est-à-dire les pages du Web qui sont directement accessibles par les moteurs de recherche, par opposition à l’Internet invisible, c’est-à-dire les bases de données, ensembles clos, dont le contenu n’est accessible que par le sas d’une page d’accueil. Leur consultation implique, donc, qu’on les localise préalablement dans le réseau pour pouvoir y entrer. (L’accès à la page d’accueil de la bases de données se fait soit en en saisissant l’URL, c’est-à-dire l’adresse électronique, soit en cliquant sur un lien qui y conduise, à partir, par exemple, d’un site de bibliothèque, soit encore en saisissant le nom de la bases de données dans un moteur de recherche.) Il existe, enfin, des répertoires (ou « guides web », c’est-à-dire des classifications thématiques arborescentes des sites et pages, non exhaustives, nécessairement partielles, qui permettent une recherche d’information par sujet. Sont répertoriés essentiellement des sites, parties de sites, voire de simples pages. Les répertoires référencent aussi des banques de données.
  • Les fédérateurs de contenus : nous disposons désormais d’un nouvel outil de recherche, les fédérateurs de contenus qui permettent une recherche dite « multibases », c’est-à-dire une recherche sur plusieurs bases, sur une pluralité de ressources quel que soit leur type, ceci grâce à un protocole d’interrogation. Ainsi, si l’on pouvait considérer, jusqu’à présent, que les catalogues servaient à rechercher principalement des livres, les banques de données des articles et les moteurs de recherche des pages de site web, le fédérateur de contenu peut effectuer une recherche et obtenir des résultats dans ces trois types de ressources à la fois. La bibliothèque de Paris 8 a mis en place un fédérateur, en phase de développement, associant les catalogues de Paris 8, Paris 13 ainsi qu’un certain nombre de bases de données propres à Paris 8. Un résolveur de liens permet de localiser, pour l’instant dans le catalogue du Sudoc, le document lié à une référence pertinente, isolée par la Métarecherche.

Catalogues de bibliothèques, banques de données et Internet visible et fédérateurs de contenus sont parties intégrantes de l’Internet au sens large, le nouveau média pris dans sa globalité, c’est-à-dire l’ensemble des données et textes numérisés accessibles en ligne.

II- Les étapes de la recherche

Il n’y a pas, bien entendu, un unique parcours possible à l’intérieur des ressources électroniques. On peut, néanmoins, du point de vue méthodologique, recommander de suivre certaines étapes.

A/ Entrer dans un sujet

Inutile de se précipiter sur l’ordinateur. Pour une recherche efficace, il convient de bien définir au préalable le sujet et les mots clés qui le caractérisent. Une recherche documentaire est avant tout une question de définition et de vocabulaire : il faut définir précisément son sujet de recherche afin de choisir les bons termes ou mots clés qui serviront à l’interrogation.

Pour effectuer une première approche du sujet et prendre connaissance de sa terminologie spécifique, la meilleure façon est de consulter des encyclopédies généralistes puis des outils de référence spécialisés, tels que dictionnaires, manuels, petits ouvrages de synthèse :

– En français, l’encyclopédie de référence au niveau universitaire est l’Encyclopaedia Universalis (version imprimée ou en ligne), et non les encyclopédies gratuites disponibles sur l’Internet (Wikipédia, encyclopédie coopérative très inégale, les articles n’étant pas validés par les spécialistes autorisés mais rédigés par des bénévoles).

– En anglais, l’Encyclopaedia Britannica, (version imprimée).

– Dictionnaires spécialisés : par exemple ceux de la série des grands dictionnaires (25 cm) des Presses universitaires de France.

– Manuels de l’enseignement supérieur. Il existe de nombreuses collections de manuels chez différents éditeurs destinés spécialement au public étudiant, en particulier dans les sciences sociales (exemples : Thémis, U, Premier Cycle, Cursus, etc.)

– Collections d’ouvrages de poche de synthèse (Que sais-je ?, Domino, Repères, 128, etc.)

Tous ces ouvrages fournissent des références bibliographiques, sommaires ou détaillées.

On prend ainsi connaissance des informations de base sur un sujet et on se familiarise avec les concepts essentiels et le vocabulaire qui le caractérisent. Pour autant, ceux-ci ne correspondent pas nécessairement aux mots clés utilisés pour l’interrogation au moyen des outils informatiques. (Voir infra, la notion de « langage documentaire » et la méthode pour les chercher et trouver les descripteurs.)

B/ L’interrogation des catalogues

1/ Le catalogue de bibliothèque universitaire de Paris-8 (bibliothèque de proximité)

– Contient les références de 320.000 titres de documents de tous types, correspondants à 400.000 exemplaires (moitié en salles, moitié en magasins).

– Un catalogue a deux fonctions. Il est utilisé pour deux types de recherche : i/ la recherche par références (il s’agit de savoir si la bibliothèque possède le ou les documents dont on a les références et de le ou les y localiser), 2/ la recherche par sujet (il s’agit, partant d’un thème d’exposé, de mémoire, etc., de trouver des références bibliographiques). La recherche de références peut s’effectuer en général dans le cadre de la recherche dite simple, c’est-à-dire dans la fenêtre unique apparaissant sur la première page d’interrogation. Pour la recherche par sujet, il faut passer par la recherche dite « avancée ». Elle fait accéder à une deuxième page comprenant une grille d’interrogation. Cette grille permet d’effectuer une recherche par un critère précis ou par des critères croisés.

– La recherche avancée permet non seulement d’associer plusieurs critères de recherche mais aussi de les combiner par des opérateurs logiques (les opérateurs booléens).

– L’usage des opérateurs logiques, dits booléens. Implicite dans certains catalogues de bibliothèque, obligatoire dans certaines bases de données, il est ici facultatif. Les opérateurs permettent d’effectuer les opérations logiques de base sur un ensemble de données. Il y a en a trois : et, ou et sauf qui correspondent, dans la théorie des ensembles, aux trois opérations de l’intersection, de la réunion et de l’exclusion. Il s’agit, chaque fois, de définir un ensemble de notices pertinent au moyen d’opérations sur des ensembles grâce aux opérateurs logiques.

– Si l’on ne recourt pas aux opérateurs booléens, c’est-à-dire si l’on s’en tient à une recherche dans tous les mots de la notice, l’opérateur « et » est implicite. On peut donc s’en passer, mais dès que l’on veut affiner sa recherche, en la précisant ou en l’élargissant, il est recommandé d’y recourir. Leur usage contraint à une petit gymnastique intellectuelle qui est le prix à payer pour pouvoir procéder à des interrogations plus fines ou plus complexes.

– Interrogation par expressions, troncatures (et indicateurs de proximité). Il existe d’autres éléments de syntaxe qui permettent, combinés aux opérateurs booléens, de construire des équations de recherche plus ou moins complexes.

– Interroger par une expression, c’est interroger par une suite déterminée de mots, c’est-à-dire tels mots et dans tel ordre. Les guillemets servent le plus souvent à signifier l’expression. (Ex. : « désenchantement du monde »)

– Interroger par les troncatures. Les troncatures sont de deux sortes : troncature interne à un mot de un ou plusieurs caractères, troncature à droite de n caractères. Permettant de jouer sur les racines des mots, ils consistent, à l’instar de l’opérateur booléen « ou » à élargir la recherche en obtenant des résultats intégrant tous les mots appartenant à une même famille. Le symbole de la troncature est, dans notre catalogue, le symbole $.

– (Les opérateurs de proximité posent des conditions portant sur la proximité contextuelle des termes de l’interrogation : à l’intérieur d’une même phrase ou à l’intérieur d’un même champ de notice. Ils consistent donc, à l’instar de l’opérateur « et », à limiter les résultats ou affiner la recherche.)

– Dans certaines bases (BN Opale Plus, Portail du Sudoc,…), on trouve une présentation un peu différente des modalités d’interrogation : i/ « contenant tous les mots », équivalent de l’usage de l’opérateur « et », ii/ « dont l’un des mots est », équivalent de l’opérateur « ou », iii/ « contenant exactement », équivalent de la recherche par expression.

– Selon les logiciels d’interrogation, on peut utiliser l’ensemble de ces outils soit en remplissant des grilles soit en saisissant in extenso des équations de recherche. La plupart des bases de données offrent les deux possibilités, mais mettent souvent l’accent sur une modalité plutôt que sur l’autre. Pour écrire des équations dans les bases utilisant le logiciel Webspirs, il faudra saisir, pour effectuer une recherche par critères croisés (c’est-à-dire associant des critères différents), des abréviations désignant les champ de la notice (ti pour titre, au pour auteur, etc.).

– La recherche thématique ou par mots du sujet. Il faut insister sur la recherche thématique qui, n’étant pas intuitive, présente quelque difficulté. Cette recherche ne s’effectue pas librement mais moyennant un vocabulaire contrôlé, c’est-à-dire par l’intermédiaire d’une terminologie préétablie. Ce vocabulaire est celui que les catalogueurs utilisent pour décrire, dans la zone « sujet (mots clés) » des notices, le contenu des documents. Cette terminologie se nomme RAMEAU, elle est gérée par la Bibliothèque nationale de France et est utilisée, en particulier, dans l’ensemble des bibliothèques universitaires de France (également à la BNF, à la BPI, dans la base de données Electre,…).

– Si l’on fait une recherche thématique dans tous les mots de la notice, il y aura « bruit » (résultats pertinents perdus au milieu des résultats hors sujet) et cette recherche devra être précisée. Si l’on fait une recherche par sujet dans les mots du titre, il y aura « silence » (absence ou trop peu de résultas) et cette recherche devra être élargie.

– Conséquence pour la recherche : i/ bien cerner son sujet, ii/ faire varier les termes de l’interrogation en recourant à des synonymes ou des termes proches, iii/ repérer dans les notices les termes (ou descripteurs) admis, iv/ relancer la recherche avec ces derniers en cliquant sur les liens. Les descripteurs identifiés dans un catalogue universitaire peuvent être réutilisés dans tout autre catalogue universitaire, dans le Sudoc, dans BN Opale Plus. Il est possible, pour aider à la recherche des descripteurs pertinents, de consulter la liste RAMEAU sur le site de la BNF (section « Professionnels > Autorités RAMEAU ») ou bien la recherche « sujet » dans le Sudoc.

– A l’intérieur de chaque notice, il y a des liens qui permettent de rebondir vers d’autres notices. C’est le cas en particulier, en dépit de quelques anomalies, des mots clés RAMEAU. Exemple : en cliquant sur le descripteur « sociologie de la culture » dans la zone sujet de la notice d’un ouvrage, on obtient la totalité des notices d’ouvrages ayant été indexés avec cette expression.

2/ Le SUDOC

– C’est le Système universitaire de documentation, catalogue collectif de l’ensemble des bibliothèques universitaires de France (plus largement de 2900 centres documentaires).

– Il contient actuellement 7 millions de notice.

– C’est un outil absolument indispensable. C’est le catalogue à consulter prioritairement après le catalogue d’une bibliothèque universitaire pour trouver des documents qui ne se trouvent pas dans celle-ci:

– i/ en raison de son ampleur, on y trouvera le plus souvent le document cherché (seul le CCFR, voir infra, est plus étendu),

– ii/ son logiciel et son interface en rendent l’interrogation aisée et efficace,

– iii/ il est étroitement lié au PEB, service de fourniture de documents à distance (voir infra).

– On y accède soit par un lien à partir de l’interface du site de la bibliothèque de Paris-8, soit par son adresse (http://www.sudoc.abes.fr), soit par un moteur de recherche en saisissant « sudoc ».

– Les principes de recherche sont les mêmes que dans les catalogues de bibliothèque universitaire.

– Attention aux spécificités, en particulier :

– i/ recherche par défaut dans les mots du titre ; accès aux autres critères et à tous les critères confondus (« tous les mots ») par un menu déroulant,

– ii/ accès à la recherche avancée qui propose des critères plus nombreux et détaillés que notre catalogue. (La recherche avancée doit toujours être présentée.)

– Ce catalogue est lié au service du prêt entre bibliothèques (PEB), service de fourniture à distance des documents qui permet à tout étudiant de faire venir un document de son choix dans la bibliothèque universitaire où il est inscrit. Attention : i/ pour les étudiants parisiens, le PEB ne fonctionne que pour les documents se trouvant dans des bibliothèque hors d’Île-de-France, ii/ tous les documents ne sont pas disponibles pour le PEB.

– Conditions : i/ service payant : 3,00 euros pour une monographie ou une thèse (frais de port), 2,00 euros pour un document sur microfiches, 3,00 euros pour 50 photocopies (3,0 euros pour toute tranche supplémentaire de 50 pages), ii/ délai de 15 jours à 3 semaines.

– Bouton de localisation en bas à droite de chaque notice : affiche l’ensemble des bibliothèques universitaires possédant un document (mais attention aux doublons).

– Formulaires de demande de PEB par type de document : accès par le lien « Site de la bibliothèque de Paris-8 » sur l’interface publique > « Services » > « Prêt entre bibliothèques ».

3/ BN OPALE PLUS

– Le catalogue des collections imprimées de la Bibliothèque nationale.

– Contient les notices d’environ 8 millions de documents.

– Accès par un lien à partir d’interface du site de la bibliothèque de Paris-8, par l’adresse (http://www.bnf.fr) ou par un moteur de recherche en saisissant « bnf ».

– Intérêt particulier : en raison du Dépôt légal (qui oblige tout éditeur ou imprimeur français à déposer à la Bibliothèque Nationale deux exemplaires des ouvrages qu’il édite ou imprime) est, en principe, exhaustif pour la production éditoriale française. Comprend également d’importantes collections de documents étrangers.

– Son logiciel d’interrogation est plus complexe et rigide que celui du Sudoc. Attention, en particulier, à ne pas utiliser pour une recherche courante le critère « commençant par » qui est retenu par défaut.

– Présenter éventuellement l’interface de ce catalogue et les spécificités des modalités d’interrogation.

– Signaler également l’existence de BN Opaline, catalogue en ligne des collections spécialisées.

4/ Autres catalogues

– Le Catalogue collectif de France (CCFR) est, en principe, le catalogue collectif le plus complet (projet conduit par la BNF). Il permet d’interroger simultanément BN Opale Plus, le Sudoc et le BMR (catalogue des bibliothèques municipales, fonds rétroconvertis).

– C’est un instrument de localisation pour environ 15 millions de documents.

– Inconvénients : i/ pas de recherche par sujet, ii/ affichages peu lisibles, iii/ lenteur ou éjection lors de la consultation.

– Les catalogues collectifs internationaux . Il existe bon nombre d’initiatives dans le domaine des catalogues collectifs internationaux, appelés encore métacatalogues.

– La plus impressionnante est celle mise en oeuvre par l’OCLC (Online Computer Library Center), organisme majeur de coopération entre bibliothèques du monde entier. Le Worldcat, issu de cette coopération, est le plus grand catalogue collectif, permettant une recherche multisupport (livres et multimédias), alimenté par près de 9000 bibliothèques dans 100 pays, et donnant accès à un peu plus de 100 millions de notices bibliographiques

– Le Karlsruher Virtueller Katalog (KVK) est un métacatalogue qui permet l’interrogation simultanée d’une trentaine de catalogues et catalogues collectifs (dont BN Opale plus et COPAL, équivalent britannique du SUDOC) d’une vingtaine de pays, ainsi que de 8 catalogues commerciaux en ligne.

C/ L’interrogation des banques de données

Il y a trois types de banques de données :

i/ les banques de données bibliographiques qui, comme les catalogues, contiennent des notices de description des documents. Les banques de données de « dépouillement de périodiques » sont l’une des applications les plus significatives. Elles servent à rechercher, identifier, localiser des articles de périodiques,

ii/ les banques de données en texte intégral qui ont plusieurs applications possibles. Les principales sont : les encyclopédies numériques (Encyclopaedia universalis,…), les archives de presse (Factiva), les oeuvres de un ou plusieurs auteurs (Frantext, Gallica,…), les portails de revues scientifiques (Jstor, Cairn,etc).

iii/ les banques de données mixtes qui donnent accès à partir des notices descriptives au texte intégral des documents (articles, thèses,…). Le meilleur exemple, en sciences humaines, en est aujourd’hui PsycInfo.

C1/ L’interrogation des banques de données bibliographiques

a-Définition

– Les banques de données bibliographiques référencent d’autres types de documents que les catalogues de bibliothèque. Elles ne sont pas liées à des collections physiques et ne constituent donc pas, généralement, des outils de localisation.

– A la différence des catalogues de bibliothèques, toutes les banques de données ne sont pas libres d’accès. Beaucoup sont payantes – et fort chères – et ne sont consultables que sur la base d’un abonnement. Dans ce cas, les étudiants doivent les consulter à partir d’une bibliothèque ou du campus (pour Paris 8).

– Exemple : Electre (www.electre.com) est un catalogue des ouvrages disponibles dans le commerce en France. Accès par un lien à partir de l’interface du site web de la bibliothèque.

– Les principales banques de données bibliographiques « dépouillent » des périodiques spécialisés, c’est-à-dire référencent les articles qui y sont publiés. Elles constituent en quelque sorte des catalogues d’articles (sans lien préférentiel à une collection physique particulière). Attention : elles ne se proposent pas d’être exhaustives et ne proposent jamais qu’une sélection d’articles parmi tous ceux publiés (les périodiques ne sont pas tous retenus et aucun n’est entièrement dépouillé).

– Les banques de données mixtes proposent également le texte intégral des articles (120.000 dans PsycInfo). C’est la formule la plus pratique qui se développe rapidement.

– Pourquoi chercher des articles de périodiques spécialisés (à distinguer des revues d’idées générales : Esprit, Le Débat, Les Temps modernes,…) ?:

– i/ les publications périodiques reflètent l’actualité de la recherche,

– ii/ elles proposent des études courtes sur des sujets pointus (sur lesquels il n’existe pas forcément de monographie).

b-Francis (à présenter dans tous les cas) :

– Francis est, en langue française, la banque de données incontournable pour les références d’articles en lettres et sciences humaines. Produite par l’INIST (Institut National de l’Information Scientifique et technique), branche du CNRS. Pluridisciplinaire, elle dépouille la littérature spécialisée (des revues principalement, mais aussi des actes de congrès, des rapports de recherche et quelques monographies) depuis 1984 dans les principales sciences humaines et sociales (principale lacune : l’histoire). Pascal est son équivalent dans le domaine scientifique.

– Accessible à partir de l’interface de la bibliothèque : Recherche > bases de données > F > Francis. (Une version gratuite de cette base est disponible en ligne à l’adresse suivante : http://services.inist.fr/public/fre/conslt.htm).

– L’accès à la base Francis s’effectue par l’intermédiaire d’une plate-forme qui donne simultanément accès à l’ensemble des bases interrogeables avec le logiciel Webspirs.

– Voir le support spécifique pour les détails de l’interrogation de Francis.

c-Interroger les banques de données

– Les banques de données ont, en général, des interfaces moins conviviales que celles des catalogues de bibliothèque, mais elles reposent sur les mêmes principes. Les modalités d’interrogation sont grosso modo les mêmes.

– Langue d’interrogation : la plupart des bases étant anglo-saxonnes, le vocabulaire d’interrogation est l’anglais. Francis est interrogeable en français (abstraction faite des accents) sauf pour la syntaxe (opérateurs et abréviations des champs), le logiciel étant anglais

– La plupart des banques de données ne donnent pas encore accès aux textes-mêmes des articles. Après avoir identifié des références d’articles, il faut donc interroger à nouveau les catalogues de bibliothèques pour localiser physiquement les périodiques dans lesquels ils se trouvent. L’outil de référence est ici le Sudoc. Le fédérateur de contenus (Métarecherche) permet justement d’établir le lien entre les références d’articles et leur localisation dans les bibliothèques, via le Sudoc. On utilise alors la recherche avancée qui permet une interrogation dans les seuls périodiques. Les données permettant d’identifier l’année et le numéro précis des périodiques se trouvent dans le champ SO (pour « Source »). Il est également conseillé de relever le numéro d’ISSN, nombre à 8 chiffres attribué à chaque périodique et qui permet une identification absolue dans les cas d’homonymie ou d’incertitude sur le titre.

D/ l’interrogation de l’Internet visible : moteurs et répertoires

1/ Présentation générale

– Il est indispensable de faire précéder l’interrogation de l’Internet d’une présentation rapide des principes d’organisation de ce média et de ses conséquences sur la nature et la qualité des informations que l’on est susceptible d’y trouver. On rappelle ici la distinction entre l’Internet visible et l’Internet non visible, entre l’ensemble des pages accessibles au moyen des moteurs de recherche et les bases de données qui, en raison de leurs frontières, sont imperméables aux moteurs. Cependant, des moteurs de recherche spécialisés permettent de remédier à cette scission entre web visible et web invisible, en établissant des liens en direction des notices bibliographiques contenues dans les catalogues. Google Books, à titre d’exemple, opère la liaison entre les extraits de livres numérisés et leurs notices bibliographiques contenues dans le Sudoc ou le Worldcat

– L’Internet est un immense ensemble, en expansion continue, de pages et de sites extrêmement hétéroclites tant par leur contenu que par leur statut. On y trouve tous les types d’information : commerciale, administrative, personnelle, politique, universitaire, scolaire, etc. Il peut donc remplir les fonctions les plus diverses. Les sites sont commerciaux y sont largement prédominants (estimés aux deux tiers d’Internet).

– Le réseau est extrêmement mouvant et l’information qu’on y trouve très changeante. De nouveaux sites sont crées et d’anciens sites disparaissent à un rythme effréné. Les possibilités de modifier et de mettre à jour l’information y sont très aisées à la différence de ce qui se passe pour les documents imprimés pour lesquels une nouvelle édition est toujours une opération laborieuse. Enfin, l’ordre de classement des résultats varie de façon significative d’un moteur à l’autre.

– Il existe deux types d’outils de recherche sur Internet : les moteurs de recherche, de loin les plus utilisés, et les répertoires.

2/ Les moteurs de recherche

– La démonstration s’effectuera sur le moteur Google, le plus populaire et le plus puissant selon les spécialistes.

– C’est l’outil le plus utilisé pour rechercher l’information sur l’Internet visible. Principe de fonctionnement : un robot qui « balaye » (ou « scanne ») les données des pages pour en faire un index. Cela se fait sans intervention humaine hors la définition des algorithmes qui paramètrent le robot.

– La recherche sur Internet est, en principe, une recherche sur le texte intégral. En réalité les moteurs : i/ n’arrivent à parcourir qu’une petite partie du réseau, environ 15% chacun, ii/ n’indexent pas toujours la totalité du texte d’une page mais seulement la première partie (par exemple les cent premiers mots).

– La recherche s’effectue par mots clés ou expressions sur le texte indexé. Le résultat est constitué de l’ensemble des pages qui contiennent au moins une occurrence du ou des termes de la requête.

Conséquences :

– 1/ la recherche se fait en-dehors de toute classification. Elle s’effectue parmi tous les types d’information indistinctement, quelle que soit leur nature et leur niveau. Il y a donc énormément de bruit. Le nombre de résultats, en général énorme, sauf pour les termes techniques ou les mots rares, ne doit donc pas à être comparé avec le résultat d’une recherche dans un catalogue de bibliothèque ou dans une banque de données. Dans ceux-ci, la recherche s’effectue dans des notices qui décrivent les documents et non directement dans le texte des documents. Dans les catalogues et les banques de données, la recherche d’information s’effectue en deux temps en passant par la médiation des notices descriptives (nommée « information seconde » par opposition à « l’information primaire » des documents eux-mêmes) tandis que les moteurs de recherche procèdent à la recherche immédiate d’occurrences de termes dans le corps du texte (Tracer schéma d’une page et d’une notice au tableau.) ou dans certaines parties du texte.

– 2/ l’interrogation se fait donc également en-dehors de toute indexation thématique. Il n’y a pas de thésaurus (ou terminologie) servant à décrire le sujet des documents.

– 3/ les résultats se présentent sous la forme d’une liste de liens qui font arriver directement sur des pages. Il peut arriver qu’une page soit la page d’accueil d’un site, mais, le plus souvent, l’internaute tombe sur une page interne à un site, exactement comme si dans une bibliothèque, la page remplaçant le livre comme unité documentaire de base, le lecteur n’accédait d’abord qu’aux pages des ouvrages contenant les termes de sa recherche et non aux ouvrages eux-mêmes avec leurs pages de titre, leurs quatrième de couverture et leurs sommaires.

– 4/ Les moteurs de recherche proposent toujours également une recherche dite avancée ou experte. Elle se présente le plus souvent sous la forme d’une grille à remplir qui permet de faire appel à des outils similaires à ceux des banques de données : recherche par expression, opérateurs booléens, critères de champ, filtres, etc. Les possibilités offertes par la recherche avancée restent néanmoins limitées du fait de la recherche en plein texte.

Attirer l’attention, en particulier, sur : i/ la recherche selon l’emplacement dans la page (une page web est minimalement structurée grâce à des balises qui définissent des zones : zone du titre, zone du texte, zone de l’adresse, à quoi on peut ajouter la possibilité de rechercher sur les liens qui pointent vers cette page où les pages vers lesquelles cette page pointe), ii/ la recherche par formats de fichier (qui permet par exemple de ne sélectionner que des fichiers PDF, sur lesquels on ne peut pas intervenir, assez bon indice d’un retour d’articles), iii/ par langue.

– 5/ La méthode de recherche : i/ interrogation simple par un ou plusieurs termes, ii/ interrogation par expression (saisir les termes entre guillemets), y compris des phrases ou segments de phrases (pour retrouver par exemple des textes à partir de citations), iii/ interrogation par la recherche avancée en utilisant un ou plusieurs critères ou filtres, iv/ relancer en faisant varier les expressions.

L’évaluation :

– L’évaluation des résultats est absolument essentielle dans la recherche avec les moteurs. Cela tient à la recherche en texte intégral dans un ensemble extrêmement hétéroclite à dominante commerciale. Il faut insister lourdement sur ce point.

– Les principaux critères d’évaluation :

– i/ l’ordre d’affichage des résultats (« page-ranking »). Cet ordre n’est nullement aléatoire, les résultats sont en principe affichés par ordre de pertinence décroissant par rapport à la recherche. Les critères utilisés et appliqués automatiquement par les moteurs sont d’ordre exclusivement quantitatifs (nombre d’occurrences dans le texte ou dans le haut du texte du ou des termes de la recherche). La popularité des sites et l’un des principaux paramètres de classement: les sites les plus souvent cités sont les premiers affichés. Elle est établie sur la base des liens qui pointent d’un site vers autre. Il est inutile de descendre dans les profondeurs du classement des résultats, au-delà disons des dix premiers résultats. Il vaut mieux relancer la recherche avec d’autres termes ou expressions,

– ii/ les éléments d’information à considérer dans la liste d’affichage. Il y a trois zones de couleurs différentes : en bleu, le titre de la page, en noir, le contexte d’apparition des termes de la requête dans la page, en vert, l’adresse de la page. Le titre de la page est souvent un excellent indicateur du thème de la page ; le contexte immédiat des termes donnent des information supplémentaires souvent utiles ; l’adresse donne des indications sur les domaines (on y repère, par exemple, s’il s’agit d’un site universitaire (comprend « uni » ou « univ ») ou d’un site personnel (comprend « perso »). Ces éléments peuvent suffire à déterminer s’il est intéressant ou non d’afficher la page,

– iii/ une fois la page affichée, il faut absolument se préoccuper de savoir à quel site elle appartient et comment elle s’y trouve insérée. Il faut alors remonter à la page d’accueil (« home page »), équivalent de la page de titre d’un ouvrage, pour identifier l’auteur ou la raison sociale du site, les objectifs poursuivis et la dernière date de mise à jour. Grosso modo, il faut privilégier les sites universitaires ou institutionnels, les sites de laboratoires de recherche ou les sites pédagogiques. Il faut écarter les sites personnels et commerciaux et, bien entendu, les sites anonymes, sans présentation d’auteur ou sans justification, sans date de mise à jour ou avec des dates de mise à jour anciennes.

3/ Les répertoires

– La démonstration s’effectuera sur le répertoire courant Yahoo (http://fr.dir.yahoo.com) ou sur l’ODP (Open directory projec, http://dmoz.org) en langue anglaise.

– Le répertoire est une classification dans laquelle les sites sont rangés par des documentalistes (et non par un automate). Ils répertorient aussi bien des bases de données que des sites, l’Internet non visible que l’Internet visible. Exemple : on trouve par le répertoire de Yahoo les bases Electre ou Sudoc mais pas Persée, Revues.org ou Cairn (cf. infra). Le principe est semblable aux classifications utilisées dans les bibliothèques, mais :

– i/ les répertoires reflètent le contenu d’Internet envahi par les sites commerciaux ; on y trouve donc des catégories étrangères à l’information-connaissance et la masse des informations loisirs ou pratiques (exemple : « shopping, jeux, loisirs », etc.). Seule une partie des catégories correspondent au découpage universitaire des connaissances (« Sciences humaines »…),

– ii/ les répertoires sont loin d’être aussi cohérents et précis que les classifications traditionnelles.

– Ils sont en général peu utilisables sauf pour les recherches les plus univoques, celles qui procèdent par des noms propres de personnes ou de lieux et celles qui procèdent par des termes techniques ou spécialisés. Plus un terme de requête est rare et univoque, plus les résultats seront pertinents.

– Un moteur interne au répertoire permet de localiser les classes où se trouve l’information recherchée, fort difficile, voire impossible, à retrouver en suivant seulement les voies de l’arborescence.

– Lorsqu’il n’y a pas de réponse dans le répertoire, on est, le plus souvent, renvoyé automatiquement aux résultats d’un moteur de recherche associé au répertoire.

4/ Autres voies d’entrées dans l’Internet

On trouve de plus en plus de sites de qualité, au point de vue universitaire, sur Internet, mais ce ne sont pas pour autant ceux qui sont les mieux classés dans les résultats. Il faut donc procéder autrement qu’avec des moteurs de recherche et des répertoires (qui ne référencent que les plus connus) pour les trouver.

a- Les signets. Ce sont des sélections de sites proposés, en particulier, par des documentalistes ou bibliothécaires. Généralistes ou spécialisés, les sites choisis son retenus pour leur qualité. Il s’agit en quelque sorte de proposer le meilleur d’Internet. La référence en France, en matière de signets, est actuellement les « Signets de la Bnf ». Il s’agit de quelques milliers de sites classés, présentés, évalués et régulièrement mis à jour.

Adresse : accès à partir de la page d’accueil du site de la Bnf (www.bnf.fr). (Un projet commun à l’ensemble des bibliothèques universitaires de France est en cours.)

b- Parmi les sites à retenir, les sites de périodiques électroniques en texte intégral sont particulièrement intéressants. On attirera l’attention en particulier sur : i/ Persée, projet réalisé par le Ministère de l’éducation nationale, qui propose le texte intégral d’une vingtaine de périodiques réputés spécialisés en lettres et sciences humaines (gratuit), ii/ Revues-Org, site canadien, animé par une équipe bénévole de chercheurs, qui propose le texte intégral de plusieurs dizaines de revues en sciences sociales plus un moteur de recherche spécialisé (voir infra) (gratuit), iii/ CAIRN, base de données proposant le texte intégral ou les sommaires d’environ 70 revues de sciences humaines (payant, accessible à partir d’une bibliothèque universitaire).

c- L’accès aux articles de périodiques dans la situation actuelle. Cette efflorescence d’initiatives, tant publiques que privées, complique parfois le repérage de l’information recherchée. Ainsi, pour un même périodique, par exemple Vingtième siècle : revue d’histoire, il y a, à la bibliothèque de Paris 8, trois accès possibles : i/ la collection imprimée (depuis 1984), en salle et magasin, ii/ la collection électronique partielle (1984 à 2001) accessible gratuitement dans Persée, iii/ la collection partielle (2001 à 2006), accessible par abonnement dans Cairn. L’attention à l’état des collections est ici essentielle pour retrouver l’article recherché.

d- Le Répertoires de revues électroniques. Sur les quelques 19.000 titres de périodiques accessibles au format électronique, certains le sont uniquement sur le campus universitaire (les publications onéreuses), d’autres plus largement depuis n’importe quel poste connecté au site de la bibliothèque. Afin de pouvoir s’assurer de la présence ou non de tel titre au format électronique, de façon certaine, il est possible de faire une recherche dans le répertoire (A to Z) par le titre, le n° d’ISSN, ou bien encore l’éditeur. La recherche sujet, quant à elle, est une classification des titres par thématiques.

e- Les moteurs de recherche spécialisés (ou thématiques). Ils ne cherchent que dans un ensemble de sites présélectionnés selon des critères de type et de niveau d’information. Un bon exemple : in-extenso.org, élaboré par l’ENS, moteur de recherche du portail Revues.org. Ils donnent bien entendu de meilleurs résultats que les moteurs généralistes.D’une façon générale, tous les bons sites possèdent des moteurs de recherche interne, c’est-à-dire ne recherchent l’information que dans les pages constitutives du site. Le site de la bibliothèque de Paris 8 possède un tel moteur (sous la forme d’une application du moteur Google aux pages de notre site web). Il est accessible à partir de la page d’accueil sous la forme d’un point d’interrogation en haut à droite de l’écran. Exemples illustratifs :

i/ CDU (196 résultats renvoyant à toutes les pages de la rubrique CDU de notre site), ii/ « CDU existentialisme » pour retrouver la cote des ouvrages portant sur l’existentialisme, iii/ PEB, iv/ indexation RAMEAU, etc.

E/ Les fédérateurs de contenus ou l’interrogation tous azimuts

Un nouveau type d’outils de recherche de l’information sur l’Internet est en train de se développer. Ce sont les fédérateurs de contenus. Ces outils permettent de faire des recherches sur tous les types de ressources à la fois et, ainsi, de cumuler, pour une recherche, les résultats provenant des catalogues de bibliothèques, des diverses bases de données, en particulier des bases d’articles et de thèses, d’archives ouvertes, de sites sélectionnés de l’Internet visible tels que les sites de laboratoires scientifiques, etc. Il s’agit donc d’une recherche multibases qui permet de trouver des documents quelque soit leur type et quelles que soient leurs sources. La Métarecherche permet actuellement de faire une recherche fédérée sur les bases fournies par Ebsco, en fonction de la salle et la discipline dominante. Par ailleurs, on peut aussi faire une recherche fédérée sur les catalogues de Paris 8 et de Paris 13, ce qui, étant donnée la convention d’accès passée entre les deux bibliothèques, permet une éventuelle complémentarité de fait de leur collection (notamment en psychologie). Les différentes ressources peuvent être interrogées globalement ou bien en sélectionnant un ou plusieurs types de ressources. On peut effectuer une recherche simple ou une recherche avancée, multicritères et booléenne. La première page de résultats indique le nombre de résultats par type de ressource. Les résultats sont sélectionnables et affichables globalement ou successivement par ressources.

Evaluation :

– Il s’agit encore d’un prototype et une nouvelle version, plus lisible et plus rapide, devrait voir le jour.

– Cet outil introduit, dans son principe même, une certaine confusion entre les types de documents qui apparaissent comme étant tous également pertinents, alors que les différents documents ont des significations et des valeurs informatives et intellectuelles différentes. Toutefois, on peut utiliser cet outil en le paramétrant ad libitum.

– C’est l’outil idéal quand, sur un sujet, l’information est rare ou quand on recherchel’exhaustivité documentaire sur un sujet.

(Actualisé le 19 septembre 2008)

Infos pratiques :

Plan interactif de la bibliothèque

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s