Digital Libraries and Crowdsourcing: A Review - INRAE - Institut national de recherche pour l’agriculture, l’alimentation et l’environnement Accéder directement au contenu
Chapitre D'ouvrage Année : 2017

Digital Libraries and Crowdsourcing: A Review

Imad Saleh

Résumé

Cataloguing, indexing, and correcting the OCR of digitized documents, libraries have often externalized certain activities to service providers with recourse to a low-price workforce in developing countries like Madagascar, India, or Vietnam. From now on, though, they could instead call on the masses of Internet users, that is, crowdsourcing, to realize tasks their own staff cannot handle. The development of crowdsourcing in libraries is particularly important in the domain of OCR correction. In fact, character recognition software that converts photos of digitized book pages into texts do not provide 100% reliable results and, depending on the quality of the original document, its digitization, its typography, the possible presence of handwritten notes, it may be necessary to correct the texts produced with the help of dictionaries. OCR correction is necessary to enable more efficient whole text searches of the digitized texts, better referencing of the contents by search engines, the production of eBook in EPUB or MOBI formats so they can be read on eReaders, data extraction through text mining technologies, or even scientific exploitations related to culturomics. This question of recourse to crowdsourcing is being asked more and more today of libraries, from the very largest of them to the very smallest. In order to bring them part of the solution and bring about an original conceptual contribution to crowdsourcing in libraries, we have written this state of the art, which comes from thesis work. It will offer conceptual elements to understand this phenomenon, a taxonomy and panorama of the initiatives, and analyses from library and information science points of view
Saisies de notices bibliographiques, indexation et correction de l’OCR de documents numérisés, les bibliothèques ont souvent externalisé certaines de leurs activités à des prestataires ayant recours à de la main d’œuvre à bas coût dans des pays en voie de développement comme Madagascar, l’Inde ou le Viêt-Nam. Mais elles pourraient désormais plutôt faire appel aux foules d’internautes, c'est-à-dire au crowdsourcing afin de réaliser des tâches pour lesquelles leurs propres forces sont insuffisantes. Le développement du crowdsourcing en bibliothèques est particulièrement important dans le domaine de la correction de l’OCR. En effet, les logiciels de reconnaissance de caractères qui convertissent les images des pages numérisées de livres en textes ne donnent pas des résultats fiables à 100 % et, en fonction de la qualité du document original, de celle de sa numérisation, de la typographie, de la présence d’éventuelles annotations manuscrites, il sera nécessaire de corriger les textes obtenus avec l’aide de dictionnaires. La correction de l’OCR est nécessaire afin de permettre des recherches en texte intégral plus efficaces dans les textes numérisés, un meilleur référencement des contenus par les moteurs de recherche, la production de fichiers Ebooks aux formats EPUB ou MOBI pour pouvoir être lus sur des liseuses, des extractions de données via des technologies de text mining ou encore des exploitations scientifiques liées à la culturomique. Cette question du recours au crowdsourcing se pose aujourd’hui de plus en plus aux bibliothèques, aux plus grandes d’entre elles comme aux plus petites. Afin d’y apporter des éléments de réponses et afin d’apporter une contribution conceptuelle originale autour du crowdsourcing en bibliothèques, nous avons rédigé le présent état de l’art, lui-même issu d’un travail de thèse. Il offrira des éléments conceptuels afin de comprendre ce phénomène, une taxonomie et un panorama des projets et des analyses du point de vue des sciences de l’information et de la communication.
Fichier principal
Vignette du fichier
Digital Libraries and Crowdsourcing.pdf (715.89 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01436766 , version 1 (28-12-2018)

Identifiants

  • HAL Id : hal-01436766 , version 1
  • PRODINRA : 385196

Citer

Mathieu Andro, Imad Saleh. Digital Libraries and Crowdsourcing: A Review. Samuel Szoniecky; Nasreddine Bouhaï. Collective Intelligence and Digital Archives: Towards Knowledge Ecosystems, ISTE; Wiley, pp.135-162, 2017, 9781786300607. ⟨hal-01436766⟩
765 Consultations
860 Téléchargements

Partager

Gmail Facebook X LinkedIn More