CatCod 2008

Accueil du site > Call For Papers / Appel à communications

  • Call for Papers / Appel à Communications


    [version française plus bas]

    CatCod 2008 - Call For Papers

    First International Workshop on
    Cataloguing and Encoding of Spoken Language Data

    December 4 - 5 2008
    Université d’Orléans
    Orléans, France
    http://www.catcod.org

    The number of spoken recordings which are digitized and available for the study and description of language has remained quite small for a long time and their distribution has been largely confined to specialized agencies. However, the development of the Web and its associated storage, distribution and processing technologies have now made it both practically and economically feasible for many smaller structures, such as individual research laboratories, to distribute spoken resources for themselves.

    We are thus entering a critical phase. It is now possible to capitalize on the efforts of projects which have digitized linguistic data in order to form the empirical basis for entirely new research projects.

    However, many such existing projects in France and Europe shows a great heterogeneity among in their conformance to established coding and cataloguing standards for this type of resource. Even though these same projects were often set up with the aims of facilitating access to data, and of sharing and preservation of data, we observe that the diversity of formats, encodings and protocols they use limits exactly these objectives. In this symposium, we aim to report on the major initiatives within the field of digital document management which will potentially have an important influence on standardization. We would like to stress two specific aspects : the cataloguing of spoken resources and their encoding.

    Cataloguing :
    The recent and fast growth of the number of spoken recordings available on the Web needs to be accompanied by a significant effort of description and referencing if these data are to be easily accessible and managed, rather than being buried in the mass of available data. Some cataloguing practices aim solely to complete the life cycle of a a resource-creating project. Others explicitly aim to guide the exploitation, preservation, and the distribution of the resource in the long term.

    Such cataloguing activity is all the more important and urgent in view of the rapid increase in enhanced methods of handling operations this mass of data, by means of data exchange, enhancement, and research. Some research communities are well-organised around established standards such as the Dublin Core for Web-based resources, the TEI Header, or the MARC standards maintained by the Library of Congress for the description of bibliographical resources. More recently, smaller linguistic communities have established cataloguing proposals (OLAC, IMDI). People have now had enough experience in the use of these proposals to be able to criticize them and propose some improvements. With these new insights, it should be possible to establish a minimal charter to be respected by those who wish to get involved in the distribution of spoken language data, in order to facilitate their exchange and their more general use in research.

    Encoding :
    If cataloguing is essential for the identification of resources and for rapid comparisons amongst them, encoding is essential to the description of the interpretation of their content and also essential to their exploitation for specific studies. If encoding the transcription of video or audio material is indeed the clarification of an interpretation, then one notes here as well a great variety in the practices.

    The inventories made during the EAGLES, MATE and ISLE successive initiatives have demonstrated how difficulty it is to grasp fully the extent of various encoding systems. The ISLE project suggested that only the specification of a universal software tool for annotation could lead to resources encoded in a standardized way. But this does not make it any the less necessary for us to attempt a communal and consensual activity, aiming to categorize, name, and organize the phenomena found within spoken resources if we hope to achieve true interoperability of the data, with a view to multiple and future exploitations. We must now start an exercise for the encoding of oral corpora similar to what has already been undertaken for written corpora by the TEI.

    Quality control :
    Assuming that we can achieve an agreement on the encoding and cataloguing of spoken data, it will then be necessary to define rules and develop tools to check the conformance of specific datasets to our agreed principles. This symposium will also therefore report on quality control practices and techniques.

    Français Français Français Français Français Français Français Français

    CatCod 2008 - Appel à Communications

    Premières rencontres internationales pour le
    Catalogage et le Codage de corpus oraux

    4 - 5 Décembre 2008
    à l’Université d’Orléans, France

    http://www.catcod.org

    Le nombre d’enregistrements oraux numérisés et disponibles pour l’étude et la description des langues est longtemps resté relativement faible et ceux-ci étaient confinés dans des agences spécialisées qui en assuraient le partage. Avec l’essor du web et des capacités de stockage, de diffusion et de traitement, il est devenu abordable pour des plus petites structures (par ex. des laboratoires de recherche) de diffuser elles-mêmes leurs ressources orales. Nous sommes désormais à une étape clé où la capitalisation des efforts de numérisation des données linguistiques devient possible, ceci afin de former la base empirique de nouveaux projets de recherche. L’observation des normes de codage et de catalogage de ce type de ressources dans les différents projets existants en France et en Europe, montre une grande hétérogénéité des pratiques. Alors que ces mêmes projets se sont montés dans le but de faciliter l’accès, le partage ou la conservation des données, on constate que cette diversité des formats, des codages et des protocoles utilisés limitent justement ces objectifs.

    Nous souhaitons dans ce colloque faire le point sur les initiatives majeures dans le monde de la gestion des documents numériques, ayant potentiellement une influence importante pour la standardisation, en mettant l’accent sur deux aspects particuliers qui sont : le catalogage d’une ressource orale et son codage.

    Le catalogage :
    La croissance récente et rapide du nombre d’enregistrements oraux disponibles sur le web demande à être accompagnée d’un effort important de description et de référencement afin que ces données soient accessibles facilement, ne soient pas noyées dans le masse et que la gestion en soit facilitée. Il convient à ce titre de distinguer des pratiques de catalogage qui ont pour vocation le suivi du cycle de vie d’un projet de constitution de ressources, de celles qui ont pour vocation à guider l’exploitation, ou la conservation et la diffusion de ces ressources. Cette activité de catalogage est d’autant plus importante et urgente que les opérations de manipulations sur cette masse de données augmentent elles aussi (échange, maintenance, recherche, etc.). Certaines communautés se sont déjà fortement organisées et ont parfois établi des normes comme le Dublin-Core pour ce qui concerne les ressources sur le web, ou depuis plus longtemps les normes MARC maintenues par la bibliothèque du congrès pour la description des ressources bibliographiques. Plus récemment enfin, des communautés plus restreintes en linguistique ont établi des propositions de catalogage (OLAC, IMDI). Il existe maintenant suffisamment d’expériences dans l’utilisation de ces propositions pour en faire la critique, proposer des améliorations, des pistes de réflexion et pour établir une charte minimale à respecter par ceux qui souhaitent s’engager dans la diffusion de ressources orales linguistiques afin d’en faciliter l’échange et plus généralement l’utilisation scientifique.

    Le codage :
    Si le catalogage est essentiel à l’identification des ressources et à la comparaison rapide entre elles, le codage est pour sa part essentiel à la description de l’interprétation du contenu de la ressource elle-même, et à son exploitation pour des études particulières. Si le codage d’une transcription de vidéo ou de son est bien un travail d’explicitation d’une interprétation établie du point de vue d’une discipline d’un objet de recherches, alors on constate là également une très grande diversité de pratiques. Les recensements opérés lors des initiatives successives EAGLES, MATE puis ISLE ont démontré la difficulté d’appréhender l’étendue des divers systèmes de codage. La spécification d’un outil logiciel d’annotation universel peut être une voie d’accès à des ressources codées de façon standardisée, comme cela a été suggéré par ISLE. Mais cela ne nous dispense pas de faire le travail communautaire consensuel de catégorisation, de dénomination et de structuration des phénomènes se trouvant au sein des ressources si l’on souhaite une réelle interopérabilité des données en vue d’exploitations multiples et futures. Il s’agit donc de commencer le travail de standardisation du codage des corpus oraux comme cela a déjà commencé pour les corpus textuels avec la TEI.

    Contrôle qualité :
    En supposant obtenus un compromis sur le catalogage et sur le codage des données orales, il est alors nécessaire de se donner des règles et des outils de vérification de la conformité de données particulières aux principes établis. Nous souhaitons donc également faire le point dans ce colloque sur les pratiques de contrôle de la qualité des ressources.


Suivre la vie du site RSS 2.0 | Plan du site | SPIP | Site hébergé par le RISC