Wolverhampton Business English Corpus

View resource name in all available languages

Corpus de l'anglais des affaires Wolverhampton

ID:

ELRA-W0028

The WBE was created by the Computational Linguistics Group at University of Wolverhampton through a funding from ELRA in the framework of the European Commision project LRsP&P (Language Resources Production & Packaging - LE4-8335).
A survey of electronic language resources in the business domain carried out at Wolverhampton revealed that there are very few business corpora in existence, and almost none of them are widely accessible. There is significant demand for a business corpus, from both the NLP and pedagogic (language, business communication, and linguistics teachers and students) communities.
The Wolverhampton Corpus of Written Business English is:
- A synchronic corpus, including only texts available on the web during a 6-month period in 1999-2000 AD.
- A monolingual English corpus: it comprises only texts written in English; but no restriction was applied as regards the variety of English used. On the contrary, the WBE deliberately tried to capture a wide range of varieties of English, by including documents from websites in Britain, USA, Pakistan, Netherlands, Belgium, Switzerland, Hong Kong, etc.
- A written corpus: it contains only written materials. However, a few of the documents are transcripts of speeches.
- A business corpus: the texts were selected manually, and care was taken to ensure that all the texts were from the business domain.
The corpus consists of 10,186,259 words from 23 different Web sites
The data can contribute to a wide range of NLP tasks, including information retrieval, information extraction, summarisation, etc.
The WBE was built using materials solely from the Web. However, this does not mean that the corpus gives access only to a restricted range of categories of texts. On the contrary, the amount of information available online allowed us to select from a wide variety of categories. These range from product descriptions, company press releases, and annual financial reports, to business journalism, academic research papers, political speeches and government reports. The texts have been grouped according to the source site.
The corpus is distributed in three formats.
- The first one is the original encoding of the text. The majority of the texts are in HTML and plain text format. There are a few in PDF format or Microsoft Word DOC format.
- The second format is plain text. The files were converted automatically if they were not in plain text format, and manually checked.
- The corpus is also provided as SGML encoded files, using the Corpus Encoding Standard (http://www.cs.vassar.edu/CES/). The header of each file provides information about the title of the file, length in words, etc. The paragraph and sentence boundaries, and part of speech tags for each word are marked using SGML tags.
All the available files were converted to 8-bit ASCII format using ISO 8859-1. Characters with ASCII codes from 127255 (also known as Extended ASCII) were manually checked in order to ensure the correct representation of the characters.
The corpus was checked for spelling errors, but special care was taken to ensure that any variant spellings specific to the business domain were not wrongly corrected.
A validation work was carried out by an external validator. It consisted of checking text files, tools, tagging and documentation.

View resource description in all available languages

Ce corpus de l'anglais des affaires a été produit par le groupe de linguistique informatique de l'université de Wolverhampton dans le cadre du projet européen LRsP&P (Language Resources Production & Packaging - Production et mise à disposition des ressources linguistiques - LE4-8335) soutenu par la commission européenne.

Une enquête menée à Wolverhampton sur les ressources linguistiques au format électronique disponibles dans le domaine des affaires a montré qu'il existait très peu de corpus de ce type, et que la plupart ne sont de toutes façons pas mis à disposition pour un large public. On a pourtant affaire à une demande croissante de corpus de langue des affaires de la part des communautés de TAL et du secteur pédagogique (langues, communication des affaires, professeurs et étudiants en linguistiques).

Le corpus écrit de l'anglais des affaires Wolverhampton est :

* Un corpus synchronique, qui ne comprend que les textes disponibles sur le Web, sur une période de 6 mois en 1999-2000.
* Un corpus anglais monolingue, qui comprend uniquement des textes écrits en langue anglaise, trouvés sur des sites britanniques, américains, pakistanais, néerlandais, belges, suisses, de Hong Kong, etc.
* Un corpus écrit qui ne contient que de l'écrit ; quelques uns des documents sont cependant des transcriptions de discours.
* Un corpus des affaires, dont les textes ont été sélectionnés manuellement, en faisant bien garde à ce qu'ils appartiennent tous au domaine des affaires.

10 186 259 mots composent ce corpus, extraits de 23 sites Web différents.

Ces données peuvent être exploitées à des fins de TAL diverses, telles que la recherche d'information, l'extraction d'information, le résumé, etc.

Le corpus Wolverhampton ne contient certes que des données issues du Web, mais donne accès à une grande variété de textes. La masse d'informations disponibles en ligne nous a permis de faire une sélection sur un très large panel de textes, s'étendant de la description de produits, à des coupures de presse des entreprises, des rapports financiers, au journalisme économique, à des papiers de recherche, et à des rapports gouvernementaux ou à des discours politiques. Les différents textes ont été groupés en fonction de leur source sur le Web.

Le corpus est distribué sous trois formats :

* Le premier est le format original du texte, c'est à dire du HTML ou du texte plein dans la majorité des cas ; quelques-uns sont au format .PDF ou au format Word .DOC.
* Le second est un format texte seulement : les fichiers ont été convertis et vérifiés manuellement.
* Le corpus est également fourni avec un balisage SGML utilisant le Corpus Encoding Standard (http://www.cs.vassar.edu/CES/). L'en-tête de chaque fichier donne son titre, le nombre de mots, etc. Les paragraphes, les phrases et les parties du discours sont marqués par des balises SGML.

Tous les fichiers disponibles ont été convertis au format ASCII 8 bits, et utilisent la norme ISO 8859-1. Le codage ASCII des caractères 127 à 255 (appelé ASCII étendu) a été vérifié manuellement de façon à s'assurer que la représentation des caractères soit correcte.

Nous nous sommes assurés qu'il n'y avait pas de fautes d'orthographe, mais que les variantes orthographiques des termes spécifiques au domaine des affaires n'étaient pas corrigées indûment.

Un travail de validation a été effectué en externe, sur les fichiers texte, les outils, le balisage et la documentation.

You don’t have the permission to edit this resource.