Brown Corpus

Da Wikipedia, l'enciclopedia libera.

Il Brown University Standard Corpus of Present-Day American English (o semplicemente Brown Corpus) è un corpus compilato negli anni sessanta da Henry Kucera e W. Nelson Francis presso la Brown University, Providence, Rhode Island. Esso contiene 500 estratti di testo in lingua inglese ottenuti da lavori pubblicati negli Stati Uniti d'America nel 1961, per un totale di circa un milione di parole.

Distribuzione dei campioni di testo[modifica | modifica sorgente]

Il corpus consiste di 500 campioni pubblicati nel 1961. Ciascun campione di testo inizia da un punto scelto a caso dell'articolo di origine e continua fino alla prima frase che segue le prime 2000 parole. In pochissimi casi alcuni campioni contengono un numero inferiore di parole.

L'inserimento originale dei dati fu effettuato utilizzando macchine a schede perforate.

I 500 campioni sono distribuiti in modo all'incirca uniforme tra le seguenti 15 categorie (e le corrispondenti sottocategorie, si riportano i titoli originali in inglese):

  • A. PRESS: Reportage (44 testi)
    • Political
    • Sports
    • Society
    • Spot News
    • Financial
    • Cultural
  • B. PRESS: Editorial (27 testi)
    • Institutional Daily
    • Personal
    • Letters to the Editor
  • C. PRESS: Reviews (17 testi)
    • theatre
    • books
    • music
    • dance
  • D. RELIGION (17 testi)
    • Books
    • Periodicals
    • Tracts
  • E. SKILL AND HOBBIES (36 testi)
    • Books
    • Periodicals
  • F. POPULAR LORE (48 testi)
    • Books
    • Periodicals
  • G. BELLES-LETTRES - Biography, Memoirs, etc. (75 testi)
    • Books
    • Periodicals
  • H. MISCELLANEOUS: US Government & House Organs (30 testi)
    • Government Documents
    • Foundation Reports
    • Industry Reports
    • College Catalog
    • Industry House organ
  • J. LEARNED (80 testi)
    • Natural Sciences
    • Medicine
    • Mathematics
    • Social and Behavioral Sciences
    • Political Science, Law, Education
    • Humanities
    • Technology and Engineering
  • K. FICTION: General (29 testi)
    • Novels
    • Short Stories
  • L. FICTION: Mystery and Detective Fiction (24 testi)
    • Novels
    • Short Stories
  • M. FICTION: Science (6 testi)
    • Novels
    • Short Stories
  • N. FICTION: Adventure and Western (29 testi)
    • Novels
    • Short Stories
  • P. FICTION: Romance and Love Story (29 testi)
    • Novels
    • Short Stories
  • R. HUMOR (9 testi)
    • Novels
    • Essays, etc.

Voci correlate[modifica | modifica sorgente]