A collaborative effort—centered doubly at Northwestern University and Washington University in St. Louis—to transform the early English print record, from 1473 to the early 1700s, into a linguistically annotated and deeply searchable text corpus.
Vossian antonomasia is a stylistic device which attributes a certain property to a person by naming another (more well-known, more popular) person as a reference point. For instance, when Jim Koch is described as “the Steve Jobs of Beer”, certain qualities of Steve Jobs, be it entrepreneurship or persuasiveness, are assigned to Jim Koch, co-founder and chairman of the Boston Beer Company. VAs consist of three parts: a source (in our example “Steve Jobs”) serves as paragon to elevate the target (“Jim Koch”) by applying a modifier (“of Beer”) that provides the corresponding context. VA is named after Gerardus Vossius (1577– 1649), the Dutch classical scholar and author of rhetorical textbooks, who first distinguished and described VA as a separate phenomenon.
Pepper is an swiss-army knife to convert corpora from one linguistic format to another. It used to be called SaltNPepper but it's now only known simply as Pepper
El Corpus Diacrónico del Español (CORDE) es un corpus textual de todas las épocas y lugares en que se habló español, desde los inicios del idioma hasta el año 1974, en que limita con el Corpus de Referencia del Español Actual (CREA). El CORDE está diseñado para extraer información con la cual estudiar las palabras y sus significados, así como la gramática y su uso a través del tiempo.
El Corpus de Referencia del Español Actual es un conjunto de textos de diversa procedencia, almacenados en soporte informático, del que es posible extraer información para estudiar las palabras, sus significados y sus contextos.
Sistema de consultas del Corpus de Aprendices de Español como Lengua Extranjera del Instituto Cervantes.
El Corpus de aprendices de español como lengua extranjera (CAES) es un conjunto de textos escritos producidos por estudiantes de español con diferentes grados de dominio lingüistico (niveles A1 a C1 del Marco común europeo de referencia, aplicado al español en el Plan curricular del Instituto Cervantes. Niveles de referencia para el español) y procedentes de seis L1: árabe, chino mandarín, francés, inglés, portugués y ruso. Se trata de una herramienta que permite a los profesionales del campo de ELE (profesores, investigadores, evaluadores, autores de materiales didácticos, responsables y equipos de centros e instituciones lingüísticas, etc.) llevar a cabo investigaciones aplicadas sobre la base de datos sólidos y objetivos, ya que puede proporcionar información sobre dificultades de aprendizaje, errores más comunes, vocabulario más o menos empleado, etc. que se podrá aplicar con facilidad en las aulas o integrar en los textos.
Corpus de referencia del español actual. Banco de datos de la lengua española creado por la RAE en 1997.Incluye expresiones de Hispanoamérica y España de todo tipo de textos escritos.
El Corpus de Referencia del Español Actual (CREA) es un banco de datos de la lengua española desarrollado por la Real Academia. Iniciado en 1997, su contenido se incluye de forma estadística escogiendo expresiones de Hispanoamérica y España, de toda clase de textos escritos, y cubre los últimos 25 años. El tiempo anterior hasta los inicios del idioma lo cubre el Corpus Diacrónico del Español (CORDE).
El CREA (Corpus de Referencia del Español Actual) es un corpus de terminología en español que permite la búsqueda filtrada, por ejemplo, por geografía, medio o tema.
Un corpus del inglés americano que comprende 450 millones de palabras y que siempre está al tanto de la nueva terminología. Se puede filtrar la búsqueda según su necesidad.
CNDHE (Corpus del Nuevo Diccionario Histórico del Español, Versión 3.1.) es un corpus monolingüe que muestra un listado de las apariencias del término ordenado por año ascendente, pero se puede cambiar el enfoque del orden.
Se trata de un Corpus de textos en los que podemos buscar las apariciones de determinadas palabras en determinados contextos, periodos y lugares. Nos puede ayudar, por ejemplo, para verificar si una solución que proponemos en español se usa de manera habitual, etc.
Banco de neologismos del Centro Virtual Cervantes- producto de una extracción de las bases de datos de neologismos de BOBNEO del Observatori de Neologia del IULA.
Termium Plus es el banco de datos terminológicos y lingüísticos del Gobierno de Canadá. Ofrece acceso gratuito a casi 4 millones de términos en inglés y francés y a más de 200.000 términos en español.
El Centre for Corpus Approaches to Social Science es un centro que se dedica al estudio de la lengua - el enfoque corpus - relacionada con las ciencias sociales.
El Corpus AnCora es un corpus de catalán (AnCora-CA) y de español (AnCora-ES) constituido fundamentalmente por textos periodísticos. El corpus contiene 500.000 palabras por cada lengua.
El Corpus de Referencia del Español Actual (CREA) es un conjunto de textos de diversa procedencia, almacenados en soporte informático, del que es posible extraer información para estudiar las palabras, sus significados y sus contextos.
En el video se habla de la creación, por parte de Pilar Garrido (Universidad de Murcia) y Karima Bouras (Universidad de Mostagenem), de un corpus peridístico árabe<>español.
El British National Corpus representa una colección de 100 milliones de palabras en inglés británico, sacadas de una grande cantidad de recursos y pertenecientes tanto al lenguaje escrito como al lenguaje oral.
Del portal de la Real Academia Española se puede acceder a diccionarios, gramáticas, corpora, bases de datos, obras académicas, literarias y lingüísticas en lengua española.
DocuTradSo es un portal en línea de la Universidad de Valladolid que recoge y organiza un gran número de fuentes de información disponibles para el ejercicio de la actividad traductora.
This post describes how to set up a workflow using two programs to build up a database of text from the internet. The two programs used are TextSTAT and AntConc. TextSTAT is used for its webcrawler to build your corpus [update1: an alternative program ICEweb, update 2: BootCat custom url] and AntConc is used to…
P. Moreira, Y. Bizzoni, K. Nielbo, I. Lassen, и M. Thomsen. Proceedings of the The 5th Workshop on Narrative Understanding, стр. 25--35. Toronto, Canada, Association for Computational Linguistics, (июля 2023)
A. Brunner, S. Engelberg, F. Jannidis, N. Tu, и L. Weimer. Proceedings of the 12th Language Resources and Evaluation Conference, стр. 803--812. Marseille, France, European Language Resources Association, (мая 2020)
D. Schmidt, A. Zehe, J. Lorenzen, L. Sergel, S. Düker, M. Krug, и F. Puppe. Proceedings of the 5th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, стр. 49--56. Punta Cana, Dominican Republic (online), Association for Computational Linguistics, (ноября 2021)
S. Bowman, G. Angeli, C. Potts, и C. Manning. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP), Association for Computational Linguistics, (2015)