Lingüística de Corpus
Origem: Wikipédia, a enciclopédia livre.
Lingüística de Corpus (ou de Córpus, no Brasil, ou Linguística de Corpus, ou de Córpus, em Portugal) é uma área da Lingüística que se ocupa da coleta e análise de corpus (ou córpus; Corpus lingüístico), que é um conjunto de dados lingüísticos coletados criteriosamente para serem objeto de pesquisa lingüística.
A Lingüística de Corpus surgiu com a necessidade que estudiosos da língua sentiram de se apoiarem em usos reais para fazerem generalizações ou esboçarem teorias a respeito do funcionamento lingüístico. Atualmente, a Lingüística de Corpus está intimamente ligada ao uso do computador, visto que os corpora (ou córpora, plural de corpus) são eletrônicos. Assim, a Lingüística de Corpus contemporânea caracteriza-se pela coleta e análise de corpora eletrônicos com o auxílio de ferramentas eletrônicas.
De forma geral, o conjunto de dados lingüísticos reais criteriosamente coletados utilizados em estudos de Lingüística de Corpus é chamado de corpus (plural: corpora). O corpus deve ser constituído de dados autênticos (não inventados), legíveis por computador e representativos de uma língua ou variedade da língua da qual se deseja estudar.
O computador desempenha um papel importante para os estudos na área. As ferramentas computacionais são geralmente utilizadas para reorganização e extração de informações no corpus para observação e interpretação de dados, fornecendo novas perspectivas para a análise lingüística. As ferramentas computacionais mais comuns são:
- Programas para listar palavras - fazem a contagem das palavras em um corpus;
- Concordanciadores - programas que permitem que o usuário procure por palavras específicas em um corpus, fornecendo exaustivas listas para as ocorrências da palavra em contexto;
- Etiquetadores - fazem análises automáticas do corpus e inserem etiquetas (códigos) de ordem morfossintática, sintática, semântica ou discursiva.
A Lingüística de Corpus faz uso de uma abordagem empirista, contrária à abordagem racionalista, do ponto de vista lingüístico, e tem como central a noção de linguagem enquanto sistema probabilístico.
De acordo com essa noção, os traços lingüísticos não ocorrem de forma aleatória, sendo possível evidenciar e quantificar regularidades (padrões). É comum na área afirmar que a linguagem é padronizada (patterned), isto é, existe uma correlação entre os traços lingüísticos e os contextos situacionais de uso da linguagem.
Na Lingüística de Corpus, a padronização se evidencia por colocações, coligações ou estruturas que se repetem significativamente. Os principais conceitos de padronização na Lingüística de Corpus são: colocação, coligação e prosódia semântica.
Para muitos pesquisadores, a Lingüística de Corpus revolucionou o modo como a linguagem é estudada. Seus achados contribuem para diversas áreas de pesquisa lingüística (Lexicografia, Ensino-aprendizagem, Tradução, etc,).
As principais áreas da Lingüística de Corpus são:
- Compilação de corpora;
- Desenvolvimento de ferramentas para análise de corpora;
- Descrição de linguagem;
- Exploração do uso de descrições baseadas em corpora para várias aplicações tal como ensino-aprendizagem de línguas, processamento de linguagem natural por máquinas, reconhecimento de voz e tradução.
[editar] Histórico
A Lingüística de Corpus faz extenso uso de ferramentas computacionais e sua história se confunde com o desenvolvimento tecnológico, especificamente o computador. É possível identificar dois períodos importantes desde seu surgimento: antes do advento do computador e depois.
Antes do computador, já se fazia uso de corpus. Na Grécia Antiga foi criado o Corpus Helenístico. Na Antiguidade e Idade Média, produziam-se corpora de citações da bíblia. Durante boa parte do século XX, o uso de corpora para descrição da linguagem.
Os corpora dessas épocas eram coletados, armazenados e analisados manualmente. A dificuldade de se realizar estudos desse tipo era enorme. Mesmo assim, havia grande interesse na coleta e exploração de corpora. É importante ressaltar o papel dos estudos baseados em corpora realizados manualmente pela dificuldade e pelo pioneirismo na época.
O período crítico para os estudos baseados em corpus se deu com a ‘mudança’ de paradigma da lingüística, com as idéias de Chomsky por volta de 1950. Houve uma preferência muito forte por estudos baseados em teorias racionalistas da linguagem. Os estudos empíricos receberam muitas críticas nessa época. As críticas eram relacionadas à necessidade de se coletar dados empíricos e o meio pelo qual se realizava a coleta e a análise dos dados. Um dos argumentos era a falta de confiabilidade em analisar manualmente grandes quantidades de dados lingüísticos.
Embora o cenário fosse desfavorável, os estudos baseados em corpora não pararam. Muitos pesquisadores continuaram seus estudos por meio de corpora. Firth (1957) e os neo-firthianos defendiam a descrição da linguagem por meio de dados reais. O corpus SEU (Survey of English Usage), por exemplo, foi compilado e etiquetado manualmente em 1959. O SEU influenciou a criação de corpora eletrônicos e serviu para o desenvolvimento de etiquetadores computadorizados contemporâneos.
Com o advento do computador nos anos de 1960 e a queda de prestígio das pesquisas puramente racionalistas, o cenário começou a mudar. O lançamento do corpus Brown em 1964, com 1 milhão de palavras, é considerado como o fato propulsor do desenvolvimento da Lingüística de Corpus. O corpus Brown é o pioneiro dos corpora eletrônicos por ter nascido em um período ainda desfavorável para os estudos empiristas e, também, pela dificuldade de compilação em computadores mainframe.
A popularização dos estudos com corpora ocorreu nos anos de 1980 com o aparecimento dos computadores pessoais. Com o desenvolvimento dos computadores, especificamente o aumento da capacidade de armazenar e processar dados, maiores números de corpora e ferramentas foram disponibilizadas para pesquisas, contribuindo para a consolidação da Lingüística de Corpus.
Ao final dos anos 90, a Lingüística de Corpus exerce grande influência em várias áreas da Lingüística Aplicada (Ensino de Línguas, Tradução, Análise do Discurso, Lexicografia, etc), fornecendo subsídios teóricos e metodológicos que possibilitam o estudo de vários aspectos da linguagem.
[editar] Referências
Berber Sardinha, T. (2004). Lingüística de Corpus. São Paulo: Manole.
Biber, D.; Conrad, S.; Reppen, R. (1998). Corpus linguistics: investigating language structure and use. Cambridge, Cambridge University Presss.
Hunston, S. (2002). Corpora in Applied Linguistics. Cambridge : Cambridge University Press.
Kennedy, G. D. (1998). An introduction to corpus linguistics. Nova York, Longman.