Linguistica de Corpus

Vez ou outra, escrevo aqui neste sobre uma palavra com seus diferentes usos e tudo mais. Muitas vezes eu indico também a posição de tal palavra dentro do ranking das palavras mais usadas. Vale lembrar que já até publiquei a lista das 100 palavras mais usadas na língua inglesa. Sempre que falo sobre o ranking de uma palavra, recebo e-mails de leitores que querem a todo custo saber como ter acesso a tal lista.

A princípio há na internet várias listas dessas. Cada uma baseada em uma pesquisa ou outra. Algumas são publicadas por cientistas linguistas sérios, outras nem tanto (são feitas meio que de qualquer jeito só para chamar a atenção). Mas afinal, como sabemos que uma palavra é mais usada que outra? Como podemos ter certeza da exatidão de tal informação?

Dentro da Ciência Linguística tem um ramo que se chama Linguística de Corpus. É esta aí a área responsável por tais pesquisas.

Mas afinal, o que é esse tal de Corpus?

De modo bem simples, corpus é um banco de dados no qual ficam armazenados tudo o que é escrito e falado em uma língua. Os cientistas que estudam uma língua (os linguistas de corpus) pegam tudo o que é publicado em uma língua (inglês, por exemplo) e colocam em um computador: textos de jornais, livros, revistas, panfletos, informativos, bula de remédio… Eles podem pegar tudo o que é possível e salvar em um super computador. Todas essas informações reunidas em um só lugar recebe o nome de corpus escrito (afinal, só temos aí textos escritos).

Linguística de CorpusJá para o corpus falado a coisa é bem mais interessante. Os linguistas gravam (com a autorização das pessoas) conversas no trabalho, no supermercado, em casa, ao telefone, nas ruas, banco de praças, ônibus, etc. Gravam também programas de TV, entrevistas, programas de rádio, noticiários, etc. Depois transcrevem tudo e passam para o computador e tem-se assim o corpus falado (os dados da língua falada).

Com estes dois conjuntos de dados – corpus escrito e corpus falado -, nós – pesquisadores linguistas – podemos verificar tudo com a ajuda de um programa desenvolvido para pesquisar as informações do corpus. Assim podemos descobrir coisas interessantes.

Por exemplo, você sabia que a palavra mais usada na língua inglesa é o artigo “the”? Isso no corpus escrito! Porém, se avaliarmos só o corpus falado vamos descobrir que a palavra mais usada é o pronome “I”! Se juntarmos os dois corpus o “the” ganha em disparado de tudo quanto é palavra.

Outra curiosidade: você sabia que a voz passiva no inglês é usada com muito mais frequência em textos científicos e jornalísticos? Ou seja, se você quer aprender inglês, só para viajar e fazer amigos, não precisa ficar decorando as regras da voz passiva em inglês. Mas se você quiser ser um bom jornalista ou escrever bom textos científicos então a conversa vai ser outra.

Com o corpus descobrimos também quais palavras são mais usadas com outras palavras (collocations). Descobrimos que o present perfect é mais usado que o past simple. E descobrimos também que o present simple é de longe o tempo verbal mais usado na língua inglesa.

Enfim, com essa ciência maravilhosa professores de inglês podem ter uma ideia do que ensinar para seus alunos. Autores de livros podem escrever informações mais precisas sobre uma estrutura gramatical ou outra, podem também dizer aos leitores e estudantes como as palavras são usadas em conjunto com outras palavras.

E é assim pessoal, baseado nestas informações, que digo a vocês como uma palavra ou outra é usada em inglês e como informo também o ranking de uma palavra outra. Lembro que a explicação dada aqui é bem simples e apenas para matar a curiosidade de muitos. Afinal, há ainda muito a ser dito sobre a tal linguística de corpus e seus benefícios ao ensino/aprendizado de uma língua.

See you! Take care!