Informática

Programa de computador decifra língua extinta

Agência Fapesp - 05/07/2010

Embora não seja perfeito, o programa é uma ferramenta poderosa cujo desenvolvimento poderá ajudar no processo de decifrar línguas desconhecidas e de traduzir outras existentes mais eficientemente.
[Imagem: MIT]

Simulando talentos

No livro Lost Languages, de 2002, o então editor do suplemento de educação superior do jornal inglês The Times, Andrew Robinson, afirmou que o trabalho arqueológico de decifrar línguas extintas exige uma mistura de lógica e intuição que os computadores são incapazes de possuir.

Pesquisadores do Instituto de Tecnologia de Massachusetts e da Universidade do Sul da Califórnia, nos Estados Unidos, tentam mostrar que Robinson estava errado - ou, pelo menos, que é possível simular esses talentos no computador.

Em um estudo que será apresentado esta semana na reunião anual da Associação para Linguística Computacional, em Uppsala, na Suécia, o grupo apresentará um novo programa de computador que foi capaz de decifrar grande parte do extinto idioma ugarítico, descoberto a partir de escritos encontrados na cidade perdida de Ugarit, na Síria, cujas ruínas foram encontradas em 1928.

Ugarítico

O ugarítico era uma língua semítica escrita em alfabeto cuneiforme com 27 consoantes e três vogais.

Os escritos encontrados foram importantes para estudiosos do Velho Testamento, por auxiliar a clarificar textos hebraicos e revelar como o judaísmo utilizava frases comuns, expressões literárias e frases empregadas pelas culturas gentis que o cercavam.

O sistema, além de ajudar a decifrar línguas antigas que continuam a resistir aos esforços de especialistas, poderá expandir o número de idiomas que sistemas automatizados de tradução, como o Google Tradutor, são capazes de manejar.

Simulação da intuição

Para simular a intuição que falta aos computadores, Regina Barzilay e seus colegas do Laboratório de Inteligência Artificial e Ciência da Computação do MIT, fizeram várias proposições.

A primeira é que a língua a ser decifrada pelo computador estaria próxima de outra. Para isso, foi escolhido o hebraico.

Outra asserção é que haveria um modo sistemático de mapear o alfabeto de uma língua com relação ao alfabeto de outra, e que os símbolos relacionados deveriam ocorrer com frequências semelhantes nas duas línguas.

O sistema também fez asserções no nível semântico, no sentido de que as línguas relacionadas teriam pelo menos alguns cognatos, isto é, palavras com raízes em comum.

Mapeamentos

Por meio de um modelo probabilístico usado em pesquisas em inteligência artificial, os pesquisadores determinaram nos mapeamentos os radicais semelhantes e conjuntos de sufixos e prefixos consistentes, entre outras relações entre as palavras das duas línguas.

O ugarítico já havia sido decifrado. Se não tivesse sido, os autores do estudo não teriam como avaliar o desempenho do sistema que desenvolveram.

"O sistema repetiu as análises dos dados resultantes centenas de vezes. E, a cada vez, os acertos eram mais frequentes, pois estávamos chegando mais perto de uma solução consistente. Finalmente, chegamos a um ponto no qual a alteração do mapeamento das similaridades não aumentava mais a consistência dos resultados", disse outro autor do estudo, Ben Snyder, também do MIT.

Limites da intuição computadorizada

Das 30 letras do alfabeto extinto, o sistema foi capaz de mapear corretamente 29 com seus correspondentes em hebraico. Cerca de um terço das palavras em ugarítico tem cognato em hebraico e, desse total, o sistema identificou corretamente 60%.

"Das palavras identificadas incorretamente, na maior parte das vezes o erro foi por apenas uma palavra. Ou seja, o sistema deu palpites bem razoáveis", disse Snyder.

Apesar dos índices de acerto, os pesquisadores destacam que o sistema não é suficientemente bem resolvido para substituir os tradutores humanos.

Mas, segundo eles, é uma ferramenta poderosa cujo desenvolvimento poderá ajudar no processo de decifrar línguas desconhecidas e de traduzir outras existentes mais eficientemente.

Bibliografia:

Artigo: A Statistical Model for Lost Language Decipherment
Autores: Benjamin Snyder, Regina Barzilay, Kevin Knight
Revista: Proceedings of th ACL 2010
Data: July 2010
Link: http://people.csail.mit.edu/bsnyder/papers/bsnyder_acl2010.pdf