Software decifra idioma extinto

No livro “Lost Languages”, de 2002, o então editor do suplemento de educação superior do jornal inglês The Times, Andrew Robinson, afirmou que o trabalho arqueológico de decifrar línguas extintas exige uma mistura de lógica e intuição que os computadores são incapazes de possuir. Pesquisadores do Instituto de Tecnologia de Massachusetts e da Universidade do Sul da Califórnia, nos Estados Unidos, tentam mostrar que Robinson estava errado.

Em estudo que será apresentado esta semana na reunião anual da Associação para Linguística Computacional, em Uppsala, na Suécia, o grupo apresentará um novo programa de computador que foi capaz de decifrar grande parte do extinto idioma ugarítico, descoberto a partir de escritos encontrados na cidade perdida de Ugarit, na Síria, cujas ruínas foram encontradas em 1928.

O ugarítico era uma língua semítica escrita em alfabeto cuneiforme com 27 consoantes e três vogais. Os escritos encontrados foram importantes para estudiosos do Velho Testamento, por auxiliar a clarificar textos hebraicos e revelar como o judaísmo utilizava frases comuns, expressões literárias e frases empregadas pelas culturas gentis que o cercavam. O sistema, além de ajudar a decifrar línguas antigas que continuam a resistir aos esforços de especialistas, poderá expandir o número de idiomas que sistemas automatizados de tradução, como o Google Tradutor, são capazes de manejar.

Para simular a intuição que falta aos computadores, Regina Barzilay, do Laboratório de Inteligência Artificial e Ciência da Computação do MIT, e colegas fizeram várias proposições. A primeira é que a língua a ser decifrada pelo computador estaria próxima de outra. Para isso, foi escolhido o hebraico. Outra asserção é que haveria um modo sistemático de mapear o alfabeto de uma língua com relação ao alfabeto de outra, e que os símbolos relacionados deveriam ocorrer com frequências semelhantes nas duas línguas.

O sistema também fez asserções no nível semântico, no sentido de que as línguas relacionadas teriam pelo menos alguns cognatos, isto é, palavras com raízes em comum. Por meio de um modelo probabilístico usado em pesquisas em inteligência artificial, os pesquisadores determinaram nos mapeamentos os radicais semelhantes e conjuntos de sufixos e prefixos consistentes, entre outras relações entre as palavras das duas línguas. O ugarítico já havia sido decifrado. Se não tivesse sido, os autores do estudo não teriam como avaliar a performance do sistema que desenvolveram.

“O sistema repetiu as análises dos dados resultantes centenas de vezes. E, a cada vez, os acertos eram mais frequentes, pois estávamos chegando mais perto de uma solução consistente. Finalmente, chegamos a um ponto no qual a alteração do mapeamento das similaridades não aumentava mais a consistência dos resultados”, disse outro autor do estudo, Ben Snyder, também do MIT.

Das 30 letras do alfabeto extinto, o sistema foi capaz de mapear corretamente 29 com seus correspondentes em hebraico. Cerca de um terço das palavras em ugarítico tem cognato em hebraico e, desse total, o sistema identificou corretamente 60%. Das palavras identificadas incorretamente, na maior parte das vezes o erro foi por apenas uma palavra. Ou seja, o sistema deu palpites bem razoáveis”, disse Snyder.

Apesar dos índices de acerto, os pesquisadores destacam que o sistema não é suficientemente bem resolvido para substituir os tradutores humanos. Mas, segundo eles, é uma ferramenta poderosa cujo desenvolvimento poderá ajudar no processo de decifrar línguas desconhecidas e de traduzir outras existentes mais eficientemente.

O artigo “A Statistical Model for Lost Language Decipherment“, de Regina Barzilay e outros, pode ser lido em people.csail.mit.edu/bsnyder/papers/bsnyder_acl2010.pdf.

Fonte: portal Exame

Anúncios

Jimmy Wales, fundador do Wikipedia, diz que a web está em fase de transição

Direto do evento Infotrends, promovido pela revista Info, da Abril, em São Paulo.

Segundo Jimmy Wales, criador do site Wikipedia, não apenas a tecnologia está se tornando mais inteligente, como o próprio público consumidor de informaçoes está se sofisticando. Como exemplos ele citou a evolução das séries de sucesso na TV,  que estão cada vez mais complexas , trazendo enredos complicados e com múltiplas referências, como  os seriados americanos “Lost” e “Seinfeld“.

Ele acredita que a web também vive uma transição para uma maior sofisticação e que os usuários serão cada vez mais exigentes, críticos e colaborativos. Ou seja, mesmo que a grande maioria de usuários de apps como o Twitter não postem  nada relevante, como piadas ou comentários triviais, já existe uma grande massa crítica na web, formada por pessoas que tem realmente algo a dizer e querem compartlihar sua expertise nas mais variadas áreas de conhecimento.

Pode ser um visão otimista, mas de qualquer forma esta tem sido a visão do site Wikipedia, a enciclopédia virtual que milhares de colaboradores construíram gratuitamente, criando um dos sites mais complexos e extensos da web e que cobre virtualmente todas as áreas do conhecimento humano. Criado em 2001, este site é atualmente o quinto site mais acessado do mundo mas sobrevive de doações voluntárias, pois não aceita a inclusão de banners.

Por outro lado, esta visão contraria o senso comum expresso no chavão de que “as pessoas estão atoladas em informaçao na web”: Jimmy rebate e diz que há uma grande carência por informação útil e que esta demanda ainda é maior que a oferta. “O Wikipedia é uma prova disso”, diz ele. Ou seja, apesar das pessoas estarem recebendo cada vez mais lixo na web, por meio de spams, tweets tolos, videos engraçadinhos e outras formas de enviar informação inútil, existe uma demanda crescente por sites voltados à educação e à difusão de conhecimentos.

Longa vida à Wikipedia e que o futuro chegue logo.

Hype machine

O site Hype Machine apresenta um modelo diferente das radios web tradicionais: funciona como um grande agregador musical e um termômetro da popularidade musical de cada artista na web. Os posts mais recentes dos blogs cadastrados aparecem na página inicial, onde além de ouvir as músicas você pode baixar os arquivos e ser avisado quando forem postadas novas músicas do artista pesquisado. A idéia é inovadora, pelo fato do conteúdo musical do site ser alimentado colaborativamente, ou seja, livremente e (teoricamente) sem moderação. É possível garimpar raridades e novidades interessantes (muito embora uma boa parte das postagens tenha uma tendência pop e meio comercial).

Accujazz, o melhor jazz da web

Vale a pena checar Accujazz.com, esta rádio na web tem cerca de 30 canais de jazz distintos, com excelente programação. Alguns canais cobrem músicos contemporâneos, outros canais cobrem “Mainstream” Jazz, Jazz Rock, Groove, Fusion, Bop, guitar jazz, bossa nova, jazz de Chicago, NY, Europa, Africa, selos como Blue Note e muito mais. Experimente o canal com o catálogo da gravadora ECM.

Worldmapper, a geografia dos contrastes

O site Worldmapper traz diferentes mapas sobre a desigualdade econômica e populacional mundial, traduzida visualmente. Por exemplo, este seria o mapa mundial, se mapearmos proporcionalmente a área ao povoamento (repare na India e seu “inchaço”).

Podemos tambem ver dinamicamente o crescimento mundial do numero de usuários da internet, de 2000 a 2007:
http://www.worldmapper.org/animations/internet_users_animation.htmlço