Prólogo: Você é o que leu.
Na noite de uma sexta-feira no início de novembro, Jun Rekimoto, um ilustre professor de interação humano-computador na Universidade de Tóquio, estava online se preparando para uma palestra quando começou a notar algumas postagens peculiares rolando nas redes sociais.
Aparentemente, o Google Tradutor, o popular serviço de tradução automática da empresa, melhorou repentina e quase imensamente. Rekimoto visitou o próprio Translate e começou a experimentá-lo. Ele ficou atônito. Ele teve que dormir, mas a Translate se recusou a relaxar seu controle sobre sua imaginação.
Rekimoto escreveu suas descobertas iniciais em um post no blog. Primeiro, ele comparou algumas frases de duas versões publicadas de "O Grande Gatsby", a tradução de Takashi Nozaki de 1957 e a iteração mais recente de Haruki Murakami, com o que esse novo Google Tradutor foi capaz de produzir. A tradução de Murakami é escrita "em japonês muito polido", Rekimoto me explicou mais tarde por e-mail, mas a prosa é distintamente "estilo Murakami". Por outro lado, a tradução do Google - apesar de algumas "pequenas antinaturais" - é para ele "mais transparente".
A segunda metade do post de Rekimoto examinou o serviço na outra direção, do japonês para o inglês. Ele fugiu de sua própria interpretação japonesa da abertura de "As Neves do Kilimanjaro", de Hemingway, e então correu essa passagem de volta pelo Google para o inglês. Ele publicou esta versão ao lado do original de Hemingway, e passou a convidar seus leitores a adivinhar qual era o trabalho de uma máquina.
Nº 1:
Kilimanjaro é uma montanha coberta de neve de 19.710 pés de altura, e é dito ser a montanha mais alta da África. Seu cume ocidental é chamado de Masai "Ngaje Ngai", a Casa de Deus. Perto do cume ocidental há a carcaça seca e congelada de um leopardo. Ninguém explicou o que o leopardo procurava naquela altitude.
Nº 2:
Kilimanjaro é uma montanha de 19.710 pés coberta de neve e é considerada a montanha mais alta da África. O cume do oeste é chamado de "Ngaje Ngai" em Masai, a casa de Deus. Perto do topo do oeste há um corpo morto seco e congelado de leopardo. Ninguém nunca explicou o que o leopardo queria naquela altitude.
Mesmo para um falante nativo de inglês, o artigo que faltava sobre o leopardo é o único brinde real de que o número 2 era a saída de um autômato. Sua proximidade foi uma fonte de admiração para Rekimoto, que estava bem familiarizado com as capacidades do serviço anterior.
Apenas 24 horas antes, o Google teria traduzido a mesma passagem japonesa da seguinte forma:
Kilimanjaro é 19.710 pés da montanha coberta de neve, e diz-se que a montanha mais alta da África. No topo do oeste, "Ngaje Ngai" na língua Maasai, tem sido referida como a casa de Deus. No topo, perto do oeste, há uma carcaça seca e congelada de um leopardo. Se o leopardo tinha o que a demanda naquela altitude, não há que ninguém explique.
Rekimoto promoveu sua descoberta para seus cerca de cem mil seguidores no Twitter e, nas horas seguintes, milhares de pessoas transmitiram seus próprios experimentos com o serviço de tradução automática. Alguns foram bem sucedidos, outros destinados principalmente ao efeito cômico.
Quando amanheceu Tóquio, o Google Tradutor foi a tendência número 1 no Twitter japonês, logo acima de algumas séries de anime cult e do aguardado novo single de um supergrupo de ídolos femininos. Todo mundo se perguntava: como o Google Tradutor se tornou tão extraordinariamente artístico?
Quatro dias depois, algumas centenas de jornalistas, empresários e anunciantes de todo o mundo se reuniram no escritório de engenharia do Google em Londres para um anúncio especial.
Os convidados foram recebidos com biscoitos da sorte da marca Translate. Seus boletins de papel tinham uma frase estrangeira de um lado – a minha estava em norueguês – e, do outro, um convite para baixar o aplicativo Translate. As mesas foram montadas com bandejas de donuts e smoothies, cada uma rotulada com um cartaz que anunciava seu sabor em alemão (zitrone), português (baunilha) ou espanhol (manzana). Depois de um tempo, todos foram levados a um teatro escuro e de pelúcia.
Sadiq Khan, prefeito de Londres, fez alguns comentários iniciais. Um amigo, começou ele, havia dito recentemente que o lembrava do Google. "Por quê, porque eu sei todas as respostas?", questionou o prefeito. "Não", respondeu o amigo, "porque você está sempre tentando terminar minhas frases". A multidão titubeou educadamente. Khan concluiu apresentando o presidente-executivo do Google, Sundar Pichai, que subiu ao palco.
Pichai esteve em Londres em parte para inaugurar o novo prédio do Google lá, a pedra fundamental de um novo "bairro do conhecimento" em construção em King's Cross, e em parte para revelar a conclusão da fase inicial de uma transformação da empresa que ele anunciou no ano passado. O Google do futuro, Pichai havia dito em várias ocasiões, seria "a IA primeiro".
O que isso significava, em teoria, era complicado e tinha recebido muitas especulações. O que isso significava na prática, com alguma sorte, era que em breve os produtos da empresa não representariam mais os frutos da programação tradicional de computadores, exatamente, mas "aprendizado de máquina".
Um departamento rarefeito dentro da empresa, o Google Brain, foi fundado há cinco anos com base nesse mesmo princípio: que as "redes neurais" artificiais que se familiarizam com o mundo por tentativa e erro, como fazem as crianças, podem, por sua vez, desenvolver algo como a flexibilidade humana.
Essa noção não é nova - uma versão dela data dos estágios iniciais da computação moderna, na década de 1940 - mas durante grande parte de sua história a maioria dos cientistas da computação a viu como vagamente desprestigiante, até mesmo mística. Desde 2011, porém, o Google Brain demonstrou que essa abordagem à inteligência artificial poderia resolver muitos problemas que confundiam décadas de esforços convencionais.
O reconhecimento de fala não funcionou muito bem até que a Brain empreendeu um esforço para renová-lo; a aplicação de machine learning tornou seu desempenho na plataforma móvel do Google, o Android, quase tão bom quanto a transcrição humana. O mesmo ocorreu com o reconhecimento de imagens.
Há menos de um ano, a Brain começou pela primeira vez com a renovação de todo um produto de consumo, e seus resultados importantes estavam sendo comemorados esta noite.
O Translate fez sua estreia em 2006 e, desde então, se tornou um dos ativos mais confiáveis e populares do Google, atendendo a mais de 500 milhões de usuários mensais que precisam de 140 bilhões de palavras por dia em um idioma diferente. Ele existe não apenas como seu próprio aplicativo autônomo, mas também como um recurso integrado ao Gmail, Chrome e muitas outras ofertas do Google, onde o tomamos como um botão dado - uma parte natural e sem atrito de nosso comércio digital.
Foi apenas com a crise dos refugiados, explicou Pichai da tribuna, que a empresa passou a contar com a importância geopolítica da Translate: na tela atrás dele apareceu um gráfico cuja curva íngreme indicava um recente aumento de cinco vezes nas traduções entre árabe e alemão. (Também era próximo do coração de Pichai.
Ele cresceu na Índia, uma terra dividida por dezenas de línguas.) A equipe vinha adicionando constantemente novos idiomas e recursos, mas os ganhos de qualidade nos últimos quatro anos diminuíram consideravelmente.
Até hoje. No fim de semana anterior, o Translate havia sido convertido em um sistema baseado em IA para grande parte de seu tráfego, não apenas nos Estados Unidos, mas também na Europa e na Ásia: o lançamento incluiu traduções entre inglês e espanhol, francês, português, alemão, chinês, japonês, coreano e turco. O resto das centenas de línguas da Translate viria, com o objetivo de oito por mês, até ao final do próximo ano.
A nova encarnação, para a grata surpresa dos próprios engenheiros do Google, havia sido concluída em apenas nove meses. O sistema de IA havia demonstrado melhorias da noite para o dia aproximadamente iguais aos ganhos totais que o antigo havia acumulado ao longo de toda a sua vida.
Sundar Pichai, presidente-executivo do Google, em frente ao seu escritório em Mountain View, Califórnia.Crédito... Brian Finke para o The New York Times.
Pichai tem um carinho pela obscura referência literária, ele me disse um mês antes, em seu escritório em Mountain View, Califórnia, que o Translate em parte existe porque nem todos podem ser como o físico Robert Oppenheimer, que aprendeu sânscrito a ler o Bhagavad Gita no original.
Em Londres, o slide dos monitores atrás dele apontava para uma citação de Borges: "Uno no es lo que es por lo que escribe, sino por lo que ha leído". Sorridente, Pichai leu em voz alta uma estranha versão em inglês da frase que havia sido proferida pelo antigo sistema de tradução: "Um não é o que é para o que escreve, mas para o que leu".
À direita disso havia uma nova versão renderizada em IA: "Você não é o que escreve, mas o que leu".
Foi uma observação apropriada: o novo Google Tradutor foi executado nas primeiras máquinas que, de certa forma, aprenderam a ler qualquer coisa.
A decisão do Google de se reorganizar em torno da IA foi a primeira grande manifestação do que se tornou um delírio de aprendizado de máquina em toda a indústria. Nos últimos quatro anos, seis empresas em particular - Google, Facebook, Apple, Amazon, Microsoft e a empresa chinesa Baidu - desencadearam uma corrida armamentista por talentos de IA, particularmente dentro das universidades. As promessas corporativas de recursos e liberdade enfraqueceram os principais departamentos acadêmicos.
Tornou-se amplamente conhecido no Vale do Silício que Mark Zuckerberg, presidente-executivo do Facebook, supervisiona pessoalmente, com telefonemas e bate-papos por vídeo, as aberturas de sua empresa para os estudantes de pós-graduação mais desejados. Salários iniciais de sete dígitos não são inéditos.
A participação na conferência acadêmica mais importante da área quase quadruplicou. O que está em jogo não é apenas mais uma inovação fragmentada, mas o controle sobre o que muito bem poderia representar uma plataforma computacional inteiramente nova: a inteligência artificial ambiental generalizada.
A expressão "inteligência artificial" é invocada como se seu significado fosse evidente, mas sempre foi fonte de confusão e controvérsia. Imagine se você voltasse aos anos 1970, parasse alguém na rua, pegasse um smartphone e mostrasse o Google Maps.
Uma vez que você conseguiu convencê-la de que não era um bruxo estranhamente vestido, e que o que você retirou do bolso não era um amuleto de artes negras, mas apenas um pequeno computador mais poderoso do que aquele que guiou as missões Apollo, o Google Maps quase certamente lhe pareceria um exemplo persuasivo de "inteligência artificial".
Em um sentido muito real, é. Ele pode fazer coisas que qualquer ser humano alfabetizado em mapas pode gerenciar, como levá-lo do seu hotel para o aeroporto - embora possa fazer isso de forma muito mais rápida e confiável. Ele também pode fazer coisas que os humanos simplesmente e obviamente não podem: ele pode avaliar o tráfego, planejar a melhor rota e se reorientar quando você pega a saída errada.
Praticamente ninguém hoje, no entanto, concederia ao Google Maps a honorífica "IA", tão sentimental e poupador somos nós no uso da palavra "inteligência". A inteligência artificial, acreditamos, deve ser algo que distinga o HAL do que quer que seja que um tear ou carrinho de mão possa fazer. No minuto em que podemos automatizar uma tarefa, rebaixamos a habilidade relevante envolvida para uma de mero mecanismo.
Hoje o Google Maps parece, no sentido pejorativo do termo, robótico: ele simplesmente aceita uma demanda explícita (a necessidade de ir de um lugar para outro) e tenta satisfazer essa demanda da forma mais eficiente possível. As metas para a "inteligência artificial" estão, assim, em constante retrocesso.
Quando tem a oportunidade de fazer distinções cuidadosas, Pichai diferencia entre as aplicações atuais da IA e o objetivo final da " inteligência artificial geral". A inteligência artificial geral não envolverá a adesão obediente a instruções explícitas, mas demonstrará uma facilidade com o implícito, o interpretativo. Será uma ferramenta geral, projetada para fins gerais em um contexto geral.
Pichai acredita que o futuro de sua empresa depende de algo assim. Imagine se você pudesse dizer ao Google Maps: "Eu gostaria de ir ao aeroporto, mas preciso parar no caminho para comprar um presente para meu sobrinho".
Uma versão mais geralmente inteligente desse serviço - uma assistente onipresente, do tipo que Scarlett Johansson desencarnou memoravelmente há três anos no filme "Her", de Spike Jonze - saberia todos os tipos de coisas que, digamos, um amigo próximo ou um estagiário sério poderia saber: a idade de seu sobrinho e quanto você normalmente gosta de gastar em presentes para crianças, e onde encontrar uma loja aberta.
Mas um Maps verdadeiramente inteligente também poderia concebivelmente saber todos os tipos de coisas que um amigo próximo não faria, como o que só recentemente entrou na moda entre os pré-escolares na escola de seu sobrinho - ou, mais importante, o que seus usuários realmente querem.
Se uma máquina inteligente fosse capaz de discernir alguma regularidade intrincada e obscura nos dados sobre o que fizemos no passado, ela poderia ser capaz de extrapolar sobre nossos desejos subsequentes, mesmo que não os conheçamos inteiramente nós mesmos.
A nova onda de assistentes aprimorados por IA – Siri da Apple, M do Facebook, Echo da Amazon – são criaturas de aprendizado de máquina, construídas com intenções semelhantes. Os sonhos corporativos de machine learning, no entanto, não se esgotam com o objetivo da clarividência do consumidor.
Uma subsidiária de imagens médicas da Samsung anunciou este ano que seus novos dispositivos de ultrassom podem detectar o câncer de mama. Os consultores de gestão estão caindo sobre si mesmos para preparar os executivos para a ampliação das aplicações industriais dos computadores que se programam.
A DeepMind, uma aquisição do Google em 2014, derrotou o grande mestre humano reinante do antigo jogo de tabuleiro Go, apesar das previsões de que tal conquista levaria mais 10 anos.
Em um famoso ensaio de 1950, Alan Turing propôs um teste para uma inteligência artificial geral: um computador que poderia, ao longo de cinco minutos de troca de texto, enganar com sucesso um interlocutor humano real.
Uma vez que uma máquina pode traduzir fluentemente entre duas línguas naturais, as bases foram lançadas para uma máquina que pode um dia "entender" a linguagem humana bem o suficiente para se envolver em conversas plausíveis .
Os membros do Google Brain, que impulsionaram e ajudaram a supervisionar o projeto Translate, acreditam que essa máquina estaria a caminho de servir como um assistente digital pessoal geralmente inteligente e abrangente.
O que se segue aqui é a história de como uma equipe de pesquisadores e engenheiros do Google – primeiro um ou dois, depois três ou quatro e, finalmente, mais de cem – fez um progresso considerável nessa direção.
É uma história incomum em muitos aspectos, até porque desafia muitos dos estereótipos do Vale do Silício aos quais nos acostumamos. Não apresenta pessoas que pensam que tudo será irreconhecível amanhã ou no dia seguinte por causa de algum funileiro inquieto em sua garagem.
Não é uma história sobre pessoas que acham que a tecnologia vai resolver todos os nossos problemas, nem uma história sobre pessoas que pensam que a tecnologia está inelutavelmente fadada a criar novos problemas apocalípticos. Não se trata de ruptura, pelo menos não da forma como essa palavra tende a ser usada.
Comentários