010150230210 programas estao aprendendo Vision Art NEWS

IA j est aprendendo sem que precisemos lhe ensinar

10 de fevereiro de 2023 visionnews

Informtica

Com informações do MIT – 10/02/2023

O prprio programa de inteligncia artificial treina modelos menores de si mesmo em seu interior, dispensando o treinamento especfico para cada tarefa.
[Imagem: Jose-Luis Olivares/MIT]

Aprendizagem no contexto

Grandes modelos de linguagem, como o GPT-3 da OpenAI, usado na estrela do momento, o ChatGPT, so redes neurais massivas que podem gerar texto semelhante ao criado pelos seres humanos, de poesia a cdigos de programao. Treinados usando dados da internet, esses modelos de aprendizado de mquina pegam um pequeno texto de entrada e ento preveem o texto que provavelmente vir a seguir.

Mas isso no tudo o que esses modelos podem fazer. Pesquisadores esto explorando um fenmeno curioso, conhecido como aprendizagem no contexto – ou aprendizagem contextual – no qual um grande modelo de linguagem aprende a realizar uma tarefa depois de ver apenas alguns exemplos – apesar do fato de no ter sido treinado para essa tarefa.

Por exemplo, algum pode alimentar o modelo com vrias sentenas de exemplo e seus sentimentos (positivos ou negativos), ento solicitar uma nova sentena, e o modelo pode fornecer o sentimento correto.

Normalmente, um modelo de aprendizado de mquina como o GPT-3 precisaria ser treinado novamente com novos dados para essa nova tarefa. Durante esse processo de treinamento, o modelo atualiza seus parmetros medida que processa novas informaes para aprender a tarefa. Mas, com o aprendizado no contexto, os parmetros do modelo no so atualizados, ento parece que o modelo aprende uma nova tarefa sem passar pelo processo de aprendizado.

Cientistas do MIT, Google Research e Universidade de Stanford esto se esforando pra desvendar esse mistrio. Para isso, eles comearam estudando modelos menores, mas muito semelhantes aos grandes modelos de linguagem, para ver como eles podem aprender sem atualizar os parmetros.

Um modelo filhote dentro de um modelo maior

Os resultados obtidos pela equipe mostram que esses modelos massivos de redes neurais so capazes de conter modelos lineares menores e mais simples enterrados dentro deles. O modelo grande consegue ento implementar um algoritmo de aprendizado simples para treinar esse modelo linear menor para concluir uma nova tarefa, usando apenas as informaes j contidas no modelo maior – seus parmetros permanecem fixos.

Este um passo importante para entender os mecanismos por trs do aprendizado no contexto, abrindo as portas para mais explorao em torno dos algoritmos de aprendizado que esses grandes modelos podem implementar, ressalta Ekin Akyurek, principal autor de um artigo que detalha os primeiros resultados desta pesquisa. Com uma melhor compreenso do aprendizado no contexto, os pesquisadores podero permitir que os modelos concluam novas tarefas sem a necessidade de um novo treinamento dispendioso.

“Normalmente, se voc deseja fazer uma sintonia fina desses modelos, precisa coletar dados especficos do domnio e fazer alguma engenharia complexa. Mas agora podemos apenas aliment-lo com uma entrada, cinco exemplos, e ele realiza o que queremos. Ento, o aprendizado de contexto um fenmeno bastante empolgante,” disse Akyurek.

Na comunidade de pesquisa de aprendizado de mquina, muitos cientistas passaram a acreditar que grandes modelos de linguagem podem realizar aprendizado no contexto devido forma como so treinados, mas o assunto ainda dividia opinies.

Por exemplo, o GPT-3 tem centenas de bilhes de parmetros e foi treinado lendo grandes trechos de texto na internet, desde artigos da Wikipdia at postagens do Reddit. Portanto, quando algum mostra ao modelo exemplos de uma nova tarefa, ele provavelmente j havia visto algo muito semelhante porque seu conjunto de dados de treinamento inclua textos de bilhes de sites. Ele repete os padres vistos durante o treinamento, em vez de aprender a realizar novas tarefas.

Aprendendo a aprender

Para testar a hiptese de modelos menores de aprendizado de mquina emergindo dentro desses grandes modelos, os pesquisadores usaram um modelo de rede neural conhecido como “transformador”, ou metamrfico, que tem a mesma arquitetura do GPT-3, mas foi treinado especificamente para aprendizado no contexto.

Ao explorar a arquitetura desse metamorfo, eles provaram matematicamente que ele pode escrever um modelo linear dentro de seus estados ocultos. Uma rede neural composta por muitas camadas de ns interconectados que processam dados. Os estados ocultos so as camadas entre as camadas de entrada e sada.

Suas avaliaes matemticas mostram que esse modelo linear est escrito em algum lugar nas primeiras camadas do transformador. O transformador pode ento atualizar o modelo linear implementando algoritmos de aprendizado simples.

Em essncia, o modelo simula e treina uma verso menor de si mesmo.

“Portanto, minha esperana que isso mude a viso de algumas pessoas sobre a aprendizagem no contexto. Esses modelos no so to estpidos quanto as pessoas pensam. Eles no apenas memorizam essas tarefas. Eles podem aprender novas tarefas, e mostramos como isso pode ser feito,” concluiu Akyurek.

Bibliografia:

Artigo: What Learning Algorithm Is In-Context Learning? Investigations with Linear Models
Autores: Ekin Akyurek, Dale Schuurmans, Jacob Andreas, Tengyu Ma, Denny Zhou
DOI: 10.48550/arXiv.2211.15661
Link: https://arxiv.org/abs/2211.15661