A Ascensão de Grandes Modelos de Linguagem: Transformando a Geração de Texto Impulsionada por IA

Por

Brian Koome

Tempo de leitura: 3 minutos - 14 de novembro de 2023

Os grandes modelos de linguagem (LLMs, na sigla em inglês) tornaram-se uma força proeminente no campo da inteligência artificial.
Os grandes modelos de linguagem tracà introdução das redes neurais profundas.
O treinamento de LLMs requer um enorme conjunto de dados textuais.

Os grandes modelos de linguagem (LLMs, naem inglês) tornaram-se uma força proeminente no campo da inteligência artificial, revolucionando a forma como interagimos com o texto e o geramos. O surgimento dos grandes modelos de linguagem remonta tracintrodução das redes neurais profundas, particularmente a arquitetura Transformer, em 2017.

Essa inovação abriu caminho para a evolução dos modelos de linguagem convencionais para os grandes modelos de linguagem (LLMs). Os LLMs são projetados para lidar com uma infinidade de tarefas relacionadas a texto, incluindo geração de texto, geração de código, sumarização, tradução e aplicações de fala para texto. No entanto, é importante reconhecer que os LLMs não estão isentos de limitações.

Uma desvantagem notável é a qualidade do texto gerado, que muitas vezes fica aquém dos padrões humanos, chegando até mesmo a produzir conteúdo absurdo ou errôneo. Os LLMs também são conhecidos por gerar "alucinações", inventando fatos que podem parecer plausíveis para aqueles que desconhecem suas imprecisões. Além disso, as traduções de idiomas geradas por LLMs raramente são 100% precisas sem revisão humana, e o código gerado por esses modelos pode conter erros ou não funcionar. Embora sejam feitos esforços para impedir que os LLMs façam declarações controversas ou promovam atividades ilegais, comandos maliciosos às vezes conseguem burlar essas medidas de segurança.

O treinamento de modelos de linguagem de aprendizagem (LLMs) requer um enorme conjunto de dados textuais. Alguns dos conjuntos de dados utilizados incluem o 1B Word Benchmark, a Wikipédia, o Toronto Books Corpus, o Common Crawl e repositórios públicos de código aberto do GitHub. No entanto, grandes conjuntos de dados textuais levantam preocupações sobre violação de direitos autorais, com vários processos judiciais atualmente em andamento abordando essa questão. Esforços estão sendo feitos para solucionar essas preocupações, como exemplificado por conjuntos de dados como o Colossal Clean Crawled Corpus (C4), um conjunto de dados de 800 GB derivado do Common Crawl, que passou por uma rigorosa limpeza.

Os Modelos de Linguagem de Aprendizagem (LLMs) se diferenciam dos modelos de linguagem tradicionais pelo uso de redes neurais de aprendizagem profunda e pela necessidade de milhões ou até bilhões de parâmetros (pesos) em suas redes neurais. Com o avanço da área, os LLMs cresceram em tamanho, com modelos como o GPT-3 ostentando impressionantes 175 bilhões de parâmetros. No entanto, o aumento no número de parâmetros traz consigo desvantagens, já que modelos maiores exigem mais memória e operam mais lentamente. Notavelmente, LLMs menores também surgiram em 2023, oferecendo opções para diferentes recursos computacionais.

Uma história dos modelos de geração de texto

Os modelos de geração de texto têm uma história rica, que remonta ao trabalho de Andrei Markov em 1913, que aplicou amaticà poesia e introduziu o conceito de cadeias de Markov para previsões em nível de caractere. Claude Shannon expandiu esse trabalho em 1948 e, posteriormente, Fred Jelinek e Robert Mercer aplicaram modelos estatísticos de linguagem ao reconhecimento de fala em tempo real.

No século XXI, as redes neurais, particularmente os modelos de redes neurais autorregressivas de alimentação direta, substituíram os modelos estatísticos tradicionais. Esses modelos neurais melhoraram significativamente a precisão da previsão de palavras em relação aos métodos anteriores, evoluindo eventualmente para o que hoje chamamos de grandes modelos de linguagem.

Os modelos de linguagem modernos servem a diversos propósitos, incluindo geração de texto, classificação, resposta a perguntas, análise de sentimentos, reconhecimento de entidades, reconhecimento de fala e escrita manual, entre outros. A personalização para tarefas específicas, conhecida como ajuste fino, é alcançada por meio de conjuntos de treinamento suplementares.

As tarefas intermediárias em modelos de linguagem envolvem diversos processos, como segmentação de sentenças, tokenização de palavras, lematização, etiquetagem gramatical,dentde stopwords, reconhecimento de entidades nomeadas, classificação de texto, chunking e resolução de correferência. Essas tarefas contribuem para a versatilidade dos modelos de linguagem e sua aplicabilidade em uma ampla gama de tarefas de compreensão de linguagem natural.

Como mencionado anteriormente, os grandes modelos de linguagem se diferenciam dos modelos tradicionais por suas redes neurais de aprendizado profundo, extensos dados de treinamento e grande número de parâmetros. O treinamento de um modelo de linguagem de grande porte envolve a otimização desses parâmetros para minimizar erros na tarefa designada, frequentemente por meio de aprendizado, como prever a próxima palavra em um conjunto de textos.

Os mestrados em Direito mais populares

O recente aumento no desenvolvimento de LLMs pode ser atribuído ao artigo inovador de 2017, "Attention is All You Need", que introduziu a arquitetura Transformer. Desde então, inúmeros LLMs surgiram, cada um ultrapassando os limites de tamanho e desempenho.

Os grandes modelos de linguagem evoluíram significativamente, remodelando o cenário da geração e compreensão de texto orientadas por IA. Embora suas capacidades sejam impressionantes, suas limitações e preocupações éticas não devem ser ignoradas. À medida que a área avança, encontrar um equilíbrio entre o tamanho do modelo, o impacto ambiental e a curadoria de dados torna-se cada vez mais crucial para o desenvolvimento e a implementação responsáveis de grandes modelos de linguagem no futuro.

Se você está lendo isto, já está um passo à frente. Continue assim assinando nossa newsletter.

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Brian Koome

Brian Koome tem mais de sete anos de experiência em reportagens sobre blockchain e criptomoedas, atuando no setor desde 2017. Ele contribuiu para publicações de destaque, incluindo o BlockToday.com. Além disso, desenvolveu o curso Ethereum 101 para o BitDegree.org antes de se juntar ao Cryptopolitan como redator em tempo integral. Brian escreve guias permanentes (EGs), análises aprofundadas, entrevistas e análises de preços. Seu foco em DeFi, inovação em blockchain e projetos cripto emergentes encanta os leitores.

ÍNDICE

1. Uma história dos modelos de geração de texto

2. Os mestrados em Direito mais populares

Compartilhe este artigo