El auge de los grandes modelos lingüísticos: la transformación de la generación de texto impulsada por IA

Por

Brian Koome

3 minutos de lectura 14 de noviembre de 2023

Los modelos de lenguaje grande (LLM) se han convertido en una fuerza destacada en el campo de la inteligencia artificial.
Los modelos de lenguaje de gran tamaño se traca la introducción de redes neuronales profundas.
La formación de LLM requiere un corpus masivo de datos de texto.

Los modelos de lenguaje grandes (LLM) se han convertido en una fuerza destacada en el campo de la inteligencia artificial, revolucionando la forma en que interactuamos con el texto y lo generamos. Su aparición se traca la introducción de las redes neuronales profundas, en particular la arquitectura Transformer en 2017.

Esta innovación sentó las bases para la evolución de los modelos lingüísticos convencionales a los grandes modelos lingüísticos (LLM). Los LLM están diseñados para gestionar una multitud de tareas relacionadas con el texto, como la generación de texto, la generación de código, el resumen, la traducción y las aplicaciones de voz a texto. Sin embargo, es importante reconocer que los LLM tienen sus limitaciones.

Una desventaja notable es la calidad del texto generado, que a menudo no cumple con los estándares humanos, a veces incluso produciendo contenido cómicamente absurdo o erróneo. Los LLM también son conocidos por generar "alucinaciones", inventando hechos que pueden parecer plausibles para quienes desconocen sus inexactitudes. Además, las traducciones generadas por LLM rara vez son 100% precisas sin revisión humana, y el código generado por estos modelos puede contener errores o no funcionar. Si bien se realizan esfuerzos para evitar que los LLM hagan declaraciones controvertidas o promuevan actividades ilegales, las indicaciones maliciosas a veces pueden vulnerar estas medidas de seguridad.

La formación de LLM requiere un corpus masivo de datos textuales. Algunos de los conjuntos de datos utilizados incluyen 1B Word Benchmark, Wikipedia, el Corpus de Libros de Toronto, Common Crawl y repositorios públicos de código abierto de GitHub. Sin embargo, los grandes conjuntos de datos textuales plantean inquietudes sobre la infracción de derechos de autor, y actualmente existen múltiples demandas judiciales que abordan este problema. Se están realizando esfuerzos para abordar estas inquietudes, como lo demuestran conjuntos de datos como el Colossal Clean Crawled Corpus (C4), un conjunto de datos de 800 GB derivado de Common Crawl, que se ha sometido a una limpieza rigurosa.

Los LLM se distinguen de los modelos lingüísticos tradicionales por el uso de redes neuronales de aprendizaje profundo y la necesidad de millones o incluso miles de millones de parámetros (pesos) en sus redes neuronales. A medida que el campo ha avanzado, los LLM han crecido en tamaño, con modelos como GPT-3 que alcanzan la asombrosa cifra de 175 mil millones de parámetros. Sin embargo, este aumento de parámetros conlleva desventajas, ya que los modelos más grandes requieren más memoria y operan con mayor lentitud. Cabe destacar que en 2023 también han surgido LLM más pequeños, que ofrecen opciones para diferentes recursos computacionales.

Una historia de los modelos de generación de texto

Los modelos de generación de texto tienen una rica historia, que se remonta al trabajo de Andrey Markov en 1913, quien aplicó lasmatica la poesía e introdujo el concepto de cadenas de Markov para predicciones a nivel de carácter. Claude Shannon amplió este trabajo en 1948, y posteriormente, Fred Jelinek y Robert Mercer aplicaron modelos estadísticos del lenguaje al reconocimiento de voz en tiempo real.

En el siglo XXI, las redes neuronales, en particular los modelos de redes neuronales autorregresivas de propagación hacia adelante, reemplazaron a los modelos estadísticos tradicionales. Estos modelos neuronales mejoraron significativamente la precisión de la predicción de palabras en comparación con los métodos anteriores, evolucionando finalmente hacia lo que hoy conocemos como grandes modelos lingüísticos.

Los modelos de lenguaje modernos cumplen diversas funciones, como la generación de texto, la clasificación, la respuesta a preguntas, el análisis de sentimientos, el reconocimiento de entidades, el reconocimiento de voz y escritura, entre otras. La personalización para tareas específicas, conocida como ajuste fino, se logra mediante conjuntos de entrenamiento complementarios.

Las tareas intermedias dentro de los modelos lingüísticos implican diversos procesos, como la segmentación de oraciones, la tokenización de palabras, la lematización, la lematización, el etiquetado de categorías gramaticales, ladentde palabras vacías, el reconocimiento de entidades con nombre, la clasificación de texto, la fragmentación y la resolución de correferencias. Estas tareas contribuyen a la versatilidad de los modelos lingüísticos y a su aplicabilidad en una amplia gama de tareas de comprensión del lenguaje natural.

Los modelos lingüísticos grandes, como se mencionó anteriormente, se distinguen de los modelos tradicionales por sus redes neuronales de aprendizaje profundo, sus amplios datos de entrenamiento y su gran cantidad de parámetros. Entrenar un LLM implica optimizar estos parámetros para minimizar errores en la tarea designada, a menudo mediante aprendizaje, como la predicción de la siguiente palabra en un corpus de texto.

Los LLM más populares

El reciente auge en el desarrollo de LLM se debe al innovador artículo de 2017, «Attention is All You Need», que introdujo la arquitectura Transformer. Desde entonces, han surgido numerosos LLM, cada uno de los cuales ha superado los límites de tamaño y rendimiento.

Los modelos lingüísticos de gran tamaño han evolucionado significativamente, transformando el panorama de la generación y comprensión de textos mediante IA. Si bien sus capacidades son impresionantes, no deben pasarse por alto sus limitaciones ni las preocupaciones éticas. A medida que este campo avanza, lograr un equilibrio entre el tamaño del modelo, el impacto ambiental y la conservación de datos se vuelve cada vez más crucial para el desarrollo y la implementación responsables de estos modelos en el futuro.

Las mentes más brillantes del mundo de las criptomonedas ya leen nuestro boletín. ¿Te apuntas? ¡ Únete!

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Brian Koome

Brian Koome cuenta con más de siete años de experiencia en periodismo sobre blockchain y criptomonedas, y ha estado activo en el sector desde 2017. Ha colaborado con publicaciones destacadas, como BlockToday.com. Además, desarrolló el curso Ethereum 101 para BitDegree.org antes de unirse Cryptopolitan como redactor a tiempo completo. Brian se especializa en guías permanentes, análisis en profundidad, entrevistas y análisis de precios. Su enfoque en DeFi, la innovación blockchain y los proyectos emergentes de criptomonedas resulta muy atractivo para los lectores.

ÍNDICE

1. Una historia de los modelos de generación de texto

2. Los LLM más populares

Comparte este artículo