¿En qué consisten exactamente todas estas novedades que ha anunciado Open AI, la empresa de ChatGPT? ¿Es realmente una revolución como lo vienen anunciando varios medios? Veamos todo esto en detalle
Los modelos GPT de Open AI se cuentan entre los modelos lingüísticos más potentes de la actualidad, con capacidad para generar textos muy coherentes y pertinentes desde el punto de vista contextual.

Estos modelos emplean tokens como unidad elemental para calcular la longitud de un texto. Pero, ¿qué son exactamente los tokens y cómo funcionan? Profundizaremos en los detalles de los tokens de OpenAI GPT, analizando su definición, los métodos para contarlos y sus aplicaciones prácticas.
Entender los tokens GPT de OpenAI
Los tokens en el contexto de los modelos GPT de OpenAI son grupos de caracteres que representan la unidad fundamental del texto. Estos tokens son generados por un algoritmo tokenizador que segrega el texto en segmentos más pequeños siguiendo ciertas reglas, como espacios, signos de puntuación y caracteres especiales. Los tokens pueden corresponder en ocasiones a palabras, pero no siempre, ya que el tokenizador contempla todos los caracteres, incluidos los emojis, como tokens potenciales.
Recuento de tokens en el texto
Para conocer el número de tokens de un texto, es necesario tokenizarlo mediante un algoritmo tokenizador. OpenAI proporciona un tokenizador oficial que puede ayudarle en este proceso. El número de tokens producidos por el tokenizador dependerá del idioma y del modelo específico utilizado. Sin embargo, como pauta general, puede utilizar las siguientes proporciones de palabra a token:
Inglés: 1 palabra ≈ 1,3 tokensEspañol: 1 palabra ≈ 2 tokensFrancés: 1 palabra ≈ 2 tokens
Es fundamental tener en cuenta que los signos de puntuación se cuentan como un token, mientras que los caracteres especiales y los emojis pueden contarse de uno a tres tokens, y de dos a tres tokens, respectivamente.
Te gustó el artículo? Tenemos mucho más para ti. Únete a Curadas haciendo clic en este enlace