El cambio de poder de la CPU a la GPU - ¿Por qué la IA ama las 'matrices'?

Hasta hace unos pocos años, decir "compré una buena tarjeta gráfica (GPU)" significaba "voy a jugar juegos de alta calidad" o "he comenzado a editar videos". La mente de una computadora siempre ha sido la CPU, y la GPU era solo un dispositivo secundario que mostraba la pantalla de manera atractiva.

Sin embargo, con la llegada de la era de la IA generativa y el aprendizaje profundo, el panorama ha cambiado por completo. Ahora, tener una GPU de alto rendimiento es esencial para ejecutar o entrenar modelos de IA en una PC personal. Es por eso que NVIDIA se convirtió en la empresa número uno en capitalización de mercado en el mundo.

Entonces, ¿por qué, dejando de lado la inteligente CPU, ha emergido la simple GPU como la protagonista de la era de la IA? El secreto se esconde en lo que aprendimos en la clase de matemáticas de secundaria sobre 'vectores' y 'matrices', así como en la 'álgebra lineal' que estudiamos en la universidad.

1. Cómo enseñar a la computadora sobre 'manzanas' y 'bananas': Vectores (Vector)

Cuando pensamos "la manzana es roja y redonda", "el plátano es amarillo y alargado", ¿cómo entendería este concepto la computadora? La computadora solo conoce 0 y 1, es decir, números. Por eso, los ingenieros informáticos y matemáticos decidieron convertir todos los conceptos del mundo en conjuntos de números, o vectores (Vector).

Por ejemplo, imaginemos que expresamos las características de la fruta como un vector tridimensional [color, forma, dulzura]. (Rojo=1, Amarillo=10 / Redondo=1, Alargado=10)

Manzana: $[1, 1, 8]$
Plátano: $[10, 10, 9]$
Manzana verde: $[2, 1, 7]$

Transformar los datos en vectores desencadena algo asombroso: podemos calcular la "similitud".

En el espacio, las coordenadas de la manzana y la manzana verde están cerca, mientras que el plátano está distante. La razón por la que la IA puede concluir "la manzana y la manzana verde son similares" es el cálculo de distancia en este espacio vectorial.

2. Un enorme cubo formado por vectores: Tensores (Tensor)

Sin embargo, los datos que la IA debe procesar no son solo un par de frutas.

Pensemos en una fotografía en color de 1000 píxeles de ancho y 1000 píxeles de alto. Dado que se requieren tres números (R, G, B) por píxel, una sola foto consiste en un enorme conjunto de $1000 \times 1000 \times 3$ números.

Escalar (Scalar): Un solo número (por ejemplo: 5)
Vector (Vector): Una matriz unidimensional de números (por ejemplo: [1, 2])
Matriz (Matrix): Una tabla bidimensional de números (hoja de Excel)
Tensor (Tensor): Un conjunto de números de tres dimensiones o más (en forma de cubo)

La razón por la que el marco de IA de Google se llama 'TensorFlow' es precisamente por esto. La IA es una máquina que calcula incesantemente a partir de estos enormes conjuntos de números (tensores).

3. La esencia de la IA: multiplicaciones y sumas infinitas (operaciones de matrices)

Cuando se menciona el aprendizaje profundo (Deep Learning), parece que se está haciendo algún razonamiento lógico extremadamente complicado, pero si echamos un vistazo más de cerca, en realidad consiste en la simple y casi tonta repetición de multiplicaciones de matrices (Matrix Multiplication).

Fórmulas de álgebra lineal como $Y = WX + b$, que multiplican los datos de entrada (X) por pesos (W) y suman un sesgo (b), se repiten cientos de millones o billones de veces.

El problema no es la dificultad de este cálculo, sino la 'cantidad'.

El modo de la CPU: "Bien, calculamos la primera fila... ¿terminaste? Entonces vamos a la segunda fila..." (procesamiento secuencial)
La demanda de la IA: "¡Haz 100 millones de multiplicaciones al mismo tiempo!"

Ahí es donde el genio matemático (CPU) se descompone. Por mucho que sea inteligente, ya que solo tiene un cuerpo, no puede hacer 100 millones de tareas al mismo tiempo.

Imagen de IA realizando operaciones tensoriales usando GPU

4. El pincel que pintaba píxeles se convierte en el cerebro de la IA

El salvador en este momento fue la GPU (Unidad de Procesamiento Gráfico). Originalmente, la GPU fue creada para dibujar imágenes en la pantalla.

Piensa en la pantalla del monitor. Una pantalla FHD tiene alrededor de 2 millones de píxeles. Al jugar un juego 3D, la GPU tiene que calcular simultáneamente para cada uno de estos 2 millones de píxeles "¿qué color debes ser?" y "esto es una sombra, así que debes ser un poco más oscuro".

CPU: Un pequeño número de núcleos muy inteligentes (4-16 doctores) → optimizada para tareas lógicas complejas y secuenciales
GPU: Miles de núcleos que solo pueden realizar cálculos simples (5,000 niños de primaria) → optimizados para procesamiento simultáneo de cálculos repetitivos (procesamiento paralelo)

Los desarrolladores se dieron cuenta.

"Espera, calcular coordenadas de píxeles en un juego 3D y pintar colores simultáneamente es matemáticamente exactamente lo mismo que hacer multiplicaciones de matrices en el aprendizaje profundo de IA, ¿no?"

La capacidad de procesamiento paralelo masivo de la GPU, que se había desarrollado para el procesamiento gráfico, coincidió (tal vez por casualidad o también por necesidad) de manera perfecta con las operaciones de matrices del aprendizaje profundo. Desde la perspectiva de la GPU, en lugar de dispersar píxeles en la pantalla, simplemente comenzó a dispersar datos de IA; lo que se hacía (las operaciones de matrices) seguía siendo el mismo trabajo.

5. Conclusión: Las clases de matemáticas en la escuela no fueron en vano

Resumiendo:

Los ingenieros informáticos y matemáticos crearon vectores y tensores para entender el mundo matemáticamente (o para explicárselo a las máquinas).
Para procesar estos tensores, se necesitaba álgebra lineal (operaciones de matrices).
La GPU, que ya había sido optimizada para calcular miles de píxeles simultáneamente, era perfecta para estas operaciones de matrices.

Esta combinación de factores permitió la revolución de la IA que vemos hoy.

Cuando estaba en la escuela secundaria, pensé "¿para qué se usa aprender vectores y escalares?" y cuando estuve en la universidad, me desgasté tratando de entender las multiplicaciones de matrices en álgebra lineal. Recuerdo que cuando cursé álgebra lineal en mi primer año de universidad, no era en absoluto divertido, así que termine con malas calificaciones, reprobé y lo volví a tomar en mi tercer año para restaurar mi promedio. La segunda vez lo hice mucho mejor, pero seguiría diciendo que el álgebra lineal es aburrido en comparación con las ecuaciones diferenciales. Sin embargo, sorprendentemente, me conmueve saber que esa matemática complicada se ha convertido, 20 años después, en la clave para crear la IA más inteligente en la historia de la humanidad.

En el punto donde la teoría de los matemáticos se encuentra con la técnica de los ingenieros de hardware, están la GPU y la IA.

🚀 Anuncio del próximo artículo

Ahora sabemos cómo se diferencian la CPU y la GPU. Pero, ¿qué es la NPU (Unidad de Procesamiento Neural), que aparece a menudo en las noticias hoy en día? Vamos a descubrir la identidad de la NPU, que se dice que está aún más optimizada para la IA que la GPU.

El cambio de poder de la CPU a la GPU - ¿Por qué la IA ama las 'matrices'?

1. Cómo enseñar a la computadora sobre 'manzanas' y 'bananas': Vectores (Vector)

2. Un enorme cubo formado por vectores: Tensores (Tensor)

3. La esencia de la IA: multiplicaciones y sumas infinitas (operaciones de matrices)

4. El pincel que pintaba píxeles se convierte en el cerebro de la IA

5. Conclusión: Las clases de matemáticas en la escuela no fueron en vano

🚀 Anuncio del próximo artículo

Publicaciones similares

Guía completa del formato GGUF - El nuevo estándar para LLM locales

El secreto de la actualización del modelo LoRA - olvido y repaso, la técnica de ajuste fino que imita la memoria humana

Conocimientos esenciales para SPA y React - Guía completa sobre almacenamiento en el navegador

Entendiendo a la perfección la memoria compartida de Docker (shm_size e ipc)

Leave a comment

Add a New Comment