Introdução técnica à compressão de áudio e vídeo MPEG
Este documento apresenta uma visão técnica aprofundada sobre os padrões de compressão de áudio e vídeo MPEG-1, MPEG-2, MPEG-4 e H.264/AVC, baseando-se em conteúdo do livro 'The MPEG Handbook' e complementando com referências de normas ISO/IEC, ITU-T e artigos técnicos que se encontra no final dessa pagina.
1. Introdução

Os padrões MPEG (Moving Picture Experts Group) formam uma família de especificações internacionais para compressão digital de áudio e vídeo, desenvolvidas no âmbito da ISO/IEC em cooperação com a ITU-T. Desde o início dos anos 1990, tais padrões viabilizaram o armazenamento e transmissão eficiente de mídia audiovisual em diversos contextos do MPEG-1 (1993) para vídeo digital em CD-ROM (~1,5 Mb/s), passando pelo MPEG-2 (1995) como base da TV digital, DVDs e vídeo HDTV inicial, até o MPEG-4 (2003) e sua evolução H.264/AVC (Advanced Video Coding), que dobraram a eficiência de compressão em relação ao MPEG-2 (mesma qualidade com cerca de metade da taxa de bits). Cada geração trouxe melhorias significativas em algoritmos de compressão e suporte a formatos: por exemplo, o MPEG-1 definia vídeo até resolução SIF e áudio estéreo (camadas MP1/MP2/MP3), enquanto o MPEG-2 suportou inter laçamento, maiores resoluções e áudio multicanal (AC-3, MPEG-2 AAC), e o extenso conjunto MPEG-4 abrange desde vídeo para baixa banda (Visual Simple/Advanced Simple Profile) até vídeo de alta definição (MPEG-4 Part 10 = H.264) e novos recursos como objetos visuais e meta dados.
Do ponto de vista histórico, os padrões MPEG consolidaram técnicas de compressão híbrida (espacial + temporal) que exploram redundâncias do sinal audiovisual: redundância espacial dentro de cada quadro (removida via transformadas e quantização) e redundância temporal entre quadros sucessivos (removida via predição por compensação de movimento). Além disso, incorporaram modelos percentuais, por exemplo, compressão de áudio MPEG-1 Layer III (MP3) e MPEG-4 AAC usam modelos psicoacústicos para remover componentes mascarados ao ouvido humano. A cada novo padrão, houve ganho em eficiência de codificação às custas de maior complexidade computacional. O panorama atual (até H.264/AVC) reflete um grande avanço: por exemplo, o H.264/AVC perfil alto atingiu qualidade de DVD a 1–2 Mb/s, algo impossível nas gerações MPEG anteriores. Esses desenvolvimentos pavimentaram o caminho para aplicações de streaming em larga escala, mídia física de alta densidade (Blu-ray) e televisão digital HD.

Neste artigo, apresentamos uma visão técnica e formal sobre a compressão de áudio/vídeo segundo os padrões MPEG-1, MPEG-2, MPEG-4 e H.264/AVC, cobrindo: (a) a filosofia de padronização (definição do decodificador e sintaxe bitstream, com liberdade ao codificador); (b) a estrutura hierárquica do bitstream de vídeo (sequence, GOP, quadro, slice, macroblock, bloco); (c) o processo de geração do bitstream no codificador, passo a passo (da conversão de cor até a codificação entrópica); e (d) a natureza assimétrica desses sistemas (codificador complexo vs. decodificador simples) e sua eficiência para aplicações de broadcast. Também são fornecidas modelagens matemáticas formais e referências diretas às normas ISO/IEC 11172, 13818, 14496 e ITU-T H.264 para fundamentação.
2. Filosofia de Padronização: Decodificador Normativo e Codificador Livre

Uma característica fundamental dos padrões MPEG (e dos codecs ITU-T correspondentes, como H.264) é especificar apenas a sintaxe do bitstream e o decodificador, deixando em aberto o método de codificação. Ou seja, as normas definem formalmente o formato binário dos dados comprimidos e o algoritmo de decodificação garantindo que qualquer decodificador conforme reproduza corretamente o sinal – mas não impõem um algoritmo único de codificação. Essa abordagem permite que diferentes implementações de encoder inovem em técnicas (estimativa de movimento, quantização adaptativa, controle de taxa, etc.) sem violar a compatibilidade: qualquer bitstream que respeite a sintaxe padronizada S_MPEG será decodificado pelo decodificador de referência D de forma idêntica. Em notação formal, cada padrão define:
-
Um conjunto S_MPEG de todos os bitstreams válidos (conformes) segundo a sintaxe e semântica normativas (por exemplo, todos os fluxos binários MPEG-2 válidos).

Uma função determinística D(B) o decodificador que mapeia um bitstream válido B em S_MPEGem uma saída decodificada Y = D(B) (vídeo e áudio reconstruídos). D é totalmente especificado pela norma, incluindo detalhes como operações de inversão da compressão, gerenciamento de buffers, tratamento de erros dentro do previsto, etc.

Um conjunto aberto de possíveis funções de codificação Eθ(X) os encoders que mapeiam uma entrada não-comprimida X(sequência de frames de vídeo, áudio PCM) em um bitstream B = Eθ(X) que deve pertencer a S_MPEG Aqui θ representa parâmetros e estratégias de implementação escolhidas livremente pelo projetista do encoder (algoritmos de decisão de modo, heurísticas de busca de movimento, otimizações de qualidade vs. bitrate, etc.). A norma não fixa E, apenas exige conformidade: B produzido deve seguir a sintaxe e regras semânticas esperadas pelo decodificador D conforme a equação:

Em suma, "o bitstream é a interface" entre encoder e decoder estabelecida pelo padrão. Isso garante interoperabilidade qualquer decodificador MPEG pode entender bitstreams gerados por qualquer encoder MPEG e ao mesmo tempo incentiva a evolução dos encoders. Novos encoders podem explorar técnicas mais avançadas (melhor predição, modos adaptativos) para gerar bitstreams melhores (menor taxa por qualidade) sem exigir mudanças nos decodificadores existentes. Essa filosofia de compatibilidade retroativa preserva investimentos e acelera a disseminação: por exemplo, encoders H.264 desenvolveram-se continuamente (de perfil baseline até high, aprimorando algoritmos) enquanto os decodificadores seguiam uniformes ao padrão original.
Matematicamente, podemos ver o decoder D e a sintaxe como o núcleo comum normativo, e o encoder Eθ como uma realização otimizável. A norma MPEG define explicitamente o comportamento de D e a linguagem binária reconhecida S_MPEG, mas deixa Eθ à liberdade do projetista. Na prática, documentos normativos (por exemplo a ISO/IEC 11172-2, 13818-2) incluem a descrição da sintaxe em BNF (Backus-Naur Form) e fluxogramas do decodificador de vídeo, enquanto aspectos do encoder são descritos apenas de forma informativa ou exemplificativa. Como afirmado na norma MPEG-1:
"Esta parte da ISO/IEC 11172 não especifica o processo de codificação. Ela especifica a sintaxe do fluxo de bits e a semântica do decodificador. Como resultado, muitas opções ficam abertas ao codificador..."
Em outras palavras, padrões MPEG/ITU especificam "o que" decodificar, não "como" codificar.
Uma implicação importante dessa arquitetura é o caráter assimétrico do codec, abordado na Seção 5: maximiza-se a complexidade no encoder (offline ou no transmissor), permitindo decodificadores mais simples (baixo custo) para milhões de receptores. Antes disso, porém, examinamos em detalhe a estrutura interna do bitstream de vídeo e o processo de codificação passo a passo.