TV DIGITAL - parte 1: Introdução ao MPEG (TEL138)

Detalhes: Escrito por: Newton C. Braga

Com a aproximação da data de definição do padrão de TV digital que deve vigorar em nosso país, os profissionais da área se vêm diante da necessidade de se aprofundar no conhecimento das técnicas envolvidas (*). Apesar do farto noticiário que corre à respeito, a documentação técnica que realmente ajude os profissionais a entender melhor todo o sistema, assim como a literatura disponível, pode ser considerada dispersa e vaga. Assim, ressaltando as raízes didáticas de nossas publicações e site que foram as primeiras a abordar em profundidade muitas tecnologias quando elas foram implantadas em nosso país, iniciamos uma série de artigos sobre tudo que seja relacionado com a TV digital, inicialmente focalizando os aspectos gerais que não envolvem a definição de um padrão específico (**). Muito do que estaremos levado ao leitor é baseado em ampla literatura fornecida pela Tektronix (www.tektronix.com/video).

(*) Este artigo é de 2006 quando ainda não estava definido o padrão de TV digital a ser usado em nosso país.

(**) Esta série é formada pelos artigos TEL138 a TEL143

Uma das técnicas mais usadas de compressão de sinais de áudio e vídeo é a conhecida como MPEG. MPEG não é apenas um simples padrão, mas uma série de padrões que se adapta a diversos tipos de aplicações que sejam baseadas no mesmo princípio de funcionamento.

MPEG significa Moving Picture Experts Group, que é uma parte do Joint Technical Committee (JTC1), estabelecido pela International Electrotechnical Commision ou IEC.

O JTC1 é responsável pelos padrões que envolvem tecnologia da informação, e dentro dele o SG29 é um outro sub-grupo responsável pelo trabalho de codificação de áudio, filmes, informações multimídia e hipermídia.

A Necessidade da Compressão

O grande obstáculo enfrentado para o armazenamento de grande quantidade de informações, como a necessária para o caso de um filme, é a limitação da mídia usada.

Uma imagem digital comum gera 200 megabits de dados por segundo, o que significa uma enorme capacidade de armazenamento da mídia, além de uma faixa passante muito larga para sua transmissão.

Isso significa que, na sua forma original, o vídeo digital só pode ser usado nos casos em que se dispõe de um sistema de transmissão capaz de trabalhar com tais taxas de dados.

A ideia básica da compressão é expressar a mesma imagem original, mas usando menor quantidade de dados. Isso significa comprimir os dados, o que nos leva às seguintes vantagens:

Necessita-se de menos espaço para o armazenamento da informação

Trabalhando em tempo real, com a compressão pode-se reduzir a largura de faixa necessária à transmissão.

Com o registro do sinal comprimido, a mídia pode usar menor densidade de sinal o que a torna menos sensível à influência externas.

Princípios de Compressão

Existem duas técnicas básicas para se obter a redução da quantidade de dados para se enviar uma informação. Na prática, as duas formas são usadas, algumas vezes até combinadas de maneira complexa.

A primeira técnica visa aumentar a eficiência da codificação.

Os sinais de áudio e vídeo comuns contem uma grande quantidade de informações redundantes, ou seja, de dados que na realidade podem ser eliminados.

Usados de forma apropriada os dados comprimidos podem ser descomprimidos levando a recuperação total, sem qualquer alteração na informação original.

Esse tipo de compressão em que a descompressão permite a recuperação total da informação é denominada “sem perdas” ou “loseless”.

É claro que essas técnicas são as mais interessantes, mas para sinais de áudio e vídeo, elas não proporcionam o grau de compressão que seria desejável numa aplicação prática.

Se mesmo com a eliminação da redundância não se conseguir ainda uma compressão nos níveis desejados para o sinal, deve-se apelar para um recurso adicional que seria o descarte de parte das informações.

Obtém-se nesse caso um sistema em que a recuperação dos dados não é total, mas ocorre com perdas ou “loss”.

Para isso deve existir algum meio de se identificar os dados de menor relevância que possam ser eliminados sem prejudicar a qualidade do áudio ou vídeo envolvidos.

No caso específico da TV. a compressão com a determinação do que é o que não é relevante nos dados deve levar em conta o sistema visual e auditivo das pessoas.

Além disso, outros fatores típicos do comportamento humano devem ser analisados.

Um sistema de compressão que não recupere esses dados, é dito “visually lossless”, ou seja, visualmente sem perdas.

Aplicações em TV

Sinais de televisão, quer seja na forma analógica ou digital, transportam uma grande quantidade de informações, exigindo assim uma faixa passante muito larga.

Técnicas de compressão para esses sinais já têm sido usadas há um bom tempo.

O exemplo mais patente dessa técnica é o que todos os técnicos conhecem por entrelaçamento.

Dois campos são transmitidos alternadamente de modo que suas linhas sejam entrelaçadas, obtendo-se assim o quadro, conforme mostra a figura 1.

Figura 1 – Entrelaçamento usado na TV analógica

Como cada campo contém metade das linhas e, portanto, metade da informação ele precisa apenas de metade da largura de faixa que seria necessária para a transmissão direta quadro a quadro da imagem, na mesma taxa.

No entanto, essa técnica dificulta a utilização de sinais digitais.

Assim, muito da complexidade do MPEG-2 é resultante justamente da necessidade de se trabalhar com sinais entrelaçados, havendo uma perda significante na eficiência da codificação justamente por isso.

Para os sinais em cores temos o triplo da informação a ser transmitida, e tudo isso deve ser feito na mesma faixa de freqüências.

As soluções foram adotadas em partes.

A primeira consistiu em se transformar os sinais RGB em um sinal de brilho (denominado Y) e dois sinais diferença de cor (U-V e I-Q).

Essa solução demorou a ser encontrada devido à necessidade de se manter a compatibilidade de recepção dos receptores monocromáticos.

Se analisarmos os “sensores” que temos no nosso sistema visual, vemos que eles são de duas espécies, conforme mostra a figura 2.

Figura 2 – Nosso olho

Temos os sensores de brilho que permitem ver as imagens com alta resolução e temos os sensores de cores que têm muito menor resolução.

Assim, não adiante sobrecarregar um sinal que represente uma cena em baixo grau de iluminação com muita informação sobre cor, pois nossa visão não será capaz de percebê-la.

Em outras palavras, pode-se remover a informação de alta freqüência de cores de certas imagens, pois nossa visão não responder a esses sinais quando reproduzidos.

A televisão no padrão NTSC tem uma largura de faixa de apenas 500 kHz para os sinais diferença de cor, e mesmo assim as imagens são suficientemente nítidas para a finalidade as que se destinam.

Trata-se de um exemplo interessante de remoção de informação não relevante para se obter maior compressão dos sinais.

Outro recurso adotado no padrão NTSC e PAL é perder o sinal diferença de cores das partes não usadas do espectro do sinal monocromático.

Na tecnologia digital, as técnicas utilizadas para se obter compressão são mais sofisticadas.

No caso do MPEG, por exemplo, ele transforma os sinais em diferentes domínios de modo a facilitar o isolamento das partes irrelevantes.

Na figura 3 temos o sistema tradicional analógico de TV e o digital representados em blocos para maior facilidade de comparação.

Figura 3 – Blocos de um sistema de TV analógica e um digital

No sistema digital moderno, os sinais digitalizados passam por um processo de codificação e compressão MPEG.

Uma característica importante do processo digital é que a taxa de transmissão pode ser modificada conforme a aplicação.

Com taxas baixas de transmissão, por exemplo, ele pode ser usado em videoconferência e em videofones.

O Digital Video Broadcastong (DVB) e o Advanced Television Systems Committeee (ATSC) – sistema europeus e americanos de TV digital não são viáveis sem a compressão porque a largura de faixa exigida é muito grande.

Introdução à Compressão de Vídeo Digital

Num sinal de vídeo existem dois tipos de informações: as que são imprevisíveis e as que são previsíveis.

A primeira informação é denominada entropia enquanto que a segunda é denominada redundância.

Podemos citar como exemplo de redundância, uma área da imagem que tem a mesma cor.

Os pixéis adjacentes são todos iguais. Esse é um caso de redundância especial.

Podemos citar como exemplo de redundância temporal o caso de uma imagem que não muda ao longo do tempo.

Os sistemas de compressão operam separando a entropia da redundância. Somente a entropia é gravada ou transmitida ficando por conta do decodificador computar a redundância.

Na figura 4 mostramos de uma forma simplificada como isso funciona.

Figura 4 – O processo de compressão

Na prática adotam-se diversos processos, cuja complexidade e velocidade se adaptam às aplicações visadas.

Uma vantagem do MPEG é a sua flexibilidade, pois ele contém uma quantidade de ferramentas e recursos que permitem modificar sua velocidade e taxa de compressão de acordo com a aplicação.

Existem, portanto, diversos formatos de vídeo digital, cada qual operando com uma velocidade diferente.

Por exemplo, um sistema de alta definição (HDTV) tem seis vezes a taxa de transmissão de um sistema comum.

No MPEG-2 e MPEG-4 os dados são divididos em diversos conjuntos que têm complexidades diferentes de modo que cada um pode ser implementado num nível diferente dependendo da resolução da imagem.

Um compressor ideal é extremamente complexo.

Um compressor prático pode ser bem menos complexo, tanto por razões econômicas como para adequar à mídia que deve ser usada para transmitir os dados.

Na figura 4(b) temos uma relação entre complexidade e a qualidade da imagem. Maior é o fator de compressão exigida, mais complexo deve ser o compressor.

Deve-se, portanto, analisar a possibilidade de utilizar um canal com velocidade constante e cortar a entropia quando precisa ser transmitida, com perda na qualidade da imagem, ou trabalhar com um canal variável, de modo a aumentar sua capacidade quando uma cena de maior entropia precisa ser transmitida.

Por motivos de maior facilidade de operação, muitas redes de telecomunicações preferem a primeira opção, mas uma memória pode ser usada para armazenar a informação que naquele momento não pode ser enviada, enviando-a depois, nos intervalos de menor entropia.

Esse procedimento funciona quando a imagem não deve ser reproduzida em tempo real, mas sim gravada.

Se o movimento pode ser medido, uma aproximação para a imagem seguinte pode ser criada, deslocando parte da imagem anterior para uma nova posição.

O processo de deslocamento (shifting) é controlado por um par de valores verticais e horizontais, denominados “motion vector” (vetor de movimento) que é transmitido ao decoder.

O MPEG pode trabalhar tanto com imagens entrelaçadas como não entrelaçadas.

Uma imagem em determinado instante é sempre denominada “picture” quer seja ela um campo ou um quadro.

A eficiência de um codificador temporal aumenta com o espalhamento do tempo no qual ele pode atuar.

Assim, se um alto fator de compressão é necessário, um espalhamento do tempo na entrada deve ser considerado e com isso um obtém-se maior tempo para a codificação.

Correntes MPEG

A saída de um codificador MPEG de áudio ou vídeo é denominada uma corrente elementar.

Uma corrente elementar é um sinal sem fim perto do tempo real.

Por conveniência, uma corrente elementar pode ser quebrada em blocos de dados de tamanho que possa ser manuseado, formando uma corrente elementar em pacotes (PES = packetized elementary stream).

Esses blocos de dados precisam de uma informação de cabeçário que os identifique, e incluam informações sobre tempo, pois eles são deslocados no eixo dos tempos ao serem enviados.

Na figura 5 temos um diagrama de blocos onde um PES de vídeo e um certo número de PES de áudio são combinados para formar uma corrente de programa.

Figura 5 – Blocos de PES de vídeo e PES de áudio são combinados para se obter uma corrente de programa.

Para transmissão, diversos programas e os PES associados podem ser multiplexados num único meio.

Trata-se de uma corrente de transporte, que é diferente de uma corrente de programa, já que nela os pacotes PES são subdivididos em pacotes menores de tamanho fixo e os programas codificados com clocks múltiplos para serem transportados.

Uma corrente de transporte para um único programa (SPTS) também é possível.

Cada corrente elementar deve ter o mesmo identificador (PID), de tal forma que o decodificador ou o demultiplexador possa separar os diversos programas.

Monitoramento e Análise

O transporte MPEG tem uma estrutura extremamente complexa usando tabelas interligadas e identificadores codificados para separar os programas e as correntes elementares dentro dos programas.

Dentro de cada corrente elementar existe também uma estrutura complexa que permite ao decodificador distinguir os diversos elementos que a compõe como vetores, coeficientes e tabelas de quantização.

Problemas de sincronização, como perdas ou corrupção de padrões de sincronismo, podem fazer com que uma corrente inteira de transporte deixe de ser recebida.

Protocolos de detecção de problemas de transporte podem ajudar a evitar a perda total de dados, talvez deixando de enviar a imagem, mas enviando o som.

O envio correto de dados, mas com jitter excessivo pode causar problemas de temporização no decodificador.

As ferramentas tradicionais de teste de vídeo, o gerador de sinais, monitor de formas de onda e o vetorscópio não são apropriados para analisar um sinal MPEG, exceto para assegurar que os sinais que entram e saem desse sistema estão com qualidade compatível.

Uma fonte apropriada de sinais de teste MPEG é essencial para se analisar os equipamentos receptores e decodificadores.

Com um analisador apropriado, a performance de codificadores, sistemas de transmissão, multiplexadores e demultiplexadores pode ser verificada com um alto grau de confiabilidade.

Armadilhas da Compressão

A compressão MPEG tem perdas, no sentido de que o sinal que sai do decodificador não igual ao que entra no codificador.

A entropia da fonte de sinal varia e quando ela é alta, o sistema de compressão pode causar o aparecimento de deficiências visíveis na decodificação.

Na compressão temporal, redundância entre imagens sucessivas é assumida e quando esse não é o caso, o sistema pode falhar.

Um exemplo disso pode ser dado numa cena de chegada de um artista, por exemplo, em que muitos flashes disparam.

A imagem em que o flash dispara é bem diferente das imagens anteriores e posteriores, e nesse ponto os recursos de codificação e compressão podem falhar.

O movimento irregular de diversos objetos numa mesma imagem exige uma banda de vetor muito larga e a sua transmissão só pode ser obtida reduzindo-se a banda passante dos dados da imagem.

Novamente, em função disso, defeitos podem aparecer na imagem reproduzida, os quais dependem do grau de movimento e da quantidade de objetos.

Esse problema ocorre principalmente quando a cena corresponde a um evento esportivo.

Uma quantização excessiva resulta em problemas de luminância de contornos e cor posterizada.

Isso pode ser visto como sombras coloridas e bloqueios em grandes áreas de cor plena. Subjetivamente, os defeitos de compressão são piores do que os que ocorrem nos sistemas de televisão analógica.

A única solução para se evitar tais problemas é reduzir o fator de compressão.

Isso significa que o usuário deve ser capaz de determinar qual é o melhor para sua aplicação, entre a economia da alta compressão e o alto nível dos problemas.

Além disso, aumentando os retardos de codificação e decodificação, na codificação temporal também dificulta a editoração.

Veja que o MPEG não pode ser editado de forma arbitrária.

Essa restrição ocorre porque, na codificação temporal, a decodificação de uma imagem pode exigir o conteúdo de imagens anteriores e esse conteúdo pode não estar disponível.

O fato de que as imagens podem ser enviadas fora de seqüência complica ainda mais a editoração.

Se uma codificação apropriada for usada, a editoração pode ser feita, mas apenas em pontos que sejam reativamente espaçados.

Se uma editoração arbitrária for necessária, a corrente MPEG deve passar por um processo de re-codificação através de um código modificador que permita fazer isso, se bem que ele resulte em perdas.

Conclusão

A compressão é um recurso essencial para a transmissão ou gravação de imagens na forma digital.

A elevada quantidade de dados que contém cada imagem exige isso para que os meios comuns usados na transmissão e gravação possam ser usados.

No entanto, a compressão é um processo delicado que pode levar a perdas capazes de causar imperfeições numa imagem reproduzida.

O processo MPEG de codificação e compressão é uma ferramenta versátil para essa finalidade e por isso usado na televisão digital.

Com a escolha apropriada dos diversos recursos que ele possui, uma imagem pode ser comprimida e descomprimida sendo recuperada na forma original com um mínimo de perdas.

No entanto, a escolha de quais recursos devem ser usados depende de cada caso, conforme vimos nesse artigo introdutório.

No próximo artigo voltaremos ao assunto analisando os fundamentos do MPEG e fazendo um estudo da análise do protocolo usado.

Índice

Introdução à TV Digital (CUR9000)