Informe del Taller del W3C sobre el vídeo en la Web

Informe del taller

En diciembre de 2007, el W3C organizó un taller sobre el vídeo en la Web, que contó con la colaboración de Cisco Systems. El objetivo de este taller fue crear un entorno propicio para compartir experiencias y examinar las tecnologías existentes en este ámbito. Se recibieron 42 comunicaciones para el taller y 37 organizaciones de ámbitos muy diversos asistieron al evento: autores de contenido, organizaciones relacionadas con infraestructuras de redes, institutos de investigación, proveedores de hardware, plataformas de vídeo, proveedores de navegadores, usuarios, etc. La reunión tuvo lugar en San José, California y Bruselas, Bélgica, a través de una conexión de vídeo de alta resolución.

Tabla de Contenidos

Resumen
Introducción
Metadatos
Codecs de vídeo para la Web
Posicionamiento dentro del contenido de vídeo
1. Posicionamiento en el tiempo
2. Posicionamiento en el espacio
Gestión de derechos digitales
Otros temas de interés
Próximos pasos

1. Resumen

Fotografía de: Bob Freund

El contenido de vídeo online está aumentando rápidamente y esta tendencia continuará al menos durante los próximos años. Los participantes del taller se reunieron para debatir, compartir experiencias y examinar las tecnologías existentes en el área. Algunos de los temas principales que se debatieron estaban relacionados con:

Metadatos: la búsqueda de vídeos es difícil debido a la gran cantidad de vídeo online. Es importante tener datos sobre los datos, bien sea generados automáticamente o de forma manual, especialmente si tenemos en cuenta el valor añadido de los metadatos proporcionados por los usuarios.
Codecs de vídeo: varios Grupos de Trabajo del W3C están buscando un codec de vídeo de referencia para la World Wide Web. El W3C debe seguir investigando sobre los codecs de vídeo ya existentes.
Posicionamiento: para hacer que el vídeo ocupe un lugar destacado dentro de la World Wide Web, debería ser posible identificar los clips espaciales y temporales. La existencia de identificadores globales para clips proporcionaría beneficios sustanciales, en aspectos tales como enlaces, anotación de favoritos, uso de caché e indexación. Ninguna de las soluciones actuales es completamente satisfactoria o proporciona un identificador de recurso único de clips.
Protección del contenido: muchos creadores de contenido consideran que el éxito del vídeo online depende de la habilidad para gestionar los derechos digitales asociados a los medios. El W3C no investigará el tema del cumplimiento, pero debería examinar los derechos digitales expresados en los metadatos.

El taller fue informativo y muy activo, y se prevé que el Equipo del W3C trabaje con sus miembros para proponer una nueva actividad del W3C para continuar estudiando el vídeo en la Web, incluyendo, por ejemplo, pautas para publicar y desplegar vídeos en la Web.

2. Introducción

Fotografía de: Chris Lilley

Durante los últimos años, el vídeo online se ha vuelto omnipresente en la Web. YouTube, creado en 2005, llegó a representar el 4% del tráfico en las principales líneas de Internet de la red Comcast a finales del año 2006. El vídeo online resulta atractivo para la audiencia de la Web ya que les permite ir más allá de las capacidades de la televisión tradicional: el número de personas que puede distribuir vídeos es mayor (la "long tail", en español la larga cola) y la red social permite que otros miembros de la comunidad hagan comentarios e incluso respondan con otros vídeos. Se espera que el número de transferencias de vídeo realizadas a diario por los usuarios aumente de las 500.000 realizadas en 2007 a las 4.800.000 para 2011 (Transcodificación de Internet y vídeo Móvil: Soluciones para la Long Tail, IDC, septiembre 2007). Al mismo tiempo, la demanda de contenido de vídeo online sigue aumentando. Estudios recientes indican que el número de usuarios de Internet estadounidenses que han visitado páginas en las que se comparten vídeos ha aumentado en un 45% a lo largo de 2007, y el tráfico diario de dichas páginas se ha duplicado (PEW Internet Project Data Memo, PEW/Internet, Enero 2008). Las expectativas siguen aumentando, hasta el punto de que la gente espera que sea posible publicar y ver vídeos en cualquier momento y desde cualquier dispositivo. Estos cambios suponen un desafío para las tecnologías y estándares subyacentes que dan soporte a la creación, desarrollo, codificación/decodificación, y descripción de vídeo independientemente de la plataforma. Para garantizar que el vídeo ocupe un lugar destacado dentro de la Web, la comunidad ha de construir una arquitectura básica sólida que permita a los usuarios crear, navegar, buscar y distribuir vídeo, así como gestionar los derechos digitales.

Desde 1996, el W3C participa en el área del vídeo en la Web y ha organizado dos talleres acerca de este tema: Time Multimedia and the Web (Octubre 1996) y Television and the Web (Junio 1998). SMIL (Lenguaje de Integración de Multimedia Sincronizada), publicado en Junio de 1998, hace posible la integración del contenido de audio y vídeo. El W3C continúa trabajando en la integración del vídeo con otros medios, la sincronización del contenido de vídeo en gráficos con SVG (Gráficos Vectoriales Escalables), y el soporte para vídeo y audio en los navegadores Web mediante la propuesta de un elemento de vídeo en HTML 5.

3. Metadatos

Los participantes en el taller mostraron un gran interés en el tema de los metadatos para el contenido de audio y vídeo. Éste fue el tema del taller que generó mayor discusión e interés, incluyendo casos de uso provenientes desde distintas perspectivas. Los casos de uso más importantes relativos a la inclusión de metadatos estaban relacionados con el etiquetado del contenido, la búsqueda y el descubrimiento de metadatos. Anticipando el aumento de audio y vídeo online que tendrá lugar en los próximos años, los participantes del taller se dieron cuenta de que los usuarios tendrán mayores dificultades para encontrar los contenidos que buscan. Los metadatos provienen de diferentes fuentes: desarrolladores de contenido, editores, terceras partes, o usuarios. Algunos de los metadatos se crearán automáticamente (reconocimiento de caras, texto u objetos) y otros se añadirán manualmente. Algunos metadatos serán parte del contenido (en el contenedor de formato) mientras que otros serán externos al contenido. La inclusión de metadatos generados por el usuario puede aumentar de manera considerable el valor del contenido. Por supuesto, la calidad de tales metadatos variará considerablemente, especialmente en el caso de entornos donde no hay confianza. Hubo un gran interés en torno a la inclusión de metadatos específicos: título, autor, año, reparto, ciudad, derechos digitales, valoraciones, etiquetado, etc. Se señaló que un mismo vídeo podrá estar disponible en múltiples formatos, con diferentes calidades. Asimismo, la disponibilidad de los metadatos dependerá de la cadena de envío y el reproductor utilizado. La transcodificación a menudo implica la pérdida de metadatos.

Existen varias soluciones de diferente complejidad en este dominio: MPEG 7, SMIL, iTunes XML, Yahoo! MediaRSS, CableLabs VOD Metadata Content, etc. Actualmente no son muchos los distribuidores de vídeo online que utilizan metadatos o facilitan su uso a los demás, tanto en el ámbito profesional como en el ámbito de los vídeos generados por usuarios. A pesar del gran interés suscitado por los metadatos en el taller, no se llegó a una conclusión clara acerca de la trayectoria a seguir. Dada su Actividad de Web Semántica, el W3C debería continuar investigando en esta área, teniendo en cuenta las soluciones ya existentes.

4. Codecs de vídeo para la Web

Contenedor de formato y codecs

Durante los últimos años se ha estado considerando el asunto de los codecs de vídeo — por ejemplo, la especificación SMIL3 pretende crear un codec de vídeo de referencia basado en la experiencia de SMIL 1 y 2 — pero ha adquirido mayor importancia en relación a HTML 5. El Borrador de Trabajo de HTML 5, que incluye una propuesta para integrar y controlar el contenido de audio y vídeo, ha suscitado mucho interés en torno a la elección del codec de vídeo. El Grupo de Trabajo de HTML quiere recomendar un codec de vídeo de referencia, sin embargo todavía no hay consenso acerca de qué codec recomendar. El Grupo ha elaborado una serie de requisitos, tales como la compatibilidad con el modelo de desarrollo de código abierto o eliminación del riesgo de patentes adicional (vea la sección 3.14.7.1, Codecs de vídeo y audio para elementos de vídeo, HTML 5), algunos de los cuales puede que no sean compatibles.

Los participantes del taller debatieron acerca de varios codecs de vídeo ya existentes. El H.264 ha sido adoptado por gran parte de la industria. La industria del móvil ha adoptado el H.264, al menos en los estándares 3GPP/3GPP2. Recientemente Adobe anunció la compatibilidad de su producto flash con el H.264. Sin embargo, el H.264 tiene requisitos de licencia que no son compatibles con los requisitos de código abierto, y no se trata de un codec libre de derechos de autor, lo que lo hace a su vez incompatible con los objetivos de la Política de Patentes del W3C. Hasta hace poco, la especificación HTML 5 mostraba que las implementaciones de navegadores soportaban el codec Theora. Actualmente existen dudas acerca de los requisitos de los Derechos de Propiedad Intelectual relativos al codec Theora, y las organizaciones están preocupadas por el riesgo de patentes. Por supuesto, también se podría argumentar que no se conocen todos los riesgos del H.264. También hay que señalar que cada año vencen varias patentes de tecnologías de vídeo. Otros codecs a considerar como posibles candidatos son Dirac, VC-1 u otros anteriores como H.261 o H.263. Los codecs de vídeo evolucionan constantemente y el codec que usamos hoy será diferente del que usemos mañana. La BBC envió Dirac 1.0.0 a SMPTE y espera que se convierta en estándar en los próximos meses, bajo el nombre de "VC-2". La BBC sostiene que es adecuado para aplicaciones profesionales. La BBC también publicó la versión completa de Dirac (“Dirac 2.1.0”) el 24 de enero de 2008, la cual incluye compensación del movimiento y es adecuada para retrasmitir y secuenciar. La pasada primavera el Equipo Conjunto de vídeo (JVT) de ISO/ITU publicó un perfil escalable de H.264 y comenzó a trabajar en el H.265.

Para los creadores de gran contenido de vídeo, la experiencia final de los usuarios es más importante que el objetivo de un único codec de referencia. La experiencia final del usuario incluye reproductores de gran disponibilidad, codecs cuya funcionalidad proporcione una buena experiencia visual, y otros asuntos relacionados con la facilidad de uso. La mayoría dan por supuesto la utilización de vídeo Flash, o utilizarán su propio reproductor de vídeo, haciendo uso de un codec que se ajuste a la calidad de contenido deseada (como por ejemplo el codec VP7 On2). Los autores de contenido individual— el personal de vídeo casero— seguirán sufriendo la falta de un conjunto de codecs que sea compatible universalmente, lo que hace difícil el publicar vídeos en la Web con la seguridad de que cualquier persona que utilice uno de los navegadores disponibles pueda verlos. Hoy en día debería ser posible publicar vídeos con la misma facilidad con la que se publican imágenes. Varios participantes compartían el sentimiento de que el W3C debería reunir a las partes relevantes y continuar analizando el asunto. Los participantes del taller no debatieron sobre asuntos relacionados con los codecs de audio, en gran parte debido al interés predominante en los codecs de vídeo. También se han de investigar temas análogos relativos a los codecs de audio.

5. Posicionamiento dentro del contenido de vídeo

Para hacer que el vídeo y el audio ocupen un lugar destacado en la Web, debería ser posible vincularlos, de la misma forma que es posible crear hipervínculos entre páginas web. También permite otros casos de uso, como la selección de partes del vídeo, búsqueda de resultados, mashing o el uso de caché. A su vez proporciona un identificador que puede ser reutilizado posteriormente para incorporar metadatos. El debate cubrió el posicionamiento en el espacio y tiempo, así como una combinación de ambos.

5.1 Posicionamiento en el tiempo

Cinta de una película

El posicionamiento en el tiempo permite hacer referencia a un punto en el tiempo, o a un segmento de tiempo, en el contenido de vídeo y audio: un tiempo de reproducción normal (time offset), un tiempo basado en fotogramas o un tiempo absoluto. Esto permite al reproductor de medios saltar a un momento o fotograma concreto, o simplemente reproducir un segmento del archivo. RFC 2326 (RTSP) define la noción de tiempo normal de reproducción, la posición del flujo absoluto relativo al comienzo del vídeo. Los codecs de tiempo SMPTE (SMPTE 12M-1999 Televisión, Audio y Película— Código de tiempo y control) define la noción de precisión a nivel de fotograma. El tiempo absoluto utiliza UTC.

Posicionamiento en el tiempo en SMIL, MPEG-7, MPEG-21 y URI temporal.

Tanto SMIL como MPEG-7 requieren una indirección: se necesita conseguir la descripción XML que contiene la información temporal antes de ir a buscar el contenido de vídeo. Aunque no se mencionó en el taller, es importante señalar que incluso el HTML5 incluye las nociones de desplazamiento (offset) de tiempo y segmento de tiempo.

Por otro lado, MPEG-21 y URI Temporal se basan en definir una sintaxis URI y así no tener que depender de una descripción XML adicional. Sin embargo, estos enfoques también tienen limitaciones:

Carecen de la habilidad para representar fragmentos complejos, especialmente al combinar en posicionamiento en el tiempo y el espacio.
Al usar la sintaxis de componentes de identificadores de fragmentos de una URI, se depende del tipo de medios de la representación recuperada (vea la sección3.5, Fragmento, RFC 3986). Por ejemplo, la sintaxis URI de MPEG-21 depende del container MPEG, por lo que sería difícil aplicar un identificador de fragmentos genérico a los codecs de vídeo o audio existentes.

5.2 Posicionamiento en el espacio

Foto de: Bob Freund

El posicionamiento en el espacio permite hacer referencia a una región en un fragmento del vídeo. Se puede incorporar la información a la región concreta o, al combinarla con el posicionamiento en el tiempo, los objetos pueden localizarse dentro del vídeo.

En el taller se mencionaron tres soluciones: SVG, SMIL y MPEG-7. Todas las soluciones requieren una indirección para acceder a la región del vídeo.

6. Gestión de derechos digitales

Varios participantes del taller se interesaron por la gestión de derechos digitales, un asunto particularmente importante en el caso de la industria musical, cinematográfica y televisiva. Aquí se trataron dos de los temas ya mencionados previamente: los codecs de vídeo y los metadatos. Si el codec de vídeo de referencia y el contenedor de formato para el contenido de vídeo online se asocian a una solución con gestión de derechos digitales (DRM), estos solamente satisfarán a parte de los desarrolladores de contenido. No se ha sugerido que el W3C deba desarrollar un sistema DRM, sin embargo los trabajos futuros del W3C tendrán que tener en cuenta el asunto de la gestión de derechos digitales. También se señaló que la elección del codec de vídeo no tiene por qué depender de la elección del sistema DRM, ya que ambas tecnologías son independientes en términos generales. Igualmente, hubo cierto interés en seguir investigando el área de los metadatos para los derechos digitales (derechos de autor y licencias).

7. Otros temas de interés

Los temas de interés listados en esta sección también fueron mencionados o debatidos en el taller.

7.1 Accesibilidad

El W3C tiene la misión de asegurar que la Web sea accesible para las personas con discapacidad; naturalmente esto también afecta al contenido de vídeo. Una amplia mayoría del vídeo online y del contenido no profesional carece de subtítulos, lenguaje de señas o descripción del vídeo. Las Pautas de Accesibilidad al Contenido Web 1.0 fueron publicadas en mayo de 1999 y ya están disponibles varias soluciones para la subtitulación/descripción de vídeos. Se han desarrollado extensiones que permiten la utilización de subtítulos utilizando el formato de Texto Sincronizado del W3C (DXFP) en combinación con el reproductor Flash, pero el DXFP todavía no es una Recomendación del W3C. El reproductor Flash Player 9 adoptó 3GPP TS 26.245 como su formato de texto sincronizado. SML 3.0 introdujo SMILText, el cual también se puede utilizar para proporcionar subtítulos.

7.2 La etiqueta `vídeo` de HTML

La etiqueta vídeo de HTML se mencionó varias veces durante el taller. El tema principal del debate gira en torno al codec de vídeo, pero varios participantes mostraron su interés en la introducción de otra etiqueta para integrar y controlar el contenido de vídeo, especialmente desde que el Grupo de Trabajo de SYMM publicó una especificación para tratar la distribución del tiempo y la sincronización. El Grupo de Trabajo de HTML introdujo el concepto de "cue range" en su especificación. Es importante ser cautos con el objetivo de asegurar la compatibilidad entre los dos modelos. No hubo un debate a fondo en torno a este tema durante el taller, y por el momento la mejor recomendación es asegurarse de que los Grupos de Trabajo de SYMM y de HTML coordinen sus acciones.

7.3 APIs para el control del vídeo

El control del contenido de vídeo mediante el uso de APIs fue un caso de uso en varias presentaciones. Las especificaciones SMIL y HTML están ofreciendo soluciones para iniciar, parar o pausar un vídeo. Se sigue trabajando en la especificación HTML para extender los API de medios. En el taller se presentó una API ampliada, el draft API para el plugin de Ogg Play de Firefox.

7.4 Envío de contenido y tráfico de red

La escalabilidad del tráfico de red es el asunto más importante en el envío de contenido de vídeo a través de Internet y de la Web. Mientras que utilizar un servidor Web para enviar páginas e imágenes en HTML es sencillo, el contenido de vídeo y sus requisitos de ancho de banda introducen una dimensión totalmente nueva. El HTTP progresivo, las redes de envío de contenido, los servidores de secuencias multimedia, y las tecnologías P2P están entre las soluciones con diferentes costes de aplicación y ancho de banda. Las tecnologías P2P tienen un impacto significativo en la red de ISPs ya existentes, obligándolas a reconsiderar la manera en que asignan el ancho de banda entre sus usuarios.

8. Próximos pasos

En el taller surgieron cinco posibles áreas de trabajo principales (las tres primeras se debatieron en profundidad): codecs de vídeo, metadatos, posicionamiento, coordinación de diferentes grupos y buenas prácticas para el contenido de vídeo.

8.1 Codecs y contenedores

El Equipo del W3C trabajará con las partes interesadas para evaluar la situación de los codecs de vídeo, y analizar lo que el W3C puede hacer para asegurar que los codecs y contenedores para la Web fomenten la mayor adopción e interoperabilidad posible.

8.2 Metadatos

Las charlas del taller destacaron un número de metadatos estándares en el espacio (y este número es parte del problema). Aún así, existe un gran interés en este tema. Una posible trayectoria sería la creación de un Grupo de Trabajo encargado de proporcionar:

una ontología común simple entre los estándares existentes;
una definición de un mapa de equivalencia entre esta ontología y los estándares existentes;
una definición de una ruta de trabajo para ampliar la ontología, incluyendo información relativa a los derechos de autor y de licencias.

8.3 Posicionamiento

W3C también deberá considerar la posibilidad de crear un grupo que investigue el tema del posicionamiento. Su objetivo sería:

proporcionar una sintaxis URI para el posicionamiento en el espacio y el tiempo;
investigar cómo incorporar información sobre metadatos en zonas de espacio y tiempo cuando se utiliza RDF u otras especificaciones existentes, como SMIL o SVG.

8.4 Buenas prácticas para el contenido de vídeo y audio

Sería útil la creación de un grupo que trabajase en las pautas y buenas prácticas para que el contenido de vídeo y audio en la Web sea efectivo, a su vez, dicho grupo supervisaría la cadena de envío desde los autores hasta los usuarios finales, así como del envío de contenido a la gestión de metadatos, accesibilidad o independencia de dispositivo.

8.5 Coordinación entre grupos

Varios Grupos de Trabajo del W3C ya están trabajando en temas relacionados con el vídeo y es necesario que haya coordinación (en los controles, diseños, etc.):

vídeo y CSS (diseño y capas)
vídeo y SMIL, SVG o HTML (efectos, transformaciones, codecs, playback, API);
vídeo y WAI (accesibilidad)
vídeo y navegadores, y plugins (para la independencia de dispositivo y la gestión de codecs especializados plug-n-play que satisfacen necesidades del usuario a través del navegador)

Taller de vídeo en la Web del W3C Días 12 y 13 de diciembre de 2007 en San José, California y Bruselas, Bélgica