martes, 5 de febrero de 2013

[REDES DE TELECOMUNICACIONES] RFC 2978 - IANA Charset Registration Procedures

Introducción.

Multipurpose Internet Mail Extensions (MIME) y otros protocolos de internet son capaces de hacer uso de distintos tipos de conjuntos de caracteres, lo que propone que es esencial el uso de distintos tipos de conjuntos de caracteres.

El procedimiento de registro de conjuntos de caracteres existe solamente para asociar un nombre específico o nombres con una tabla de caracteres dado y para dar una indicación de si es posible o no utilizar una tabla en un objeto de texto MIME.

1. Caracter y tablas de caracteres.

Un caracter es una unidad de una tabla de elementos para el control, organización o representación de información.

Una tabla de caracteres es una lista de caracteres válidos; por ejemplo, una página en español necesita tener acceso a todas las letras del abecedario, acentos, y algunos caracteres especiales como signos de interrogación y demás. Dado que se puede hacer páginas en todos los idiomas, se debe especificar una tabla de caracteres para cada página, y en español una de las tablas más recomendadas es iso-8859-1, conocida también como Latin 1.

Usar la codificación iso-8859-1 permite crear páginas en español sin necesidad de utilizar entidades HTML para acentos y otras letras especiales del idioma que no se encuentran en tablas más limitadas como ASCII simple. Es decir, cuando se utiliza iso-8859-1 no hace falta emplear caracteres especiales para letras como "ñ",  "á", "ü", pudiendo ser incorporadas directamente en las páginas HTML sin necesidad de usar entidades como "ñ".


Para definir la codificación iso-8859-1 en una página Web se utiliza la etiqueta meta http-equiv="content-type", de la siguiente manera:
<meta http-equiv="content-type" content="text/html; charset=iso-8859-1">

Esto debe ir en la cabecera del documento (entre las etiquetas <head> y </head>).

Si se utiliza otro carácter diferente a la mayoría de los caracteres básicos necesarios para el idioma inglés, es posible que no se pueda leer su texto a menos que especifique la codificación de caracteres que utilizó.

La información de codificación inadecuada no sólo perjudica la capacidad de lectura de un texto que se visualiza, sino que, además, puede significar que sus datos no se encuentren en una búsqueda o que no se puedan procesar de manera confiable de diversas formas.


Los autores de contenidos necesitarán controlar en qué codificación guarda el texto el editor o el script y la manera de guardar el texto con la codificación que desee. Sin embargo, el hecho de simplemente declarar una codificación diferente no cambiará los bytes; se necesita además guardar el texto en esa codificación.

Los autores de contenidos deben, además, saber la manera de declarar la codificación de caracteres que utilizan para el formato de documentos con el que están trabajando. Es posible que también se deba verificar que el servidor ejecute los documentos con las declaraciones de HTTP correctas.

Los desarrolladores deben asegurarse de que las diversas partes del sistema se puedan comunicar entre sí, que comprendan las codificaciones de caracteres que se utilizan y que admitan todas las codificaciones y los caracteres necesarios.


2. Requerimientos de registro de tablas de caracteres.

Para poder registrar una tabla de caracteres, debe cumplir con ciertas normativas, si se desea utilizar con algún contenido MIME de nivel "text" debe confirmarlo a las restricciones de acuerdo con el RFC-2045.

Se debe nombrar a la tabla de caracteres con al menos un nombre, el primer nombre es considerado primario, el resto de nombres son considerados alias del primario.

Todos los conjuntos de caracteres deben de tener un nombre que provee una cadena asociada con el valor "MIBenum", estos valores son definidos por el RFC-1759. Estos nombres deben iniciar con las letras "cs" y no deben contener más de 40 caracteres.

Los conjuntos de caracteres deben funcionar como tal, no esta permitido incluir elementos desconocidos como caracteres no extraños o "inventados". Como ejemplo, deben de tener un uso normal con los estandares HTML sin que se vea afectada la visivilidad de los documentos.

Cada tabla de caracteres aprovado y registrado se le asignara una cadena de enteros única llamada MIBenum.

3. Procedimiento de registro.

Para poder registrar la tabla de caracteres es necesario presentarlo a la comunidad, en este caso a "ietf-charsets@iana.org". Esta lista de mails esta dedicada al chequeo de los conjuntos de caracteres que están a punto de ser registrados.

Una vez pasadas 2 semanas, y el que proponga la tabla de caracteres está convencido que fue aceptada, debe enviar a la IANA el registro de aplicación. Una vez aceptado y registrado, se posteará en la lista de mails.

Fuente:
http://datatracker.ietf.org/doc/rfc2978/

1 comentario: