Los apuntes de adeteran

SQLException ORA-01843 al migrar a Java 7

2016-04-06T17:55:00.000+02:00

Hace mucho que no escribo nada aquí, lo que es una buena señal, ya que eso quiere decir que no me he encontrado con problemas que merezcan contarse. Hasta ahora.

Recientemente, tuve que migrar una aplicación web que estaba ejecutándose con Java 5, a un servidor con Java 7. Uno podría pensar que debe ser una tarea trivial. Después de todo, se supone que uno de los eslóganes de Java es el famoso WORA, y además, Java 7 debería ser compatible hacia atrás (no introduce nuevas palabras clave, como sucedió con Java 5). Sin embargo, tras arrancar la aplicación y navegar un poco por ella, en seguida saltó un error: Una java.sql.SQLException con el siguiente mensaje:


ORA-01843: not a valid month

Obviamente, la aplicación utilizaba una base de datos Oracle. Pero la base de datos seguía siendo la misma. Es más, el servidor de aplicaciones (un Weblogic 10.3) también era el mismo. La máquina física (un servidor Solaris) era la misma. Todo era exactamente igual que antes, salvo la versión del JDK. ¿Qué estaba ocurriendo?

Buscando en la documentación de Oracle, es fácil averiguar que el error en cuestión indica un problema en el formato de la fecha, cuando se ejecuta una sentencia contra la base de datos. Concretamente, cuando la parte correspondiente al mes no es un literal correcto. Buceando en el código, pude comprobar que, efecticamente, el error solo aparecía cuando había fechas involucradas en alguna query.

Hay que explicar que la aplicación era bastante vieja, y que no utilizaba ningún tipo de ORM como Hibernate, ni nada parecido. Los accesos a base de datos se hacían «a pelo», usando directamente el API JDBC, sin ninguna librería de apoyo. Las queries estaban definidas dentro del código, si bien, al menos se había tenido la prudencia de que fueran parametrizadas (es decir, no se construia la query concatenando directamente variables). En algunos casos, cuando había fechas involucradas, se utilizaban las funciones TO_CHAR y TO_DATE para formatear el dato, con un patrón específico dentro de la query. Pero en otros, se confiaba ciegamente en que el formato por defecto era DD/MM/YYYY. Y en esas queries era donde saltaba la excepción.

Así que el motivo el problema era bastante evidente. El formato por defecto de las fechas, ya no era el esperado. Pero ¿por qué? Como ya he dicho, sólo había cambiado el JDK. La aplicación (código y librerías) era la misma, el servidor era el mismo, la base de datos era la misma...

Lo que ocurría era lo siguiente: En Java 7, la determinación del Locale por defecto, cambia con respecto a versiones anteriores. Está reportado como bug, pero parece ser que en realidad es una feature (como los grumos del Cola Cao). Lo que importa es que al arrancar la JVM, el Locale por defecto quedaba establecido a inglés americano, en vez de a castellano español. Eso era lo que había cambiado el formato por defecto de la fecha.

Por supuesto, una solución era modificar todas las queries afectadas, y explicitar un formato de fecha concreto con TO_DATE o TO_CHAR, pero eso suponía mucho trabajo (era una aplicación enorme), y además se quería evitar tocar código si era posible (era un dato del problema). Así que la única solución era establecer el locale por defecto de la JVM a castellano español, que era como estaba antes.

En un servidor Unix, normalmente se hace estableciendo la variable de entorno LANG. Pero eso no funciona con la Java 7 (al menos, no con un Weblogic 10 o un Tomcat 7). Así que lo que hay que hacer es establecer las propiedades de sistema user.language y user.country a nuestro gusto, pasándoselas en el arranque de la aplicación. En mi caso, tuve que añadir lo siguiente en el script de arranque:


-Duser.language=es -Duser.country=ES

Es muy importante hacer notar que hay que proporcionar ambas propiedades. Uno podría estar tentado de indicar únicamente el lenguaje, pero si no se hace lo mismo con el país, el locale no se establece correctamente.

Cómo tener una página estática de inicio en Blogger, y que funcione en móviles

2014-09-18T23:20:00.000+02:00

No creo que sea necesario decir que Blogger es un servicio gratuito de Google para publicar y mantener un blog. Una de sus características es que ofrece la posibilidad de tener páginas estáticas, que no forman parte de ningún post. Ahí se puede poner, por ejemplo, una página de introducción al blog, una sobre el autor... en fin, lo que uno quiera. En ocasiones, surge la necesidad de que una de esas páginas sea la home page, es decir, la página de inicio. La que se muestra cuando uno entra sin especificar nada (sólo con el nombre de dominio). Blogger usa una home page consistente en el listado de los últimos posts, sin muchas opciones para cambiar ese comportamiento.

Buscando por la red, uno puede encontrar fácilmente cómo hacer que una de esas páginas estáticas sea la home page del blog. El método más popular (por su sencillez de concepto) es utilizar las opciones de redirección que ofrece Blogger. Básicamente consiste en «hacer trampa», y decirle a Blogger que redireccione «/» a la página deseada, y luego añadir un enlace para ir a la lista de entradas. No voy a explicar aquí cómo se hace, ya que se pueden encontrar fácilmente muchas páginas al respecto (por ejemplo Creating a Blogger Static Home Page, que creo que es la que lo mejor explica).

Pero este sistema tiene un serio problema: hace imposible acceder al blog desde determinados dispositivos móviles. Resulta que cuando el servidor de Blogger detecta que se está accediendo desde un dispositivo móvil, hace una redirección a la misma página, pero añadiendo como parámetro en la query string, m=1. Este parámetro es utilizado por el motor de plantillas, de forma que se puede decidir mostrar cosas diferentes dependiendo de si el usuario está accediendo con un ordenador o con un móvil. Esto parece una buena idea, pero tal y como está implementado, colisiona con la redirección que configuremos nosotros en el blog. El resultado es que cuando el usuario accede desde un dispositivo móvil (o al menos, desde algunos de ellos), Blogger le redirecciona a otra URL. Pero esa URL a su vez le redirecciona a la anterior, que a su vez vuelve a redireccionar a la siguiente... y así caemos en un bucle infinito. Afortunadamente, la mayoría de los navegadores son capaces de detectarlo, y en vez de ralentizarnos el terminal con una ejecución que no se acaba nunca, muestran un mensaje de error al usuario.

En los tiempos que corren, uno no puede permitir que su web no se vea bien en un móvil. No digamos ya, que no se vea en absoluto. Me topé con este problema al hacer la web promocional de la novela «El viaje del Argos: Las memorias de Klatuu», ya que quería que el blog fuera algo secundario, y la home page fuera una página fija con la presentación del libro. Así que tras darle unas vueltas a la cabeza y experimentar un poco, implementé una solución con JavaScript.

La solución más básica consiste simplemente en redireccionar mediante JavaScript a la página deseada, sólo cuando se está cargando la home que ofrece Blogger, es decir, cuando se accede a «/»:


<b:if cond='data:blog.url == data:blog.homepageUrl'>
  <script>
    window.location="<data:blog.homepageUrl/>p/inicio.html"
  </script>
</b:if>

En este caso, la página a la que queremos redirigir es /p/inicio.html, y el bloque JavaScript sólo se envía al navegador, si la URL solicitada es la de la home (la de Blogger, no la nuestra). Hay que decir que el lenguaje que usa el motor de plantillas de Blogger, no está bien y completamente documentado en ningún sitio, y hay que recurrir a una mezcla de autoaprendizaje, búsqueda por la red, y ensayo y error (un buen punto de inicio es la ayuda de Blogger).

Fijaos que con este fragmento, redirigimos a nuestra página estática cada vez que alguien va a «/». Como en algún momento querremos mostrar la lista de entradas, necesitamos hacer algo más. Una solución es la que se ofrece habitualmente junto con la de la redirección de Blogger, que es poner un enlace a «/index.html», a «/search», o «trampas» similares. Pero como son características no documentadas, yo he preferido otra vía. Fijáos que la redirección sólo es necesaria cuando alguien entra desde otro sitio. Una vez el usuario está navegando dentro de nuestro blog, ya no es necesaria. Y eso podemos saberlo con la cabecera HTTP referer, que es accesible desde JavaScript:


<b:if cond='data:blog.url == data:blog.homepageUrl'>
  <script>
    if (!(document.referrer && 
          document.referrer.indexOf("<data:blog.homepageUrl/>") >= 0)) {
      window.location="p/inicio.html"
    }
  </script>
</b:if>

Así, sólo se realiza la redirección cuando no aparece el dominio de nuestro blog en la cabecera referer (la etiqueta <data:blog.homepageUrl/> devuelve la home por defecto de Blogger, esto es, nuestro dominio seguido de «/»).

Todavía queda un detalle. Cuando estamos preparando una entrada en Blogger, y le damos al botón de vista previa, no se manda ninguna cabecera referer, y por algún detalle de implementación que desconozco, el motor de plantillas considera que se está accediendo a «/», por lo que en vez de ver la vista previa de nuestra entrada, veremos la página estática que hemos definido como punto de entrada. Para evitarlo, hay que añadir una condición adicional al if JavaScript, para que descarte que la página sea una vista previa:


<b:if cond='data:blog.url == data:blog.homepageUrl'>
  <script>
    if(!(document.referrer && 
          document.referrer.indexOf("<data:blog.homepageUrl/>") >= 0) &&
          !(document.URL && document.URL.indexOf("post-preview")>= 0)) {
      window.location="p/inicio.html"
    }
  </script>
</b:if>

Finalmente, quiero recordaros que la plantilla de Blogger es un XML, por lo que para evitar problemas, debéis usar en el bloque JavaScript, las entidades XML correspondientes a los caracteres «&», «>», «<» y «"» (salvo en las etiquetas que queramos que el motor de plantillas evalue):


<b:if cond='data:blog.url == data:blog.homepageUrl'>
  <script>
    if(!(document.referrer &amp;&amp; 
          document.referrer.indexOf(&quot;<data:blog.homepageUrl/>&quot;) &gt;= 0) &amp;&amp;
          !(document.URL &amp;&amp; document.URL.indexOf(&quot;post-preview&quot;)&gt;= 0)) {
      window.location=&quot;p/inicio.html&quot;
    }
  </script>
</b:if>

Queda algo más críptico, pero leyendo con calma se entiende.

Si tenéis curiosidad por verlo en funcionamiento, podéis pasaros por la página que os he mencionado y navegar mientras observáis la bara de direcciones.

Actualización: La web oficial de mi novela se encuentra ahora alojada de Github, pero he mantenido la versión de Blogger para que podáis seguir viendo esta técnica.

Las limitaciones de CSS en un EPUB

2014-07-29T20:06:00.003+02:00

EPUB es un formato abierto de libro electrónico desarrollado por el IDPF. Una de sus características es que el texto de libro se encuentra en XHTML (también puede estar en formato DTBook, pero de momento, todos los que he leído usan XHTML), y se puede (y debe) usar CSS para aplicar estilos. Esto hace que una persona con experiencia en el mundo HTML, pueda maquetar libros en formato EPUB, con un pequeño aprendizaje adicional.

Un EPUB no es una página web, por lo que hay algunas recomendaciones oficiales, como el evitar la pseudoclase :hover o limitaciones a la hora de usar la propiedad position.

El problema es que nos encontramos en una situación similar a la de los 90 con la web. Por un lado, aunque el estándar oficial va por la versión 3, aún quedan muchos dispositivos en manos de los usuarios, que sólo soportan la versión 2. Por otro, hay varias aplicaciones para dispositivos móviles (sobre todo en Android) que permiten leer EPUB, con bastantes limitaciones. Y si bien, para tener una experiencia agradable es preferible el uso de un eReader con tinta electrónica, la gratuidad de muchas de estas aplicaciones hace que haya gente que se decante por leer en su tablet o móvil.

No hay en la web (o al menos no he encontrado) una lista de limitaciones en el soporte CSS de distintos dispositivos, así que os detallo aquí las cosas que me he ido encontrando de forma experimental.

Para empezar, no todos los dispositivos tienen un soporte completo de los selectores CSS. Algo tan simple como:


p {
  text-indent: 0;
}

p+p {
  text-indent: 2em;
}

que nos permitiría que todos los párrafos estén sangrados excepto el primero (práctica habitual en la narrativa), no es entendible por todos los dispositivos. Tampoco está garantizado que funcionen las pseudoclases (como :first-child) ni los pseudoelementos (como :first-letter). Pero es más, ni siquiera algo tan básico como el anidamiento de elementos, o el uso de varios selectores separados por comas, funcionará en todos sitios. Olvidáos pues de cosas como:


.chapter p { 
}

.title, .subtitle, .author {
}

Posiblemente un buen lector los entendería, pero alguna aplicación de Android no lo hará. La técnica más segura es limitarse a un único selector por declaración, con un único elemento (con o sin clase), lo que nos obliga a añadir muchas clases en nuestro HTML, y a repetir código en la CSS, para selectores que deben tener el mismo estilo. Por ejemplo:


h1 {
  font-family: Arial, sans-serif; 
  font-weight: bold;
  font-size: 26px;
}

h2 {
  font-family: Arial, sans-serif; 
  font-weight: bold;
  font-size: 20px;
}

p {
  text-indent: 2em;
}

p.first {
  text-indent: 0;
}

p.in-copyright-page {
}

img.in-copyright-page {
}

ul.in-copyright-page {
}

Más cosas. Según el estándar CSS, cuando el valor de una propiedad de medida (como margin, padding) es cero, no es necesario especificar ninguna unidad. Parece algo lógico, ya que 0em y 0px es en realidad lo mismo: cero. Pero existen aplicaciones o dispositivos lectores de EPUB, que si no se especifica siempre una unidad, ignorarán el valor. Así que, para curarse en salud, lo mejor es especificarla, aunque el valor numérico sea cero.

Por último, algunos dispositivos no soportan las propiedades compuestas o multivalor, es decir, aquellas propiedades que en realidad están especificando varios valores de forma compacta. Por ejemplo:


p {
  margin: 0em;
}

puede no funcionar en algún dispositivo. Así que, aunque tedioso, es más seguro optar por la versión más larga de especificar lo mismo:


p {
  margin-top: 0em;
  margin-right: 0em;
  margin-bottom: 0em;
  margin-left: 0em;
}

Vuelvo a repetir que esto son limitaciones que he descubierto en algunos lectores (dispositivos o aplicaciones). Un buen eReader seguramente soportará correctamente todo el estándar CSS. Pero si queremos que nuestro EPUB se vea correctamente en la mayor cantidad de lectores posibles, es conveniente tener estas restricciones en mente.

NoClassDefFoundError cuando la clase sí que se encuentra

2014-07-05T12:24:00.001+02:00

La documentación oficial de la clase java.lang.NoClassDefFoundError nos dice que esta excepción se lanza cuando la máquina virtual intenta cargar la definición de una clase, pero esta definición no se encuentra. Esto indica que cuando el programa se compiló, la clase estaba presente, pero en la ejecución ya no está.

Si al ejecutar una aplicación nos salta esta excepción, al leer esto enseguida pensamos en problemas de classpath o de empaquetamiento, y nos ponemos como locos a comprobar si el jar está bien construido, si están todos los jars, si tenemos bien definido el classpath, etc. Pero a veces, por mucho que busquemos no encontramos ningún error ahí. Es más, es especialmente desconcertante cuando la clase supuestamente desaparecida, está en el mismo jar que la clase que la busca y no la encuentra.

¿Qué puede estar ocurriendo? Bien, hay un motivo por el que la máquina virtual puede lanzar una java.lang.NoClassDefFoundError, aunque encuentre la clase: durante la inicialización estática de la misma. Imaginemos la siguiente clase:


public class SomeClass {
    
    public static final int SOME_CONSTANT = precalculateSomeValue();
    
    static {
        initializeSomething();
    }
 
    // (...)   
 
}

Si durante la ejecución del método precalculateSomeValue() o de initializeSomething(), se lanzara una excepción, la clase que hace referencia a SomeClass (y que ha «disparado» la inicialización), lanzará una NoClassDefFoundError. Fijaos que en este caso, la clase sí que ha sido localizada correctamente por la máquina virtual. El problema no es que no la haya encontrado, sino que no la ha podido inicializar.

Uso de jarsigner con un Provider propio

2014-04-15T23:11:00.000+02:00

En el último post expliqué cómo usar un Provider propio para autenticarse con certificado de cliente en una conexión HTTPS. El siguiente paso era inevitable: queríamos usar la misma infraestructura para firmar ficheros jar (requisito indispensable si queremos desplegar un applet con ciertos privilegios, por ejemplo).

Como sabéis, el JDK nos ofrece una herramienta de línea de comandos llamada jarsigner. Es la única opción que tenemos para firmar un jar, ya que no se ofrece un API para poder hacerlo de forma programática. La herramienta está pensada sobre todo para utilizar un keystore Java o un fichero PKCS#12, donde estaría la clave privada. Pero ¿qué hacemos si la única forma de acceder a la misma es mediante un Provider propio.

Nuevamente la solución pasa por estudiar primero cómo se haría con un PKCS#11. La documentación oficial de Oracle es un poco parca al respecto, pero suficiente para hacernos una idea. Al igual que ocurría en el post anterior, si nuestra implementación no está basada en un fichero en el disco donde se encuentran las entradas, como opción -keystore se debe pasar el literal "NONE". La opción -storetype deberá tener el nombre que le hayamos dado a nuestro propio tipo de KeyStore. Y aquí viene lo importante: deberemos usar la opción -providerClass con el nombre completo de nuestra implementación de Provider, incluyendo el paquete. Un ejemplo sencillo podría ser el siguiente:


jarsigner -keystore NONE -storetype MyType -storepass password -providerClass my.package.MyProvider /path/to/app.jar alias

Pero para que nos funcione, antes debemos hacer algo muy importante. ¿Cómo sabe la herramienta jarsigner dónde está el jar con nuestra implementación de Provider? Pues en realidad, no lo sabe. Ni tampoco se lo podemos decir. La herramienta jarsigner no tiene una opción -classpath o similar con que pasarle las rutas con los jars que debe usar. Así que nuestra única posibilidad es añadir nuestra implementación a la instalación del JDK, en la carpeta destinada a extender el JRE: $JAVA_HOME/jre/lib/ext/. No hay que perder de vista que tal vez necesitemos permisos de administrador para ello.

Además, hay tener en cuenta las implicaciones de esta acción: cualquier aplicación Java que se ejecute con esa instalación, podrá usar nuestra implementación de Provider. Eso no quiere decir que nuestra implementación pueda usarse por accidente si no queremos. Añadir nuestros jars a la carpeta de extensión, sólo quiere decir que sus clases estarán disponibles, como si se trataran de las del propio JRE. Pero si una aplicación quiere hacer uso de nuestro Provider, necesitará instalarlo con la conocida llamada a java.security.Security.addProvider(java.security.Provider provider). Si queremos que nuestro Provider esté siempre disponible como el resto de los que trae el JDK, sin necesidad de añadirlo dinámicamente en nuestra aplicación, debemos configurarlo en el fichero $JAVA_HOME/jre/lib/security/java.security (y hay que estar muy seguros de que realmente es eso lo que queremos).

Posiblemente, nuestra implementación necesite algún parámetro. En mi caso concreto, era la URL del servicio remoto. En el caso de la implementación PKCS#11 de Sun, es un fichero de configuración. Si a jarsigner le pasamos la opción -providerArg, el JDK buscará un constructor con un String como único argumento, y lo invocará usando el valor de la opción en cuestión.

Otro detalle muy importante, que nos puede dar sorpresas si no lo tenemos en cuenta. La herramienta usa una serie de algoritmos de firma por defecto, dependiendo del tipo de nuestra clave privada. Por ejemplo, para una clave RSA, el algoritmo por defecto es SHA256withRSA a partir de Java 7. Si nuestro Provider no implementa el algoritmo que jarsigner elija, se utilizará otro Provider, con resultados no deseados. Así que, o bien nos aseguramos de que nuestro Provider implemente los algoritmos por defecto, o bien utilizamos la opción -sigalg, indicando el algoritmo que queremos usar.

Así que nuestra llamada a jarsigner nos podría quedar algo parecido a esto (por claridad, he troceado el comando en varias líneas):


$HAVA_HOME/bin/jarsigner \
  -keystore NONE \
  -storetype MyKeyStoreType \
  -storepass mypassword \
  -providerClass my.own.package.MyProvider \
  -providerArg "some string with some configuration" \
  -sigalg SHA1withRSA \
  /path/to/file/to/be/signed/app.jar \
  alias-to-use

Autenticación de cliente con certificado, usando un Provider propio

2014-03-11T14:52:00.000+01:00

Realizar conexiones a un servidor HTTPS, únicamente con las clases que proporciona el JDK, es bastante sencillo. Hay mucha información, tanto en la red como en la propia documentación de Oracle. Si necesitamos autenticarnos con un certificado de cliente, que tengamos en un keystore, es también bastante sencillo. Con una simple búsqueda en Google averiguaremos que tenemos que ajustar determinadas propiedades del sistema, bien en el arranque de nuestra aplicación (con los parámetros -D), bien en nuestro código (con la clase System). Por ejemplo, si nuestra pareja de clave privada y certificado está en fichero PKCS#12, en la ruta /ruta/credenciales.p12, y la contraseña del mismo es «clave», tendríamos que ajustarlas así:


javax.net.ssl.keyStore = /ruta/credenciales.p12
javax.net.ssl.keyStorePassword = clave
javax.net.ssl.keyStoreType = PKCS12

Esto nos valdría tanto para un keystore de Java (tipo JKS) como para un PKCS#12 (tipo PKCS12). La cosa se complica un poco si no tenemos nuestra clave privada en un fichero accesible, sino en un dispositivo criptográfico. Si tenemos una implementación PKCS#11 para el mismo, tampoco habría demasiado problema. Necesitamos configurar adecuadamente el Provider SunPKCS11, tal y como nos explica la documentación de Oracle, y ajustar las siguientes propiedades de sistema:


javax.net.ssl.keyStore = NONE
javax.net.ssl.keyStorePassword = clave
javax.net.ssl.keyStoreType = PKCS11

Pero ¿qué tenemos que hacer en casos más particulares? Concretamente, ¿cómo usaríamos un Provider diferente a los del JDK?

Imaginemos la siguiente situación real: las claves y certificados están en una máquina remota, a la que se accede con un protocolo de red, y que tiene un API que permite obtener una lista de las claves y certificados, el certificado en sí, y realizar una firma digital de los datos que se le pasen. Es decir, una máquina que a todos los efectos se comporte como un hardware criptográfico (las claves privadas nunca salen de allí), pero que no tiene un interfaz PKCS#11. Para poder usar esta infraestructura desde Java, se implementó un Provider propio, que proporcionaba implementaciones de KeyStore, PrivateKey y Signature. No entraré en los detalles de cómo implementar un Provider, ya que está bastante bien documentado en Java Cryptography Architecture (JCA) Reference Guide.

¿Cómo usar esta implementación para autenticarnos en una conexión HTTPS? Fácil. Tenemos que actuar de forma similar al PKCS#11, pero utilizando los datos de nuestra implementación:


javax.net.ssl.keyStore = NONE
javax.net.ssl.keyStorePassword = clave (si fuera necesaria)
javax.net.ssl.keyStoreType = Nombre de nuestro nuevo tipo de KeyStore
javax.net.ssl.keyStoreProvider = Nombre de nuestro Provider

Hay unas consideraciones a tener en cuenta. Por un lado, si en nuestro Provider hemos definido un nuevo tipo de KeyStore, cuyo nombre no coincida con los de algún otro Provider, no necesitamos especificar la propiedad javax.net.ssl.keyStoreProvider, puesto que el nuestro será el único que lo proporcione.

Más importante. Debemos asegurarnos de que nuestra implementación acepte el algoritmo de firma NONEwithRSA. Como sabréis, una autenticación con certificado se basa en la firma de un token que genera la parte contraria. Pues bien, el JRE utiliza NONEwithRSA como algoritmo de firma en una conexión SSL o TLS. Si nuestra implementación no lo soporta, no podremos usarla.

Compliquemos un poco las cosas. Supongamos ahora que el KeyStore de nuestro Provider, no tiene una única entrada, sino varias. ¿Cómo sabe el JRE qué clave utilizar? Bueno, pues no lo sabe, y simplemente elige la primera que encaja (no necesariamente la primera que encuentra, ya que el certificado debe estar emitido por una CA que el servidor confíe). Si queremos especificar una clave concreta entre varias, debemos además implementar nuestro propio KeyManager. Para ello, Oracle recomienda heredar de la clase X509ExtendedKeyManager. El método clave es chooseClientAlias, que es al que se llama cuando el JRE necesita saber cuál de todas las entradas del KeyStore debe utilizar.

Pero ojo. No es suficiente con esto. Tal y como está diseñado todo el tinglado, debemos decirle de forma más explícita al JRE que use nuestro KeyManager. Para ello, debemos obtener una instancia de KeyManagerFactory (también una implementación propia que deberemos configurar en nuestro Provider, y que devolverá nuestra implementación de KeyManager), usarla para inicializar un SSLContext, obtener de él una SSLSocketFactory, y pasársela a la HttpsURLConnection que respresenta nuestra conexión HTTPS, y que es la implementación que nos devolverá URL.openConnection() si usamos el protocolo HTTPS.

Os dejo un pequeño ejemplo:


  KeyManagerFactory keyManagerFactory = KeyManagerFactory.getInstance("MyKeyManager", "MyProvider");
  KeyStore keyStore = KeyStore.getInstance("MyKeyStore");
  keyStore.load(null, null);
  keyManagerFactory.init(keyStore, new char[0]);

  SSLContext sslContext = SSLContext.getInstance("TSL");
  sslContext.init(keyManagerFactory.getKeyManagers(), null, null);
  SSLSocketFactory sslSocketFactory = sslContext.getSocketFactory();
  
  URL url = new URL("https://server.com/example");

  HttpsURLConnection httpsURLConnection = (HttpsURLConnection) url.openConnection();
  httpsURLConnection.setSSLSocketFactory(sslSocketFactory());

He obviado todo lo relacionado con la implementación del Provider y su configuración, y he supuesto que no es necesaria ninguna contraseña.

Tablas que no se muestran con FOP 0.20

2014-02-03T22:37:00.000+01:00

FOP es la implementación de Apache del estándar XSL (también conocido como XSL-FO). Soporta varios formatos de salida, pero es habitual usarlo sólo para generar PDFs.

Las primeras versiones usables fueron las 0.20.4 y 0.20.5, allá por 2003. La siguiente release estable fue la 0.93 en 2007, y prácticamente se rehizo desde cero. Dado que las versiones 0.20 no implementaban correctamente el estándar XSL, a la hora de crear una plantilla para generar un PDF con un formato muy concreto, se tenía que recurrir a truquillos, trampas y (por qué no llamarlas así) ñapas. Con la llegada de la 0.93, al corregir muchos de los defectos de las versiones anteriores, las plantillas desarrolladas para las 0.20, no eran adecuadas para las modernas versiones, y los PDFs generados tenían una apariencia diferente a la deseada. La solución ideal, por supuesto, es adaptar dichas plantillas a la nueva versión. Pero claro, eso supone dedicar tiempo. Tiempo al que una empresa no ve rendimiento, ya que, después de todo, se va a modificar algo que ya funciona. Así que el estancarse en una versión concreta y antigua de FOP, se ha convertido en algunos sitios, en un dato del problema.

El problema aparece cuando hay que modificar o crear una plantilla que funcione con las 0.20, y la mayoría de información disponible en la red (al menos, la que aparece en primer lugar buscando con Google), se refiere a versiones más modernas. O también, cuando uno reaprovecha ese XSL que genera un PDF tan chulo con FOP 1.1, y al usarla con nuestro 0.20, el resultado es desolador.

Bien, recientemente sufrí uno de estos casos, cuando con una plantilla que funcionaba bien con la 0.94, al usarla con la 0.20.4, desaparecían tablas enteras. No se renderizaban en el PDF. Y el log no daba ninguna pista de por qué (no había errores).

El problema está en que la versión 0.20.4 (no sé si ocurre lo mismo con la 0.20.5), no soporta el autoajuste del ancho de las columnas. Es decir, hay que indicar de forma explícita el ancho de cada columna. Si no, la tabla no se mostrará. Veamos un ejemplo muy simple.


<fo:table>
  <fo:table-body>

    <fo:table-row>
      <fo:table-cell>
        (...)
      </fo:table-cell>
      <fo:table-cell>
        (...)
      </fo:table-cell>
    </fo:table-row>
    
    (...)
    
  </fo:table-body>
</fo:table>

He obviado algunas cosas, ya que sólo nos interesa la estructura de las etiquetas de tabla. Este fragmento de código podría formar parte de un XSL que funciona con versiones de FOP superiores o iguales a la 0.93. Sin embargo, con la 0.20.4, no mostrará nada de nada. Para que lo haga, debemos fijar el ancho de cada columna de la tabla:


<fo:table>

  <fo:table-column column-width="proportional-column-width(50)"/>
  <fo:table-column column-width="proportional-column-width(50)"/>

  <fo:table-body>

    <fo:table-row>
      <fo:table-cell>
        (...)
      </fo:table-cell>
      <fo:table-cell>
        (...)
      </fo:table-cell>
    </fo:table-row>
    
    (...)
    
  </fo:table-body>
</fo:table>

En este ejemplo, se establece que cada columna ocupe la mitad del ancho de la tabla (50% para cada una de las dos columnas). Fijaos en la función proportional-column-width. La versión 0.20.4 de FOP tampoco soporta el uso de porcentajes para el ancho (sí se pueden usar cm o pt), pero podemos saltar esta limitación con esta cómoda función (ojo, fijáos que se le pasa sólo un número; sin el símbolo «%»).

Pequeños «gotchas» de Date, Calendar y SimpleDateFormat en Java

2013-12-23T13:59:00.001+01:00

El API de tiempo en Java es posiblemente el más vilipendiado, odiado e incomprendido de la plataforma. Pero es lo que hay, y a veces, la única opción que tenemos permitida (no siempre tenemos libertad para elegir librerías), así que voy a escribir un pequeño recetario/recordatorio de aquellas peculiaridades poco intuitivas, que aunque estén perfectamente documentadas, pueden inducir a error si no las tenemos en cuenta.

Primero voy a recordar lo más básico. Para la maquina virtual, la fecha y hora es un long, que indica el número de milisegundos transcurridos desde las 00:00 GMT del 1 de enero de 1970. Punto. No hay más. Las clases Date y Calendar son meros envoltorios con utilidades diversas.

Y ahora sí, vamos con los gotchas.

Meses en `Calendar`

En la clase Calendar, los meses empiezan desde cero. Es decir, enero es el mes 0, febrero es el mes 1, marzo el 2... y diciembre es el mes 11. La propia clase nos ofrece unas constantes con los nombres de los meses en inglés (JANUARY, FEBRUARY), pero es fácil olvidar este detalle y tener un disgusto. Sobre todo, cuando la clase SimpleDateFormat sí sigue el criterio intuitivo, y los meses empiezan con uno (enero es 1, febrero es 2, diciembre es 12).

`HOUR` vs. `HOUR_OF_DAY`

Calendar nos ofrece muchas constantes para referirnos a las distintas partes de la fecha y hora, pero cuidado con ellas. La constante HOUR se refiere a la hora, pero exclusivamente en formato AM/PM. Eso quiere decir que su valor está comprendido entre 1 y 12. Si hacemos


    calendar.set(Calendar.HOUR, 6);

estaremos estableciendo un valor diferente dependiendo de en qué momento del día se ejecute. Si es antes de las 12:00, estaremos indicando que la hora es 6 (cosa que seguramente es lo que queremos hacer), pero si ese código se ejecuta a las 12:00 o después, estaremos estableciendo 18 como hora. Si queremos usar el formato 24H (y especificar como hora un valor entre 0 y 23) debemos usar la constante HOUR_OF_DAY. Por ejemplo:


    calendar.set(Calendar.HOUR_OF_DAY, 6);

`DATE` no es lo que parece

Otra constante engañosa: DATE es equivalente a DAY_OF_MONTH y representa el día del mes. Haríamos bien en no usarla nunca, pero podríamos encontrarla en código ajeno, y conviene recordar qué significa.

Métodos iguales que no hacen lo mismo

Tanto Date como Calendar tienen un método getTime(), pero ojo, porque devuelven cosas diferentes. El getTime() de Date devuelve un long con el tiempo interno (los famosos milisegundos transcurridos desde las 00:00 GMT del 1 de enero de 1970), mientras que el getTime() de Calendar devuelve un objeto Date. Si queremos el long con los milisegundos, debemos usar getTimeInMillis()

Horas en `SimpleDateFormat`

Vamos con SimpleDateFormat y la forma de especificar un patrón. La letra «h» (minúscula) indica la hora en formato AM/PM, mientras que la «H» la indica en formato 24H. El siguiente formateador:


    SimpleDateFormat sdf = new SimpleDateFormat("hh:mm");

Nos devolverá 6:30, tanto si le pasamos un Date con la hora establecida a las 6:30 como a las 18:30. Si queremos usar el formato 24H (más habitual por estos lares), debemos usar:


    SimpleDateFormat sdf = new SimpleDateFormat("HH:mm");

SimpleDateFormat tiene otras letras para especificar la hora, pero creo que podemos ignorarlas, ya que nunca las he usado, y no creo que alguien lo haga por accidente («k» para 1-24 y «K» para 0-11).

No hay validaciones

Un comportamiento curioso de Calendar y SimpleDateFormat es que no hay limitación en el rango de valores. Es decir, podemos indicar fechas como el 31 de febrero, o el 40 de mayo. Como internamente la fecha en el fondo es un long con los milisegundos transcurridos desde la referencia 0, el valor incorrecto se convierte automáticamente en uno correcto. Así, el 31 de febrero correspondería al 3 de marzo (o el 2, si es un año bisiesto), y el 40 de mayo al 9 de junio (fecha hasta la que no debemos quitarnos el sayo). Eso quiere decir que no podemos usar estas clases para realizar algún tipo de validación en los rangos de valores de una entrada (como un formulario web, por ejemplo).

XML `dateTime`

Termino con algo que no es un «gotcha» sino una limitación. No hay forma de especificar un patrón para SimpleDateFormat que cumpla con el estándar XML, si queremos especificar la zona horaria. Si no especificamos la zona, basta con el siguiente patrón:


    SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss");

o incluso


    SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss.SSS");

si queremos llegar hasta el milisegundo. Pero si necesitamos especificar la zona horaria, tenemos un problema. SimpleDateFormat nos ofrece dos formas de pintar o parsear la zona horaria: «z», que es una representación textual larga y no nos sirve, y «Z» que es más corta y casi nos sirve. El «casi» es porque SimpleDateFormat representa la zona horaria con como la diferencia con GMT (Greenwich) en formato «+/-HHmm», es decir, el horario peninsular de invierno es «+0100». Pero en el estándar XML, las horas y minutos de diferencia están separados por dos puntos («:»), de forma que el ejemplo anterior se representaría como «+01:00».

Si la zona horaria va a ser siempre GMT, podemos aprovecharnos de que en el estándar XML, dicha zona horaria se representa como «Z», y hacer lo siguiente:


    public String toXmlString(Date date) {
        SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss'Z'");
        sdf.setTimeZone(TimeZone.getTimeZone("GMT"));
        return sdf.format(date);
    }

Pero si debemos usar otras zonas, y no podemos usar alguna librería más adecuada (el no uso de determinadas librerías puede ser un dato del problema), no nos queda más remedio que implementar algo más manual.

Un XML no es un texto, es un binario

2013-10-22T23:23:00.000+02:00

O tal vez debería matizar el título y decir que un XML no es un fichero de texto plano, y que habría que tratarlo a la hora de guardar y leer de disco, red, base de datos, o de donde sea, como un binario. Claro que entonces quedaría un título muy largo.

El motivo por el que hago esta afirmación tan tajante, tiene que ver con lo que expliqué hace dos posts: el famoso encoding. Como recordaréis, comentaba que la representación en bytes de un texto, depende del encoding utilizado. Leer un fichero de texto con la codificación correcta es vital para que no aparezcan símbolos inusuales en lugar de vocales acentuadas o nuestra querida eñe. Y esa codificación, si no la indicamos explícitamente en nuestra aplicación, el JRE usará la que tenga el sistema sobre el que corre. Así, un fichero de texto guardado en Windows, podría leerse de forma incorrecta en Linux, y viceversa, si usamos el encoding por defecto en ambos sistemas.

Con un XML no tenemos ese problema. El propio formato incluye una forma de especificar la codificación en el prolog (la cabecera) mediante el atributo encoding. Por ejemplo:


<?xml version="1.0" encoding="utf-8"?>
<ejemplo>
  ...
  Y aquí irá todo lo demás
  ...
</ejemplo>

Tanto el atributo encoding como el propio prolog son opcionales. Pero no hay problema, ya que el estándar establece mecanismos alternativos para determinar la codificación del XML, como la presencia de un BOM al principio. Y si no existe ninguna forma de determinar la codificación, se asume UTF-8 por defecto. Entre los mecanismos alternativos para determinar la codificación, no se tiene en cuenta la codificación de la plataforma. Es decir, un fichero XML puede viajar por varios sistemas diferentes, y todos deben usar la misma codificación para entenderlo, independientemente de la codificación que use el sistema para otros menesteres. Cualquier aplicación que lea el XML de ejemplo que he puesto antes, debería usar UTF-8 sí o sí.

Esto es fantástico, ¿no? ¿Dónde está entonces el problema? Pues ocurre que, dado que un XML es en el fondo texto entendible por un ser humano, hay desarrolladores que cometen el error de considerarlo como cualquier otro fichero de texto, y usan subclases de Reader y Writer, o incluso String para operar con él. Y eso es una bomba de relojería. Las clases anteriores interpretarán los bytes subyacentes con un encoding (el de la plataforma, o uno que se haya especificado de forma explícita) que no tiene por qué coincidir con el del XML. Si la codificación usada es la misma, pues no pasa nada. Pero un día, ya no coinciden (se migra la aplicación a otro entorno, se usan XMLs con otras codificaciones), y empiezan a aparecer caracteres raros, o peor aún, el parser es muy estricto y lanza una excepción si encuentra secuencias de bytes no válidas en UTF-8. Y entonces, alguien dice la gran frase «pero si esto siempre ha funcionado ¿por qué no funciona ahora?».

Para evitar este problema, basta con tener siempre en mente lo siguiente: hay que tratar un XML como si fuera un binario, y nunca como texto. Así, a la hora de leer un fichero, independientemente de la librería y parser utilizados, hay que usar aquellos métodos que pidan un InputStream, y nunca los que pidan un Reader. Para escribir un XML creado por nosotros, hay que huir de los métodos que usen un Writer como de la peste, y abrazar los que usen un OutputStream. La misma consideración hay que tener si guardamos XMLs en una base de datos relacional, por ejemplo. Nada de VARCHAR, CLOB o similares; debemos usar un BLOB. Y si llegado el caso tuviéramos que tener un XML en crudo en memoria, y usarlo como argumento o retorno de un método, debemos declararlo siempre como byte[], y nunca como String.

Cuando se usan XMLs muy pequeños (con pocos elementos y textos muy limitados), uno tiene la tentación de generarlos e interpretarlos «a pelo», sin tener que pasar por librerías sofisticadas. Por ejemplo, si tenemos que generar un XML como


<mensaje>Esto es un mensaje corto</mensaje>

parece un poco excesivo usar JAXB. Es mucho más simple generarlo a base de concatenar cadenas. Pero en este caso, el resultado final debe ser siempre un array de bytes, controlando nosotros (y no la plataforma) el encoding usado. Por ejemplo:


    public byte[] generarXml(String texto) throws UnsupportedEncodingException {
        return  ("<mensaje>" + texto + "</mensaje>").getBytes("UTF-8");
    }

puesto que como ya he comentado, si no se incluye prolog, la codificación por defecto es UTF-8 (y sí, el código es mejorable, pero se trata sólo de un sencillo ejemplo).

El caso contrario, interpretar un XML, no importa lo simple que pueda ser, creo que siempre es preferible el uso de un parser en condiciones. Pensad que sólo para averiguar el encoding, hay que hacer una primera lectura para buscar el prolog y su atributo encoding (si existen), y luego volver a leer otra vez con la codificación adecuada. Parece un trabajo que sólo se justificaría si tenemos unas limitaciones determinadas de memoria o tamaño de la aplicación (o algún otro dato del problema).

ZIP sin compresión

2013-08-21T07:32:00.001+02:00

Crear un fichero ZIP en Java es bastante fácil. No tenemos más que usar las clases ZipOutputStream y ZipEntry del paquete java.util.zip. Cada fichero dentro del ZIP está delimitado por una ZipEntry, que debemos crear y añadir al objeto ZipOutputStream, mediante su método putNextEntry(ZipEntry). Una vez añadida la ZipEntry, se escribe en el ZipOutputStream los datos deseados, y finalmente se cierra la entrada con una llamada al método closeEntry() del ZipOutputStream. Repetimos el proceso tantas veces como entradas tengamos que añadir, y terminamos con la inevitable llamada al close() del ZipOutputStream.

Veamos un ejemplo muy sencillo:


import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.util.zip.ZipEntry;
import java.util.zip.ZipOutputStream;

public class SimpleExample {

    public static void main(String[] args) throws IOException {
        File file = new File("example.zip");
        ZipOutputStream zipOutputStream = new ZipOutputStream(new FileOutputStream(file));

        addEntry(zipOutputStream, "example1.txt", "Some text".getBytes());
        addEntry(zipOutputStream, "example2.txt", "More text".getBytes());

        zipOutputStream.close();
    }

    private static void addEntry(ZipOutputStream zipOutputStream, String entryName, byte[] entryData) throws IOException {
        ZipEntry zipEntry = new ZipEntry(entryName);
        zipOutputStream.putNextEntry(zipEntry);
        zipOutputStream.write(entryData);
        zipOutputStream.closeEntry();
    }
}

Ambas clases tienen un método setMethod(int), que indica el método de compresión para los datos. Podemos pasar como argumento ZipEntry.DEFLATED (usar compresión) o ZipEntry.STORED (no usar compresión). Si usamos el setMethod(int) de ZipOutputStream, afectará a todas las entradas subsiguientes, mientras que si utilizamos el setMethod(int) de ZipEntry, afectará únicamente a esa entrada.

Si por el motivo que sea necesitamos entradas que no estén comprimidas (bien algunas en concreto, o todas las del ZIP), debemos llamar a setMethod(int) pasando como argumento ZipEntry.STORED.

¿Y ya está? Pues no, porque de ser así, no estaría escribiendo este post. Si en nuestro ejemplo anterior, simplemente modificamos el método addEntry de esta forma:


    private static void addEntry(ZipOutputStream zipOutputStream, String entryName, byte[] entryData) throws IOException {
        ZipEntry zipEntry = new ZipEntry(entryName);
        zipEntry.setMethod(ZipEntry.STORED);
        zipOutputStream.putNextEntry(zipEntry);
        zipOutputStream.write(entryData);
        zipOutputStream.closeEntry();
    }

nos encontraremos con la siguiente y desagradable sorpresa:


Exception in thread "main" java.util.zip.ZipException: STORED entry missing size, compressed size, or crc-32
 at java.util.zip.ZipOutputStream.putNextEntry(ZipOutputStream.java:167)
 at SimpleExample.addEntry(SimpleExample.java:24)
 at SimpleExample.main(SimpleExample.java:15)
 at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
 at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
 at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
 at java.lang.reflect.Method.invoke(Method.java:597)
 at com.intellij.rt.execution.application.AppMain.main(AppMain.java:120)

Process finished with exit code 1

¿Por qué ocurre esto? Bueno, la clase ZipEntry tiene una serie de atributos que se ajustan automáticamente cuando se usa el método DEFLATED, pero no al usar STORED. Por alguna decisión de diseño que no comprendo, y que no se avisa en ningún sitio del API, al usar STORED hay que ajustar manualmente dichos atributos, llamando a los métodos setSize(long), setCompressedSize(long) y setCrc(long).

¿Qué valores debemos usar? Para los dos primeros es inmediato: el número de bytes de los datos que queremos escribir (ya que al no usar compresión, size y compressedSize, coinciden). Si usamos un array de bytes, basta con leer su propiedad length. Para el último, hay que calcular el CRC-32 de los datos, usando la clase CRC32 (que está en el mismo paquete java.util.zip). Así, la versión modificada de nuestro método de ejemplo addEntry, quedaría así:


    private static void addEntry(ZipOutputStream zipOutputStream, String entryName, byte[] entryData) throws IOException {
        ZipEntry zipEntry = new ZipEntry(entryName);

        zipEntry.setMethod(ZipEntry.STORED);
        zipEntry.setSize(entryData.length);
        zipEntry.setCompressedSize(entryData.length);

        CRC32 crc = new CRC32();
        crc.update(entryData);
        zipEntry.setCrc(crc.getValue());

        zipOutputStream.putNextEntry(zipEntry);
        zipOutputStream.write(entryData);
        zipOutputStream.closeEntry();
    }

No es demasiado complicado, pero hemos tenido que añadir 6 líneas (en vez de sólo una), y calcular nosotros el CRC de los datos. Además, si en vez de tener los datos a escribir en un array de bytes, lo tenemos que leer de un InputStream, la cosa se complica un poco, ya que para conocer el número de bytes y calcular el CRC, debemos recorrer el stream, y posteriormente deberemos recorrerlo nuevamente para escribirlo en el ZipOutputStream. Y si el InputStream es de un solo uso, tendríamos que ir copiando los bytes en algún otro lugar durante la primera pasada, para pasárselos luego al ZipOutputStream.

Abordando problemas de encoding, en Java

2013-06-13T22:52:00.000+02:00

Posiblemente, los problemas derivados de un mal uso o mala comprensión del encoding, sea uno de los principales dolores de cabeza para muchos desarrolladores. Es fácil determinar que cuando en una web estamos viendo «camiÃ³n» en vez de «camión», es que pasa algo con el encoding. Pero ¿qué está pasando exactamente? En realidad, no es algo tan complicado una vez se entiende todo el asunto correctamente. Para ello, recomiendo la lectura del artículo What Every Programmer Absolutely, Positively Needs To Know About Encodings And Character Sets To Work With Text. Es más, me atrevo a decir que es de lectura obligada para todo aquel que no haya sabido determinar inmediatamente, por qué podríamos ver «camiÃ³n» en vez de «camión» (y no, no vale decir simplemente «algo del encoding»).

Para los que no puedan leer con fluidez la lengua de Shakespeare, resumiré los puntos más importantes:

Para un ordenador, todo son números. No, miento, son ceros y unos. Bits. El que parezca que se almacenen letras y símbolos, es porque se utiliza una relación biunívoca (uno a uno) entre caracteres y bits.
Un charset o juego de caracteres, es un conjunto de caracteres representables, con un código numérico asociado a cada uno. Un encoding o codificación, es la forma de representar en bytes, el código numérico del carácter.
Unicode no es un encoding, es un charset. Uno muy interesante, ya que incluye todos los posibles caracteres de todos los idiomas del mundo. UTF-8 y UTF-16 son encodings de Unicode. Esta distinción es irrelevante en codificaciones donde no hay más de 256 caracteres, como ASCII o ISO-8859-1.
La codificación de los primeros 127 caracteres de UTF-8, la familia ISO-8859, Windows-1252, y muchos otros, es igual que la ASCII. ASCII no incluye vocales acentuadas o la eñe. Es por eso que sólo aparecen problemas de encoding cuando usamos estos caracteres.
En UTF-8, para caracteres con código mayor que 127 (hex 7F), se emplea más de un byte (hasta un máximo de 4). No todas las secuencias de bytes son válidas. Cuando la aplicación encuentra un byte conflictivo, puede mostrar el símbolo de cierre de interrogación «?» o el carácter de sustitución Unicode «�» (U+FFFD)

Para los lenguajes que usan el alfabeto latino, podemos encontrar varios sistemas de codificación diferentes. En Windows, por ejemplo, se utiliza por defecto la codificación Windows-1252 (o CP-1252). En Linux, se utiliza generalmente UTF-8. En algunos servidores no Windows podemos encontrar ISO-8859-1 ó ISO-8859-15. Cuando un texto se muestra de forma extraña, el problema siempre es el mismo: el texto está almacenado con una codificación determinada, pero la aplicación que lo muestra lo está interpretando con otra codificación.

Veamos un ejemplo. La cadena "año", se representa en UTF-8 como 61 C3 B1 6F. Es importante recordar que la 'ñ' se representa con dos bytes: C3 B1 ¿Qué ocurre si una aplicación interpreta esta secuencia de bytes como un texto codificado en CP-1252? En esta codificación, el byte C3 corresponde al caracter 'Ã' y el byte B1 al caracter '±', por lo que esa aplicación mostrará "aÃ±o".

Vamos con el ejemplo contrario. La cadena "año" se representa en CP-1252 como 61 F1 6F. Si una aplicación intenta interpretar esta secuencia de bytes como si fuera UTF-8, se encontrará con que el byte F1 (11110001) es el primer byte de una secuencia de 4, pero que el siguiente byte debería estar entre 80 y BF (cumplir el patrón 10xxxxxx) y no es así. Al ser F1 un carácter «conflictivo», lo escapará con un '�', continuando con la intrepretación. De esta forma, se mostrará "a�o".

El problema puede complicarse si al cargar un dato se comete un error de codificación, y al mostrarlo se comete otro, teniendo entonces un «doble error». Imaginad, por ejemplo, una cadena "año" codificada en UTF-8, pero interpretada como ISO-8859-15. Como desde el punto de vista de una máquina, la cadena "aÃ±o" es perfectamente válida, no saltaría ningún error. Si más adelante, a la hora de enviar el dato a otro sistema (por ejemplo, desde una aplicación web al navegador del usuario), se codifica como UTF-8 pero se interpreta en destino como CP-1252, tendríamos un «doble error», y veríamos "aÃƒÂ±o": El motivo es que 'Ã' se representa en UTF-8 como c3 83, y '±' como c2 b1. En CP-1252, el byte c3 corresponde a 'Ã', el 83 a 'ƒ', el c2 a 'Â' y el b1 a '±'.

Con esto ya tenemos unas de reglas de andar por casa, para averiguar lo que está pasando cuando vemos textos raros:

Si vemos caracteres � en vez de vocales acentuadas o eñes, la aplicación está interpretando como UTF-8 un texto que en realidad está almacenado como CP-1252 o ISO-8859.
Si vemos que las eñes o vocales acentuadas son sustituidas por dos caracteres "extraños", la aplicación está interpretando como CP-1252 o ISO-8859 un texto que en realidad está codificado como UTF-8.
En general, si vemos que las eñes o vocales acentuadas son sustituidas por 2n caracteres "extraños", se está cometiendo el error anterior n veces a lo largo del ciclo de vida del texto.

Las codificaciones CP-1252, ISO-8859-1 e ISO-8859-15, codifican de igual forma las vocales acentuadas y eñes. Si queremos hilar más fino y diferenciarlas, tenemos que toparnos con el símbolo del euro: '€'. En CP-1252 se codifica como 80, que en ISO-8859-1 e ISO-8859-15 corresponden a un caracter de control no imprimible. En ISO-8859-15 se codifica como A4, que en CP-1252 y en ISO-8859-1 corresponde al caracter '¤'. Y en ISO-8859-1, sencillamente no existe dicho símbolo (y por eso, es una codificación que debería abandonarse cuanto antes). Para completar, en UTF-8, el € se representa como E2 82 AC. Es decir, con 3 bytes, por lo que habrá que tenerlo en cuenta al aplicar las reglas mencionadas.

En una aplicación mínimamente compleja, desarrollada en Java, el error de codificación puede tener múltiples orígenes. Así que vamos a ir revisando poco a poco qué codificaciones se usan en cada punto, y cómo se pueden cambiar.

Como todo buen programador en Java debe saber, la plataforma utiliza internamente la codificación UTF-16 para almacenar en memoria las cadenas de texto. En realidad, a menos que necesitemos meternos en las tripas de bajo nivel de una JVM, este dato es una mera curiosidad, ya que a todos los efectos, una String es como un array de caracteres, es decir, de char. Salvo algunos métodos concretos, se opera a nivel de caracter. Así el resultado de


"1€ al año".length()

siempre será 9, sin importar la codificación, puesto que lo que nos devuelve es el número de caracteres, y no el número de bytes. Por el contrario, el número de bytes varía con la codificación, siendo 9 en ISO-8859-15, 12 en UTF-8 (el € son 3 bytes) y 18 en UTF-16 (2 bytes por caracter).

Siguiente paso: los fuentes. Un fichero .java no deja de ser un simple fichero de texto plano. Es el compilador el que leerá este fichero y generará el .class correspondiente. ¿Qué codificación usa el compilador? Pues por defecto utiliza la misma que la plataforma en la que se esté ejecutando. Esto es, si compilamos nuestros fuentes en Windows, se usará CP-1252. Si compilamos en Linux, se usará UTF-8. Es algo bastante razonable, puesto que la mayoría de editores que usemos, tendrán ese mismo comportamiento. Así, el siguiente ejemplo:


public class SillyExample {
    public static void main(String[] args) {
        System.out.println("El niño se gastó 1 € en chuches.");
    }
}

debería compilar y ejecutarse sin problemas, y mostrar en la consola lo mismo, sin importar la codificación de la plataforma:


El niño se gastó 1 € en chuches.

Process finished with exit code 0

Este comportamiento puede ser modificado, con la opción -encoding del compilador, que nos permite especificar la codificación de los fuentes. Obviamente, si la codificación de los ficheros .java no coincide con la que se use al compilar, ya tenemos un problema. Por lo general, un IDE en condiciones gestionará esto de forma transparente a nosotros, y si le decimos que use una codificación concreta, usará la misma al guardar los fuentes y en la opción del compilador.

Un primer paso para diagnósticar un problema de encoding con literales que se declaran en los fuentes, es averiguar la codificación de éstos. Para ello, lo más seguro es abrir un .java que sepamos que tiene algún carácter no ASCII, con un visor hexadecimal. Si el caracter está representado con dos bytes, el .java está en UTF-8. Si está representado con un solo byte, no.

No todas las cadenas que mostrará nuestra aplicación estarán en los .java. De hecho, eso no es una buena práctica. Lo habitual es tener los textos que se mostrarán al usuario en ficheros separados.

La forma habitual de mantener los textos que se mostrarán al usuario es mediante los ficheros .properties, que además tienen la ventaja de facilitar enormemente la internacionalización de la aplicación. Y aquí nos topamos con una limitación: la clase utilizada habitualmente para leer los ficheros .properties, ResourceBundle, interpreta siempre los ficheros como ISO-8859-1, no importa lo que hagamos. Esto puede suponer un inconveniente en algunos casos, ya que el juego de caracteres de esta codificación, no incluye el símbolo del euro. Afortunadamente, podemos especificar caracteres no incluidos en ISO-8859-1 utilizando el formato \uXXXX, donde XXXX es el código Unicode del caracter. Así, podríamos tener un .properties con la siguiente línea:


text=El niño se gastó 1 \u20AC en chuches.

Si queremos que nuestros .properties estén en otra codificación, como UTF-8, podríamos usar PropertyResourceBundle, ya que tiene un constructor público al que se le pasa un Reader, pero perderíamos las facilidades de ResourceBundle para la internacionalización. Otra alternativa es buscar funcionalidades similares en otras librerías o frameworks.

Ya que mencionamos la clase Reader, cuando leemos o escribimos un fichero con FileReader y FileWriter, se usa la codificación por defecto de la plataforma donde se está ejecutando. Esta misma codificación es la que se usa en toda conversión de caracteres a bytes y viceversa (con la excepción de los .properties leídos por ResorceBundle), como en el constructor String(byte[]) y el método byte[] getBytes() de String, o las clases InputStreamReader y OutputStreamWriter. En algunos casos, existirán variantes de los métodos en los que se les pueda especificar la codificación a usar de forma explícita, pero si no se hace, se usará la codificación por defecto de la plataforma.

Se puede modificar la codificación por defecto con la variable de sistema file.encoding, pero sólo podemos hacerlo en el arranque de la VM, con la opción -D (por ejemplo, -Dfile.encoding=UTF-8). Si lo hacemos en el código, usando System.setProperty("file.encoding", "UTF-8"), no funcionará. En cualquier caso, insisto en que esa configuración no afecta al comportamiento de ResourceBundle, que seguirá esperando los .properties en ISO-8859-1.

Así que aquí tenemos dos puntos más a revisar cuando encontramos problemas de encoding en una aplicación: la codificación de otros ficheros de texto además de los fuentes, el mecanismo utilizado para leerlos, y la codificación que está usando la JVM. Una forma sencilla de comprobar si los textos se están cargando con la codificación adecuada, es con el depurador de toda la vida. Si en un breakpoint evaluamos con un buen IDE el contenido de un String, podremos ver el número de caracteres, o mejor aun, el array de char interno. Si vemos los caracteres que deben donde deben, el problema no está en la lectura de ficheros u otros recursos.

Para ayudarnos en esta tarea, es muy útil la web FileFormat.Info, donde podemos consultar el código numérico de cualquier carácter Unicode, así como sus diferentes representaciones y más información útil. Echad un vistazo, por ejemplo, a nuestra querida «ñ».

Vamos ahora a entrar en el mundo de las aplicaciones web, que es donde suelen producirse estos errores (posiblemente porque Java tenga más presencia en la web que en el escritorio, y porque se introducen capas adicionales donde cometer errores). Una posibilidad es que el HTML se esté enviando por la red con una codificación, y el navegador la esté interpretando con otra.

Para determinar la codificación que debe emplear un navegador a la hora de mostrar el HTML de una response HTTP, se utiliza la cabecera HTTP Content-Type. Esta cabecera puede establecerse en la configuración del propio servidor (que variará dependiendo de qué utilicemos), en el código Java mediante los métodos setContentType(String) o setCharacterEncoding(String) del objeto ServletResponse (no son exactamente equivalentes, y hay peculiaridades que conviene consultar en la documentación), o mediante el atributo contentType de la directriz JSP page. Por ejemplo:


<%@ page contentType="text/html;charset=UTF-8"%>

Si esta cabecera no aparece, o no indica la codificación, el navegador busca una etiqueta meta presente en el HTML de la página, que a su vez puede ponerse como


<meta http-equiv='Content-Type' content='text/html; charset=utf-8'>

o como


<meta charset='utf-8'>

Y si tampoco encuentra esta etiqueta, el navegador utilizará normalmente la codificación ISO-8859-1. Dado que esta codificación es anterior al euro, y no tiene el símbolo «€» en su juego de caracteres, si usamos esta codificación, nos veremos obligados a usar la entidad HTML € para representarlo. De hecho, podemos limitarnos a usar únicamente caracteres ASCII, y emplear entidades HTML para los caracteres no ASCII, pero eso no soluciona todos los problemas, e introduce una incomodidad innecesaria a día de hoy.

Aunque se puede especificar la codificación del response sólo con los métodos de ServletResponse, si usamos JSPs debemos especificar la codificación también en la directiva page. Recordemos que una JSP se traduce internamente en un .java que luego se compila. La implementación concreta depende del servidor utilizado, pero puede ocurrir (y de hecho ocurre con Tomcat 6) que el encoding utilizado para generar el .java y compilarlo, dependa de esa directiva, de forma que si no aparece, se utilice una codificación diferente a la que deseamos (Tomcat 6 parece usar ISO-8859-1, independientemente de lo que especifiquemos en la propiedad file.encoding).

Otra fuente de error son los formularios. Cuando se hace submit de un formulario, el navegador utiliza en la request la misma codificación que haya usado para mostrar la página. Este comportamiento se puede modificar mediante el atributo accept-charset de la etiqueta form, indicando el encoding a usar (sólo el encoding, no todo el Content-Type). Sin embargo, no funciona en todos los navegadores, por lo que no es conveniente utilizarlo.

En el lado del servidor, la clase ServletRequest tiene un método getCharacterEncoding(), que debería devolvernos la codificación de la request. ¿Por qué digo «debería». Pues porque lo único que puede hacer es obtener dicho valor de la cabecera HTTP correspondiente. Los navegadores no suelen enviar esta información, por lo que en la mayoría de los casos, una llamada a este método devolverá un null. Es decir, no podemos confiar en dicho método para saber la codificación de la request. Así que debemos usar una de forma consistente en el response, y asumir que las request nos llegan con esa misma codificación.

Hay una gran excepción a esta regla (encoding de la request = encoding de la página del formulario), que sucede cuando usamos Ajax. Ajax usa por defecto UTF-8 en la request. Si no tenemos esto en cuenta, en una aplicación web en la que se use ISO-8859-15, por ejemplo, recibiremos una request UTF-8, que el servidor interpretará incorrectamente.

Una solución es especificar de forma explícita en nuestra aplicación, que la request viene codificada como UTF-8. Esto se puede hacer con el método setCharacterEncoding(String) de la clase ServletRequest. Este método simplemente establece con qué codificación se debe leer la request. Es decir, no realiza ninguna transformación de encoding. Si la request nos viene con una codificación, y establecemos una diferente con este método, los valores de los parámetros se leerán incorrectamente. Obviamente, hay que llamar a setCharacterEncoding(String) antes de leer algún parámetro de la request.

Una aplicación web que use una codificación en unas request, y otra diferente en otras, es muy mala idea. También es mala idea usar codificaciones diferentes para la request y el response. Lo mejor es usar la misma codificación de forma coherente en toda la aplicación. En JEE es muy sencillo establecer la codificación de request y response en un filtro (una clase que implemente Filter) y configurarlo en el web.xml. Como en las JSPs que usemos, debemos especificar en la directiva page esa misma codificación, podemos tener una JSP únicamente con esa directiva, e incluirla en todas las demás (o usar algún sistema de plantillas, para asegurarnos que todas incluyan la misma directiva).

Y ahora la gran pregunta: ¿qué codificación usar para toda nuestra aplicación? Mi elección personal es UTF-8, ya que al ser una codificación Unicode, tenemos acceso a todos los caracteres posibles. Además, puesto que Ajax utiliza esa misma codificación por defecto a la hora de hacer las request, evitamos tener que complicarnos con ese tema. El problema son los .properties, que si los vamos a leer con ResourceBundle, deben ser ISO-8859-1. Si nuestro IDE lo permite, podemos configurarlo para que todos los ficheros del proyecto estén en UTF-8 menos esos, o si usamos algún framework, buscar si incluye algún sistema alternativo que soporte UTF-8. También podemos optar por usar la clase PropertyResourceBundle, que nos permite usar un Reader, de forma que tengamos control de la codificación a usar, y si necesitamos multilenguaje, implementar nosotros mismos el comportamiento de ResourceBundle en ese caso (que básicamente es añadir al nombre el Locale utilizado, antes de la extensión, e ir eliminando fragmentos del mismo hasta encontrar el recurso).

Comprimir con gzip una request SOAP, en Spring Web Services

2013-03-12T22:51:00.000+01:00

En un proyecto reciente, tuve que implementar un cliente SOAP que debía ineractuar con un servicio web de un tercero, ya implementado y definido, esto es, el descriptor del servicio y la forma de interactuar con el mismo eran un dato del problema. Uno de estos requisitos era que la request HTTP tenía que ir comprimida con gzip. Si no era así, el servidor devolvería un error (en este caso, era una exigencia razonable, pues los datos a enviar podían pesar bastante).

De entre las opciones que tenemos por ahí, me decanté por emplear Spring Web Services, que encuentro cómodo y sencillo de usar. Los que tengáis algo de experiencia con este framework, sabréis que para implementar un cliente, debemos recurrir a la clase WebServiceTemplate. Internamente, esta clase utiliza una implementación de WebServiceMessageSender para el transporte. Si no se configura, la implementación por defecto es HttpUrlConnectionMessageSender, que utiliza por debajo las clases del propio JRE para el transporte HTTP. Otra opción puede ser utilizar HttpComponentsMessageSender, que utiliza la librería de Apache HttpClient.

Sin embargo, ninguna de estas implementaciones nos ofrece la posibilidad de comprimir la request. El response puede venir comprimido sin problemas, sin más que establecer el setAcceptGzipEncoding(boolean) a true (cosa que ya viene así por defecto), pero no tenemos ayuda para la request. Buscando por la red, uno tampoco encuentra mucha información, salvo indicaciones de que debemos implementar nuestro propio WebServiceMessageSender. Y efectivamente, así es. Pero no os preocupéis, no es necesario implementar uno desde cero.

Si miramos el código fuente de HttpUrlConnectionMessageSender, veremos que la implementación del método createConnection(URI) es algo así (pongo el de la versión 2.0.5):


public WebServiceConnection createConnection(URI uri) throws IOException {
    URL url = uri.toURL();
    URLConnection connection = url.openConnection();
    if (!(connection instanceof HttpURLConnection)) {
        throw new HttpTransportException("URI [" + uri + "] is not an HTTP URL");
    }
    else {
        HttpURLConnection httpURLConnection = (HttpURLConnection) connection;
        prepareConnection(httpURLConnection);
        return new HttpUrlConnection(httpURLConnection);
    }
}

Esto es, a partir del URI pasado, obtiene un objeto URL, que utiliza a su vez para obtener una URLConnection. Como el protocolo es HTTP, sabemos que en realidad, el objeto es una instancia de HttpURLConnection. Finalmente, envuelve este objeto con una HttpUrlConnection, que es lo que devuelve. Mucho ojito con los nombres, que es fácil liarse. HttpURLConnection es la clase del JDK que hereda de URLConnection, mientras que HttpUrlConnection es la clase de Spring que implementa WebServiceConnection.

El objeto WebServiceConnection es lo que se va a utilizar dentro del WebServiceMessageSender para tratar con la conexión HTTP, por lo que también tendremos que hacernos una implementación propia. Vemos que HttpUrlConnection (la de Spring) tiene un método getRequestOutputStream() que devuelve el OutputStream donde escribir lo que queramos enviar con la request. Lo que necesitamos es envolver este OutputStream con un GZIPOutputStream (aunque HttpUrlConnection también tiene un método getConnection que devuelve la HttpURLConnection original del JDK, no es usado en el HttpUrlConnectionMessageSender).

Así que lo que hacemos es crearnos una clase que herede de HttpUrlConnection, y sobreescribimos su método getRequestOutputStream(). Para que el método pueda ser llamado más de una vez y devuelva el mismo objeto, utilizaremos una variable de instancia donde almacenar dicho objeto:


import java.io.IOException;
import java.io.OutputStream;
import java.net.HttpURLConnection;
import java.util.zip.GZIPOutputStream;

import org.springframework.ws.WebServiceMessage;
import org.springframework.ws.transport.http.HttpUrlConnection;

public class GZipHttpUrlConnection extends HttpUrlConnection {

    private OutputStream outputStream;

    GZipHttpUrlConnection(HttpURLConnection connection) {
        super(connection);
    }

    @Override
    protected OutputStream getRequestOutputStream() throws IOException {
        if (outputStream == null) {
            outputStream = new GZIPOutputStream(super.getRequestOutputStream());
        }
        return outputStream;
    }
}

Esta clase es la que devolverá nuestra implementación de WebServiceMessageSender en el método createConnection(URI). Para ello, heredaremos de HttpUrlConnectionMessageSender y sobreescribiremos el método createConnection(URI):


import org.springframework.ws.transport.WebServiceConnection;
import org.springframework.ws.transport.http.HttpTransportException;
import org.springframework.ws.transport.http.HttpUrlConnectionMessageSender;

import java.io.IOException;
import java.net.HttpURLConnection;
import java.net.URI;
import java.net.URLConnection;

class GZipHttpUrlConnectionMessageSender extends HttpUrlConnectionMessageSender {

    @Override
    public WebServiceConnection createConnection(URI uri) throws IOException {
        URLConnection connection = uri.toURL().openConnection();
        if (!(connection instanceof HttpURLConnection)) {
            throw new HttpTransportException("URI [" + uri + "] is not an HTTP URL");
        }

        HttpURLConnection httpURLConnection = (HttpURLConnection) connection;
        prepareConnection(httpURLConnection);
        return new GZipHttpUrlConnection(httpURLConnection);
    }
}

Aún no hemos terminado. El código anterior, tal y como lo he puesto, no funcionará. Hay que hacer dos ajustes imprescindibles.

El primero es añadir la cabecera HTTP Content-Encoding con el valor gzip, mediante el método setRequestProperty(String, String) de URLConnection. Si no, el servidor no sabrá que la request viene comprimida. Podemos hacerlo en el constructor de GZipHttpUrlConnection:


GZipHttpUrlConnection(HttpURLConnection connection) {
    super(connection);
    connection.setRequestProperty("Content-Encoding", "gzip");
}

O podemos sobreescribir el método prepareConnection(HttpURLConnection) en GZipHttpUrlConnectionMessageSender:


@Override
protected void prepareConnection(HttpURLConnection connection) throws IOException {
    super(connection);
    connection.setRequestProperty("Content-Encoding", "gzip");
}

La elección es vuestra.

El segundo ajuste tiene que ver con el anterior post. Resulta que ninguna clase involucrada del framework Spring Web Services está cerrando el OutputStream de la request. Así, nos encontraremos con la desagradable sorpresa de que al servidor sólo le llegan los 10 bytes de la cabecera gzip. Para evitarlo, debemos cerrar nosotros mismos el OutputStream. ¿Donde? Pues un buen sitio donde hacerlo es sobreescribiendo el método onSendAfterWrite(WebServiceMessage) de HttpUrlConnection, ya que como se indica en la documentación, se invoca tras finalizar la escritura del mensaje. Por tanto, nuestra clase GZipHttpUrlConnection quedaría así (he añadido también el ajuste del Content-Encoding):


import java.io.IOException;
import java.io.OutputStream;
import java.net.HttpURLConnection;
import java.util.zip.GZIPOutputStream;

import org.springframework.ws.WebServiceMessage;
import org.springframework.ws.transport.http.HttpUrlConnection;

class GZipHttpUrlConnection extends HttpUrlConnection {

    private OutputStream outputStream;

    GZipHttpUrlConnection(HttpURLConnection connection) {
        super(connection);
        connection.setRequestProperty("Content-Encoding", "gzip");
    }

    @Override
    protected OutputStream getRequestOutputStream() throws IOException {
        if (outputStream == null) {
            outputStream = new GZIPOutputStream(super.getRequestOutputStream());
        }
        return outputStream;
    }

    @Override
    protected void onSendAfterWrite(WebServiceMessage message) throws IOException {
        if (outputStream != null) {
            outputStream.close();
        }
        super.onSendAfterWrite(message);
    }
}

Aclararé que es necesario llamar al onSendAfterWrite(WebServiceMessage) del padre ya que, aunque la documentación diga que no, sí que tiene una implementación (hace un connection.connect()). Y además, hay que hacerlo al final, o si no, nos saltará una excepción al hacer el close().

Bien, con esto ya lo tenemos todo. Ya sólo nos queda configurar adecuadamente nuestra instancia de WebServiceTemplate en Spring, para que reciba una instancia de GZipHttpUrlConnectionMessageSender como messageSender. Si lo hacemos mediante XML, añadiríamos algo así:


<bean id="webServiceTemplate" class="org.springframework.ws.client.core.WebServiceTemplate">
    <property name="messageSender">
        <bean class="GZipHttpUrlConnectionMessageSender"/>
    </property>
</bean>

Y con esto, nuestro cliente SOAP ya tendría capacidad para enviar la request comprimida con gzip.

El método flush() de GZIPOutputStream, no garantiza el flush de los datos

2013-02-28T23:05:00.001+01:00

La clase java.util.zip.GZIPOutputStream permite comprimir un conjunto de bytes en el formato gzip. Esta clase hereda de java.io.FilterOutputStream, por lo que su uso es muy sencillo: envolvemos un java.io.OutputStream cualquiera con la clase mencionada, y vamos llamando a las distintas variantes de write(). Al terminar el proceso (llamando a close()), habremos escrito en el stream envuelto, los datos comprimidos.

Pero hay un detalle que no está reflejado en la documentación del JDK, y es que GZIPOutputStream rompe el contrato implícito de sus padres (al menos, en Java 6). Si llamamos al método flush() de GZIPOutputStream, no siempre forzaremos el volcado de datos. Este comportamiento no es en realidad consecuencia de una reimplementación de flush() en GZIPOutputStream. Si observamos la documentación, comprobaremos que flush() es directamente heredado de FilterOutputStream, y lo que hace es llamar al método flush() del stream subyacente.

El problema está en realidad en que la clase padre de GZIPOutputStream, DeflaterOutputStream, sobreescribe los métodos write(). Esta clase padre es la que realiza la tarea de compresión de datos, ya que GZIPOutputStream simplemente añade una cabecera y una cola. Las llamadas a las distintas variantes de write(), no siempre se traducen en llamadas a los métodos write() del stream subyacente. DeflaterOutputStream utiliza un buffer propio donde guarda los bytes resultantes de la compresión, y sólo los pasa al stream subyacente en algunos casos. Esto es debido al algoritmo de compresión, que se basa en la búsqueda de símbolos y secuencias repetidas.

Sólo una llamada a los métodos close() o finish() nos garantiza que el stream subyacente ha recibido la totalidad de los bytes. Pero al hacerlo, cerramos el stream a nuevos datos. El método finish() es exclusivo de DeflaterOutputStream y fuerza la compresión, escribiendo en el stream subyacente. Una vez hecho esto, cualquier nueva llamada a write() lanzará una excepción. El método close(), llama al propio finish() y al close() del stream subyacente.

Supongo que algunos pensaréis: «Bueno, no pasa nada. Después de todo, al terminar de usar un stream, hay que cerrarlo». Sí, pero este comportamiento no cumple el principio de sustitución de Liskov. Esto puede causar problemas (y de hecho los causa, como veremos en el siguiente post) cuando pasamos nuestro objeto GZIPOutputStream a una librería o a un framework, y no tenemos control de lo que se hace con él.

Un síntoma de este problema es encontrarnos con la desagradable sorpresa de que tras llamar varias veces a los métodos write(), al stream subyacente sólo llegan los 10 bytes de la cabecera gzip, por mucho flush() que hagamos. Si esto ocurre, tened la seguridad de que nadie está haciendo un close() del objeto GZIPOutputStream.

Es un dato del problema

2013-02-20T14:52:00.000+01:00

He decidido empezar este blog con una pequeña anécdota, ya que muchas de las soluciones que veáis por aquí, lo que hacen en realidad es sortear un problema de diseño en el software, o forzar una herramienta para que pueda ser utilizada en un caso de uso nada recomendable. O puede que cosas peores, que os hagan llevar las manos a la cabeza y decir «es que aquí hay un problema de base; habría que rehacerlo todo». Bueno, bienvenidos al mundo real. En ocasiones tenemos que tratar con código heredado que nadie quiere tirar, con imposiciones técnicas por decisiones no técnicas, o simplemente con una fecha tan ajustada que sólo da tiempo a parchear algo de mala manera. Es lo que yo llamo «un dato del problema».

En realidad, el término no es creación mía sino que viene del jefe de proyecto que tuve en mi primer trabajo. Corría el año 1998, y debíamos realizar varias aplicaciones web para un nuevo operador de telefonía. A saber, una intranet para su personal, una extranet para sus distribuidores, y la web corporativa. Las aplicaciones debían correr sobre Java, pero además había una condición por parte del cliente, que nos resultó extraña: El desarrollo debía realizarse con una herramienta llamada NetDynamics, recién adquirida por Sun Microsystems. Cuando preguntamos por qué, teniendo en cuenta la filosofía de Java «write once, run anywhere», y que debería dar igual qué IDE o plataforma usáramos, nuestro jefe de proyecto nos dijo «porque es un dato del problema». Ante nuestras caras de interrogación, nos hizo recordar cómo eran los problemas de matemáticas o física que nos ponían en el colegio. A veces, había partes del enunciado que no sabías muy bien para qué te servían, pero que tenías que meterlas como sea, porque eran un dato del problema. Y si no las usabas, seguro que el profesor te lo calificaba como incorrecto. Esto era lo mismo.

Nuestra experiencia no fue agradable. Pese a que el planteamiento era bueno (no existían en aquel entonces las JSPs, y con esta plataforma podíamos escribir páginas HTML con etiquetas especiales que renderizaban el valor de parámetros de la request o la sesión), la herramienta estaba inmadura, y encontramos algún bug grave. Como además éramos unos novatos imberbes, tardábamos muchísimo en identificar los bugs de NetDynamics como tales, pensando que era culpa nuestra por no saber usar la herramienta. El desarrollo se retrasó una barbaridad, trabajamos día y noche, se crisparon los ánimos... En fin, supongo que algunos habréis pasado por situaciones similares.

A lo largo de mi carrera profesional, me he encontrado con situaciones parecidas (aunque nunca con desenlaces tan desastrosos). Decisiones inamovibles que condicionan el desarrollo del proyecto, sin posibilidad de valorar otras opciones. Lo que desde entonces he llamado, «un dato del problema».