viernes, 6 de mayo de 2011

Internet 3.0 o la web semántica: esa patraña

Los blogs son parte del Internet 2.0. La democratización de la red: Wikipedia, Facebook, Twitter, Tuenti, Menéame... Vale ¿y luego? Pues después del 2 viene el.... Internet 3.0. ¿Y qué es eso? Dicen que la web semántica. ¿Semántica? Semántica = ciencia de los significados. El Internet de los significados. Si tú oyes "la pasma puso en chirona a los cacos" puedes entender que 'la policía metió en la cárcel a los ladrones'. Vemos la relación de significado entre pasma y policía, etcétera. Imaginaos que pusieseis en Google: serie buena de policías y te diese un link directamente a la página web de The Wire en Series Yonkis, aunque las palabras serie buena de policías no aparezca en esa página. Que tu ordenador y Google sepan buscar esa información de manera inteligente.

¿Y cómo sabría hacer eso un ordenador? Pues sabiendo que "subir los capítulos que faltan,  cabrones", "qué pasada de serie", "me la habían recomendado y está bastante bien aunque tampoco es para tanto", "joer, qué pena que se haya terminado" son mensajes positivos que tienen que ver con el significado 'de calidad'. Lo cual es obvio para cualquier hablante de español. Pero hoy por hoy, una máquina es absolutamente incapaz de entender eso. Humano 1, máquina 0.

No solo las maquinas: la lingüística es incapaz de saber exactamente la relación entre caco, placa y policía. La semántica es la ciencia pasillo entre la informática, la filosofía, la psicología y la lingüística. Bonita orgía científica entre etnias académicas que están plenamente acostumbradas a no hablarse entre ellas sin compartir términos técnicos. No sólo eso, por lo menos dos de ellas se expresan en un docto hermetismo que repulsa a cualquiera que quiera entender.

Uno que se expresa más claramente es el editor de manuales de ortografía: Salvador Gutierrez Ordóñez (en la fotografía). Para que os hagáis una idea de a qué nivel está la semántica, nuestro amigo publicó un artículo revolucionario llamado "Sí hay sinónimos". Y es que en realidad la semántica todavía está en ese tipo de discusión: si existen los sinónimos o no. Discuten si la semántica puede trabajar con el signo = o si no pueden. Humano 2, semantista 0.

Con ese estado de la cuestión, creer que se puede hacer un análisis semántico de la Red de redes (Texto de textos) es como creer que los alquimistas del siglo XV podrían lanzar un cohete a Luna, que alunizase y hacer que los alquimionautas volviesen a la Tierra sanos y salvos con sus esposas e hijos. Es sintomático el hecho de que la Academia haya puesto a uno de los más reputados semantistas españoles al cuidado de la nueva ortografía. La semántica cristaliza en ortografía best-seller: apaguemos y vayámonos.

La informática lleva más de 10 años hablando de la web semántica. Y hasta hoy: nada. Pero nada de nada. Las ontologías (creer que nuestra mente puede organizarse de manera jerárquica, como organizamos las razas de los animales) no han dado un triste fruto. Y es que la mayoría de los informáticos que trabajan en semántica la desligan de la lingüística y hacen sus truquitos de metainformación, probabilidad, estadística y SEO, sin tomarse muy en serio grandes problemas de la lingüística: la polisemia-homonimia, la sinonimia, el registro de uso, las colocaciones, la fraseología...

Las bases de la web 3.0 sobre las que se desarrolló el RDF (desarrollado por el W3C) son erróneas. Su idea es que hay que crear una especie de metalengua unívoca y universal con la que etiquetar todo: una suerte de esperanto 3.0. Este recurso permitiría que el que crea una página web pueda etiquetar semánticamente su web (mediante metainformación) y que esa información pueda ser entendida por una máquina. Suelen poner ejemplos como que cuando nosotros hablemos de un libro escribamos en esa metalengua "Cien años de soledad es un libro y fue escrito por Gabriel García Márquez, que es un autor". Dos entidades, libro y autor, con dos referentes, Cien años de soledad y García Márquez, y una relación entre ambos: escribió. Limpio ejemplo que podría hacer, por ejemplo, una biblioteca. Aunque a una biblioteca no le serviría de nada porque ya tienen un catálogo para eso mismo...

Vayamos a algo más práctico: ¿cómo etiquetamos de qué va este post según una ontología? Imaginemos por un segundo que el RDF es perfecto y el lenguaje semántico para etiquetar también, e imaginemos que lo usamos todos en todos los textos: ¿quién asegura que yo, como creador de este blog, voy a saber usarlo correctamente? ¿Cuántos creadores de blogs (al margen de los informáticos) sabrían usar bien ese código semántico? ¿Cuántos datos erróneos o nulos crearíamos? ¿En cuántos resultados erróneos tendríamos que ver? Y si una persona hace la mejor web del mundo con la mejor información sobre un tema y no lo etiqueta semánticamente ¿los buscadores inteligentes no la encontrarían? ¿Inteligente?

Veremos si en el Molino de Ideas vamos desarrollando la manera de dar respuesta a estos problemas aunque con unas bases diferentes. Porque actualmente ni la semántica lingüística ni la informática dan respuestas a cómo llegar a la web semántica. Y es que Internet 3.0 es el bluf 3.0.

No hay comentarios:

LinkWithin

Related Posts with Thumbnails