jueves, 19 de septiembre de 2013

El porque de escribir este blog


Desde pequeño me ha gustado la ciencia ficción, especialmente el género cyberpunk, sin embargo a medida que me hacia mayor veía que el futuro no apuntaba a parecerse a las descripciones de las novelas de los 80 con megalópolis contaminadas, húmedas, deshumanizadas y violentas en las que podías perder la vida por no tener créditos suficientes para implantarte un láser en la cara y cuchillas bajo las uñas. Tampoco veía la necesidad de morir a los 30 o alimentarnos de soylent green. Hasta que descubrí el postcyberpunk.....

Este subgénero tiende a tratar con personajes más involucrados en su sociedad, que actúan para defender un orden social establecido o para crear una sociedad mejor. En el postcyberpunk, "la tecnología es sociedad". Se da una descripción más realista de los ordenadores, por ejemplo reemplazando la realidad virtual por algún tipo de red basada en Internet con sistemas de voz y vídeo avanzado. También se deja de dar énfasis a los implantes metálicos en favor de la biotecnología. Incluso se plantea el derecho a la vida de las inteligencias artificiales y copias de conciencias de seres vivos almacenadas en la red. Ejemplos de ello los podemos encontrar en Lain, Ghost in the Shell, Caprica, La era del diamante, Snow Crash y Ciudad permutación (la novela de Greg Egan que me toco la fibra)


Yo siempre he defendido que nuestro futuro, además de altamente tecnológico, en esencia va a seguir siendo como siempre. Hoy en día no es raro ver a gente con ordenadores de bolsillo (smartphones). No necesitamos cascos de realidad virtual ni anfetaminas para 'engancharse' a la red. Se tontea con biotecnología, biofármacos, cultivos modificados genéticamente (y no nos han salido 3 brazos). Podemos relacionarnos con personas de otras sociedades e idiomas de una manera bastante eficiente. El coche eléctrico no levitará en autopistas a 3 kilómetros de altura (y si lo hace es que se puede)...


Hace no mucho leí a cerca de Raymond Kurzweil y su visión del transhumanismo. Raymond Kurzweil es un inventor estadounidense, además de músico, empresario, escritor, científico especializado en Ciencias de la Computación e Inteligencia Artificial y desde 2012 director de ingeniería en Google. Es experto en sistemas y de Inteligencia Artificial y eminente futurista. También es presidente de la empresa informática Kurzweil Technologies, que se dedica a elaborar dispositivos electrónicos de conversación máquina-humano y aplicaciones para discapacitados. Además es canciller e impulsor de la Universidad de la Singularidad de Silicon Valley.

Un resumen muy resumido de su pensamiento es que la tecnología está cambiando tanto nuestra forma de relacionarnos con nuestro entorno y nuestros semejantes que en un futuro próximo, para 2050, la línea entre humanos y máquinas se difuminará como parte de la evolución tecnológica. Los implantes cibernéticos mejorarán en gran medida y dotarán al hombre de nuevas habilidades físicas y cognitiva. Le permitirán interactuar directamente con las máquinas, haciendo posible ampliar radicalmente la esperanza de vida y la calidad de la misma.

Para profundizar más en este tema os recomiendo consultar las entradas en wikipedia del Pensamiento sobre futurismo y transhumanismo y su libro La era de las máquinas espirituales.


A cualquier persona sensata y de bien a la que vayas y le sueltes un...

"En 2025 los humanos empezarán a tener profundas relaciones con personalidades automáticas, que tendrán algunas ventajas sobre los compañeros humanos convenciendo a algunas personas de que deberían dárseles más derechos"

"En 2040 la mayor parte de la comunicación ocurrirá entre humanos y máquinas en lugar de entre humanos. Las inteligencias artificiales reivindicarán ser conscientes y pedirán abiertamente el reconocimiento de ese hecho. La mayoría de las personas admitirán y aceptarán esta nueva realidad"

...te dará con el garrote y se reirá de ti mientras intentas levantarte del suelo...


Por este motivo (y para mantener mi integridad física tras el anonimato, JA) he pensado en crear este blog en el que periódicamente voy a ir colgando noticias que apunten claramente a que las predicciones de Raymond Kurzweil van a buen ritmo y llegarán a hacerse realidad sin tratarse de magia o brujería.

Hasta ahora, en mis primeras entradas, os he hablado a cerca de avances tecnológicos que ya existe, para traducción real y online, asistencia de voz y comunicaciones NFC con el fin de introduciros las siguientes predicciones:

  • Las personas típicamente tendrán al menos una docena de computadoras sobre y alrededor de sus cuerpos, que estarán conectadas por red local. Estas computadoras proporcionarán facilidades similares a teléfonos móviles, mensáfonos y navegadores, proporcionarán identidad automática (para conducir transacciones comerciales y permitir la entrada en zonas seguras), direcciones de navegación, y otros diversos servicios.
  • La mayor parte del texto se creará mediante software de reconocimiento continuo de la voz (CSR), aunque los teclados se seguirán usando. El CSR será muy preciso, bastante más que los transcriptores usados sólo unos pocos años antes.
  • La tecnología de traducción telefónica (donde hablas en inglés y tus amigos japoneses te oyen en japonés, y viceversa) se usará comúnmente para muchos pares de idiomas. Será una capacidad rutinaria de una computadora personal, que también servirá como teléfono.

Como veis mis intenciones son honestas e intentaré mantener actualizado el blog en la medida de lo posible... y mañana las Oculus Rift!




Fuente:
Wikipedia

miércoles, 18 de septiembre de 2013

Traducción en tiempo real (3ª parte) y final


2009 - 2018:
  • La tecnología de traducción telefónica (donde hablas en inglés y tus amigos japoneses te oyen en japonés, y viceversa) se usará comúnmente para muchos pares de idiomas. Será una capacidad rutinaria de una computadora personal, que también servirá como teléfono.
  • La mayor parte del texto se creará mediante software de reconocimiento continuo de la voz (CSR), aunque los teclados se seguirán usando. El CSR será muy preciso, bastante más que los transcriptores usados sólo unos pocos años antes.
  • Las personas sordas o con problemas de audición llevarán frecuentemente máquinas que traducirán la voz a texto, mostrando una transcripción en tiempo real o una persona animada gesticulando en el lenguaje de signos. Habrán eliminado el principal problema de comunicación asociado con la sordera, y también podrán traducir lo que se está hablando a otro idioma en tiempo real, así que las usarán frecuentemente las personas con audición también.

  • Las personas se comunicarán con sus computadoras por medio de un diálogo bidireccional y gestos en lugar de con teclados. Además, la mayor parte de esta interacción ocurrirá a través de asistentes computarizados con diferentes personalidades que el usuario podrá seleccionar o personalizar. Relacionarse con computadoras será por lo tanto cada vez más parecido a relacionarse con seres humanos.

En la primera parte de Traducción en tiempo real hemos visto lo mucho que ha avanzado el software de traducción de textos, software Text-To-Speech y cómo sacarle provecho en nuestro día a día. También hemos visto lo útil que puede resultar la realidad aumentada en este campo. Ahora vamos a ver que ya existen dispositivos de traducción de voz en tiempo real y que no solo son fáciles de usar sino que además formarán parte de nuestro entorno en los próximos años.

Recientemente saltó la noticia de que Google está probando dispositivos que traducen idiomas hablados en tiempo real, tiene prototipos que funcionan con un 100% de precisión en ambientes controlados. En lugares con demasiado ruido-ambiente el dispositivo tiene problemas para reconocer la voz del interlocutor, aunque se está subsanando con micrófonos de cancelación de ruido, tecnología que está dentro de nuestros teléfonos móviles desde hace 8 años.

Hugo Barra, vicepresidente del área Android en la compañía, declaró que ya están probando dispositivos que funcionan tal y como espera la gente, existiendo prototipos que traducen en tiempo real ciertas combinaciones de idiomas. Durante una presentación preliminar de dicho producto en 2011 pudimos ver su funcionamiento:



Microsoft no se está quedando atrás en este campo ya que también lleva tiempo desarrollando su propia tecnología. El departamento de investigación de Microsoft Asia mostró sus avances en este campo dando una charla, que se tradujo al chino con el mismo tono de voz del interlocutor.

A día de hoy el proyecto SIGMO, financiado a través de crowdsourcing, es capaz de traducir entre 25 idiomas distintos mediante un dispositivo que se conecta por Bluetooth al smartphone y sin requerir conexión a internet.



Además, gracias a las nuevas características del microprocesador Qualcomm Snapdragon 800 (que se está empezando a integrando en dispositivos Android) se puede hacer uso de un sistema de activación por voz de Google Now para controlar el smartphone a través de la voz, sin manos. Este microprocesador tiene la única función de estar atento a esa activación por voz y de hacerlo con un consumo ínfimo. En el siguiente vídeo podemos ver dicha característica:



Si metemos en una coctelera el sistema de traducción en tiempo real que hemos visto en SIGMO, la tecnología Touchless Control del Qualcomm Snapdragon 800 y agitamos enérgicamente durante dos años (jajaja) obtendremos un asistente de traducción de voz en tiempo real realmente útil. Podremos conversar con personas en sus países de origen y a través de internet, foros, skype sin que el idioma suponga una barrera.


Siri, el asistente personal del iOS de Apple (con funciones idénticas a las de Google Now) tampoco se está quedando atrás ya que se acaba de registrar una nueva patente en la Oficina Europea de Patentes en la que se describe un sistema de traducción que estaría integrado en dicho asistente, pudiéndose dictar en voz alta una oración en donde Siri se encargaría de traducirla.




Fuente:
MuyWindows, Engadget, Xataka, Actualidad iPhone

martes, 17 de septiembre de 2013

Traducción en tiempo real (2ª parte)

Debido a la rápida aceptación de smartphones en la sociedad y junto con ellos las aplicaciones, llevamos en el bolsillo miniordenadores con multitud de aplicaciones que nos hacen la vida un poco más fácil. Que si whatsapp, que si shazam, que si skype... pues hoy os voy a hablar de una app de "realidad aumentada" no muy conocida pero que es infinitamente útil en el tema de traducción en tiempo real.


Se llama Word Lens y está tanto para iOS como para Android. Word Lens funciona gracias a un sistema de reconocimiento óptico de caracteres (OCR) y sin necesidad de conectarse a Internet para funcionar. La traducción aparece en la pantalla mientras enfocamos nuestro teléfono; es como si estuviésemos grabando un vídeo de un texto en otro idioma (español, inglés, portugués, alemán, italiano y francés) pero en pantalla aparece traducido a nuestro idioma. En el siguiente vídeo veréis un ejemplo de lo que digo:



Como veis esta tecnología ya está entre nosotros y resulta útil en los viajes, sobre todo cuando tenemos hambre y no entendemos la carta del restaurante, no sabemos cómo pagar en el parquímetro, o compramos un medicamento en una farmacia de otro país y desconocemos la posología por poner tres ejemplos.

Algo parecido ofrece SkyDrive, el servicio de almacenamiento en la nube de Microsoft, pero en este caso da la posibilidad de reconocer los textos de las fotos (y los documentos) que tengamos almacenados en nuestra cuenta.


Cada foto subida pasará un filtro OCR haciendo así más fácil la búsqueda de información. Por ejemplo puedes tomar una foto a un cartel, subirla automáticamente a SkyDrive y más tarde, hacer una búsqueda con alguna información del cartel y poder ver una transcripción completa del texto. Si a esto le sumamos software de traducción del que os hablaba ayer tenemos una herramienta más para los viajes.




Fuente:
Microsoft

lunes, 16 de septiembre de 2013

Traducción en tiempo real (1ª parte)

Hoy os voy a hablar de lo mucho que han avanzado los traductores en tiempo real y como sacarle el máximo rendimiento en el día a día.


Desde hace mucho tiempo utilizo una serie de extensiones de firefox que me permiten comprender textos en idiomas que no conozco (chino, alemán, francés,...) e incluso participar en foros utilizando el idioma nativo de la página. Estas dos extensiones utilizan la API Google Translate que se ha convertido en la, para mi, mejor solución y que ha evolucionado muchísimo en los últimos tiempos y tal vez la gente no lo haya notado debido a los malos resultados que ofrecía en sus primeras versiones con SYSTRAN.

Google en lo que destaca es en desarrollar algoritmos para mostrar resultados de búsqueda y precisamente es eso lo que hace a la hora de traducir fuentes de otros idiomas,
basándose en un enfoque llamado traducción automática estadística (y más específicamente, en la investigación de Franz-Josef Och que ganó el concurso de DARPA en velocidad de traducción automática en 2003) mediante el cual consigue traducir textos de una forma comprensible. Por lo tanto dichos resultados se basan en el análisis estadístico más que en el análisis tradicional basado en reglas.

Para adquirir esta enorme cantidad de datos lingüísticos, Google utiliza los documentos de las Naciones Unidas. El mismo documento está disponible normalmente en los seis idiomas oficiales (árabe, chino, inglés, francés, ruso y español) por lo que Google Translate dispone de 6 cuerpos de idiomas de "traducciones humanas" de 20 mil millones de palabras. La Piedra Rosetta del Siglo XXI

La extensión para firefox gTranslate se encarga de traducir el texto que marcamos con el ratón y es especialmente útil para traducir palabras y frases a nuestro idioma. Subrayamos, click con el botón derecho y nos traduce el texto.

Si la cosa se pone difícil y necesitamos traducir una página completa la solución es pulsar el botón que crea mediante esta otra extensión, gTranslator.

Rara vez ocurre pero si además de traducir un texto necesito que me lo "canten" uso ImTranslator que además me permite escuchar las oraciones en el idioma nativo. Esta extensión utiliza el sistema de conversión de texto Text-to-Speech de Google que está muy logrado, cercano a la voz natural. Aquí tenéis un ejemplo:


 

Desde 1997, año en el que apareció la primera versión del Dragon NaturallySpeaking v1.0 (recuerdo que en aquella época necesitábamos un PC junto con su combo multimedia de CD-ROM + Sound Blaster 16 + micro y altavoces que no bajaba de las 35.000 pesetas) hasta el Text-to-Speech de Google junto con Google Translate hay un abismo que ya está salvado.

La tecnología ya está ahí y ya está implementada en muchas plataformas para que desde ya hagamos uso de ellas... en los años veremos una implementación absoluta en PCs/Tablets y Smartphones de esta tecnología que nos permitirá viajar al extranjero y mantener conversaciones en tiempo real con otras personas, solo hay que depurar más y más líneas de código :)




Link:
Google Translate