Dudas Simulacro RURALIZA

Temas relacionados con supuesto práctico y defensa
Responder
amodeo
Usuario registrado
Mensajes: 64
Registrado: Mar Jul 31, 2018 1:02 pm

Dudas Simulacro RURALIZA

Mensaje por amodeo » Mar Sep 10, 2019 9:45 am

Hola!

Me gustaría comentar algunas dudas que me han surgido a raíz del interesante caso que se comentó en la sesión del sábado pasado, por si alguien puede poner algo de luz :)

1 - Se mencionó el tema del "edge computing", planteando que podía realizarse algún tipo de tratamiento en local y luego subirlo a la nube, para que fuera más rápido, ahorrar recursos, etc; pero entonces:

a) ¿Qué tipo de tarea podría realizarse en local? Entiendo que si nos hemos ido a la nube para aprovechar las virtudes de AWS en IA, machine learning y demás, lo que hagamos en local deben ser tareas menos exigentes... ¿limpieza por ejemplo?
b) ¿Cómo podríamos representar este planteamiento a nivel de arquitectura física? Entiendo que sería una especie de arquitectura mixta CPD-Nube pero, ¿sería necesario detallar algo a nivel de red en las máquinas alquiladas en la nube? Si no hiciéramos el procesamiento local que comento en la pregunta anterior, ¿podríamos ir a una solución completa en la nube?

2 - En cuanto al tratamiento de datos. Aunque no se trate con datos especialmente protegidos, sí que se va a hacer un perfilado; por tanto, ¿habría que realizar una EIPD? No tengo claro si es condición necesaria que se tomen decisiones jurídicas en base al perfilado, o si hay que hacerlo en todo caso.
Por otro lado, a raíz de un comentario en torno a esto se dijo algo de anonimizar los datos, ¿la anonimización previa, si se va a hacer un perfilado, exime de la obligación de hacer una EIPD?


Gracias y perdón por el tocho :D :D

esclavo
Usuario registrado
Mensajes: 24
Registrado: Lun Feb 27, 2017 5:41 pm

Re: Dudas Simulacro RURALIZA

Mensaje por esclavo » Mar Sep 10, 2019 10:26 am

Mi opinion sobre la pregunta 2 es que sí que habría que realizar un EIPD ya que:
- El tratamiento de datos que implica perfilado/valoración de sujetos
- Se realizan tratamientos que implican decisiones automatizadas, ofreciendo unas ofertas a usuarios determinados
- Hay una geolocalización del usuario, según se indica en el enunciado "Esta información podrá obtenerse implícitamente si el usuario tiene activada la localización en su dispositivo"

Tampoco se hasta que punto se puede realizar una anonimización de los datos. Lo que se pretende es realizar un perfilado de los mismos y una oferta individualizada

amodeo
Usuario registrado
Mensajes: 64
Registrado: Mar Jul 31, 2018 1:02 pm

Re: Dudas Simulacro RURALIZA

Mensaje por amodeo » Mié Sep 11, 2019 7:40 am

Hola

@esclavo, gracias por responder. Con respecto a lo que comentas, yo también creo que el hecho de tratar con la localización hace necesaria la EIPD. Mi duda es si ese punto no se mencionara, y se tratara sólo de los perfiles, más que nada por la coletilla de los efectos jurídicos. En cualquier caso quizás sea mejor pasarse por exceso que por defecto.

Saludos

Avatar de Usuario
palindromo
Usuario registrado
Mensajes: 346
Registrado: Sab Abr 21, 2018 2:05 pm
Ubicación: Madrid

Re: Dudas Simulacro RURALIZA

Mensaje por palindromo » Mié Sep 11, 2019 11:45 am

A mi también la palabra "perfilado" que se menciona un par de veces me ha hecho saltar algunas alarmas. Yo hubiese hablado acerca de la conveniencia de realizar una evaluación de impacto.
Un saludo, y suerte

Avatar de Usuario
georgesperec
PreparaTIC XXIII
Mensajes: 65
Registrado: Jue Oct 06, 2011 4:01 pm

Re: Dudas Simulacro RURALIZA

Mensaje por georgesperec » Mié Sep 11, 2019 5:54 pm

Hola:

Nos han dado el chivatazo de que estabais preguntando, así que respondo a las dudas de amodeo:

1)

Efectivamente, la idea cuando hablábamos del "edge computing" era abordar ahí exclusivamente temas de consolidación, limpieza y preprocesamiento de datos. Esta es solo una de las opciones, porque otra (y quizás más sencilla y recomendable para el examen para no meteros en líos) sería consolidar todo directamente en la nube.

En el supuesto que nos ocupa habría que ver, sobre todo, la manera de consolidar los datos procedentes de Turespaña, que sería la única fuente de información no pública o no adquirida desde el propio sistema con la que se trabaja. Dependiendo de las condiciones del convenio que se firmara, se realizaría un tipo u otro de consolidación de datos (en local o en la nube, de todos los datos o solo los necesarios, etc). En cualquier caso, a efectos prácticos podemos tratarlo como si fuera información propia que está en nuestro CPD. Suponemos que aquí hay mucha información de cada sitio, lugar, etc, y que es probable que solo una pequeña parte de esa información sea necesaria para el proyecto, y que además necesita un preprocesamiento que adapte los datos a los formatos y formulaciones que necesite el proyecto. En ese caso, en lugar de subir todo directamente a la nube y hacer ahí las tareas de preprocesamiento y limpieza, podemos hacerlo en un servidor de nuestro CPD (el "edge") y subir después aquello que necesitemos ya limpio. Esto está relacionado con otro detalle que comentaba Cristina, y es el peligro de hacer todas estas tareas (sobre todo en la fase de modelado y carga inicial) contra una base de datos en producción. En nuestro servidor "edge" podemos tener nuestra réplica de la BBDD y hacer ahí todo lo que necesitemos. Para el resto de datos, como son públicos, parece que tiene menos sentido preprocesarlos en local, y podría ser más lógico tratarlos directamente en la nube, pero habría que evaluarlo y ver qué es lo más adecuado en términos de coste-beneficio.

En realidad, y al margen del ejercicio RURALIZA, el caso más claro de "edge computing", y para lo que más se suele usar, es cuando están implicados medios como imágenes o vídeos que es necesario procesar y analizar pero no almacenar (por eso comentábamos lo del IoT). En ese caso, parece bastante descabellado subir todo y hacer el procesamiento en la nube (imaginaos procesar cientos de miles de vídeos en servidor...), sobre todo si existen dispositivos capaces de procesar ellos mismos y luego subir solo la información útil resultante de ese análisis.

En cuanto a la arquitectura física, efectivamente, en el caso que comentábamos se trataría de una arquitectura mixta CPD-nube. De todas formas, tampoco es muy distinta del caso "subimos todo a la nube" que, como decía antes, se puede hacer perfectamente, ya que en algún momento tendremos que subir a la nube la información que tenemos internamente (la de Turespaña en este caso). En ambos casos necesitamos un punto de conexión, que puede ser a través de internet directamente, por una VPN o incluso con una conexión directa CPD-nube. Los proveedores suelen dar todas estas opciones. En este caso, si nos preocupa la protección de los datos, podemos tirar por la VPN, ya que tampoco parece que haya tal cantidad de datos como para necesitar una línea directa, que sería mucho más cara.

2)

En este tema no somos expertos y, de hecho, seguro que muchos sabéis más que nosotros, porque en nuestros proyectos del MAPA todavía no nos hemos enfrentado a datos personales y seguro que os habéis estudiado más a fondo el RGPD ;-). En cualquier caso, sí parece razonable hacer una EIPD, como comentan los compañeros, o al menos estudiar esa necesidad (incluso, si queremos asegurar y tenemos dudas, podemos decir que se hace una consulta a la AEPD).

En cuanto a la anonimización que comentamos en la sesión, y que venía a propósito de una pregunta, me refería a que se puede hacer a la hora de generar los perfiles, computar analogías entre usuarios, etc. Esos perfiles se utilizan, en la solución propuesta, en lo que llamábamos "día 1", ya que no tienes tanta información de tantos usuarios como para hacer una recomendación individualizada, entonces tiras de su parecido a perfiles más genéricos. Para crear esos perfiles no necesitas saber quién es la persona a la que corresponden las preferencias. Solo necesitas esos perfiles después, para ver las distancias del usuario que solicita la recomendación. Esa tareas de perfilado y algunas otras pueden operarse sobre datos anonimizados o disociados. Sin embargo, en el momento de la recomendación al usuario final (y antes, en la recogida de la información) sí hay que relacionar una identidad concreta con una serie de preferencias, aunque sea para asignarle un código que luego nos permita identificar su conjunto de preferencias y características. Habría que analizar a fondo cada proceso involucrado y cada cosa que se almacena y trata (por ejemplo, las valoraciones individuales, o los vecindarios, se pueden guardar asociados a códigos anónimos, pero en otro lugar habrá que tener esta correspondencia de código con identidad real), así que por eso tampoco lo pusimos como pregunta en el enunciado. Ya era pasarse. Pero está bien hacer el ejercicio de pensarlo :)

amodeo
Usuario registrado
Mensajes: 64
Registrado: Mar Jul 31, 2018 1:02 pm

Re: Dudas Simulacro RURALIZA

Mensaje por amodeo » Mié Sep 11, 2019 6:52 pm

Aclarado, muchas gracias a todos, y en especial a georgesperec por tu más que detallada respuesta :D :D

Y suerte! :mrgreen:

Responder

Volver a “TERCER EXAMEN 2018”

¿Quién está conectado?

Usuarios navegando por este Foro: No hay usuarios registrados visitando el Foro y 1 invitado