Blog

Base de datos y scraping web

security-3742114_1280 (002)

El scraping web es un modelo de negocio nacido al amparo de internet basados en el uso de un programa informático que extrae datos de un sitio web para mostrarlos en otro diferente, y que permite al consumidor final comparar y elegir entre diferentes ofertas que se realizan en distintas webs.

Esta técnica de screen scraping permite localizar y seleccionar datos o información en la web mediante la transferencia o reutilización de información ajena cuyos titulares pueden percibir esta actividad como lesiva para sus intereses.

La legalidad de esta práctica es una cuestión compleja ya que depende de varios factores como es la forma de funcionamiento, la consideración o no de su originalidad, si existe o no una inversión sustancial evaluada cualitativa o cuantitativamente ya sea por medios financieros, empleo de tiempo o esfuerzo.

¿Cómo puede protegerse una base de datos?

El art. 12.2 de Ley de Propiedad Intelectual ofrece protección ya sea una base de datos original o una base de datos sui generis.

“(…) se consideran bases de datos las colecciones de obras, de datos, o de otros elementos independientes dispuestos de manera sistemática o metódica y accesibles individualmente por medios electrónicos o de otra forma. “

Pero ¿Cómo podemos calificar a una base de datos como original? Dependerá del criterio empleado para la selección o disposición de sus contenidos. Se protege la estructura de la base de datos pero no su contenido.

Sin embargo, para gozar de protección no necesariamente la base de datos tiene que ser original, sino que igualmente puede ver verse protegida por el derecho sui generis. Es decir, cuando, aun careciendo de originalidad por cuanto el criterio de selección o disposición de contenido empleado puede realizarlo cualquiera, puede tener un valor desde el punto de vista económico como del esfuerzo invertido en su creación, y es por ello por lo que la ley lo ampara como derecho afín como base de datos sui generis, aunque tenga una protección inferior a la original.

El derecho sui generis sobre la base de datos.

El articulo 133 LPI comienza señalando que:

“El derecho «sui generis» sobre una base de datos protege la inversión sustancial, evaluada cualitativa o cuantitativamente, que realiza su fabricante ya sea de medios financieros, empleo de tiempo, esfuerzo, energía u otros de similar naturaleza, para la obtención, verificación o presentación de su contenido”

Por lo tanto, no se protege cualquier base de datos no original, sino solo aquellas que suponen un esfuerzo o inversión de creación importante, ya sea por la cantidad de información o por el valor de la misma.

El derecho sobre la base de datos nacerá en el momento que finalice el proceso de fabricación y expirarán 15 años sin perjuicio de las posteriores actualizaciones que se realicen.

El titular de la base de datos no tiene que ser necesariamente la persona que carga los datos, sino el fabricante de la misma definido en el art. 133.3 LPI como aquella persona quien toma la iniciativa  y asume el riesgo de efectuar las inversiones sustanciales orientadas a la obtención, verificación o presentación de su contenido. Por lo tanto, la mera financiación de una base de datos, ideada o realizada por un tercero, sin una participación directa en el proceso de elaboración por parte del financiador no determina por si sola la autoría.

Así pues, el fabricante de una base de datos sui generis puede prohibir la extracción y/o reutilización de la totalidad o de una parte sustancial del contenido de esta, siempre que la obtención, la verificación o la presentación de dicho contenido represente una inversión sustancial.

Por consiguiente, la protección de los derechos sobre una base de datos sui generis impide tanto el plagio como la utilización no consentida, quedando protegidos tanto los derechos morales como patrimoniales.

Sin embargo, el fabricante queda impedido para prohibir que un usuario no pueda extraer y/o reutilizar partes no sustanciales de su contenido con independencia del fin siempre que no efectúe actos que sean contrarios a una explotación normal de dicha base, ni que sus actos lesione injustificadamente los intereses del fabricante de la base o perjudiquen a su titular.

Por otro lado, el usuario sí podrá utilizar partes sustanciales sin autorización del fabricante cuando se trate de una extracción para fines privados de una base de datos no electrónica, con fines de enseñanza o investigación científica siempre indicando la fuente, y para fines de seguridad pública o a efectos de un procedimiento administrativo o judicial.

Ahora bien ¿es lícita la actividad del screen scarping?

Si nos remitimos a las Sentencias del Tribunal Supremo vemos cómo se han pronunciado sobre la licitud de esta técnica en casos concretos, como los planteados entre la compañía área Ryanair y varios compradores online de billetes de avión como Atrápalo o Lastminute.

Se puede concluir que, en estos casos, el Tribunal Supremo negó que hubiera vulneración de los derechos de propiedad intelectual sobre la base de datos de Ryanair al no contar con los requisitos exigidos necesarios ni por ser original, ni tratarse de una base de datos sui generis: 

“Es necesario un mínimo de originalidad que no concurre en el catálogo ordenado de vuelos incluido en la página web de Ryanair”.

Tanto el Juzgado de lo Mercantil núm. 2 de Barcelona, como la Audiencia Provincial de Barcelona entendieron que:

“Ryanair no había efectuado una inversión más que en la generación de sus propios datos (vuelos, destinos, horarios, precios, etc.) y en el tratamiento informático necesario para garantizar la fiabilidad del sistema y su accesibilidad.”

El TJUE afirma que para que tenga protección sui generis: “(…) es preciso que se cumplan los requisitos exigidos para la tutela sui generis y que, como se ha dicho, consisten en la existencia de una inversión sustancial, no en la elaboración o creación de los datos, sino en su obtención, su verificación o su presentación”

Por lo tanto, excluida la condición de base de datos protegible por el derecho sui generis, el Tribunal Supremo no considera procedente examinar si ha habido extracción o reutilización de una parte sustancial de la web de Ryanair.

No obstante, el Juzgado de lo Mercantil núm. 2 de Barcelona entendió que, aunque la web de Ryanair fuera protegible por la vía del derecho sui generis, la agencia de viajes online no habría practicado una extracción o reutilización de una parte sustancial de su contenido porque «uno o varios datos concretos entre los miles que pueden integrar la base de la demandante, no constituye una parte sustancial ni cuantitativa ni cualitativamente » y porque tampoco se estima que ello implique una «extracción repetida o sistemática» de una parte no sustancial.

La Sentencia del Tribunal Supremo de fecha 9 octubre del 2012 aclara que la inversión debe referirse a la recopilación y presentación de datos, y no a la creación de un software que permita generar la información sobre la base de unos parámetros.

“La inversión realizada por la demandante tiene por objeto la creación de un software que permite generar la información sobre la base de unos parámetros, esto es, la inversión se refiere a la generación de la información, pero no a su recopilación y presentación pues en realidad el dato que se solicita y se suministra no preexiste como tal en la supuesta base de datos»”

En efecto, la finalidad de la protección que confiere el derecho sui generis que establece la Directiva es fomentar la implantación de sistemas de almacenamiento y tratamiento de información ya existente, y no la creación de datos que puedan ser recopilados ulteriormente en una base de datos. Por lo tanto, será protegible como base de datos si recoge sólo datos existentes, y no nuevos porque, en ese caso, no habrá ningún derecho que impida el web scraping.

“Propiamente no existe base de datos en este caso, sino un programa de ordenador que permite obtener la información solicitada, al generarla sobre la base de los parámetros previamente introducidos”

El Tribunal Supremo, por lo tanto, concluye que no dándose el requisito de originalidad ni quedar probada la inversión sustancial, no entra en su consecuencia a valorar la existencia de «extracción» o «reutilización» de una parte sustancial cuantitativa o cualitativa de la inexistente base de datos.

Otros motivos para oponerse a la práctica de screen scraping.

No obstante, existen otras alegaciones en los que los titulares como Ryanair basan sus reclamaciones al margen de si la base de datos está protegida por la propiedad intelectual.

Uno de ellas está fundada en base a la infracción contractual por incumplimiento de las condiciones generales del uso de la página web de la compañía (que impedía el uso de scraping).

Para el Tribunal Supremo, la simple navegación por su web no perfecciona ningún contrato respecto de quienes no aceptan esas condiciones y se limitan a facilitar a los consumidores finales el acceso a ciertos contenidos. Rechaza, pues, la existencia de un contrato de browse-wrap entre la aerolínea y los compradores.

“La demandada no ha prestado su consentimiento a las condiciones de navegación en la web de la demandante, que prohibían a los usuarios «el uso de cualquier sistema automatizado o software para extraer datos de este sitio web para mostrarlos en otros sitios web».

No obstante, el TJUE en Sentencia de 15 de enero del 20215, ha declarado que la normativa de UE no se opone a que los titulares de base de datos no protegidas por propiedad intelectual pueda establecer prohibiciones de reutilización por terceros, sin perjuicio de lo que establezca el derecho nacional.

Otro de los argumentos esgrimidos por los titulares para fundamentar la infracción de scraping se basa en la existencia de competencia desleal por aprovechamiento indebido del esfuerzo ajeno y actos de imitación.

En  el caso de Ryanair, la demandante sostenía que hubo extracción sistemática y puesta a disposición de los contenidos de la web de RYANAIR mediante la técnica del «screen scrapinq» y cobro de «sobreprecio» por lo que es un auténtico acto desleal de aprovechamiento indebido del esfuerzo competitivo de la recurrente por ofrecer billetes a los precios más económicos del mercado sin intermediarios que sobrecarguen el precio de forma engañosa y sin autorización «a cambio de nada», montando un negocio paralelo y parasitario incurriendo en tergiversaciones y engaños varios que en nada contribuye a fomentar la eficiencia o la competencia económica.

Sin embargo, el Tribunal también lo desestima por entender que la actividad de la demandada estaba justiciada como en cualquier otro negocio de intermediación, y partiendo de que «no existe base de datos ni, en consecuencia, “extracción” de la misma y de que quien contrata e incorpora a otros soportes los datos generados por Ryanair es el cliente de la agencia de viajes demandada y no ésta».

La Sentencia de 20 de junio del 2007 del Juzgado de lo Mercantil de Madrid sobre acusación de web scraping Top Rural, entendió que tampoco concurría ningún acto de aprovechamiento del esfuerzo ajeno, ya que no quedó acreditado que la demandada copiara los contenidos de la demandante, salvo en relación a la información de dos casas rurales, lo que desde el punto de vista concurrencial, dada la cantidad de casas publicitados en ambas páginas no tenía relevancia para considerarlo acto de competencia desleal.

También el Tribunal desestima que la actividad de scraping de este tipo de paginas web impliquen un acto de imitación en cuanto no produce riesgo de asociación por parte de los consumidores entre la empresa demandante y la demandada.

La imitación de las prestaciones ajenas es libre, siempre y cuando no estén amparadas por un derecho de exclusiva reconocido por la Ley, algo que en el caso que nos ocupa no se da.

Así pues, atendiendo a las directrices en las que se fundamenta la jurisprudencia, habremos de valorar ciertos aspectos para proteger la base de datos y por ende, evitar la actividad de web scraping.

Por un lado, habrá que determinar si la base de datos es original, es decir, que no obedezca a exigencias técnicas; o en caso de no serlo, se haya realizado una inversión sustancial que le confiera el carácter sui generis amparado en el art. 133 LPI porque, en ambos casos, podremos entrar sobre el fondo del asunto como es la existencia o no de extracción o reutilización de una parte sustancial de la web del titular.

Por otro, con independencia de la protección como propiedad intelectual, habría que analizar si vulnera las condiciones de uso de la página web en cuyo caso, según reiterada jurisprudencia, parece que no implica ningún incumplimiento contractual. Sin embargo, este pronunciamiento del Tribunal Supremo no es unánime pues se contradice con las Sentencias del Tribunal de Justicia de las Comunidades Europeas que disponen que las condiciones de uso de la web de Ryanair que se publican y la navegación por las agencias de viajes por la web constituyen un contrato sin necesidad de aceptación a través del mecanismo brose wrapping. Por lo tanto, los titulares de base de datos no protegidas por propiedad intelectual pueden establecer prohibiciones de reutilización por terceros, sin perjuicio de lo que establezca el derecho nacional.

Y por último, a efectos de que la actividad scraping pueda considerarse actos de competencia desleal por imitación y por aprovechamiento indebido del esfuerzo ajeno, habrá que analizar si  produce riesgo de asociación a los consumidores la actividad de una empresa y de otra, y si realmente existe un grave perjuicio económico o una desventaja competitiva a la parte que invirtió el esfuerzo.

Pero qué dice el nuevo Reglamento de la UE sobre la Inteligencia Artificial sobre la actividad de scraping. ¿Está prohibido?

El Reglamento de IA de la UE, en su artículo 5.1 e), no prohíbe de forma general la práctica del “scraping”, sino que se centra en vetar usos específicos que se consideren de “riesgo inaceptable” para los derechos fundamentales y la privacidad. En concreto, este artículo establece que queda prohibida la comercialización, puesta en servicio o utilización de sistemas de IA que, mediante técnicas como el web scraping no autorizado, creen o amplíen bases de datos de reconocimiento facial. Es decir, si se extraen imágenes faciales de Internet (o de grabaciones de CCTV) sin la debida autorización con el objetivo de formar una base de datos para reconocimiento facial, esa práctica está expresamente vedada por el reglamento.

“e).- la comercialización, la puesta en servicio con este fin específico o el uso de sistemas de IA que creen o amplíen bases de datos de reconocimiento facial mediante la extracción no selectiva de imágenes faciales de Internet o de grabaciones de CCTV.”

Es importante precisar que la prohibición se dirige al uso de esta técnica para fines de reconocimiento facial y protección de la privacidad, y no a todas las actividades de scraping per se, que podrían tener otros fines y estar sujetas a diferentes normativas.

Así pues, el scraping en general:

  • no está prohibido siempre que no se enfoque en individuos o grupos específicos.
  • Sí está prohibido si el scraping  está dirigido para reconocimiento facial.

Debemos tener en cuenta que esta regulación del Reglamento IA se centra en la identificación biométrica a gran escala, no en la extracción de datos de bases protegidas por la propiedad intelectual.

Deja un comentario