Data-scraping ancora ammesso : Bright Data presso la Northern District of California Court riesce a far rigettare pure la domanda di Twitter/X

Kieran McCarthy nel blog di Eric Goldman segnala l’importante sentenza del tribunale North. Dist. of California, X v. Bright Data, 9 maggio 2024,   No. C 23-03698 WHA.

Fatti:

<<Defendant Bright Data Ltd. is a data-scraping company (Amd. Compl. ¶ 6). According
to Bright Data, “[i]ts suite of technologies and services help Fortune 500 companies, academic
institutions, and small businesses retrieve and synthesize vast amounts of public information”
(Br. 3). There are three types of products that Bright Data offers: (1) datasets built from data
that Bright Data scrapes itself, (2) scraping tools that enable their purchasers to scrape data
themselves, and (3) proxy network services that enable their purchasers to scrape data through
proxy servers, using those servers’ IP addresses (Amd. Compl. ¶¶ 50–51, 55–58, 63–64; Br. 4).
In this lawsuit, X Corp. alleges that Bright Data scrapes data from X and sells data
scraped from X, using elaborate technical measures to evade X Corp.’s anti-scraping
technology, while facilitating its customers in and inducing them to scrape data from X —
all in violation of the Terms to which Bright Data and its customers are bound (Amd. Compl.
¶¶ 1–2). How so? X Corp. contends that Bright Data and its customers are bound as X users.
Specifically, X Corp. contends that Bright Data is bound (1) by a “browser-wrap” or “browse-
wrap” contract, having used X Corp. services in the act of scraping data from X, impliedly
agreeing to the Terms in the process; and (2) by a “click-wrap” or “click-through” contract,
having registered an account (@bright_data) to promote Bright Data products, expressly
agreeing to the Terms as early as February 2016 (Amd. Compl. ¶¶ 39–41; see also Amd.
Compl. ¶ 44). Meanwhile, Bright Data customers are conceivably likewise bound by browser-
wrap and click-wrap contracts, having used X Corp. services in the act of scraping data from
X and, in some instances, having registered accounts (see Amd. Compl. ¶¶ 22, 55, 63)>>.

Due gruppi di censure sono azionati: 1) improperly accessed its systems (p. 8 ss)  , e 2) improperly scraped and sold its data, and assisted others in improperly scraping its data , p. 18 ss

Quanto ad 1  e alle quattro azioni ivi inserite, possono interessarci le ultime due (sub C e sub D), relative a “Tortious interference with contract” e alla violazione delle Terms of service di X: queste ultime infatti verosimlmente saranno uguali o simili alle nostre (sarebbe interessante accertarlo).

Quanto a 2, è degna di nota  la specificazione della corte circa la “stranezza” per cui X non pretende l’acquisto del diritto pieno sui dati caricati dagli utenti sulla sua piattaforma, ma solo facoltà di uso: per non perdere i safe harbours. Ma al tempo stesso vuole poterne guidare l’uso.

<<But X Corp. disclaims ownership of X users’ content and does not acquire a
right to exclude others from reproducing, adapting, distributing, and displaying it under the non-exclusive license>>

Poi: <<One might ask why X Corp. does not just acquire ownership of X users’ content or grant itself an exclusive license under the Terms. That would jeopardize X Corp.’s safe harbors from civil liability for publishing third-party content. Under Section 230(c)(1) of the Communications Decency Act, social media companies are generally immune from claims based on the publication of information “provided by another information content provider.”
47 U.S.C. § 230(c)(1). Meanwhile, under Section 512(a) of the Digital Millenium Copyright Act (“DMCA”), social media companies can avoid liability for copyright infringement when they “act only as ‘conduits’ for the transmission of information.” Columbia Pictures Indus., Inc. v. Fung, 710 F.3d 1020, 1041 (9th Cir. 2013); 17 U.S.C. § 512(a). X Corp. wants it both ways: to keep its safe harbors yet exercise a copyright owner’s right to exclude, wresting fees from those who wish to extract and copy X users’ content>>

Però i claims , basati su legge statale, sul divieto di scraping and selling of data inficiano il copyright act federale: quindi la prima legge deve cedere di fronte alla seconda (la corte individua tre modi con cui l’Act federale viene inficiato: qui però non interessanti, attenendo alle peculiarità dell’ordinamento multilivello statunitense ).

La corte ritiene che prevalga la legge federale.

Bright Data aveva in gennaio u.s. ottenuto il rigetto anche della domanda avanzata da Meta nel medesimo ufficio (ma diverso giudice): v. mio post 4 marzo 2024.

V.ne un commento di Jeremy Goldman qui. cjhe posta unb altro link alla sentenza.

Ancora sulla pratica di web (o data)-scraping: legittima l’asportazione dagli account Facebook e Instagram dei dati accessibili a tutti (cioè anche a chi non è loggato)

Significativa decisione del trib. del distretto nord della California con sentenza 23 gennaio 2024, caso n. 23-cv-00077-EMC, Meta v. Bright Data, giudice Chen:  legittima lo scraping (grattamento o raschiatura, più o meno) di dati dagli account del gruppo Meta.

Il succo è che è lecito raccolgiere i dati disposnibili anche senza loggarsi (logged-off public data): non si viola alcujna regola contrattujale dato che non si agisce in veste di contraente di Meta. E Meta non ha provato che fossero stato raccolti.

Anche se Bright Data aveva account Meta, i dati grattati erano solo quelli publicily available:  “c. Bright Data’s logged-out scraping is unrelated to the purpose of its accounts The fact that Bright Data had Facebook and Instagram accounts when it scraped is entirely incidental and unrelated to its scraping. There is no evidence that Bright Data used the accounts or any information from the accounts to facilitate scraping of publicly accessible data. It is not disputed that Bright Data maintained the accounts for an entirely collateral purpose—to engage in its own advertising on Facebook and Instagram—which was unrelated to its scraping of public data. When Bright Data scraped data, it did so without logging in and using its Meta accounts; instead, it was acting in the exact same capacity as any outside non-subscribing visitor trying to overcome Meta’s anti-bot technology. Therefore, even though Bright Data could technically be characterized as a “user” of Facebook and Instagram inasmuch as it maintained accounts on those platforms, there is a strong and compelling argument that Bright Data was not “using” Facebook as contemplated by the Terms when it scraped public data while not logged-in”.

(notizia e link dal blog di Eric Goldman, nel quale ora Kieran McCarthy scrive che Meta ha rinunciato all’appello per motivi sostanzialmente reputazionali

 

Azione di classe contro Google, basata su illecito data scraping per allenare la sua intelligenza artificiale

E’ diffusa in rete la notizia della citazione in giudizio per l’illecito in oggetto del 11 luglio 2023 da parte della Clarkson law firm, reperibile ad es proprio nel sito dello studio)  (“web-scraping theft” per la chatbox BArd, concorrente di OpenAI, ad altro).

Provato Bard con richiesta di consulenza giuridica: fa diversi errori (serve altro allenamento)

Google scansionerebbe e raccoglierebbe qualunque dato passa per i suoi server (irragionevole dubitarne). Pare che non sia molto coperta da consenso contrattuale (nonostante nessuno riesca a farle modificare i moduli di accettazione iniziali)

Sono azionati diritto di privacy,  di proprietà sui dati (non coincidente con la privacy; opinabile, ma dipende da come i due istituti son configurati nei singoli ordinamenti), di copyright, di concorrenza sleale (sub III, da § 153 ss.)

Nuovo capitolo nella lite Brandtotal c. Meta (Facebook) sul data scraping

Avevo dato conto in post 15.06.2021 di una decisione nella saga giudiziaria BrandTotal v. Meta (Facebook).

Ora se ne aggiunge un’altra, per lo più favorevole a M., emessa sempre dal distretto nord della Californa del 06.06.2022 , Case No. 20-cv-07182-JCS, stesso giudice.

Il quesito è se il data scraping (su q. prassi di raccolta dati pubblicitari v. sub II, p. 2) violi la clausola imposta da M.(facebook)  la quale così suona:  “You may not access or collect data from our Products using automated means (without our prior permission) or attempt to access data you do not have permission to access“.

B. tenta di dire che la clausola è nulla perchè in violazione di public policy , p. 18 ss., o percghè unconscionable , p. 31 ss. (è il tema più interessante per noi).

Però gli va male non essendo riuscita a convinvere la corte (p. 31 e risp. 37).-

Ancora sul c.d. data scraping: i dati pubblici dei profili Linkedin possono essere utilizzati da terzi

Interessante decisione di appello (di rimando dalla Suprema Corte) nella lite HiQ Labs c. Linkedin da parte del 9° circuito, 18.04.2022, 3:17-cv-03301-EMC (link fornito dal blog del prof. Eric Goldman) sulla questione della liceità dello scraping (raschiare/grattare) automatizzato (tramite bot) di dati presenti nei profili Linkedin pubblici.

Linkedid (L.)  è scocciata per la raccolta dei dati dei suoi utenti da parte di HiQ che li usa per fornire offerte di profilazione ad aziende (ove è di fatto in concorrenza con la stessa L.) e tenta di bloccare la pratica.

Allo stato però in via cautelare (preliminary injunction) è ritenuta più probabilmente legittima che uillegittima.

Si v. spt. il § B Balance of equities, p. 17 ss sul bilanciamento dei reciproci danni probabili : In short, even if some users retain some privacy interests in their information notwithstanding their decision to make their profiles public, we cannot, on the record before us, conclude that those interests—or more specifically, LinkedIn’s interest in preventing hiQ from scraping those profiles—are significant enough to outweigh hiQ’s interest in continuing its business, which depends on accessing, analyzing, and communicating information derived from public LinkedIn profiles, p. 19.

Poi la corte affronta il merito cautelare (likelihood of success), p. 20 ss, favorevole ad HiQ sia per l’azione di tortious interference che per il CFAA.

Sulla prima (interferenza di L. sui rapporti contrattuali di HiQ con i suoi clienti): Balancing the interest in contractual stability and the specific interests interfered with against the interests advanced by the interference, we agree with the district court that hiQ has at least raised a serious question on the merits of LinkedIn’s affirmative justification defense … or all these reasons, LinkedIn may well not be able to demonstrate a “legitimate business purpose” that could justify the intentional inducement of a contract breach, at least on the record now before us. We therefore conclude that hiQ has raised at least serious questions going to the merits of its tortious interference with contract claim. Because such a showing on the tortious interference claim is sufficient to support an injunction prohibiting LinkedIn from selectively blocking hiQ’s access to public member profiles, we do not reach hiQ’s unfair competition claim.(p. 24-5 e 26/7).

Sulla seconda (Computer Fraud and Abuse Act (CFAA) ): il requisito di legge sull’accesso a computer altrui <<without authorization >> non si rifeisce al caso in cui i dati siano volutamente resi pubblici: <<We therefore conclude that hiQ has raised a serious question as to whether the reference to access “without authorization” limits the scope of the statutory coverage to  computers for which authorization or access permission, such as password authentication, is generally required. Put differently, the CFAA contemplates the existence of three kinds of computer systems: (1) computers for which access is open to the general public and permission is not required, (2) computers for which authorization is required and has been given, and (3) computers for which authorization is required but has not been given (or, in the case of the prohibition on exceeding authorized access, has not been given for the part of the system accessed). Public LinkedIn profiles, available to anyone with an Internet connection, fall into the first category. With regard to websites made freely accessible on the Internet, the “breaking and entering” analog ue invoked so frequently during congressional consideration has no application, and the concept of “without authorization” is inapt >>.    Soluzione esatta, direi (pur se relativo al diritto usa; da noi ad es. si v. il chiaro disposto dell’art. 615 ter c. pen.).

A ciò segue la sentenza 4 novembre 2022 sulla violazione contrattuale: Northern District of ColumbiaCase 3:17-cv-03301-EMC, HIQW c. Linkedin, 4.11.2022 , che di fatto  limita la vittoria di HJQ sopra riportata (anche questa sentenza e link dal blog del prof. Eric Goldman).

Si v. ora l’aggiornamento sulla importante questione del data scraping postato il 28 marzo 2023 da Kieran McCarthy nel blog di Eric Goldman .

Web/data scraping e secondary ticketing: è inadempimento contrattuale?

Un’agenzia di viaggio acquista biglietti aerei da Southwest Airlines (SA), rivendendoli poi a terzi, ed estrae sistematicamente vari dati, pubblicamente accessibili nel sito web di questa: ciò nonostante le condizioni di acquisto lo proibissero.

SA agisce per varie causae actiones tra cui violazione contrattuale. Decide la NORTHERN DISTRICT COURT OF TEXAS – DALLAS DIVISION , CIVIL ACTION NO. 3:21-cv-00098-E, Soutwest Airlines c. Kiwi, 30.09.2021, accogliendone la domanda.

Kiwi cita il noto precedente hiQ Labs c. Linkledin del 2019, ove fu ritenuto lecito lo scraping dei dati.

Però prevale l’orientmento del divieto di scrapintg fondato su patto apposito, presente nelle Terms  and Conditions : <<Kiwi has purchased over 20,000 flights on the Southwest Digital Platforms.  In connection with its sales of Southwest flights, Kiwi specifically acknowledges that: “All services provided by Southwest Airlines are subject to their Terms and Conditions. More information is available on their website.”  The Terms are hyperlinked at the bottom of each page of Southwest’s website with a statement that use of the website constitutes acceptance of the Terms. For all online purchases, the  user  must  affirmatively  acknowledge  and  accept  the  Terms  by  clicking  a  button  that  states:  “By clicking ‘Purchase,’ I agree to the Terms and Conditions below, the privacy policy, and the contract of carriage,” which appears just above a yellow “Purchase” button with hyperlinks to the Website Terms, Privacy Policy, and Contract of Carriage.  For each purchase, Kiwi affirmatively accepted  the  Terms.    Southwest  sent  multiple  cease-and-desist  notices  to  Kiwi’s  chief  legal  counsel, Kiwi’s CEO, and to Kiwi’s registered agents in the United States.  Southwest specifically referenced the Terms and attached a copy of them, pointing out examples of how Kiwi’s conduct violated the Terms. Kiwi acknowledged receipt of one such cease-and-desist notice in September 2019.  As  in  BoardFirst, when  Kiwi  continued  to use  the  Southwest  website  in  connection  with  Kiwi’s  business  with  actual  knowledge  of  the  Terms,  Kiwi  “bound  itself  to  the  contractual  obligations imposed by the Terms.”  See BoardFirst, 2007 WL 4823761, at *7>>, p. 7

E’ poi intgersante anche il ragionamemnot sul danno irreparabile , requisito per la cocnessione della cautgela: viene ravvisato e la cautela  èconcessa: <<Balance of harms: Southwest must also demonstrate the threatened injury if the injunction is denied outweighs any harm that will result if the injunction is granted. Southwest argues Kiwi’s business practices interfere with customer communications, misrepresent Southwest customer-friendly policies,
charge customers unnecessary fees, divert traffic away from Southwest’s website, and tarnish  Suthwest’s reputation and goodwill. Southwest argues Kiwi will suffer little if any damage by ceasing unauthorized sales of Southwest flights and that Kiwi’s interest in using the Southwest website for its own commercial purposes is entitled to “scant consideration.” Kiwi can continue its business and sell flights for other carriers.
Kiwi alleges the balance of harms tips strongly in its favor. Kiwi argues an injunction poses a significant threat to its business model, reputation, and partner relationships. Kiwi asserts removing Southwest flights from its website will drastically affect its ability to build dynamic travel itineraries for its customers. According to Kiwi, for many key travel routes and destinations,
it is impossible to fly without traveling on Southwest. It also contends that an unspecified “threat of further injunctions against brokering ticket sales poses a potentially existential threat to Kiwi.com’s US operation.”
The Court concludes the threatened injury to Southwest if the injunction is denied outweighs the harm to Kiwi. Southwest has shown that Kiwi’s unauthorized sales of its flights  poses a significant disruption to its customer operations. Kiwi has not convinced the Court that the injunction will significantly threaten its business. As Southwest notes, Southwest is not listed as one of Kiwi’s “top 20 airlines” on its website>

(notizia e link alla sentenza  dal blog di Erik Goldman)

Raccogliere dati “pubblici” da Facebook viola le sue condizioni contrattuali? Sul data scraping e sulla tortious interference

Sulla liceità della raccolta di dati pubblicitari dai profili Facebook (senza il consenso di questi), c.d. data scraping,  pende da tempo una lite tra Facebook (Fb)  e BrandTotal (BT), azienda nel settore dell’advertising.

Si v. la voce <web scraping> in Wikipedia .

Si registra ora una nuova pronuncia: US District Court – Northern District of California, 09 giugno 2021, Case 3:20-cv-07182-JCS .

In pratica BT invita i clienti (utenti Fb) a scaricare il programma UpVoice dal Google store, con cui monitora la loro navigazione e l’offerta pubblicitaria che conseguentemente ricevono.

Ciò violerebbe la condizione generale di Fb , per cui è vietato <<collect[ing] data from our Products using automated means (without [Facebook’s] prior permission)>>

Fb accortasene, chiude l’account di BT

Attore è Fb ma in riconvenzionale Bt chiede: <<(1)declaratory judgment that BrandTotal has not violated and will not violate the CFAA; (2)declaratory judgment that BrandTotal has not violated and will not violate section 502 of the California Penal Code; (3)declaratory judgment that BrandTotal has not interfered and will not interfere with Facebook’s contractual relations, id.; (4)intentionalinterference with contract, id; (5)intentional interference with prospective economic advantage,; (6)violation of California’s Unfair Competition Law>>

Le istanze sono in parte accolte e in parte rigettate.

I contratti di BT, su cui Fb avebbe interferito, sono: 1) contracts between BrandTotal and its corporate customers, 2) contracts between BrandTotal and its individual “Panelists, 3) contracts between BrandTotal and its investors, id.138, and 4)  contract between BrandTotal and Google, p. 16, che sono poi analizzati uno per uno.

Raccogliere dati da Facebook senza suo consenso: è illecito?

Capita talora che Facebook (poi: F.) , invece che essere convenuta, sia attore: e cioè che, oltre a raccogliere dati dagli utenti, a sua volta subisca raccolte di dati dei sui utenti da un concorrente (c.d. data scraping e cioè raccolte massive ed automatizzate di dati).

La corte del Northern District della Californa ha deciso in via cautelare (temporary restraining order : “TRO”) la lite tra F. e Brandtotal ltd (poi: Br.) (US Nort. D. of California, 9 novembre 2020, Facebook v. Brandtotal, Case No.20-cv-07182-JCS).

Br. induceva i clienti ad installare due proprie estensioni scaricate da Google Store (UpVoice + AdsFeed) , con le quali raccoglieva molti loro dati su F. e su Instragram, nonostante misure adottate da F. per contrastare il fenomeno, p. 2..

Accortasene, F. disattivava sulla propria piattaforma gli account di Br.

Precisamente, secondo F., Br. faceva questo:

<< Once installed by the users . . . [BrandTotal] used the users’ browsers as a proxy to access Facebook computers, without Facebook’s authorization, meanwhile pretending to be a legitimate Facebook or Instagram user. The malicious extensions contained JavaScript files designed to web scrape the user’s profile information, user advertisement interest information, and advertisements and advertising metrics from ads appearing on a user’s account, while the user visited the Facebook or Instagram websites. The data scraped by [BrandTotal] included both public and non-publicly viewable data about the users.  [BrandTotal’s] malicious extensions were designed to web scrape Facebook and Instagram user profile information, regardless of the account’s privacy settings. The malicious extensions were programmed to send unauthorized, automated commands to Facebook and Instagram servers purporting to originate from the user (instead of [BrandTotal]), web scrape the information, and send the scraped data to the user’s computer, and then to servers that [BrandTotal] controlled >>, p. 3

Per precisazioni sulla parte in fatto, v.  Introduction, p. 1 ss e Background.  II, p. 2 ss.

I claims di F. sono: <<(1) breach of contract, based on the Facebook Network and Instagram terms of service, id. ¶¶ 67–73; (2) unjust enrichment, id. ¶¶ 74–80;
(3) unauthorized access in violation of the CFAA,
id. ¶¶ 81–86; (4) unauthorized access in violation of California Penal Code § 502, id. ¶¶ 87–95; (5) interference with contractual relations by inducing Facebook’s users to share their login credentials with BrandTotal, in violation of Facebook’s terms of service, id. ¶¶ 96–102; and (6) unlawful, unfair, or fraudulent business practices in violation of California’s Unfair Competition Law, Cal. Bus. & Prof. Code § 17200 (the “UCL”), Compl. ¶¶ 103–10. Facebook seeks both injunctive and compensatory relief. See id.
at 21–22, ¶¶ (a)–(h) (Prayer for Relief)>>, p. 5

Quelli di Br. sono:  <<(1) intentional interference with contract, based on contracts with its corporate customers, id. ¶¶ 32–41; (2) intentional interference with prospective economic advantage, id. ¶¶ 42–48; (3) unlawful, unfair, and fraudulent conduct in violation of the UCL, id. ¶¶ 49–63; and (4) declaratory judgment that BrandTotal has not breached any contract with Facebook because its access “has never been unlawful, misleading, or fraudulent,” because its products “have never impaired the proper working appearance or the intended operation of any Facebook product” or “accessed any Facebook product using automated means,” and because the individual users own the information at issue and have the right to decide whether to share it with BrandTotal, id. ¶¶ 64–73. BrandTotal seeks both injunctive and compensatory relief>>, p. 6/7.

La parte interessante è sub III, Analysis.

Qui , sub B a p. 12 ss , si espone che Br. ha invocato un precedente del 2019 hiQ Labs v. Linkedin in cui hiQLabs ottenne una riammissione ai servizi di Linkedin, pur avendo raccolto senza autorizzazione i dati dei suoi utenti. Solo che , fa notare il giudice, ci sono differenze sostanziali : i) mentre i dati di L. sono pubblici, quelli raccolti tramite F. sono invece largamente non pubblici (p. 22); ii) per questo l’interesse di F. al controllo dei dati è assai maggiore di quello di L., dato che molti sono ad accesso ristretto, p. 23.

Inoltre Br. non ha provato l’ irreparable harm per ottenere l’inibitoria della rimozione /disattivazione, p. 15 ss e 19-20.

Poi il giudice passa ad esaminare il likelihood of success (fumus boni iuris), p. 20 ss. Da un lato Br. non ha provato l’elemento soggettivo e cioè la consapevoelzza di F. che così facendo andava ad alterare il rapporto contratttuale tra Br e i suoi clienti, p. 21. Dall’altro c’è un serio interesse commerciale di F nell’ impedire l’accesso ai dati da parte di Br., p. 24 righe 18-22 e p. 26 righe 8-12.

Si aggiunge però che F. potrebbe aver agito così anche per impedire la sopravvivenza di (o comunque per danneggiare) un concorrente potenzialmente fastidioso nel mercato dell’advertising analytics: ciò dunque potrebbe far pendere la bilancia verso Br. per ragioni proconcorrenziali, p. 26.

Le ragioni proconcorrenziali sollevate da Br., però, sono serie ma non sufficienti: <The Court concludes that BrandTotal has raised serious questions as to the merits of this claim, but on the current record, it has not established a likelihood of success>, P. 26.

Complessivamente dunque , il bilanciamento equitativo delle pretese opposte (balancing of equities)  in relazione al danno per le parti porterebbe a far prevalere Br, p. 30-31,

Tenendo però conto di ragioni di public interest, la pretesa di inibitoria di Br verso F. va respinta, p. 31-34:  < BrandTotal has shown a risk of irreparable harm in the absence of relief, serious issues going to the merits of its claims, and a balance of hardships that tips in its favor, perhaps sharply so. The public interest, however, weighs against granting the relief that BrandTotal seeks >, p. 34