Gardets

Forskare ger integritetslyft Ät kÀnsliga proprietÀra mönster som upptÀckts i datautvinning

Forskare avslöjar hur man kan stödja utvinning av föreningsregler pÄ publicerade datauppsÀttningar samtidigt som de ger integritetsskydd för specifika regler. Kredit: Tsinghua University Press

Forskare har gett en boost till integritet och skydd av proprietÀr eller annan kÀnslig information under datautvinning, utan att kompromissa med möjligheten att upptÀcka anvÀndbara mönster i enorma datamÀngder.

Tekniken, utvecklad av ett par datavetare vid Chongqing University, beskrivs i en artikel publicerad i tidskriften Big Data Mining och Analytics.

Datautvinning, upptĂ€ckten av mönster i mycket stora uppsĂ€ttningar av data – som ofta involverar maskininlĂ€rning – och delning av den informationen för anvĂ€ndbara Ă€ndamĂ„l hamnar ofta pĂ„ en vĂ€gspĂ€rr nĂ€r sĂ„dana datamönster Ă€r proprietĂ€ra, undergrĂ€ver integriteten eller Ă€ventyrar sĂ€kerheten. Och Ă€ndĂ„ förbĂ€ttrar sĂ„dan datadelning eller publicering ytterligare upptĂ€ckt av anvĂ€ndbara mönster till nytta för Ă€garna av dessa datamĂ€ngder och samhĂ€llet i stort.

ÖvervĂ€g en mycket vanlig datautvinningsalgoritm för att upptĂ€cka potentiellt anvĂ€ndbara relationer mellan variabler i stora datamĂ€ngder: associationsregelutvinning. Det klassiska, möjligen fiktiva, exemplet pĂ„ föreningsregelbrytning gĂ€ller en stor datauppsĂ€ttning av stormarknadsförsĂ€ljning, dĂ€r det upptĂ€cks att manliga kunder som köper blöjor ocksĂ„ tenderar att köpa öl. “Regeln” hĂ€r Ă€r sammanslutningen av öl, blöjor och manliga kunder. Baserat pĂ„ denna regel kan en stormarknadschef erbjuda ett rabattpaket för dem som köper öl och blöjor tillsammans.

Men om denna “regel” skulle upptĂ€ckas av konkurrenter som anvĂ€nder en publicerad datauppsĂ€ttning som snabbköpet hade delat för att förbĂ€ttra ytterligare mönsterupptĂ€ckt, kunde de stjĂ€la kunder frĂ„n den ursprungliga stormarknaden genom att tillhandahĂ„lla samma rabattstrategi. Regeln “blöjor betyder öl” Ă€r sĂ„ledes kommersiellt kĂ€nslig och skulle behöva skyddas innan snabbköpet skulle vara bekvĂ€mt med att publicera sina uppgifter för andra att anvĂ€nda.

Med andra ord, om större datadelning ska uppmuntras, mÄste det finnas ett sÀtt att tillÄta datautvinning för icke-kÀnsliga associationsregler (NAR) samtidigt som datautvinning skyddas frÄn att upptÀcka kÀnsliga associationsregler (SARS).

För att lösa problemet med regelproblemet med kÀnsliga associationer har forskare tidigare föreslagit att skydda den kÀnsliga informationen genom att helt enkelt dölja den efter upptÀckt innan nÄgon delning av datamÀngden. Detta uppnÄs genom att minska frekvensen av förekomsten av data i datasetet som föreslÄr associationsregeln. Detta Àr dock inte sÀrskilt praktiskt eftersom endast en sÄdan SAR kan skyddas Ät gÄngen, och tekniken ger ÀndÄ ingen stark datasekretess.

Andra forskare har försökt omvandla SAR-problemet till ett enda objektivt optimeringsproblem – att hitta den bĂ€sta lösningen för ett specifikt kriterium. Detta stĂ€rker datasekretessen men minskar anvĂ€ndbarheten av datamĂ€ngden. Ett annat tillvĂ€gagĂ„ngssĂ€tt innebĂ€r att kryptera data innan nĂ„gon datautvinning utförs pĂ„ datamĂ€ngden, men detta kan vara mycket tidskrĂ€vande, sĂ€rskilt nĂ€r det implementeras pĂ„ sĂ€rskilt stora datamĂ€ngder – just de som har större potential att upptĂ€cka mönster av intresse.

SÄ Chongqing-forskarna ville hitta en lösning som minskar potentialen för integritetslÀckage samtidigt som de förbÀttrar dataverktyget, och att göra det samtidigt som den begrÀnsar tiden som en sÄdan teknik skulle ta.

Deras lösning, som de kallar “optimerad saneringsmetod för brytbar datapublicering”, eller helt enkelt SA-MDP, inser att varje lösning pĂ„ SAR-problemet mĂ„ste hitta en acceptabel kompromiss mellan dataverktyg och datasekretess, snarare Ă€n att lösa för en eller den andra sjĂ€lvstĂ€ndigt. Detta Ă€r ett optimeringsproblem med flera mĂ„l snarare Ă€n ett optimeringsproblem med ett enda mĂ„l – dĂ€r mer Ă€n ett mĂ„l mĂ„ste optimeras. Även om mĂ„nga omrĂ„den, frĂ„n logistik till teknik regelbundet möter sĂ„dana problem, Ă€r de till sin natur svĂ„ra. En resenĂ€r som vill hitta den billigaste flygbiljetten pĂ„ en bekvĂ€m dag med den mest bekvĂ€ma stolen samtidigt som den tar den kortaste resan med minsta möjliga mellanlandning stĂ„r inför ett optimeringsproblem med flera mĂ„l. Utmaningen ligger i det faktum att det inte finns en enda lösning som samtidigt optimerar vart och ett av dessa mĂ„l; istĂ€llet kan det finnas mĂ„nga, kanske till och med ett oĂ€ndligt antal optimala “kandidat”-lösningar som Ă€r lika bra.

För SA-MDP designade forskarna en skrĂ€ddarsydd algoritm för “partikelsvĂ€rmoptimering” (PSO) för att effektivt lösa detta flerobjektiva optimeringsproblem. PSO-metoden, en biologiskt inspirerad algoritm, upptĂ€cktes ursprungligen pĂ„ 1990-talet av forskare som syftade till att simulera det sociala beteendet hos djur som svĂ€rmade sĂ„som fĂ„gelflockar eller fiskstim. Men forskarna fann att deras algoritm faktiskt utförde optimeringsberĂ€kningar för att lösa problem för svĂ€rmen. Under PSO behandlas en stor grupp av kandidatlösningar som partiklar som fĂ„glar i en flock i “sökutrymmet” – uppsĂ€ttningen genom vilken algoritmen söker. Att flytta dessa partiklar inom sökutrymmet enligt nĂ„gra grundlĂ€ggande matematiska regler som styr en partikels hastighet och position Ă€r ungefĂ€r som att förestĂ€lla sig att varje enskild fĂ„gel hjĂ€lper flocken som helhet att hitta den optimala lösningen.

För att förbĂ€ttra utforskningsförmĂ„gan hos SA-MDP introducerar tekniken ocksĂ„ konceptet med partikeldelning, vilket gör att en partikel kan producera flera “barnpartiklar”.

Och för att pÄskynda processen involverar metoden en ny förbearbetningsmekanism som tar bort alla irrelevanta transaktioner sÄ att storleken pÄ sökutrymmet kan minskas.

Efter att ha utformat det nya tillvĂ€gagĂ„ngssĂ€ttet testade forskarna det pĂ„ flera allmĂ€nt tillgĂ€ngliga datauppsĂ€ttningar som vanligtvis anvĂ€nds i sĂ„dana tester – en uppsĂ€ttning schackrörelser, en datauppsĂ€ttning av svampattribut som anvĂ€nds för att klassificera dem i Ă€tbara eller giftiga och en serie klickströmmar (sekvensen av lĂ€nkar som klickas pĂ„) av besökare pĂ„ webbplatser. De fann att deras teknik lĂ€tt slog konkurrenterna.

“VĂ„r metod ger samma integritetsskydd som standardmetoden för att dölja kĂ€nsliga associationsregler, men med bĂ€ttre datanytta, samtidigt som den minskar körtiden”, sĂ€ger Xiaofeng Liao, datavetare vid Chongqing University och medförfattare till tidningen med sin doktorand Fan Yang.

De jÀmförde dessa resultat med resultaten frÄn göksökningsoptimeringsalgoritmen för att dölja kÀnsliga associationsregler, eller COA4ARH, en vanlig algoritm som anvÀnds för att dölja kÀnsliga associationsregler (associationsregeldöljning) vid datautvinning.

De fann att deras tillvÀgagÄngssÀtt gav samma skyddande effekt som COA4ARH:s förmÄga att dölja kÀnsliga regler, och slog den pÄ förmÄgan att producera anvÀndbara associationsregler, samtidigt som körtiden halverades.


Multi-spin flips och en vÀg till effektiva Ising-maskiner


Mer information:
Fan Yang et al, An Optimized Sanitization Approach for Minable Data Publication, Big Data Mining och Analytics (2022). DOI: 10.26599/BDMA.2022.9020007

TillhandahÄlls av Tsinghua University Press

Citat:Forskare ger integritetsboost till kÀnsliga proprietÀra mönster som upptÀckts vid datautvinning (2022, 15 juni)hÀmtad 15 juni 2022 frÄn https://techxplore.com/news/2022-06-privacy-boost-sensitive-proprietary-patterns.html

Detta dokument Àr föremÄl för upphovsrÀtt. Bortsett frÄn all rÀttvis handel i syfte att privata studier eller forskning, fÄr ingen del reproduceras utan skriftligt tillstÄnd. InnehÄllet tillhandahÄlls endast i informationssyfte.

HĂ„ll kontakten med oss ​​pĂ„ sociala medieplattformar för omedelbar uppdatering klicka hĂ€r för att gĂ„ med i vĂ„r Twitter och Facebook

BotĂłn volver arriba

Annonsblockerare upptÀckt

Du mÄste ta bort AD BLOCKER för att fortsÀtta anvÀnda vÄr webbplats TACK