Proteverb – Pravni, etični in tehnološki vidiki obdelave besedilnih in govornih virov podatkov za znanstvene, raziskovalne in razvojne namene 

 

O PROJEKTU

Slovenščina je z vidika razvoja jezikovnih tehnologij jezik, za katerega je na voljo malo digitalnih virov. Zaradi tega sta sodobno raziskovanje s perspektive računalniške znanosti in razvoj produktov, ki temeljijo okrog procesiranja naravnega jezika, bistveno počasnejša kot to velja za jezike z veliko digitalnimi viri. Za ustrezno pridobivanje jezikovnih virov in sekundarno uporabo slednjih v čimbolj naravni obliki, ki zaradi tega lahko vsebujejo tudi nekatere osebne podatke, pa je pomembno interpretiranje Splošne uredbe o varstvu podatkov (GDPR) in izjem prav za raziskovalne namene. Prav tovrstna odstopanja omogočajo doseganje posebnih namenov, na katere se veže tudi pričujoči ciljni raziskovalni projekt, ki bo prvikrat v slovenskem prostoru sistematično naslovil pridobivanje in obdelavo (osebnih) podatkov na način, ki so v interesu znanosti in tako prek apliciranja v obliki pilotnega projekta prispeval k razvoju slednje, kot tudi gospodarstva na podlagi novih spoznanj in praks.

Ciljni raziskovalni projekt (CRP) financirata Agencija za raziskovalno dejavnost in Služba Vlade za digitalno preobrazbo.

Šifra projekta: V5-2265

Trajanje projekta: 2022 – 2024

 

VSEBINA PROJEKTA

VSEBINA PROJEKTA:

Ciljni raziskovalni projekt bo razdeljen v več faz:

  1. Preučili bomo pravni okvir obdelave podatkov v raziskovalni-znanstvene namene. Izhodišče bosta predstavljala Splošna uredba in ZVOP-1, ki ju bomo nadgradili s primerjalnopravno analizo in spremljanjem razvoja zakonodajnega predloga ZVOP-2.
  2. Preučili bomo dosedanje prakse zbiranja podatkov v znanstveno-raziskovalne namene, zanimalo nas bo tako dostopanje do podatkov raziskovalcev in raziskovalnih organizacij kot tudi izkušnje z deljenjem podatkov javnih organov in institucij (npr. sodišč). Identificirali bomo ključne dejavnike tveganj, ki so onemogočali dostop do podatkov v preteklosti, da bi izoblikovali protokol za varovanje zasebnosti tekom obdelovanja podatkov za znanstveno-raziskovalne
  3. v okviru projekta bodo razviti postopki za ustrezno dostopanje do podatkov in anonimizacijo podatkov, ki bo temeljila na prilagoditvi in izboljšanju obstoječih anonimizatorjev. Oblikovali bomo priporočila glede metod biometrične anonimizacije zvočnih govornih posnetkov, ki temeljijo na metodah strojnega učenja, z namenom zmanjšanja vplivov na zanesljivost samodejnih razpoznavalnikov govora.

Z uporabo protokola za varovanje zasebnosti in postopkov za dostopanje do podatkov, vključno z anonimizacijo, bomo poskusili pridobiti podatke (pilot). Pilotni del raziskave bo obsegal pripravo potrebnih podlag za prevzem podatkov, prevzem podatkov, anonimizacijo podatkov ter ureditev dokumentacije, postopkov in pravil za potrebe obdelave podatkov v okviru raziskovalne inštitucije. Na podlagi podatkov, pridobljenih za pilotni del ciljnega raziskovalnega projekta bomo specializirali anonimizator besedil kot tudi razpoznavalnik govora za slovenski jezik.    

Člani raziskovalnega projekta

et|icon_pin_alt|

Inštitut za kriminologijo
Poljanski nasip 2
1000 Ljubljana

et|icon_mail_alt|
et|icon_phone|

Copyright © Inštitut za kriminologijo pri Pravni fakulteti v Ljubljani

Pravno obvestilo