검색 상세

Use of Publicly Available Data for AI and Data Protection Regulations

AI를 위한 공개된 데이터 사용과 개인정보보호 규제

초록/요약

Data are pivotal for the research and development of artificial intelligence (AI). The acquisition of vast quantities of high-quality data is indispensable not only for enhancing the technical performance of AI, but also for promoting fairness and reliability. However, obtaining such data presents substantial challenges, including prohibitive costs and structural access related barriers. These constraints have led to increasing reliance on publicly available data from the internet. This practice, however, raises a fundamental legal issue under the current legal framework, as it may potentially infringe upon the privacy and personal data protection rights of data subjects. Consequently, as the use of publicly available personal information from the internet becomes increasingly critical and prevalent for advancing AI, a rigorous legal analysis of the pertinent regulatory frameworks will become indispensable. This thesis comprehensively examines the legal and regulatory challenges surrounding the use of publicly available data in the research and development of AI systems. It analyzes the legal definition and scope of “publicly available personal information,” outlines core principles of data protection and the privacy laws governing its use, and critically evaluates enforcement standards and interpretative approaches adopted by regulatory authorities, particularly regarding the conditions under which such use is recognized as lawful. Furthermore, the thesis undertakes a comparative legal assessment across multiple jurisdictions, reviewing landmark judicial decisions and regulatory actions involving prominent AI applications such as generative AI, chatbots, facial recognition technologies, and other AI models trained on publicly available data. Thus, this comparative analysis critically addresses differences in cross-jurisdictional enforcement practices and divergences in the interpretation and application of data protection and privacy regulations; furthermore, it examines the boundaries of legitimate data use. This thesis’s core finding is that the absence of valid consent for a specific purpose, or legitimate interests in the use of publicly available data pose significant legal risks, including privacy and data protection disputes as well as regulatory enforcement actions. The interpretation and enforcement of these legal principles vary across jurisdictions and are substantially dependent on specific circumstances of each case. The analysis emphasizes that AI developers and companies must carefully assess the relevant specific privacy and data protection laws applicable to their data practices. This thesis further highlights recent developments in regulatory and policy frameworks that have adopted a pro-innovation approach for enabling the lawful use of publicly available data for AI development. However, despite these advancements and related policy initiatives, substantial legal uncertainties have persisted in practice. These include the ambiguous interpretation of the concept of “legitimate interest” as a lawful basis for processing personal data in the context of AI training, the inconsistent application of legal standards across jurisdictions, and the limited effectiveness or practical enforceability of existing regulatory mechanisms. Collectively, these challenges entail substantial compliance risks for AI developers and companies, data-driven enterprises, and organizations engaged in extensive data collection and model training activities. This thesis strongly advocates for the urgent establishment of precise legal definitions and practical applicable legal standards, authoritative interpretive legal mechanisms, interoperable and collaborative cross-border governance frameworks, and enforceable legal standards to address the complex challenges posed by the use of publicly available data in AI research and development. These legal instruments are not only critical for ensuring legal clarity and regulatory harmonization across jurisdictions but also for providing clear guidance to developers, regulators, and other stakeholders. This analysis seeks to establish a balanced and reliable legal framework that can clarify and ensure regulatory compliance, thereby fostering legal certainty for stakeholders. Simultaneously, it aims to promote responsible and sustainable AI innovation, while safeguarding the rights of individuals to data protection and privacy.

more

초록/요약

데이터는 인공지능(AI)의 연구 및 개발에 있어 핵심적인 자원이다. 방대한 양의 고품질 데이터를 확보하는 것은 AI의 기술적 성능을 향상시킬 뿐만 아니라, 공정하고, 신뢰할 수 있는 AI를 위해 필수적이다. 그러나 데이터를 확보하는 과정은 높은 비용, 접근에 구조적 제약, 법적·제도적 한계 등 다양한 문제를 동반한다. 따라서 인터넷상 공개된 데이터에 대한 의존도가 증가하고 있다. 그러나 공개된 데이터의 수집 및 활용은 현행 법 체계하에서 정보주체의 프라이버시와 개인정보보호 권리를 침해할 소지가 있다는 점에서 근본적인 법적 쟁점으로 제기된다. 따라서 인터넷에서 공개적으로 이용 가능한 개인 정보의 사용이 AI의 발전에 더 보편화되고 중요해짐에 따라 규제 체계에 대한 엄밀한 법적 분석이 필수적이다. 본 논문은 AI 시스템의 연구 및 개발 과정에서 공개된 데이터의 활용과 관련된 프라이버시 및 개인정보 보호와 관련한 법제와 규제 체계의 법적 쟁점을 고찰한다. “공개된 개인정보”의 법적 정의와 범위를 상세히 분석하고, 그 활용에 적용되는 개인정보 보호 및 프라이버시 법제의 주요 원칙을 설명하며, 규제 당국의 집행 기준과 해석 접근 방식을 비판적으로 평가한다. 특히 공개된 정보의 활용이 어떠한 조건 하에서 합법적으로 정당화될 수 있는지를 살펴본다. 또한, 생성형 AI, 챗봇, 얼굴 인식 기술 등 공개 데이터를 기반으로 학습된 주요 AI 사례에 대한 개인정보보호 당국의 집행 사례와 대표적인 판례를 분석해 본다. 비교법적 평가를 통해 개인정보 보호 및 프라이버시 규정의 해석과 적용, 국가 간 집행의 차이, 그리고 합법적 이용의 한계를 중점적으로 분석해 본다. 본 논문의 핵심 발견은, 공개 데이터의 활용에 있어 특정 목적에 대한 유효한 동의 또는 정당한 이익이 결여될 경우, 프라이버시 및 개인정보 보호 관련 분쟁 뿐만 아니라 규제 당국의 집행 조치 등 중대한 법적 위험에 직면할 수 있다는 점이다. 이러한 법적 원칙의 해석 및 집행은 각 국가의 법제에 따라 상이하게 적용되며, 사안별 구체적 사실 관계에 크게 의존하기도 한다. AI 개발자 및 기업들은 데이터 처리에 적용되는 개인정보 보호 법제를 면밀히 분석하고, 관련 규범을 신중히 검토할 필요가 있다. 본 논문은 또한 AI 개발을 위한 공개 데이터의 합법적 활용을 촉진하고자 하는 친(親)혁신적 규제 및 정책 프레임워크의 최근 발전 동향을 조명한다. 그러나 이러한 제도적 진전과 정책적 노력에도 불구하고, 실제 운영 과정에서는 여전히 상당한 법적 불확실성이 존재한다. 대표적으로, AI 학습 과정에서 개인정보 처리의 법적 근거로서 “정당한 이익” 개념의 모호한 해석, 국가 간 법적 기준의 일관되지 않은 적용, 그리고 기존 규제 메커니즘의 실효성과 집행 가능성의 한계 등이 있다. 이러한 구조적 문제들은 AI 개발자 및 기업, 데이터 기반 기업, 대규모 데이터 수집 및 모델 학습에 관여하는 조직에 있어 중대한 준법 리스크를 수반한다. 본 논문은 AI 연구 및 개발 과정에서 공개 데이터 활용으로 인해 제기되는 복합적 법적 쟁점에 대응하기 위해, 명확하고 법적 정의와 실무적 적용 가능한 기준의 시급한 확립, 권위 있는 해석 기준의 제도화, 상호운용 가능하고 협력적인 국가 간 거버넌스 체계, 그리고 실효성 있는 법적 집행 체계의 도입을 강력히 주장한다. 이러한 법적 수단은 국가 간 규제의 조화와 법적 명확성을 확보하는 데 필수적일 뿐만 아니라, AI 개발자 및 기업 , 규제기관, 기타 이해관계자에게 실질적인 법적 지침을 제공하는 데에도 핵심적이다. 본 논문은 규제 준수를 위한 명확한 기준을 제시함으로써 이해관계자에게 법적 확실성을 보장할 수 있는 균형 잡힌 신뢰 가능한 법제 구축을 목표로 한다. 동시에, 개인의 프라이버시와 개인정보를 보호하면서도 책임 있고 지속 가능한 AI 혁신을 촉진을 지향한다.

more

목차

TABLE OF CONTENTS

ABSTRACT i

국문 초록 iv

TABLE OF CONTENTS vii

CHAPTER 1. INTRODUCTION 1

CHAPTER 2. LEGAL FRAMEWORKS ON DATA PROTECTION AND AI 3

2.1 Legal Definition 3
2.1.1 Artificial Intelligence (AI) 3
2.1.2 Personal Data and Publicly Available Data 5
2.2 Publicly Available Data and Data Protection Principles 9
2.2.1 US Privacy Law 9
2.2.2 EU Data Protection Law 11
2.3 Data Protection Regulations and Policies in AI 12
2.3.1 UK, ICO (“Information Commissioner's Office”) 12
2.3.2 France, CNIL (“Commission Nationale de l'Informatique et des Libertés”) 17
2.3.3 Netherland, AP (“Autoriteit Persoonsgegevens”) 23
2.3.4 Australia, OAIC (“Office of the Australian Information Commissioner”) 25
2.3.5 Korea, PIPC (“Personal Information Protection Commission”) 27
2.3.6 Joint Statement on Data Scraping and Privacy Protection 31

CHAPTER 3. CASES ON AI AND DATA PROTECTION ENFORCEMENT 32

3.1 Open AI, Chat GPT 32
3.2 ScatterLab, Lee Luda Chat Bot 34
3.3 Clearview AI 37
3.3.1 Privacy Concerns Against Clearview AI 37
3.3.2 Clearview AI - Data Protection Enforcement 38
3.4 Meta AI, Facebook 69

CHAPTER 4. DISCUSSIONS AND PROPOSALS 70

4.1 Legal Ambiguity and Uncertainty in Application of Legitimate Interests 70
4.2 Data Protection Regulations and Implementation Challenges 78
4.3 Inconsistency in Legal Interpretation and Enforcement 82
4.4 Proposals on Use of Publicly Available Data for AI 85

CHAPTER 5. CONCLUSION 92

REFERENCES 98

more