“AI가 기사 10만 건 무단 학습했다” 백과사전 출판사들, 오픈AI에 소송 제기 :SODA

브리태니커와 메리엄-웹스터가 오픈AI를 상대로 저작권 침해 소송을 제기했다. AI 학습의 ‘공정 이용’ 여부와 데이터 수집 방식이 핵심 쟁점으로 떠오르고 있다. 뉴시스

브리태니커와 메리엄-웹스터가 오픈AI를 상대로 저작권 침해 소송을 제기했다. 생성형 인공지능(AI)가 데이터 학습에 외부 콘텐츠를 이용하며 제기된 ‘저작권 침해 논란’이 법적 공방으로 이어지고 있다.

13일(현지 시간) 미국 뉴욕 남부연방법원에 따르면, 두 출판사는 챗GPT 개발사 오픈AI가 자사 온라인 기사 약 10만 건을 AI 모델 학습에 무단 활용하는 등 저작권을 대규모로 침해했다고 주장했다.

출판사 측은 AI가 답변을 만드는 과정에서 자사 콘텐츠를 그대로 복제하거나, RAG(답변 생성을 위해 외부에서 데이터를 검색하도록 하는 기술)를 활용해 기사 원문을 끌어다 쓰는 행위를 문제 삼았다. 또한 AI가 가짜 정보(환각 현상)를 만들어내면서 출처를 브리태니커로 허위 기재해 “신뢰할 수 있는 고품질의 정보에 대중이 접근할 수 없게 한다”고 지적했다.

이번 브리태니커의 합류로 오픈AI는 뉴욕타임스(NYT)를 비롯한 북미 지역 10여 개 언론사 등과 법적 공방을 벌이게 됐다. 다만 오픈AI가 비슷한 취지의 법적 공방을 여럿 상대하며 실질적인 판단까지는 시간이 소요될 것으로 보인다.

● 법원, AI 검색 ‘퍼플렉시티’ 각하 요청 기각…전 과정 심리

아라빈드 스리니바스 퍼플렉시티 CEO. 뉴스1

AI 운영사를 향한 언론·출판계의 저작권 침해 소송은 줄곧 제기돼 왔다. 2024년 10월경, 월스트리트저널(WSJ)과 뉴욕포스트는 AI 검색 기업 ‘퍼플렉시티’를 상대로 저작권 침해 소송을 제기했다. WSJ와 뉴욕포스트 측은 “AI 답변이 기사 원문을 대체할 수 있을 정도로 상세하다”라며 “언론사를 방문하지 않고도 기사 내용을 충분히 소비할 수 있게 만들고 있다”라고 주장했다.

반면 퍼플렉시티 측은 “자사 서비스는 기사 원문을 제공하지 않는다”면서 요약·설명에 불과하다고 맞섰다. 그러나 지난 1월, 법원은 퍼플렉시티 측의 각하 요청을 기각하고 학습부터 출력까지의 전 단계를 심리하기로 하면서 법정 공방은 본격화됐다.

브리태니커 역시 2025년 9월경 퍼플렉시티를 상대로 유사한 소송을 제기한 바 있어, 이번 오픈AI 소송은 그 연장선이라는 해석이 나온다.

● 명확한 판례 없지만…‘변형적 이용’ 판단이 관건

2026년 2월 26일 목요일 뉴욕의 컴퓨터 화면에 앤스로픽 웹사이트 페이지와 회사 로고가 표시되어 있다. AP/뉴시스

현재까지 AI 학습에 저작물을 사용하는 행위가 저작권 침해인지에 대한 명확한 판례는 없다. AI 모델 ‘클로드’의 개발사인 앤스로픽은 최근 불거진 작가들과의 소송에서 “학습 데이터 활용 자체는 ‘변형적 이용’으로 볼 여지가 있다”는 법원의 판단을 이끌어냈다.

다만 법원은 도서를 무단으로 내려받은 행위 등에 대해서는 책임이 있는 것으로 판단해 15억 달러(약 2조2300억 원) 규모의 집단 소송 합의를 이룬 바 있다.

업계는 AI 학습이 저작권법상 ‘공정 이용’으로 인정될 가능성을 열어두면서도, 데이터 수집 방식과 이용 범위에 따라 위법 여부가 갈릴 것으로 보고 있다. 공정 이용은 저작자의 권리를 과도하게 침해하지 않는 범위에서 제한적으로 저작물 활용을 허용하는 개념이다.

하급심 판단이 엇갈리고 있는 점도 불확실성을 키우고 있다. 지난해 2월 로이터가 AI 스타트업 로스 인텔리전스를 상대로 낸 소송에서는 원고 측이 유리한 판단을 받았지만, 같은 해 6월 작가들이 메타를 상대로 제기한 소송은 증거 부족으로 기각됐다.

김영호 기자 rladudgh2349@donga.com

“AI가 기사 10만 건 무단 학습했다” 백과사전 출판사들, 오픈AI에 소송 제기

당신을 위한 뉴스