트럼프 대통령과 소셜미디어 기업 X(구 트위터), 메타(META)와의 법정 공방을 나란히 승소로 마무리한 이스라엘의 데이터 인프라 기업 브라이트 데이터(Bright Data)가 AI 시장 공략을 본격화했다. 웹 스크래핑 기술로 잘 알려진 이 회사는 1억 달러(약 1,440억 원) 이상의 플랫폼 매출을 바탕으로 실시간 웹 데이터에 기반한 AI 인프라 제품군을 선보이며, 이른바 ‘데이터 독점’을 지향하는 빅테크를 정면으로 겨냥했다.
이번에 공개된 신제품은 자연어 기반의 고급 검색엔진 ‘딥 룩업(Deep Lookup)’, AI 중개 브라우저 ‘브라우저.ai(Browser.ai)’, 그리고 실시간 데이터 수집을 수행하는 ‘MCP 서버’다. 브라이트 데이터는 이를 통해 AI 시스템이 알고리즘과 연산 능력에 이어 ‘데이터 접근성’이라는 세 번째 핵심 요건을 충족할 수 있도록 한다는 목표다.
브라이트 데이터의 오르 렌치너 CEO는 “오늘날 AI의 한계는 지능이 아니라 접근성”이라며, “우리는 지난 10년을 공공 웹 데이터의 개방성과 정당한 활용권을 위해 싸워왔고, 이제는 이를 바탕으로 데이터 중심의 AI 시대를 가능케 하는 인프라 기업으로 도약할 것”이라고 강조했다.
최근의 법적 승리는 이러한 도전에 확실한 명분과 추진력을 제공했다. 미국 연방 법원은 지난해 메타와 X가 제기한 소송에서 브라이트 데이터의 웹 스크래핑은 불법이 아니라고 판결하며 ‘로그인 없이 열람 가능한 공개 데이터는 합법적으로 수집 가능하다’는 법적 기준을 확립했다. 더욱이 재판 과정에서 메타와 X 모두 브라이트 데이터의 고객이었던 사실이 드러나 빅테크 기업들의 표리부동한 태도를 드러낸 바 있다.
렌치너 CEO는 “모든 AI 기업이 데이터를 필요로 하고, 우리만이 그 데이터를 제공할 자산과 용기를 가졌다”고 밝혔다. 특히 트럼프 대통령의 소셜미디어 플랫폼 X와 관련해서는, 자사 고객들의 X 데이터 수집을 차단하려 했던 것이 xAI 및 트위터 데이터를 독점하려는 반경쟁적 시도였다며, 이에 대해 미국 반독점법 위반 혐의로 X를 역고소한 상태다.
이번에 선보인 ‘딥 룩업’은 단순 검색이나 요약이 아닌, 복합적인 질의를 분석하고 상세한 정량 정보를 제공하는 자연어 연구엔진이다. 예를 들어 ‘2023년 수에즈와 파나마 운하를 통과했으며 3분기 매출이 2% 이상 감소한 모든 해운사’와 같은 질의에 실시간 분석 결과를 제공할 수 있다. 이 기능은 브라이트 데이터가 보유한 2000억 개 이상의 HTML 웹 페이지와 매달 150억 페이지 이상 갱신되는 방대한 데이터베이스를 기반으로 한다. 회사 측은 내년까지 5000억 페이지 이상을 축적할 계획이라고 밝혔다.
브라우저.ai는 자동화 AI 에이전트를 위한 클라우드 기반 브라우저로, 인간의 인터넷 활동을 모사해 사이트 차단을 우회하고 자연어 명령으로 항공권 예약, 음식점 예약 등 복잡한 웹 상호작용을 수행할 수 있다. 현재 AI 기업들과의 협업을 통해 하루 1억 5,000만 건 이상의 웹 행동을 처리 중이다.
MCP 서버는 AI 모델이 트레이닝 데이터에만 의존하지 않고 실시간으로 정보를 검색하고 추출할 수 있도록 하는 저지연 제어 계층이다. 이로써 AI 에이전트는 시시각각 변하는 정보를 바탕으로 즉각적인 의사결정이 가능해진다.
가장 강력한 차별점은 ‘차단 불가 기술력’이다. 브라이트 데이터는 웹사이트 차단 우회 기술에 대해 5,500건 이상의 특허를 보유했고, 195개국에 걸쳐 1억 5,000만 개 이상 IP 주소를 운영 중이다. 실제 기기와 사용자 행동을 모사하는 방식으로 차단 기술을 손쉽게 우회할 수 있다는 것이 회사 측 설명이다. 렌치너는 “웹사이트가 데이터를 로그인 뒤에 숨기지 않는 한, 우리는 접근할 수 있고, 해결하지 못한 차단은 12시간에서 길면 3일 내 해결된다”고 자신했다.
2022년 말 챗GPT가 출시된 이후 수요가 폭증하며 브라이트 데이터는 급성장 중이다. 현재 2만 개 이상의 기업 고객을 보유하고 있으며, 연간 반복 매출은 1억 달러를 크게 상회한다. 고객사는 주로 전자상거래, 금융, AI 연구기관 등 현실 데이터를 필요로 하는 산업군이며, 포춘 500대 기업도 다수 포함되어 있다.
또한 회사는 GDPR 및 캘리포니아 CCPA 등 개인정보 보호 규정을 철저하게 준수하고 있다. 공개 도메인에서 이메일 주소 등 개인정보가 수집될 경우, 당사자에게 자동으로 알림 이메일을 발송하고 열람·삭제 요청을 받을 수 있도록 하고 있다. 이로 인해 미국 법정에서도 기업 윤리와 정합성 측면에서 높은 신뢰를 획득했다.
렌치너는 “우리는 코드를 짜는 엔지니어들이 모여 있는 인프라 회사일 뿐이며, 오로지 기술로 데이터 접근성 문제를 해결하는 데 집중하고 있다”고 말했다. 실제로 브라이트 데이터는 알고리즘 및 연산 자원을 직접 제공하지 않으며, AI 산업의 ‘제3축’이라 불리는 데이터 접근 인프라를 제공하는 데 전략을 집중하고 있다.
향후 웹 데이터 접근 전쟁은 더욱 격화할 것으로 예상된다. 구글이 크롤링 권한을 독점하면서 ‘검색 결과의 정보독점화’를 주도한 것처럼, 몇몇 빅테크 기업들만이 자유롭게 웹 데이터를 활용하고, 나머지 기업들은 브라이트 데이터 같은 외부 인프라에 의존하게 될 상황이 도래하고 있다는 게 그의 분석이다.
한편, 딥 룩업은 기업 고객을 대상으로 베타서비스가 제공되고 있으며, 브라우저.ai와 MCP 서버는 현재 브라이트 데이터 플랫폼을 통해 이용 가능하다. AI 에이전트와 로봇 브레인을 구축하려는 수많은 기업들이 실시간 데이터의 가치를 인식하면서, 브라이트 데이터의 역할은 더욱 커질 것으로 전망된다.