newsis

한컴, PDF 추출 핵심 기술 글로벌 오픈소스로 공개

등록 2025.09.17 17:20:47

AI 학습 가로막던 PDF '데이터 감옥' 해방글로벌 AI 생태계와 직접 연동

경쟁 오픈소스 대비, 벤치마크 지표에서 85% 수준의 성능 입증

한글과컴퓨터 CI(사진=한글과컴퓨터 제공) *재판매 및 DB 금지

한글과컴퓨터 CI(사진=한글과컴퓨터 제공) *재판매 및 DB 금지

[서울=뉴시스]송혜리 기자 = 한글과컴퓨터는 인공지능(AI) 학습과 활용 과정에서 고질적인 난제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 글로벌 오픈소스로 공개했다고 17일 밝혔다.

이번에 공개한 '오픈데이터로더 PDF'는 한컴이 오랜 기간 축적한 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진이다. 한컴은 지난 7월 PDF 기술 전문 기업 듀얼랩과 업무협약(MOU)을 체결하고 오픈소스 기반 PDF 데이터로더를 공동 개발해왔다.

오픈데이터로더 PDF는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 추출해, AI 학습에 즉시 활용할 수 있는 정형화된 데이터(JSON, Markdown, HTML)로 변환한다. 특히 공식 홈페이지에 공개된 벤치마크 테스트 결과 사람의 읽기 순서를 측정하는 지표인 NID(Normalized Indel Distance)에서 타 기술 대비 85%라는 높은 수치를 기록하는 등 다양한 테스트에서 탁월한 성능을 보여줬다고 회사 측은 강조했다.

한컴은 이번 오픈소스 공개를 단순한 기술 공유에 그치지 않고, AI 생태계 전반의 오픈소스 확산과 기술 고도화를 추진하고 있다. 이를 위해 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동·호환성을 강화하고, 깃허브를 통한 글로벌 개발자 커뮤니티와의 협력을 이어갈 계획이다.

정지환 한컴 최고기술책임자(CTO)는 "AI 전환(AX) 시대, 오픈소스는 더 이상 선택이 아닌 기업과 사회 전반의 혁신과 경쟁력 확보를 위한 필수 전략"이라며 "이번 오픈데이터로더 PDF 핵심 기술 공개를 통해 전 세계 개발자들에게 인정받고 협력을 통해 PDF 데이터 추출 기술을 한 단계 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다"고 말했다. 이어 "연말에는 AI 기반 문서 인식 기술을 추가하는 등 오픈소스 프로젝트를 지속적으로 고도화하겠다"고 덧붙였다.

◎공감언론 뉴시스 [email protected]

Copyright © NEWSIS.COM, 무단 전재 및 재배포 금지

다음 구독베너

네이버 구독베너

많이 본 사진

광주대표도서관 붕괴 사고 현장

홍수로 침수된 워싱턴주 도로

귀국한 전재수 장관 '사의 표명'

타임지 '올해의 신성' 수상한 케데헌 헌트릭스 멤버들

철도노조 파업은 피했다

남다른 포스의 올데프 애니

미모의 올데프 영서

올데이프로젝트 '컴백'

청순 아이유

호피 윤아

훈훈 이준호

뉴시스Pic

광주대표도서관 붕괴 사고… 1명 구조

한복 곱게 차려 입고 배우는 전통예절

국립중앙박물관 연간 누적 관람객이 600만 명 돌파… 개관 이래 최다 관람객 수

인천경찰청, 내년 1월 말까지 연말연시 불시 음주운전 단속

그래픽뉴스

11월 금융권 가계대출 4.1조↑…은행 반토막, 2금융권은 확대

그래픽뉴스

이시간 핫뉴스

주사이모는 시작?…박나래 매니저 추가 폭로 예고

박나래 술버릇 어떻길래…"클럽에서 쫓겨나기도"

"날 악녀로 만들어" 이경실, '세바퀴' 자진 하차 이유

김종국 "아내, 근육 좋아해…만져보고 뿌듯"

서민재, 홀로 아들 출산…"힘내봐 우리 둘이"

오늘의 헤드라인

"광주 붕괴 현장 밤샘 수색 콘크리트 굳어 구조 '발목'

매몰자 4명 중 2명 사망…나머지 2명 실종

광주대표도서관 붕괴로 인한 매몰 노동자 구조 작업이 콘크리트가 굳어가면서 난항을 겪고 있다. 시공사는 공사 과정에서 적용된 특허 공법을 재검토하는 한편, 특허공법에는 콘크리트를 버틸 수 있는 하중조차 명시돼있지 않았던 것으로 드러났다. 광주시소방본부는 11일 오후 광주 서구 치평동 광주대표도서관 공사현장에서 브리핑을 열어 "현장이 안정화 작업을 진행

많이 본 기사

'이혼 후 우울증' 율희, 심경 토로…"자기 전 눈물 광광"

"큰 병 앓는 사람 같았다"…정형돈, 성형 후 퉁퉁 부은 눈 공개

광주대표도서관 붕괴 사고 1명 구조…1명 추가 위치 확인

하서정 변호사 "강도·강간을 실수로 하나…조진웅, 장발장 아냐"

광주대표도서관 붕괴, 작업자 매몰…1명 사망·3명 구조중(종합)

세종 찾은 이 대통령 "훈식이형, 땅 산 것 아니에요?"

붕괴된 광주 도서관 공사 현장…작업자 4명 매몰 추정(영상)

"실화냐. 4캔에 4000원"…편의점 들썩인 '이정후 맥주'

세종 찾은 이 대통령 "훈식이형, 땅 산 것 아니에요?"

李대통령 "공직자들 이번 정부 들어 열심히 해…극소수가 물 흐려"

이 대통령, 광주 붕괴 사고에 "인적·물적 자산 최대 동원해 구조 총력"

이 대통령, 첫 업무보고서 "공직자 중 극소수가 물 흐려…불공정 인사 알려달라"(종합)

내년 '1.8+α%' 성장 목표…금산분리 규제 완화 K-국부펀드 가동(종합)

李대통령, 쿠팡 겨냥해 "'무슨 팡', 형사처벌 두렵지 않을 것…경제제재해야"

구윤철 "한국형 국부펀드, 투자공사와 달라…적극적 국부창출"

'마이크 또 끄시게요?' 필버 신경전 계속…곽규택 필버하며 우 의장 비판 피켓 들어

대만 증시, 이익확정 매물로 반락 마감…1.32%↓

위안화, 美 금리인하로 14개월 만에 최고치…"기준치↑·달러↓"

日증시, AI 부진에 약세 마감…닛케이지수 0.9%↓

中 증시, 경기선행 불안에 조정매물로 하락 마감…창업판 1.41%↓

홍콩 증시, 中 경기선행 불안에 반락 마감…H주 0.23%↓

"한·중, AI 전략적 협력 필요…공동혁신 단계로 나가야"

트럼프 관세로 美가구들 평균 177만원 추가 부담

목숨 건 극비 작전…'노벨평화상' 마차도 탈출, 美도 도왔다

내년 '1.8+α%' 성장 목표…금산분리 규제 완화 K-국부펀드 가동(종합)

구윤철 "한국형 국부펀드, 투자공사와 달라…적극적 국부창출"

'광주 도서관 붕괴' 1명 사망·3명 매몰…노동장관 "신속한 수습 총력"

노동부, 내년 9월 '야간노동 대책' 발표…'노동자 추정제' 도입(종합)

납세자가 원하는때 세무조사 받는다…국세청, 시기선택제 도입

대만 증시, 이익확정 매물로 반락 마감…1.32%↓

금산분리 조건부 예외 둔다…"수도권 투자 시 지방투자 연계"

위안화, 美 금리인하로 14개월 만에 최고치…"기준치↑·달러↓"

내년 '1.8+α%' 성장 목표…금산분리 규제 완화 K-국부펀드 가동(종합)

위안화, 美 금리인하로 14개월 만에 최고치…"기준치↑·달러↓"

150조 국민성장펀드 출범…서정진·박현주 "한국 산업 지형 바꿀 것"(종합)

美 금리인하 호조에도 하락 전환…코스피, 4110선 마감(종합)

구윤철 "내년은 선진 국채시장 원년…WGBI 편입 대비 만전"

이지스, 코스닥 입성 첫날 36% 상승 마감(종합)

美 연준 추가 인하 '신중 모드'…코스피 하락·환율 소폭 상승

증손회사 의무지분율 규제 완화…한국형 국부펀드 설립 추진

"실화냐. 4캔에 4000원"…편의점 들썩인 '이정후 맥주'

내년 '1.8+α%' 성장 목표…금산분리 규제 완화 K-국부펀드 가동(종합)

올해는 '다이아나핑' 품절 대란…부모들 발동동

구윤철 "한국형 국부펀드, 투자공사와 달라…적극적 국부창출"

노동부, 내년 9월 '야간노동 대책' 발표…'노동자 추정제' 도입(종합)

납세자가 원하는때 세무조사 받는다…국세청, 시기선택제 도입

전재수 "의혹 걱정 안해도 돼…해수부 성과 흔들려선 안돼" 이임사

금산분리 조건부 예외 둔다…"수도권 투자 시 지방투자 연계"

의혹 커지는 '박나래 주사이모'…의협 "강력한 제재 필요"

"한·중, AI 전략적 협력 필요…공동혁신 단계로 나가야"

"4㎝만 절개"…폐암환자, '이수술'로 통증 줄고 회복 빨라

부천 제일시장 트럭사고로 뇌사판정 20대…3명에 '새 삶'

韓 초소형군집위성 검증기 발사 중단 원인은 '통신 문제'…15일 이후 재도전

국정원, 내년 공공 사이버보안 평가지표 공개…AI 보안역량 평가에 반영

KAIST AI 단과대학 신설…내년 봄학기부터 학부 과정 시작

"타이레놀 품귀때 협조받아"…성분명 처방 답한 식약처장

광주대표도서관 붕괴 사고 1명 구조…1명 추가 위치 확인

하서정 변호사 "강도·강간을 실수로 하나…조진웅, 장발장 아냐"

광주대표도서관 붕괴, 작업자 매몰…1명 사망·3명 구조중(종합)

붕괴된 광주 도서관 공사 현장…작업자 4명 매몰 추정(영상)

"실화냐. 4캔에 4000원"…편의점 들썩인 '이정후 맥주'

광주대표도서관 공사 중 붕괴 4명 매몰 추정…1명 구조 중

법대 교수 "조진웅, 교화됐다…'은퇴해야 한다' 생각 안 해"

김건희특검, 이준석 개혁신당 대표 피의자로 내일 소환

40대 아버지, 9살 자폐 아들 살해 후 극단 선택…경찰 조사(종합)

용인 아파트서 시신 2구 나와, 경찰 수사

서울시 "한강버스, 내년 1월 중 전 구간 운항 재개 예정"

화성 동탄경찰서, 경무관 서장제 도입된다…내년 상반기

딸 지키다 전동킥보드에 '쾅', 엄마 중태…대여 업체 입건

검찰, 인천공항 주차장 뺑소니 운전자 보완수사해 기소

'이복형·편의점 알바생' 흉기살해 30대…2심도 사형 구형

인천경찰청, 내년 1월 말까지 연말연시 불시 음주운전 단속

광주대표도서관 붕괴 사고 1명 구조…1명 추가 위치 확인

광주대표도서관 붕괴, 작업자 매몰…1명 사망·3명 구조중(종합)

붕괴된 광주 도서관 공사 현장…작업자 4명 매몰 추정(영상)

광주대표도서관 공사 중 붕괴 4명 매몰 추정…1명 구조 중

이 대통령, 광주 붕괴 사고에 "인적·물적 자산 최대 동원해 구조 총력"

매몰 노동자, 철근 콘크리트 더미 속 하반신만…수색 총력(종합)

광주대표도서관 매몰 작업자 1명 구조…심폐소생술 중

광주시, 붕괴사고 재난대책본부 즉각 가동…"신속 구조"

표정 없는 얼굴들, 먹빛의 고요…무나씨 개인전, RM 소장작도 공개

‘그리고 삶은 계속된다’…백아트, 한영수 사진전

유준상이 증명한 ‘인간 예술의 존엄’…뮤지컬 ‘비하인드 더 문’

서툰 '마이너'들에 건네는 나태주의 위로…‘인생시집’ 3부작의 시작

국립중앙박물관 연간 누적 관람객이 600만 명 돌파… 개관 이래 최다 관람객 수

국중박 관람객 600만 돌파…세계 4위

해외서 가장 많이 하는 한국 게임은…'배틀그라운드'

"드넓은 바다 같은 책의 세계로"…부산국제아동도서전 오늘 개막

팬그래프닷컴 "이정후, 다음 시즌 타율 0.270, 9홈런 예상"

박나래 빠진 '나혼산', 메이저리거 김하성 뜬다

'전설' 손흥민, 토트넘 팬들과 웃으며 안녕…"곧 다시 만나요"

'15표차' 아쉽게 놓친 황금장갑…삼성 김성윤, 내년에 아쉬움 푼다

'MLB 대표 거포' 슈와버, 미국 WBC 대표팀 합류…투랑·거너도 승선

프로농구 DB, SK 꺾고 2연승…이선 알바노 위닝샷

롯데, '빅리그 출신' 로드리게스·비슬리 영입…레이예스 재계약

현대캐피탈, 3연승과 함께 선두 추격…삼성화재는 8연패 '수렁'

'이혼 후 우울증' 율희, 심경 토로…"자기 전 눈물 광광"

"큰 병 앓는 사람 같았다"…정형돈, 성형 후 퉁퉁 부은 눈 공개

하서정 변호사 "강도·강간을 실수로 하나…조진웅, 장발장 아냐"

법대 교수 "조진웅, 교화됐다…'은퇴해야 한다' 생각 안 해"

"주사 때문에 클럽서 쫓겨나"…박나래, 술버릇 어떻길래

샤이니 온유, '주사이모 친분설' 부인 "'피부관리 목적' 병원 방문"(종합)

"주사이모? 100개 의혹 중 하나" 박나래 매니저, '추가 폭로' 예고

김호중, 수감 중 합창단 공연? "사실무근…단원도 아냐"

뉴시스 기획특집

연말 대출 한파

국산콩 대전환

주택시장 병목

월드컵 조추첨 분석

계엄 1년

많이 본 기사

닥터나우 방지법…'기득권'과 또 마주선 '혁신'

3대특검 이어 종합특검 추진, '특검 만능주의' 숙고 필요

셀럽 나영석표 예능…"식상하다 쓴소리는"

송상근 BPA 사장 "해수부 이전에 부산항 정책 탄력"

"PC방 갔는데 혼날까 봐" 초등생 납치 허위 신고에 경찰 출동 소동

뉴스

광장

포토

패밀리사이트

제휴사

모바일앱서비스

Android
IOS

뉴시스 구독

대표이사 : 염영남 주소 : 서울 중구 퇴계로 173 남산스퀘어빌딩 (구 극동빌딩) 12층 사업자등록번호 : 102-81-36588

발행인 : 염영남 편집인 : 염영남 고충처리인 : 김경원 통신판매업신고 : 서울중구 0398호 문의 02-721-7400 [email protected]

뉴시스의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재ㆍ복사ㆍ배포를 금합니다. Copyright © NEWSIS.COM All rights reserved.