Skip to content

텍스트 어노테이터 스키마

텍스트 어노테이터 전용 스키마

Section titled “텍스트 어노테이터 전용 스키마”

본 문서는 공통 어노테이터 스키마를 상속합니다.

extra, relations, annotations, annotationsData, annotationGroups의 최상위 구조와 AnnotationBase, Classification 등 공통 객체 정의는 공통 문서를 참고하세요.


1. 텍스트 전용 메타데이터(extra)

Section titled “1. 텍스트 전용 메타데이터(extra)”

필드 예시 (필요에 따라 자유롭게 확장)

타입용도
textContentstring어노테이션 대상 원본문
languagestringISO 639-1 언어 코드(예: “ko”, “en”)
charCountnumber원본문 총 문자 수

2. 어노테이션 툴별 고유 데이터

Section titled “2. 어노테이션 툴별 고유 데이터”
툴(tool)필수·고유 필드타입설명
named_entitystartnumber엔티티 시작 오프셋(문자 인덱스)
endnumber엔티티 종료 오프셋(포함 안 됨)
text (선택)string추출된 엔티티 원문
  • 모든 어노테이션 객체는 **공통 AnnotationBase*를 상속하므로id, tool, classification, isLocked, isVisible 등의 공통 속성을 그대로 가집니다.

2-1. annotations vs annotationsData 패턴

Section titled “2-1. annotations vs annotationsData 패턴”
  • annotations 컬렉션에는 메타 정보(분류, 잠금 여부 등)만 저장
  • 동일 ID를 가진 annotationsData 항목에 위치 정보(start, end 등)와 선택적 원문을 보관
  • 이원화 구조로 대용량 텍스트에서 메타와 데이터의 분리를 유지

  • 여러 named_entity가 같은 개체를 가리키면, relationscoreference 타입으로 묶습니다.
  • 문장 간 종속성, 이벤트-엔티티 연결 등 다양한 텍스트 관계 태깅도 동일 방식으로 구현합니다.

  1. 새 텍스트 툴(예: sentence_span, event)이 필요하면 위 표에 행을 추가하고 고유 필드만 기술하세요.
  2. 언어별 특수 필요(예: 형태소 오프셋, 토큰 ID 등)는 extra 혹은 툴 전용 필드로 확장합니다.
  3. 공통 규약 변경이 없으면 본 문서만 수정해도 됩니다.