텍스트 어노테이터 스키마
텍스트 어노테이터 전용 스키마
Section titled “텍스트 어노테이터 전용 스키마”본 문서는 공통 어노테이터 스키마를 상속합니다.
extra,relations,annotations,annotationsData,annotationGroups의 최상위 구조와AnnotationBase,Classification등 공통 객체 정의는 공통 문서를 참고하세요.
1. 텍스트 전용 메타데이터(extra)
Section titled “1. 텍스트 전용 메타데이터(extra)”필드 예시 (필요에 따라 자유롭게 확장)
| 키 | 타입 | 용도 |
|---|---|---|
| textContent | string | 어노테이션 대상 원본문 |
| language | string | ISO 639-1 언어 코드(예: “ko”, “en”) |
| charCount | number | 원본문 총 문자 수 |
2. 어노테이션 툴별 고유 데이터
Section titled “2. 어노테이션 툴별 고유 데이터”| 툴(tool) | 필수·고유 필드 | 타입 | 설명 |
|---|---|---|---|
| named_entity | start | number | 엔티티 시작 오프셋(문자 인덱스) |
| end | number | 엔티티 종료 오프셋(포함 안 됨) | |
| text (선택) | string | 추출된 엔티티 원문 |
- 모든 어노테이션 객체는 **공통
AnnotationBase*를 상속하므로id,tool,classification,isLocked,isVisible등의 공통 속성을 그대로 가집니다.
2-1. annotations vs annotationsData 패턴
Section titled “2-1. annotations vs annotationsData 패턴”annotations컬렉션에는 메타 정보(분류, 잠금 여부 등)만 저장- 동일 ID를 가진
annotationsData항목에 위치 정보(start,end등)와 선택적 원문을 보관 - 이원화 구조로 대용량 텍스트에서 메타와 데이터의 분리를 유지
3. 관계(Relations) 활용 예시
Section titled “3. 관계(Relations) 활용 예시”- 여러
named_entity가 같은 개체를 가리키면,relations에coreference타입으로 묶습니다. - 문장 간 종속성, 이벤트-엔티티 연결 등 다양한 텍스트 관계 태깅도 동일 방식으로 구현합니다.
4. 버전 관리 & 확장 가이드
Section titled “4. 버전 관리 & 확장 가이드”- 새 텍스트 툴(예:
sentence_span,event)이 필요하면 위 표에 행을 추가하고 고유 필드만 기술하세요. - 언어별 특수 필요(예: 형태소 오프셋, 토큰 ID 등)는
extra혹은 툴 전용 필드로 확장합니다. - 공통 규약 변경이 없으면 본 문서만 수정해도 됩니다.