Skip to content

Pre-train 시 코퍼스 파일 문서 나누기 #14

@kyle-bong

Description

@kyle-bong

안녕하세요!
코퍼스 및 코드를 공개해주셔서 정말 감사합니다.

공개해주신 코퍼스로 KcBERT를 직접 한번 만들어 보려고 하는데요.

BERT 공식 github(https://github.com/google-research/bert)의 pre-training 설명에 따르면
| Here's how to run the data generation. The input is a plain text file, with one sentence per line. (It is important that these be actual sentences for the "next sentence prediction" task). Documents are delimited by empty lines.

라고 언급하고 있습니다. 특히 인용한 부분의 마지막 문장은 코퍼스가 여러 문서로 이루어져 있을 경우 문서와 문서 사이에 빈 행을 넣어 구분하라고 하고 있습니다.

공개해주신 코퍼스도 단일한 문서가 아니라 여러 가지 문서를 하나의 파일로 병합하신 것으로 보입니다.

그런데 공개해주신 코퍼스에는 문서를 구분하기 위한 빈 행이 보이지 않습니다.
혹시 모델을 만드실 때 코퍼스 내의 각 문서를 따로 구분하신 후 진행하셨는지, 아니면 공개된 대로 문서와 문서를 구분하지 않고 모델을 만드셨는지 궁금합니다!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions