Skip to content

[ML] khaiii Tokenizer #3

@nsms556

Description

@nsms556

존재하는 태그만 사용 여부

  • 참조한 코드의 경우 아레나 점수를 높이기 위해 Train Set에 존재하는 태그만 필터링하여 사용
  • 필터링을 빼면 좀 더 다양한 태그를 생성 가능할 것으로 예상
    • 그러나 토큰화 자체가 정확하지 않은 경우가 있어서 뜬금없는 토큰이 태그로 저장되는 경우 존재
    • 이를 막으려면 미리 토큰 사전을 생성할 필요가 있음 -> 시간이 오래 걸릴 것으로 생각됨

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions