전공 공부/기계학습

NER 프로젝트 개요

상솜공방 2024. 7. 11. 16:43

개괄적인 개발 단계

1. KoBERT-NER-master

git: https://github.com/monologg/KoBERT-NER

데이터셋: Naver NER 데이터셋 (tsv 파일, 비문으로 구성)

코드 특성: 단순히 띄어쓰기 기준으로 문장 파싱

목표:

- 코드 분석

- 법률 데이터를 tsv 파일로 전처리하여 해당 코드로 훈련

 

2. pytorch-bert-crf-ner

git: https://github.com/eagle705/pytorch-bert-crf-ner

데이터셋: 해양대학교 데이터셋 (txt 파일, 품사 정보 추가, 뉴스나 소설에서 발췌)

코드 특성: 전용 토크나이저를 기반으로 문장 파싱

목표:

- 코드 분석

- 모델 고도화

 

3. pytorch-ko-ner

git: https://github.com/ai2-ner-project/pytorch-ko-ner

https://github.com/sim-so/pytorch-ko-ner-v2

데이터셋: 국립국어원 말뭉치. 우리 커스텀 데이터를 전처리하는 과정과 비슷할 수 있으니 추후에 코드 참조할 예정.

코드 특성: 

목표: 

 

 

개인 공부

1. 네이버 커넥트 데이터 설명

git: https://github.com/connectfoundation/naverconnect-dataset-ner

네이버 커넥트에서 만든든 NER 데이터셋의 포맷 및 간단한 설명

git: https://github.com/naver/nlp-challenge/tree/master

위의 데이터셋을 바탕으로 진행한 경진대회. NER 파트도 존재하니 나중에 참조하기.

https://ko-nlp.github.io/Korpora/ko-docs/corpuslist/naver_changwon_ner.html

경진대회에 대한 공식 홈페이지

 

2. 한국 해양대학교 데이터 설명

git: https://github.com/kmounlp/NER/tree/master

한국 해양대학교 공식 데이터셋 설명

 

3. 코버트 공식 깃허브

git: https://github.com/SKTBrain/KoBERT

나중에 모델 고도화 할 때 참조할 것

 

4. 뉴스 NER 모델 개발

git: https://github.com/moonjoo98/News_trend/tree/master

코드 설명: https://mz-moonzoo.tistory.com/25

데이터 전처리 및 분석까지 하는 코드가 존재하니 참조할 것

 

5. NER을 이용한 농협 특삼품 브랜딩

링크: https://velog.io/@kjyggg/KOBERT-NER-%EB%AA%A8%EB%8D%B8%EC%9D%84-%ED%86%B5%ED%95%9C-%EB%86%8D%ED%98%91-%ED%8A%B9%EC%82%B0%ED%92%88-%EB%B8%8C%EB%9E%9C%EB%94%A9

전체 코드: https://datalore.jetbrains.com/report/static/1jz3T6JhTgqoO3B5HXpco6/u4YmYMpmE5F6xzE0SyUd98

데이터 시각화 및 다양한 툴을 보여주고 있으므로 참조할 것

 

6. NER을 주피터노트북으로 다루기

git: https://github.com/kimwoonggon/publicservant_AI/tree/master

naver dataset을 기반으로 셀 단계의 데이터 전처리 및 모델 훈련까지 존재.

 

7. 한국어 NER 데이터셋에 대한 개괄적인 설명

링크: https://www.letr.ai/blog/tech-230224

 

 

공부 일정

1. ' KoBERT-NER-master' 코드 분석 후 우리 데이터에 대한 임시 데이터로 훈련 시켜보기

2.  'NER을 주피터노트북으로 다루기' 코드 분석 후 데이터 전처리 과정 공부하기

3. '네이버 커넥트 데이터 설명', ' 한국 해양대학교 데이터 설명', ' 코버트 공식 깃허브', ' 한국어 NER 데이터셋에 대한 개괄적인 설명'읽고 공부하기

4. '뉴스 NER 모델 개발', ' NER을 이용한 농협 특삼품 브랜딩' 참조하여 데이터 다루는 법 공부

5. 'pytorch-bert-crf-ner' 코드 분석 후 우리 모델 고도화

6. ' pytorch-ko-ner' 코드 분석 후 우리 모델 고도화