티스토리 뷰
개괄적인 개발 단계
1. KoBERT-NER-master
git: https://github.com/monologg/KoBERT-NER
데이터셋: Naver NER 데이터셋 (tsv 파일, 비문으로 구성)
코드 특성: 단순히 띄어쓰기 기준으로 문장 파싱
목표:
- 코드 분석
- 법률 데이터를 tsv 파일로 전처리하여 해당 코드로 훈련
2. pytorch-bert-crf-ner
git: https://github.com/eagle705/pytorch-bert-crf-ner
데이터셋: 해양대학교 데이터셋 (txt 파일, 품사 정보 추가, 뉴스나 소설에서 발췌)
코드 특성: 전용 토크나이저를 기반으로 문장 파싱
목표:
- 코드 분석
- 모델 고도화
3. pytorch-ko-ner
git: https://github.com/ai2-ner-project/pytorch-ko-ner
https://github.com/sim-so/pytorch-ko-ner-v2
데이터셋: 국립국어원 말뭉치. 우리 커스텀 데이터를 전처리하는 과정과 비슷할 수 있으니 추후에 코드 참조할 예정.
코드 특성:
목표:
개인 공부
1. 네이버 커넥트 데이터 설명
git: https://github.com/connectfoundation/naverconnect-dataset-ner
네이버 커넥트에서 만든든 NER 데이터셋의 포맷 및 간단한 설명
git: https://github.com/naver/nlp-challenge/tree/master
위의 데이터셋을 바탕으로 진행한 경진대회. NER 파트도 존재하니 나중에 참조하기.
https://ko-nlp.github.io/Korpora/ko-docs/corpuslist/naver_changwon_ner.html
경진대회에 대한 공식 홈페이지
2. 한국 해양대학교 데이터 설명
git: https://github.com/kmounlp/NER/tree/master
한국 해양대학교 공식 데이터셋 설명
3. 코버트 공식 깃허브
git: https://github.com/SKTBrain/KoBERT
나중에 모델 고도화 할 때 참조할 것
4. 뉴스 NER 모델 개발
git: https://github.com/moonjoo98/News_trend/tree/master
코드 설명: https://mz-moonzoo.tistory.com/25
데이터 전처리 및 분석까지 하는 코드가 존재하니 참조할 것
5. NER을 이용한 농협 특삼품 브랜딩
전체 코드: https://datalore.jetbrains.com/report/static/1jz3T6JhTgqoO3B5HXpco6/u4YmYMpmE5F6xzE0SyUd98
데이터 시각화 및 다양한 툴을 보여주고 있으므로 참조할 것
6. NER을 주피터노트북으로 다루기
git: https://github.com/kimwoonggon/publicservant_AI/tree/master
naver dataset을 기반으로 셀 단계의 데이터 전처리 및 모델 훈련까지 존재.
7. 한국어 NER 데이터셋에 대한 개괄적인 설명
링크: https://www.letr.ai/blog/tech-230224
공부 일정
1. ' KoBERT-NER-master' 코드 분석 후 우리 데이터에 대한 임시 데이터로 훈련 시켜보기
2. 'NER을 주피터노트북으로 다루기' 코드 분석 후 데이터 전처리 과정 공부하기
3. '네이버 커넥트 데이터 설명', ' 한국 해양대학교 데이터 설명', ' 코버트 공식 깃허브', ' 한국어 NER 데이터셋에 대한 개괄적인 설명'읽고 공부하기
4. '뉴스 NER 모델 개발', ' NER을 이용한 농협 특삼품 브랜딩' 참조하여 데이터 다루는 법 공부
5. 'pytorch-bert-crf-ner' 코드 분석 후 우리 모델 고도화
6. ' pytorch-ko-ner' 코드 분석 후 우리 모델 고도화
'전공 공부 > 기계학습' 카테고리의 다른 글
Confusion Matrix (0) | 2023.09.29 |
---|---|
저널과 학회에 대한 간단한 정리 (0) | 2023.09.21 |