-
[NLP][특허] Archive
References Papers & Githubs KoELECTRA from transformers import ElectraModel, ElectraTokenizer model = ElectraModel.from_pretrained("monologg/koelectra-base-discriminator") # KoELECTRA-Base model = ElectraModel.from_pretrained("monologg/koelectra-small-discriminator") # KoELECTRA-Small model = ElectraModel.from_pretrained("monologg/ko... Read More
-
[NLP] Mecab 설치(Ubuntu 22.04)
Konlpy Mecab 설치 공식 사이트 방법으로 설치가 안 됨(curl: (23) Failure writing output to destination 문제) 1. Mecab-ko 설치 wget https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz tar xvfz mecab-0.996-ko-0.9.2.tar.gz cd mecab-0.996-ko-0.9.2 root 계정 아니면 앞에 sudo 붙여서 실행 ./configure make make check sudo make install 2. Mecab-ko-dic 설치... Read More
-
[Spark] Action / Transformation
parallelize 결과 정확하지 않음. 파티션에 따라 어떻게 나오는지 하려고 임의로 둔 것. Action reduce(func) 함수로 RDD를 단일 객체가 될 때까지 줄임 data = sc.parallelize([1,2,3,4,5,6,7,8,9,10], 3) # [1, 2, 3] [4, 5, 6] [7, 8, 9, 10] data_reduce = data.reduce(lambda x, y : x + y) # [6] [15] [34] -> 55 print(data_reduce) # 55 .collect() 데이터 셋 전체를 리스트로 반환 data = sc.para... Read More
-
[Spark] Map Reduce
Big Data 빠르게 증가하고 구조화/구조화 되어 있지 않은 현재 DB 툴로 처리하기 곤란한 데이터 크기, 계산 복잡도 : 빅데이터 정의하는 척도 3V Volume(크기) Variety(다양성) Velocity(빠르게 생성되고 유입) 빅데이터 분석 급격히 증가하는 대용량의 데이터, 다양한 데이터 타입에서 숨겨진 패턴, 상관관계, 유용한 정보 뽑아냄 Big Data - 데이터만 커진 것 아닌가? 데이터 커지는 것이 질적으로 어떤 변화 가져오는지, 어떤 어려움 있는지 Bonferroni’s Principle 테러리스트가 있고 1000일간에 서로 다른 두 날에 두 사람이 같은 호텔 ... Read More
-
[NLP][논문리뷰] Joint Entity and Relation Extraction with Set Prediction Network
Relation Extraction Downstream Task를 어떻게 수행할 수 있을지 고민하다가 SPN논문을 찾아보게 되었다. Joint Entity and Relation Extraction 관련 포스트는 여기에서 확인할 수 있다. 1. Introduction 기존 Seq2Seq 기반 모델의 문제점 Seq2Seq Autoregressive Decoder와 Cross Entropy Loss는 다음과 같은 문제가 있음. Relation Extraction의 Triple Set에는 순서가 없지만 Autoregressive Decoder에는 정렬해서 입력해야 함 Cross Entropy Loss는 ... Read More
-
[NLP] FinRED와 Relation Extraction (1)
Intro Financial Domain에 맞는 Relation Extraction Downstream Task로 FinRED를 사용하기로 했다. 초반에 Relation Classification과 Relation Extraction의 개념이 같다고 생각하여 Relation Classification Task만을 생각하고 구현하다가 DataLoader 쪽에서 에러가 나면서 다시 처음부터 생각해보게 되었고, 결과 지금과 다른 접근을 해야한다고 결론을 내게 되었다. 이에 FinRED 논문을 다시 차근차근 읽어보게 되었다. Relation Classification 어제까지만 해도 Relation Extractio... Read More
-
[NLP] Huggingface BERT 계열 Dynamic Padding
Intro FinRED라고 하는 Relation Extraction Downstream Task를 시도하다가 데이터의 최대 토큰 길이, 평균 길이를 구하게 되었는데 Train에서 최대 토큰 길이는 2317, 평균 토큰 길이가 90이라 padding을 2317로 하기엔 비효율적이라 생각하여 Batch마다 Padding을 다르게 할 수 있는 Dynamic Padding을 찾아보게 되었다. Dynamic Padding 참고한 영상은 What is Dynamic Padding으로 huggingface에서 올린 영상이고 바로 밑에 나오는 두 코드 모두 해당 영상에서 나오는 코드이다. from datasets import... Read More
-
[NLP] FiQA ABSA(진행중)
ABSA Aspect Based Sentiment Analysis 예를 들어 “I hated their fajitas, but their salads were great” 라는 문장이 있을 때 앞 문장은 부정적이고 뒷 문장은 긍정적인 것을 알 수 있다. 원래의 Sentiment Analysis는 서로 다른 극성을 가진 전체 문장에 대해 감정분석을 하게 되어 문제가 생길 수 있다. 하지만 ABSA(Aspect Based Sentiment Analysis)의 경우 ‘fajitas’와 ‘salads’에 대해 각각의 감정분석을 할 수 있다. ABSA는 크게 두 가지 방법으로 할 수 있다. NLI QA NL... Read More