2023 대학원 금융인공지능 PBL : 공시 데이터 기반 금융 뉴스 생성 Test set은 샘플만 주어지고 비공개 된 데이터이다.
- 공시 데이터만 encoder 입력으로 넣음.
- 전처리는 개행문자
\n
을 띄어쓰기 한 칸으로 대체함 ...-
의 경우 숫자의 음수표현이나 내용이 없다는 것을 의미하기도 하므로 전처리 안 함
위와 같은 공시 데이터(표)는 아래의 json의 filing_content
로 변환되어 있음
[
{
"filing": {"id": 1032093, "dart_id": 20211208900413, "title": "타법인주식및출자증권취득결정", "date": 20211208, "time": 1647, "type_code": "I", "type_name": "거래소공시", "detail_type_code": "I001", "detail_type_name": "수시공시", "url": "https://dart.fss.or.kr/dsaf001/main.do?rcpNo=20211208900413"},
"company": {"id": 6704, "dart_name": "유진기업", "stock_code": "023410", "market": "코스닥", "dart_code": 184667, "stock_name": "유진기업"},
"file_path": "2021/12/20211208900413.html",
"filing_content": "유진기업/타법인주식및출자증권취득결정/(2021.12.08)타법인주식및출자증권취득결정\n타법인 주식 및 출자증권 취득결정\n1. 발행회사\n회사명(국적)\n유진더블유사모투자합자회사(대한민국)\n대표이사\n유진프라이빗에쿼티(주)\n자본금(원)\n-\n회사와 관계\n-\n발행주식총수(주)\n-\n주요사업\n금융업\n-최근 6월 이내 제3자 배정에 의한 신주취득 여부\n-\n2. 취득내역\n취득주식수(주)\n100,000,000,000\n취득금액(원)\n100,000,000,000\n자기자본(원)\n808,088,071,560\n자기자본대비(%)\n12.37\n대기업 여부\n해당\n3. 취득후 소유주식수 및 지분비율\n소유주식수(주)\n100,000,000,000\n지분비율(%)\n56.98\n4. 취득방법\n현금취득\n5. 취득목적\n사모투자합자회사 출자를 통한 배당 및 자본이득\n6. 취득예정일자\n2021-12-08\n7. 자산양수의 주요사항보고서 제출대상 여부\n아니오\n-최근 사업연도말 자산총액(원)\n4,708,657,424,261\n취득가액/자산총액(%)\n2.12\n8. 우회상장 해당 여부\n해당사항없음\n-향후 6월이내 제3자배정 증자 등 계획\n해당사항없음\n9. 발행회사(타법인)의 우회상장 요건 충족여부\n해당사항없음\n10. 이사회결의일(결정일)\n2021-12-08\n-사외이사 참석여부\n참석(명)\n1\n불참(명)\n-\n-감사(감사위원) 참석여부\n참석\n11. 공정거래위원회 신고대상 여부\n미해당\n12. 풋옵션계약 등의 체결여부\n아니오\n-계약내용\n-\n13. 기타 투자판단에 참고할 사항\n- 상기 2항 취득주식수와 3항 소유주식수는 좌수를 의미.\n- 발행회사는 신설법인으로 [발행회사의 요약 재무상황] 해당사항 없음.\n[발행회사의 요약 재무상황]\n(단위 : 백만원)\n구분\n자산총계\n부채총계\n자본총계\n자본금\n매출액\n당기순이익\n당해년도\n-\n-\n-\n-\n-\n-\n전년도\n-\n-\n-\n-\n-\n-\n전전년도\n-\n-\n-\n-\n-\n-"
}
]
-
filing_content
에서 키워드 생성 -
토크나이저에 스페셜 토큰인
[KEYWORD]
,[FILING]
추가하여 다음 두 가지 타입의 input으로 실험[KEYWORD] some keywords ... [FILING] some filing content ... [FILING] some filing content ... [KEYWORD] some keywords ...
-
filing_content
에서 숫자 추출 (숫자, '.', ',', '-'로 구성된 문자열 추출) -
토크나이저에 스페셜 토큰인
[NUMBERS]
,[FILING]
추가[NUMBERS] some numbers ... [FILING] some filing content ... [FILING] some filing content ... [NUMBERS] some numbers ...
- model : SKT KoBART
- batch size : 16
- max_length : 512
- learning_rate : 1e-5
- optimizer : AdamW
�Model | Input Style |
---|---|
Filing | filing content only |
Keywords + Filing | [KEYWORD]keywords[FILING]filing content |
Filing + Keywords | [FILING]filing content[KEYWORD]keywords |
Numbers + Filing | [NUMBERS]numbers[FILING]filing content |
Filing + Numbers | [FILING]filing content[NUMBERS]numbers |
Model | ROUGE-1 | ROUGE-2 | ROUGE-L |
---|---|---|---|
Filing | 0.565 | 0.402 | 0.559 |
Keywords + Filing | 0.558 | 0.397 | 0.553 |
Filing + Keywords | 0.561 | 0.398 | 0.556 |
Numbers + Filing | 0.552 | 0.385 | 0.546 |
Filing + Numbers | 0.565 | 0.404 | 0.559 |
-
상위 3개 모델 결과 모두에서 금액 부분은 생성이 제대로 되지 않음을 확인
-
Test Sample에서 Numbers 모델에서 유의미한 모습 보여줌
ROUGE-1 ROUGE-2 ROUGE-L 0.6776 0.4427 0.6505