We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
aihub 문서요약 텍스트
법률 데이터: 너무 많은 중복 title 수로 인해, 애매합니다.
사설잡지 데이터: 적용 가능
신문기사 데이터: 적용 가능
30037개(초기 갯수) -> 30026개(title null값 제거) -> 29663개(text 중복 데이터 제거)
70075개(초기 갯수) -> 65922개(text 중복 제거) -> 65864개( "신간", "[신간]" title 제거)
"신간", "[신간]" title 제거 이유: 이 부분은 잡지사가 정한 신간 몇 월호 이런 것이므로 내용과 무관한 제목이므로 제거
301215개(초기 갯수) -> 300788개(text 중복 제거) -> 300785개(title 안에 title+text가 있는 경우 2개, text 14794길이 1개 삭제)
약간 title이 판례 안의 카테고리 같은 느낌. ex. 민사 category - 건물명도 title 1번도 안 겹치는 title 수: 6695/23730
"판결요지" 부분이 text인데 "가. 나. 다." 혹은 "[1] [2]" 이런 식으로 되어 있는 경우가 많다. -> 이러한 부분만 정규식으로 제거함! text 길이 2000이 넘는 경우: 420개(1.77%)
1번도 안 겹치는 경우 수: 51470/52737 title에 대부분 "[신간] 제목이름", "[여적] 제목이름" 등으로 잡지사가 정한 몇 월호 이런 느낌의 제목이 많다. (48603/52737) -> 정규식으로 [여적], [신간] 같은 것 제거
1번도 안 겹치는 경우 수: 240630/240630 title 중에, title내용+text내용이 같이 있는 경우 2개 -> 제거
제거한 뒤 title 길이 분포: 가장 긴 title 길이(92), 평균 title 길이(28.89), 가장 짧은 title 길이(2)
text 길이 분포: 가장 긴 text 길이(14794), 평균 text 길이(1007), 짧은 text 길이(210)
길이가 5000 넘는 데이터가 유일하게 14794길이 데이터 밖에 없다. -> 제거 text에 이메일, 다양한 특수기호가 존재 -> 전처리 시, 제거 필요!
The text was updated successfully, but these errors were encountered:
j961224
No branches or pull requests
0. 데이터 출처
aihub 문서요약 텍스트
1. 데이터 적용 여부
법률 데이터: 너무 많은 중복 title 수로 인해, 애매합니다.
사설잡지 데이터: 적용 가능
신문기사 데이터: 적용 가능
2. 데이터 개수
30037개(초기 갯수) -> 30026개(title null값 제거) -> 29663개(text 중복 데이터 제거)
70075개(초기 갯수) -> 65922개(text 중복 제거) -> 65864개( "신간", "[신간]" title 제거)
"신간", "[신간]" title 제거 이유: 이 부분은 잡지사가 정한 신간 몇 월호 이런 것이므로 내용과 무관한 제목이므로 제거
301215개(초기 갯수) -> 300788개(text 중복 제거) -> 300785개(title 안에 title+text가 있는 경우 2개, text 14794길이 1개 삭제)
3. EDA 내용
3-1. 법률 데이터
3-2. 사설잡지 데이터
3-3. 신문기사 데이터
제거한 뒤 title 길이 분포: 가장 긴 title 길이(92), 평균 title 길이(28.89), 가장 짧은 title 길이(2)
text 길이 분포: 가장 긴 text 길이(14794), 평균 text 길이(1007), 짧은 text 길이(210)
The text was updated successfully, but these errors were encountered: