Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[EDA] 문서 요약 데이터 #14

Open
j961224 opened this issue Nov 28, 2021 · 0 comments
Open

[EDA] 문서 요약 데이터 #14

j961224 opened this issue Nov 28, 2021 · 0 comments
Assignees
Labels
report Sharing information or results of analysis

Comments

@j961224
Copy link
Contributor

j961224 commented Nov 28, 2021

0. 데이터 출처

aihub 문서요약 텍스트

1. 데이터 적용 여부

법률 데이터: 너무 많은 중복 title 수로 인해, 애매합니다.

사설잡지 데이터: 적용 가능

신문기사 데이터: 적용 가능

2. 데이터 개수

  • 법률: 29633개(train 23730/ test 5933)

30037개(초기 갯수) -> 30026개(title null값 제거) -> 29663개(text 중복 데이터 제거)

  • 사설잡지: 65864개(train 52691/ test 13173)

70075개(초기 갯수) -> 65922개(text 중복 제거) -> 65864개( "신간", "[신간]" title 제거)

"신간", "[신간]" title 제거 이유: 이 부분은 잡지사가 정한 신간 몇 월호 이런 것이므로 내용과 무관한 제목이므로 제거

  • 신문기사: 300785개(train 240628/ test 60157)

301215개(초기 갯수) -> 300788개(text 중복 제거) -> 300785개(title 안에 title+text가 있는 경우 2개, text 14794길이 1개 삭제)

3. EDA 내용

3-1. 법률 데이터

  • title 길이 분포: 가장 긴 title 길이(384), 평균 title 길이(11), 가장 짧은 title 길이(1)
  • 약간 title이 판례 안의 카테고리 같은 느낌. ex. 민사 category - 건물명도 title
  • 1번도 안 겹치는 title 수: 6695/23730
  • text 길이 분포: 가장 긴 text 길이(3993), 평균 text 길이(643.00), 짧은 text 길이(67)
  • "판결요지" 부분이 text인데 "가. 나. 다." 혹은 "[1] [2]" 이런 식으로 되어 있는 경우가 많다. -> 이러한 부분만 정규식으로 제거함!
  • text 길이 2000이 넘는 경우: 420개(1.77%)

3-2. 사설잡지 데이터

  • title 길이 분포: 가장 긴 title 길이(113), 평균 title 길이(29.18), 가장 짧은 title 길이(2)
  • 1번도 안 겹치는 경우 수: 51470/52737
  • title에 대부분 "[신간] 제목이름", "[여적] 제목이름" 등으로 잡지사가 정한 몇 월호 이런 느낌의 제목이 많다. (48603/52737) -> 정규식으로 [여적], [신간] 같은 것 제거
  • text 길이 분포: 가장 긴 text 길이(1939), 평균 text 길이(1160), 짧은 text 길이(112) -> 꽤 고르게 분포

3-3. 신문기사 데이터

  • title 길이 분포: 가장 긴 title 길이(2643), 평균 title 길이(28.9), 가장 짧은 title 길이(2)
  • 1번도 안 겹치는 경우 수: 240630/240630
  • title 중에, title내용+text내용이 같이 있는 경우 2개 -> 제거
  • 제거한 뒤 title 길이 분포: 가장 긴 title 길이(92), 평균 title 길이(28.89), 가장 짧은 title 길이(2)

  • text 길이 분포: 가장 긴 text 길이(14794), 평균 text 길이(1007), 짧은 text 길이(210)

  • 길이가 5000 넘는 데이터가 유일하게 14794길이 데이터 밖에 없다. -> 제거
  • text에 이메일, 다양한 특수기호가 존재 -> 전처리 시, 제거 필요!
  • 제거한 뒤 text 길이 분포: 가장 긴 text 길이(1985), 평균 text 길이(1007), 가장 짧은 text 길이(210) -> 꽤 고름
@j961224 j961224 self-assigned this Nov 28, 2021
@j961224 j961224 added the report Sharing information or results of analysis label Nov 28, 2021
@j961224 j961224 changed the title 문서 요약 데이터 [EDA] 문서 요약 데이터 Nov 28, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
report Sharing information or results of analysis
Projects
None yet
Development

No branches or pull requests

1 participant