PDFの中に埋め込まれているテーブルをデータフレームで取り出す、Rで

PDFの中に埋め込まれているテーブルからデータを抜き出したいという状況って頻繁にあると思います。まぁもしもそんな状況は一度もなかったとしても、それが簡単にできるということでせっかくなのでちょっと試してみようと思います。Rを使います。

きっかけは、Exploratory西田さんのこのツイートです。tabulizerというライブラリを使うようです。

In R, these 5 lines are all you need to extract table data from 85 pages long PDF. #rstats

library(tabulizer)
library(purer)
library(data.table)

pdf <- extract_tables("file.pdf")
df <- map(pdf, function(x){https://t.co/Bz4BWtBUrJ.frame(x)})
rbindlist(df, fill=TRUE)

— Kan Nishida 🇺🇸❤️🇯🇵 (@KanAugust) April 20, 2020

この記事も参考になります。

「2016年版このRパッケージがすごい」暫定第一位、tabulizerパッケージを使って、...

今年の3月ごろから何やらCookpadが騒がしいですね。IT業界に足を置いていれば、このような噂を聞いたりするのは、1度や2度ではないのではないのでしょうか？一部報道には、幹部社員が大量離脱したためサービス運営が困難、という報道も...

Qiita

外部サイト

https://qiita.com/21-Hidetaka-Ko/items/4e8977797cbfaab081e3

WHOの新型コロナウィルスのレポートからデータを抜き出してみようと思います。

https://www.who.int/docs/default-source/coronaviruse/situation-reports/202004...

www.who.int

外部サイト

https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200424-sitrep-95-covid-19.pdf

pdfからtableの部分を抜き出し、データフレームで格納するまでは、もうこれだけです。

library(tabulizer)
library(purrr)
df_combined <- tabulizer::extract_tables("20200424-sitrep-95-covid-19.pdf") %>%
purrr::map_dfr(as.data.frame)

すると、データフレームはこんな感じ。
f:id:gri-blog:20200428215504p:plain

せっかくなんできれいにしていきます。
まずは改行コードやフランス語？を置換。

library(dplyr)
library(stringr)
df_combined %>%
mutate(V1 = str_replace(V1, "\r", " ")) %>%
mutate(V1 = str_replace(V1, "ã", "a")) %>%
mutate(V1 = str_replace(V1, "í", "i")) %>%
mutate(V1 = str_replace(V1, "é", "e")) %>%
mutate(V1 = str_replace(V1, "ô", "o")) %>%
mutate(V1 = str_replace(V1, "ç", "c")) %>%

ラオスのように国名が改行されてしまっている場合は、念の為１つ前の行を参照しながら修正。ラオス以外も修正。

  mutate(V1_prev = lag(V1, n = 1)) %>%  # １つ前の行に入っていた文字列
mutate(V1 = ifelse(V1_prev == "Lao People's" & V1 == "Democratic Republic", "Lao People's Democratic Republic", V1)) %>%
mutate(V1 = ifelse(V1_prev == "(Commonwealth of" & V1 == "the)", "Northern Mariana Islands (Commonwealth of the)", V1)) %>%
mutate(V1 = ifelse(V1_prev == "United Republic of" & V1 == "Tanzania", "United Republic of Tanzania", V1)) %>%
mutate(V1 = ifelse(V1_prev == "Central African" & V1 == "Republic", "Central African Republic", V1)) %>%
mutate(V1 = ifelse(V1_prev == "Sao Tome and" & V1 == "Principe", "Sao Tome and Principe", V1)) %>%

簡単な修正は国名の一部を元に、正規表現の置換で対応。

  mutate(V1 = gsub("Kosovo.*", "Kosovo", V1)) %>%
mutate(V1 = gsub(".*d’Ivoire", "Cote d'Ivoire", V1)) %>%
mutate(V1 = gsub(".*conveyance \\(Diamond.*", "International conveyance (Diamond Princess)", V1)) %>%

国名の列だけでなくTransmission classificationの列も修正。

  mutate(V6 = str_replace(V6, "\r", " ")) %>%
mutate(V6 = ifelse(V6 == "transmission", "Community transmission", V6)) %>%

見出しや総計の不要な行を削除。

  filter(V1 != "") %>%
filter(V1 != "Grand total") %>%
filter(V1 != "Territory/Area  †") %>%
filter(V2 != "") %>%

作業用に作成した列は不要なので、元々の列のみを選択。

  select(c("V1", "V2", "V3", "V4", "V5", "V6", "V7")) %>%

列名を改めて正しく設定。

  rename("Reporting Country/Territory/Area"=V1
,"Total confirmed cases"=V2
,"Total confirmed new cases"=V3
,"Total deaths"=V4
,"Total new deaths"=V5
,"Transmission classification"=V6
,"Days since last reported case"=V7)

これでデータフレームはなかなかきれいになり、
f:id:gri-blog:20200428214548p:plain

最終的にコードはこうなりました。

library(tabulizer)
library(purrr)
library(dplyr)
library(stringr)
df_combined <- tabulizer::extract_tables("1_downloadFiles/20200424-sitrep-95-covid-19.pdf") %>%
purrr::map_dfr(as.data.frame)
df_combined <- df_combined %>%
mutate(V1 = str_replace(V1, "\r", " ")) %>%
mutate(V1 = str_replace(V1, "ã", "a")) %>%
mutate(V1 = str_replace(V1, "í", "i")) %>%
mutate(V1 = str_replace(V1, "é", "e")) %>%
mutate(V1 = str_replace(V1, "ô", "o")) %>%
mutate(V1 = str_replace(V1, "ç", "c")) %>%
mutate(V1_prev = lag(V1, n = 1)) %>%
mutate(V1 = ifelse(V1_prev == "Lao People's" & V1 == "Democratic Republic", "Lao People's Democratic Republic", V1)) %>%
mutate(V1 = ifelse(V1_prev == "(Commonwealth of" & V1 == "the)", "Northern Mariana Islands (Commonwealth of the)", V1)) %>%
mutate(V1 = ifelse(V1_prev == "United Republic of" & V1 == "Tanzania", "United Republic of Tanzania", V1)) %>%
mutate(V1 = ifelse(V1_prev == "Central African" & V1 == "Republic", "Central African Republic", V1)) %>%
mutate(V1 = ifelse(V1_prev == "Sao Tome and" & V1 == "Principe", "Sao Tome and Principe", V1)) %>%
mutate(V1 = gsub("Kosovo.*", "Kosovo", V1)) %>%
mutate(V1 = gsub(".*d’Ivoire", "Cote d'Ivoire", V1)) %>%
mutate(V1 = gsub(".*conveyance \\(Diamond.*", "International conveyance (Diamond Princess)", V1)) %>%
mutate(V6 = str_replace(V6, "\r", " ")) %>%
mutate(V6 = ifelse(V6 == "transmission", "Community transmission", V6)) %>%
filter(V1 != "") %>%
filter(V1 != "Grand total") %>%
filter(V1 != "Territory/Area  †") %>%
filter(V2 != "") %>%
select(c("V1", "V2", "V3", "V4", "V5", "V6", "V7")) %>%
rename("Reporting Country/Territory/Area"=V1
,"Total confirmed cases"=V2
,"Total confirmed new cases"=V3
,"Total deaths"=V4
,"Total new deaths"=V5
,"Transmission classification"=V6
,"Days since last reported case"=V7)
write.csv(df_combined, "20200424-sitrep-95-covid-19.csv", row.names = FALSE)

Congoが２つあって、あれWHO間違っている？と思ったが、コンゴってコンゴ共和国とコンゴ民主共和国と２つあるんですね……知らなかったです。

データ分析・AIの専門家集団 GRI

[データ分析・AIの専門家集団「GRI」と一緒に仕事をしませんか？お問い合わせお待ちしております]

PDFの中に埋め込まれているテーブルをデータフレームで取り出す、Rで

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書

医療データを可視化する - バーチャル解剖テーブルが実現する医療の近未来

記述統計学の特徴と活用 〜推定と仮説検定との関係性〜

【連載】記述的多変量解析 - 因子分析（斜交回転）

使えるダッシュボードを作るために何が必要か

Pythonで動画から毎秒のフレームを抽出する

注目のDS検定（データサイエンティスト検定）を大解説!!!

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

伸びる新人は「自分から上司に不明点を質問できる」行動特性を持っていることに気づいた話

【テスト入力パターン集】Webフォームの単体テストでチェックすべき18のポイント

重回帰分析の結果を統計学的に解釈：Excelの分析ツール使用（前編）

GoogleColab 上でファイルを操作するコツ（Part2）

【正規表現】 N文字目からN文字、N文字続いた後の末尾N文字 etc.

「そうだ、数理最適化、やろう。」ってなった時にめっちゃ参考になったリンク集＆参考書

記述統計学の特徴と活用　〜推定と仮説検定との関係性〜