15時57分24秒 [ソフトウェア]
PDFをWord形式に変換する最も簡単な方法は、WordでPDFを直接読み込むこと
今のMicrosoft Wordは、PDFを直接読み込める
PDFをWord形式のファイルに変換したいがどうすれば良いかという質問を時々受けます。
Word文書をPDF化するのではなくて(それは昔から簡単ですね)、PDFとして受け取った書類を編集するためにWordファイルに変換したいという相談です。
この種の相談を時々受けるのであまり知られていないのだと思いますが、Microsoft Word 2013以降ならPDF形式のファイルも直接読み込めるので、そもそも変換など不要なのです。
PDFをWordで編集するためにdocx形式のファイルに変換したいなら、Microsoft WordでそのままPDFを読み込めば良いだけです。
とはいえ、PDFをダブルクリックしても(たいていの環境では)Adobe Acrobat ReaderのようなPDFビューアが開くだけですから、Wordでは開けません。なので、PDFファイルをMicrosoft Wordで開く方法などを以下に解説しておきます。
なお、お使いのMicrosoft WordがVer.2013より古い場合にはPDFを直接読むことはできません。また、PDFをMicrosoft Wordで読み込んでも、全体が画像として読み込まれてしまって編集ができない場合もあります。そのときの対策などもついでに記しておきます。
目次:
- Microsoft Wordで直接PDFを読み込む操作手順
- Microsoft Word自身が.pdfファイルを.docx形式に変換してくれる
- PDFをExcelで読める.xlsx形式に変換する方法
- PDFをWordで読み込むと、全部が画像になってしまっている場合に、テキストを得る方法
Microsoft Wordで直接PDFを読み込む操作手順
以下の方法でPDFをMicrosoft Wordに読み込ませることができます。
- 方法1:PDFをWordのアイコンにドロップする
- 方法2:PDFを右クリックして「プログラムから開く」でMicrosoft Wordへ送る
- 方法3:Wordの「開く」メニューからPDFを選択する
1は簡単なので説明の必要はないでしょう。
とはいえ、デスクトップにMicrosoft Wordのアイコンがない場合は1の方法は使えません。(頻繁にPDFをWordで読みたい場合があるなら、デスクトップにアイコンを出しておくと楽で良いと思いますが。)
その際は、2の方法が楽です。
ただ、「プログラムから開く」のリストにMicrosoft Wordがないなら、3の方法を使う必要があります。
以下に、2と3の方法について画面イメージ付きで説明しておきます。
▼PDFを右クリックして「プログラムから開く」でMicrosoft Wordへ送る
PDFファイルを右クリックすると、下図のようにコンテキストメニューが出てきます。メニュー項目はお使いの環境によって微妙に異なりますから下図の通りではないと思いますが、メニュー内をよく見ると「プログラムから開く」という項目があるはずです。
その「プログラムから開く」をポイントしてから「Word」をクリックすると、そのPDFファイルをMicrosoft Wordで読み込むことができます。
操作はこれだけです。簡単です。
(もしリストに「Word」がない場合は「別のプログラムを選択」項目をクリックしてから探すとWordが見つかるかもしれません。)
▼Wordの「開く」メニューからPDFを選択する
お使いのMicrosoft Wordのバージョンが2013以降なら、下図のようにMicrosoft Wordのメニューを「ファイル」→「開く」とたどってから目的のPDFファイルを選択する方法でも、PDFを直接読み込めます。
※このファイルを開く画面で拡張子.pdfのファイルが出てこない場合は、ファイル形式の選択肢(上図の黄色矢印の先)を「すべてのファイル」に変更してみて下さい。
Microsoft Word自身が.pdfファイルを.docx形式に変換してくれる
上記の操作でPDFを開くと、以下のような注意が表示された後にWord側がPDFをWord形式に変換してから読み込んでくれます。
その後、「名前を付けて保存」メニューを使ってWord形式(.docx形式や.doc形式)で保存すれば、Wordファイルになります。
※この方法でWord形式に変換した際に、単に「大きな画像が張り付いているだけ」のWordファイルになるケースがある話は後述。
PDFをExcelで読める.xlsx形式に変換する方法
見積書のような表を含むPDFをExcelファイルに変換したいという需要もよくあります。が、残念ながらExcelではWordのようにPDFファイルを直接読むことはできません。
しかし、以下のように操作すると簡単です。
- 一旦そのPDFをMicrosoft Wordで読み込んでから、
- 文書全体を範囲選択してコピーして、
- 白紙のExcelシートに貼り付ける。
上記のように操作すると、上手い具合に表構成を維持したままExcelシートに貼り付けられるので便利です。
あとは、適当な名称で保存すれば、.xslxファイルになります。
外部の変換サービスを駆使しなくても、実は簡単です。
人力でWordからExcelにコピー&ペーストする手間は発生してしまいますけども。
PDFをExcelファイルに直接変換するWebサービスもありますが、私がちょっと試したところでは表の中身がバラバラのシートに分解される問題などがあって、あまり使い勝手が良いとは言いがたいように思いました。
変換結果を自力で整形し直す手間を考えれば、一旦Microsoft WordでPDFを読み込んでから、Wordの内部機能でPDFを変換させた結果をコピーしてExcelにペーストする方が、よほど簡単なように感じます。
PDFをWordで読み込むと、全部が画像になってしまっている場合に、テキストを得る方法
例えば、以下のようなPDFだと、Wordで読み込んでも全体が画像として取り込まれるだけになります。
- 「紙書類をスキャンしてPDFにした」など、元データがデジタルデータではない場合
- 何らかの目的で、文字(テキストデータ)を抽出できないよう加工されている場合
このような場合は、OCR(Optical Character Reader)と呼ばれる文字認識機能を使って、「画像に描かれている文字」を文字として認識して変換させる方法を使う方法があります。
OCRを利用するには、例えば、以下のような方法があるでしょう。
▼1. OCRソフトを買って使う
OCRソフトはいろいろありますから、機能を比較して選べば良いと思います。
例えば「読取革命」というソフトウェアなら、PDFを読み取ってWordやExcelファイルに変換する機能があります。
昔はPanasonic製品だったのですけども、今はソースネクストが販売しているようですね。
費用は掛かりますが、件数が多いならこのようにOCRソフトを購入して使うのが楽でしょう。
もうちょっと安い製品では、例えば「JUST PDF4 データ変換」というツールもあります。これは別途ブログ記事(任意の画像ファイルからOCRでテキスト化もできる「JUST PDF4 データ変換」)で紹介しましたが、PDFや画像を読み込んでWord等のファイルに変換する機能があります。全自動で処理すると、元のPDFによっては文字部分もそのまま画像として取り込まれてしまうケースがあるのですが、文字認識範囲を手動で調整する機能がありますので(先の記事内で画面イメージ付きで紹介しています)、その機能を使って微調整しつつ変換すれば、OCRでテキスト化ができるでしょう。認識結果の文字の修正もその場でできるので、使い慣れれば便利な気はします。
▼2. OCR機能付きの『PDF→Word変換』サービスを使う
Web上で、PDFファイルをアップロードするとdocx形式のファイルに変換してダウンロードできるWebサービスがいろいろあります。「PDF Word 変換」などの検索語でググるといろいろヒットします。(特にお勧めするサービスがあるわけではないので、個別にリンクはしません。)
その手のサービスは、「基本は無料でOCR機能付きだと有料」みたいな感じで運営されているところが多そうな気がします。なので、その有料サービスを利用すればOCR機能を使って変換できるでしょう。
たいていは最初に無料のお試し期間があるでしょうから、試してみると良いかもしれません。
インストール作業等が不要で、ブラウザだけで利用できるので楽と言えば楽でしょうね。
ただ、そのPDFが機密の含まれるデータなら、他社のWebにアップロードして使うのは(安全のためには)避けた方が良いと思いますが。
▼精度の問題がある点に注意
いずれにしても「OCRによる文字認識」は100%の精度にはあまりなりません。取りこぼしや誤認識は必ずあると思った方が良いでしょう。
英数字だけで構成されていて標準的なフォントだけが使われている場合には99%以上の精度はあるのではないかと思いますけども、文字のすぐ傍に罫線が含まれていたり、特殊な記号が含まれていたり、珍しいフォントで書かれていたりすると、誤認識の可能性が高まります。
なので、必ずしも使い物になるデータに変換できるとは限りませんから注意して下さい。
(とはいえ、1から人力でテキスト化するよりは遙かに楽なことは間違いないと思いますが。)
というわけで、PDFをWordに変換する方法の話でした。